Monday, March 17, 2025

နက်ရှိုင်းဖွေရှာနဲ့ ရောင်းရင်းများ - ၂ ။ (ပျူစာစုကိုစုစည်းခြင်း)

 

သိပ်တော့မဟုတ်ပါဘူး။ အင်တာနက်ထဲက Corpus of Pyu Inscriptions ဆိုတဲ့ဝဘ်စာမျက်နှာ (http://hisoma.huma-num.fr/exist/apps/pyu/index2.html) ပေါ်မှာပျူကမ္ပည်းစာတခုချင်းပြထားတယ်။ ဒါကိုကိုယ့်ကွန်ပျူတာထဲကိုတပေါင်းထဲရောက်လာအောင်စမ်းကြည့်တာပါ။

အဲဒီမှာ ပျူကမ္ပည်းစာဓါတ်ပုံ၊အင်္ဂလိပ်စာလုံးနဲ့အက္ခရာဖလှယ်ထားချက်၊ ဘာသာပြန်ချက်၊ တည်နေရာနဲ့နောက်ခံအချက်လက် စတာတွေကို ကမ္ပည်းစာတခုချင်းစီပဲဖတ်နိုင်တယ်။ အဲဒါကို ရေးသွင်းချက် ၁၆၁-ခုလုံးအတွက်ဒေါင်းလုတ်ဆွဲဖို့လဲပေးမထားပါဘူး။ သူ့စာတွေကို XML စနစ်နဲ့ရေးပြီးသိမ်းထားတာပါ။ အင်တာနက်ပေါ်ကအချက်လှောင်တဲ့ဝဘ်စာမျက်တွေဟာလူထုကိုမျှဝေဘို့ API ဆိုတဲ့အချက်အလက်ဆက်သွယ်ရယူနိုင်တဲ့နည်းလမ်းကိုဖန်တည်းပေးထားတတ်ပါတယ်။ ဒီနည်းကိုသုံးပြီးကိုယ်လိုချင်တဲ့အချက်အလက်တွေကို သက်တောင့်သက်သာနဲ့ရယူနိုင်ပါတယ်။

ပျူစာစုဝဘ်စာမျက်နှာမှာ API ကိုမတွေ့လို့သေချာအောင် AI ကိုမေးကြည့်တော့ မရှိတာသေချာသွားတယ်။ သူက ပညာရပ်မှတ်တမ်းတွေစုတဲ့ဝဘ်စာမျက်နှာတွေမှာရှာကြည့်ဘို့နဲ့ နောက်တနည်းက web scraping လို့ခေါ်တဲ့ ဝဘ်စာမျက်ပေါ်ကလိုချင်တာထုတ်(ခြစ်) ယူတဲ့နည်းသုံးဘို့အကြံပေးတယ်။ ကျနော့အဖို့ ပထမနည်းရော ဒုတိယနည်းနဲ့ပါမစိမ်းပါဘူး။ ၂၀၂၀-မှာစမ်းသပ်ခဲ့ဘူးတယ်။

ကျနော့ရဲ့ခုစမ်းသပ်မှုဟာပြောခဲ့တဲ့ပျူစာစုထဲကအချက်အလက်တွေကို R-ကွန်ပျူတာဘာသာစကားသုံးပြီးစုစည်းကြည့်တာဖြစ်ပါတယ်။ ဒီအတွက် “Grok”၊ “deepSeek” နဲ့ “chatGPT” တို့ဆီကအကြံဉာဏ်တွေယူပြီး ရောသမမွှေထားလို့အောင်မြင်ပါတယ်။ ပရိုဂရမ်ရဲ့ကျောရိုးအတွက် deepSeek ရေးပြတဲ့နမူနာကို အဓိကမှီးပါတယ်။

ကံကောင်းတာက AI တခုညွှန်ပြလို့ ပြောခဲ့တဲ့ပျူစာစုထဲက ပျူကမ္ပည်းစာအားလုံးကိုစုစည်းထားတဲ့ “Corpus of Pyu inscriptions 180326.zip” ဖိုင် ကို Zenodo ဝဘ်စာမျက်နှာ (https://zenodo.org/records/1207290) မှာတွေ့ပြီး ဆွဲယူသုံးနိုင်တာဖြစ်ပါတယ်။

အချောသပ်ပရိုဂရမ်ကဒီလိုပါ -

library(xml2)
library(purrr)
library(dplyr)

# Download zip file and extract xml files
url <- "https://zenodo.org/records/1207290/files/Corpus%20of%20Pyu%20inscriptions%20180326.zip?download=1"
temp_zip <- tempfile(fileext = ".zip")
download.file(url, temp_zip, mode = "wb")
zip_dir <- tempfile()
dir.create("zip180326_dir")
unzip(temp_zip, exdir = "zip180326_dir")
PYUxml_files <- list.files("zip180326_dir", pattern = "\\.xml$", full.names = TRUE, recursive = FALSE)

# TEI namespace definition
tei_ns <- c(tei = "http://www.tei-c.org/ns/1.0")

# Enhanced extraction function with dynamic namespace handling
safe_extract <- function(doc, xpath, attr = NULL, ns = xml_ns(doc)) {
  node <- xml_find_first(doc, xpath, ns)
  # mtnn, March 12, 2025
  # if (length(node) == 0 || is.na(node)) return(NA_character_)
  if (length(node) == 0 || is.na(node)) return(NA_character_) else node <- xml_find_all(doc, xpath, ns)
  if (!is.null(attr)) xml_attr(node, attr) else xml_text(node) %>% paste0(collapse = " ")
}

# Extract complete text for dimensions, mtnn, March 11, 2025
supp <- function(doc){
  dO <- xml_find_all(doc, "//d1:support/d1:p/d1:objectType") %>% xml_text()
    dM <- xml_find_all(doc, "//d1:support/d1:p/d1:material") %>% xml_text()

    # Get the dimensions right
    dims <- xml_find_all(doc, "//d1:support/d1:p/d1:dimensions")
    # Process each dims 
    result <- sapply(dims, function(d) {
    #dName <- xml_name(xml_child(xml_find_first(d, "//d1:dimensions"))) 
    dName <- xml_name(xml_children(xml_find_first(d, "//d1:dimensions")))
    dV <-  xml_children(xml_find_first(d, "//d1:dimensions")) %>% xml_text()
    dU <- xml_attr(xml_find_first(doc, ".//d1:dimensions"), "unit")
    unlist(paste(dName, dV, dU, collapse = ", "))
    })
    paste0(dO, "; ", dM, " ", result, ".")
}

# Modified parser with dynamic TEI prefix handling
parse_epidoc <- function(file_path) {
  doc <- read_xml(file_path)
  ns <- xml_ns(doc)
  
  # Find TEI namespace prefix dynamically
  tei_uri <- "http://www.tei-c.org/ns/1.0"
  tei_prefix <- names(ns)[ns == tei_uri]
  if (length(tei_prefix) == 0) {
    warning("No TEI namespace found in ", file_path)
    return(NULL)
  }
  tei_prefix <- tei_prefix[1]

  # Create namespace-aware XPath builder
  tei <- function(element) paste0(tei_prefix, ":", element)
  
  # Metadata extraction (FIXED SYNTAX)
  metadata <- list(
    title = safe_extract(doc, paste0("//", tei("titleStmt"), "/", tei("title")), ns = ns),
    Support = supp(doc),
    Text = safe_extract(doc, paste0("//", tei("textLang")), ns = ns),
    Date = safe_extract(doc, paste0("//", tei("origDate")), ns = ns),
    Origin = safe_extract(doc, paste0("//", tei("origPlace")), ns = ns),
    Provenance = safe_extract(doc, paste0("//", tei("provenance")), ns = ns),
    Visual_Documentation = safe_extract(doc, paste0("//", tei("listBibl")), ns = ns),
    Editors = safe_extract(doc, paste0("//", tei("editor")), ns = ns) %>% gsub(" ", ", ", .), 
    Publication_history = safe_extract(doc, paste0("//", tei("div[@type='bibliography']"), "/", tei("p")), ns = ns)
  )

  # Text content extraction
  content <- list(
    Edition = safe_extract(doc, paste0("//", tei("div[@type='edition']")), ns = ns),
    Apparatus = safe_extract(doc, paste0("//", tei("div[@type='apparatus']")), ns = ns),
    # inscription = safe_extract(doc, paste0("//", tei("div[@type='edition']"), "/", tei("ab")), ns = ns),
    Translation = safe_extract(doc, paste0("//", tei("div[@type='translation']"), "/", tei("ab")), ns = ns),
    Commentary = safe_extract(doc, paste0("//", tei("div[@type='commentary']")), ns = ns)
  )

  # Combine all data
  c(metadata, content, list(file_path = basename(file_path)))
}

# Process files with improved error handling
results <- map_dfr(PYUxml_files, ~{
  tryCatch({
    res <- parse_epidoc(.x)
    if (!is.null(res)) {
      as_tibble(res) %>% 
        mutate(across(everything(), as.character))
    }
  }, error = function(e) {
    message("Error processing ", .x, ": ", e$message)
    NULL
  })
})

# View results
glimpse(results)

# Write results to text file
write.csv(results, "pyuCorpus_18326.csv")

ဒီပရိုဂရမ်ကိုမောင်းကြည့်လိုက်တော့ လိုချင်တဲ့အတိုင်း အချက်အလက်တွေပါတဲ့ dataframe ကိုထုတ်ပေးတယ်။ ဒါပေမဲ့ xml ဖိုင် ၄-ခုကပြဿနာတက်တယ်။

chatGPT ကိုမေးတော့ ၄-ဖိုင်ပြဿနာရှင်းဘို့ Python ပရိုဂရမ် (script) လေးရေးပေးတယ်။ သူ့ကိုသုံးလိုက်တော့ PYU048.xml ဖိုင်ကလွဲရင်ကျန်တာပြေလည်သွားတယ်။ R ကွန်ပျူတာဘာသာစကားနဲ့အလုပ်လုပ်နေတုန်းမှာ Python script ကိုကြားညှပ်သုံးလို့ရနိုင်တာကြောင့် Python script ကိုဒီလိုမောင်းတယ် -

import os
import shutil
import unicodedata
from lxml import etree

# Folder containing XML files (change this to your actual folder)
XML_FOLDER = "toRepair_XML"

# Backup folder for original files
BACKUP_FOLDER = os.path.join(XML_FOLDER, "backup")
os.makedirs(BACKUP_FOLDER, exist_ok=True)

# Function to clean invalid Unicode characters
def clean_text(text):
    # Normalize and remove invalid surrogate characters
    return "".join(c for c in text if unicodedata.category(c) != "Cs")

def fix_xml(file_path):
    try:
        # Backup original file
        backup_path = os.path.join(BACKUP_FOLDER, os.path.basename(file_path))
        shutil.copy2(file_path, backup_path)

        # Read file contents
        with open(file_path, "r", encoding="utf-8", errors="ignore") as f:
            content = f.read().strip()  # Strip whitespace to check if empty

        # Skip empty or corrupt files
        if not content or not content.startswith("<"):
            print(f"⚠️ Skipping (Empty or Corrupt): {file_path}")
            return

        # Clean text from invalid characters
        cleaned_content = clean_text(content)

        # Parse XML with error recovery
        parser = etree.XMLParser(recover=True)
        tree = etree.fromstring(cleaned_content.encode("utf-8"), parser)

        # Ensure proper XML declaration before saving
        fixed_path = file_path
        with open(fixed_path, "wb") as f:
            f.write(b'<?xml version="1.0" encoding="UTF-8"?>\n')  # Force correct encoding
            f.write(etree.tostring(tree, pretty_print=True, encoding="utf-8"))

        print(f"✅ Fixed: {file_path}")

    except Exception as e:
        print(f"❌ Error in {file_path}: {e}")

# Get all XML files in the folder
xml_files = [f for f in os.listdir(XML_FOLDER) if f.endswith(".xml")]

# Process each XML file
for xml_file in xml_files:
    file_path = os.path.join(XML_FOLDER, xml_file)
    fix_xml(file_path)

print("\n🎉 XML repair completed! Check the 'backup' folder for originals.")

အဖြေကဒီလိုထွက်တယ် -

ပြင်ဘို့ကျန်တဲ့ PYU048.xml ကို NotePad နဲ့ဖတ်ကြည့်တော့ ဒုတိယစာကြောင်းရဲ့အစမှာ tag သာရှိရမဲ့အစား “oo” ပါနေတယ်။

ဒါကြောင့် “oo” ကိုဖျက်လိုက်တော့ပြေလည်သွားတယ်။ ပြင်ထားတဲ့ ၄-ဖိုင်ကိုအစားထိုးပြီးအပေါ်မှာပြခဲ့တဲ့ပင်မပရိုဂရမ်ကိုမောင်းတော့အဆင်ပြေသွားတယ်။ ထွက်လာတဲ့ dataframe ရဲ့တစိပ်တပိုင်းနမူနာက ဒီလိုပါ -

Dataframe မှာစုစည်းထားတဲ့ ပျူကမ္ပည်းစာအချက်အလက်တွေကို မျှဝေဘို့ “pyuCorpus_18326.csv” ဖိုင်အဖြစ်ရေးထုတ်ပါတယ်။ စိတ်ဝင်စားရင် ဒီမှာ ယူနိုင်ပါတယ်။

မှတ်ချက်။ ။(၁) ဒီရေးတင်ချက်ပါအချက်အလက်များနဲ့ မျှဝေထားတဲ့ဖိုင်ပါအချက်အလက်များမှာ အမှားပါရှိနိုင်ပါတယ်။ (၂) ခုထုတ်ယူထားတဲ့အချက်အလက်များဟာ Zenodo ဝဘ်စာမျက်နှာပေါ်က ၂၀၁၈-ခု၊မတ်လ ၂၆-ရက်နေ့စွဲပါ Corpus of Pyu inscriptions 180326.zip ဖိုင်ကဖြစ်ပါတယ်။ မူရင်းပျူစာစုပြုစုသူများက စဉ်ဆက်မပြတ်ပြုပြင်မှုတွေလုပ်တယ်လို့သိရပါတယ်။ (၃) ယခုလုပ်ဆောင်မှုမှာ အမှားပါရှိနေတဲ့ဖိုင်၄ဖိုင်ကိုပြင်ပြီးသုံးခဲ့ပါတယ်။ လိုချင်မှလိုမယ်။ ဒါဟာ မူရင်း ပျူစာစုပြုစုသူများကတမင်အမှတ်အသားလုပ်ပြီးချန်ခဲ့တာလဲ ဖြစ်နိုင်ပါတယ်။ (၄) မျှဝေထားတဲ့ pyuCorpus_18326.csv ဖိုင်ကို Notepad နဲ့ဖတ်နိုင်တယ်။ Microsoft Office သို့မဟုတ်တခြား Office software (ဥပမာ Libre Office) နဲ့ဖတ်ပြီး Spreadsheet အဖြစ်နဲ့လဲ save လုပ်နိုင်ပါတယ်။