From my last post you’ve seen that there will be some Pali sentences in the raw Myanmar Wikipedia corpus. We know that Pali sentences in Myanmar script are written with a lot of stacked-consonants. This post explore how we could identify Pali sentences using the relative frequency of stacked-consonants for the purpose of removing the Pali sentences from the raw corpus.
Finding the relative frequencies of stacked-consonants in 306,405 sentences
We found that almost 31 percent of sentences contain at least one stacked-consonant. We note that in Myanmar language we have a lot of terms borrowed from Pali. In written Myanmar language, many Pali terms were written with stacked-consonants. In addition we know that on the palm-leaf and Parabeik mediums, old Myanmars used to write a considerable number of our own terms in short-form using stacked consonants. Now-a-days we don’t normally find them in formal writing.
The quartile distribution for percentages of stacked-consonants in each sentence shows that half of the number of sentences contains less than .99 percent of stacked consonants and the other half contains more. The maximum is about 15 percent, which means that even a Pali sentence in our Wikipedia corpus contains at most 15 percent of stacked-consonants.
library(stringr)
# find the percentage of number of stacked-consonants in the number of characters per sentence.
stCon.pc <- str_count(x100_itN_Sen.5,"[\u1000-\u1021]\u1039[\u1000-\u1021]")/nchar(x100_itN_Sen.5)*100
# percentage of sentences with at least one stacked-consonant
length(stCon.pc[stCon.pc>0])*100/length(stCon.pc)
[1] 30.60557
summary(stCon.pc[stCon.pc > 0])
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.04122 0.66667 0.99010 1.19536 1.45985 14.54546
My working rule for identifying Pali sentences
From experimenting, I found a sentence containing 8% or higher of stacked-consonants is likely to be a Pali sentence.
length(x100_itN_Sen.5[which(stCon.pc > 8)])
[1] 115
cat(x100_itN_Sen.5[which(stCon.pc > 8)][111:115])
ယတ္ထ ယတ္ထ အပါဒကာ၊ ယတ္ထ ယတ္ထ ဒွေပါဒါ၊ ယတ္ထ ယတ္ထ စတုပ္ပါဒါ၊ ယတ္ထ ယတ္ထ ဗဟုပ္ပါဒါ၊ ပါဒအန္ဓံ ဦရုအန္ဓံ စက္ခုအန္ဓံ မုခအန္ဓံ ဇီဝှါ အန္ဓံ။ သဗ္ဗဒေဝတာယ ဣမဿ ပရိမိတ္တဇာလဿ တေဇေန ဣမသ္မိံ အပ္ပါကဋံ သရိရေ ယေ ကေစိ ဥပဒ္ဒဝါ၊ အာနုဘာဝေန တေဇေန ဣမသ္မိံ လောကေ ဣမသ္မိံ ဇမ္ဗုဒီပေ ဣမသ္မိံ ပဗ္ဗတေ ဣမသ္မိံ နဂရေ ဣမသ္မိံ ဂေယေ သဗ္ဗသတြူ ဝိနဿန္တု၊ သဗ္ဗေ ဥပဒ္ဒဝါ ဝိနဿန္တူတိ။ ဣမေဟိ တီဟိ ဓမ္မေဟိ သမန္ဒာဂတဿ ဗုဒ္ဓဿ ဘဂဝတော သဗ္ဗံ ကာယကမ္မံ ဉာဏပုဗ္ဗင်္ဂမံ ဉာဏာနုပရိဝတ္တံ၊ သဗ္ဗံ ထကမ္မိ ဉာဏပုဗ္ဗင်္ဂမံ ဉာဏာနုပရိဝတ္တံ၊ သဗ္ဗံ မနောကမ္မံ ဉာဏပုဗ္ဗင်္ဂပံ ဉာဏာနုပရိဝတ္တံ။ ဣမေဟိ ဒွါဒသဟိ ဓမ္မေဟိ သမန္နာဂတဿ ဗုဒ္ဓဿ ဘဂဝတော နတ္ထိ ဒဝါ၊ နတ္ထိ ရဝါ၊ နတ္ထိ အဖုဋံ၊ နတ္ထိ ဝေဂါယိတတ္တံ၊ နတ္ထိ အဗျာဝဋမနော၊ နတ္ထိ အပ္ပဋိသင်္ခါနုပေက္ခာ။ ဣမေဟိ အဋ္ဌာရသဟိ ဓမ္မေဟိ သမန္နာဂတဿ ဗုဒ္ဓဿ ဘဂဝတော၊ နမော သတ္တနံ သမ္မာသမ္ဗုဒ္ဓါနံ။
Exploring another approach
Perhaps finding a stacked consonant at sentence ending could identify a Pali sentence. So I took 10 characters at the end of each sentence and tested this idea. I found that it doesn’t work.
library(quanteda)
# locate postion of sentence ending mark
ssE_sub.p10 <- str_locate(x100_itN_Sen.5, ".{6}\u104b") %>%
str_sub(x100_itN_Sen.5, .)
length(x100_itN_Sen.5[which(grepl("[\u1000-\u1021]\u1039[\u1000-\u1021]",ssE_sub.p10))])
[1] 359
cat(x100_itN_Sen.5[which(grepl("[\u1000-\u1021]\u1039[\u1000-\u1021]",ssE_sub.p10))][c(1:5, 355:359)])
မထင်ရှားသောအရာကို မြင်တော်မူသော သင်၏အဘသည် အကျိုးကို ထင်ရှားစွာပေးတော်မူလတ္တံ့။ ထိုအခါ ကောက်ပဲသီးနှံတို့ ပျက်ဆီး၍ လူတို့၌ အစာရေစာ ရှားပါး ငတ်မွတ်ခြင်း ဖြစ်လတ္တံ့။ ထိုအခါ အခွင့်အရေးမသိ၊ မတော် မမှန်ဖြစ်၍ အမှု မပြီး၊ အကျိုးမပြီး ရှိသောအခါ လူငယ်တို့သည် မိမိတို့၏ ရာထူး စည်းစိမ်ကို စွန့်ကြလတ္တံ့။ လူကြီးတို့သည်လည်း ငါတို့မှာ ပြင်ပကသာ ဖြစ်၏ဟု လျစ်လျှူပြု၍ နေကြလကုန်လတ္တံ့။ သို့ဖြစ်၍ တရားမစောင့် အမှုမပြီးကြသည်နှင့် မင်းနှင့်တကွ တိုင်းပြည်ပါ ဆုတ်ယုတ် ပျက်ဆီးကြလတ္တံ့။ အများအပြားအင်းနှစ်ဇာတ်လမ်းတစ်ပုဒ်၊ခန့်ထား၍၊ထိုသူအပေါင်းတို့သည်ရှိသည်ဟိုအိမ္ဝင္း။ တစ်နည်းနည်းနဲ့၊အခြားအဝေါဟာရအဖြစ်ပူနွေးနှင့်စိုထိုင်းသောဒေသများကိုနိုင်ငံ၏တောင်ဘက်အသုံးပြုသည်၊နှင့်အကြားခြားနားချက်ကိုအဓိကအကြောင်း بادگیرهای ဒေသများတွင်ပူနွေးခြောက်သွေ့သည်ဝေါဟာရအတွက်စိုစွတ်သောဒေသ၊စနစ်မှတဆင့်အစဥ္တြင္လေ၏။ ငယ်စဉ်အခါတွင် ကျော်အောင်စံထားဆရာတော်၏ တပည့်ဖြစ်သူ ချောင်းကောက်ဆရာတော် ရှင်သဒ္ဓမ္မနန္ဒီ။ ဒါဟာ Dawat 23 ဒိုင်-Al-Mutlaq, မိုဟာမက် Ezzuddin ပေါ်တွင် nass (အခွင့်အာဏာများလွှဲပြောင်း) ဖျော်ဖြေကြောင်း, ယီမင်ကနေအိန္ဒိယကိုလွှဲပြောင်းသောအခါဤအချိန်ကာလအတွင်းခဲ့ Yusuf Najmuddin ibn Sulaiman Sidhpur, Gujrat, အိန္ဒိယ၏။ တစ်ဦးကစက္ကန့်ကျောင်းဝင်း၏မြောက်ပိုင်းတောင်ခြေတွင်တည်ရှိပြီး 1983 ခုနှစ်ကတည်ထောင်ခဲ့ ကရာချိမြို့ရာချိ , ပါကစ္စတန်နိုင်ငံပါကစ္စတန်။
Removing Pali sentences.
This resulted in removing 115 sentences from 306,405.
x100_itN_Sen5_paliN <- x100_itN_Sen.5[-which(stCon.pc > 8)]
length(x100_itN_Sen5_paliN)
[1] 306290
No comments:
Post a Comment