Having removed Pali sentences from my raw Myanmar Wikimedia corpus “x100_itN_Sen.5” I am going to analyze the sentence-ending words I got from my naive segmentation posted earlier. As in my last post, I am removing the Pali sentences from the tokenized sentences “x100_itNS5.w”.
Removing Pali sentences from tokenized sentences
As shown in my last post, I already had my raw corpus segmented into “words” as x100_itNS5.w with “quatenda”. Now I am removing the Pali sentences from them.
library(quanteda)
x100_itNS5.w_paliN <- x100_itNS5.w[-which(stCon.pc > 8)]
length(x100_itNS5.w_paliN)
[1] 306290
cat(paste0(x100_itN_Sen5_paliN[c(1, 100000, 200000, 306290)]))
ဤနေရာသည် အက်ဒမင်များ (စီမံခန့်ခွဲသူများ)အား မေးခွန်းများ မေးမြန်းရန် နေရာ မဟုတ်သလို Wikipedia:Requests for adminshipအက်ဒမင်အဖြစ် လျောက်ထားရန် နေရာ လည်း မဟုတ်ပါ။ သား သုဝဏ္ဏသာမသည် မိဘတို့်ပြန်ချိန်၌ မပြန်လာသဖြင့် လိုက်ပါသွားရာ မိဘတို့မျက်စိကွယ်ကြောင်းသိရ၍ မိမိက လုပ်ကြွေးပြုစုပါမည့် အကြောင်း ပြောပြကာ ခေါ်ဆောင်လာခဲ့သည်။ ၁ဝ ပေ စတုရန်းရှိသော စိုက်ခင်းအတွက် ဟင်းနုနယ်စေ့ လေးအောင်စခန့်ကို ပျိုးရသည်။ စတန်းဖို့ရှိ နေအိမ်၌ ၂၀၁၁ ခု၊ အောက်တိုဘာလ ၂၄ ရက်တွင် ကွယ်လွန်သည်။
cat(paste0(x100_itNS5.w_paliN[c(1, 100000, 200000, 306290)]))
ဤ နေရာ သည် အက် ဒ မင် များ ( စီမံ ခန့်ခွဲ သူများ ) အား မေးခွန်း များ မေးမြန်း ရန် နေရာ မဟုတ် သလို Wikipedia:Requests for adminshipအက် ဒ မင် အဖြစ် လျောက် ထား ရန် နေရာ လည်း မဟုတ် ပါ ။ သား သု ဝဏ္ဏ သာ မသည် မိ ဘ တို့် ပြန် ချိန် ၌ မ ပြန်လာ သဖြင့် လိုက်ပါ သွား ရာ မိဘ တို့ မျက်စိ ကွယ် ကြောင်း သိ ရ ၍ မိမိ က လုပ် ကြွေး ပြုစု ပါ မည့် အကြောင်း ပြော ပြ ကာ ခေါ် ဆောင် လာ ခဲ့ သည် ။ ၁ဝ ပေ စတုရန်း ရှိ သော စိုက်ခင်း အတွက် ဟင်းနုနယ် စေ့ လေး အောင်စ ခန့် ကို ပျိုး ရ သည် ။ စ တန်း ဖို့ ရှိ နေအိမ် ၌ ၂၀၁၁ ခု ၊ အောက်တိုဘာလ ၂၄ ရက် တွင် ကွယ်လွန်သည် ။
Extracting two-word sentence endings
First I extracted the sentence ending mark and two “words” preceding it from every sentence. Note that the the “words” were produced by “qunateda” package. A “word” is sometimes a single syllable and sometimes a group of two or more syllables.
library(stringr)
system.time(
x100_iwpN.3 <- sapply(x100_itNS5.w_paliN, paste0, collapse=" ") %>%
word(.,-3,-1)
)
user system elapsed
23.43 0.50 24.45
str(x100_iwpN.3)
chr [1:306290] "<U+1019><U+101F><U+102F><U+1010><U+103A> <U+1015><U+102B> <U+104B>" ...
cat(x100_iwpN.3[c(1, 100000, 200000, 306290)])
မဟုတ် ပါ ။ ခဲ့ သည် ။ ရ သည် ။ တွင် ကွယ်လွန်သည် ။
To get more information on the sentence endings we create a dfm (document feature matrix) from the tokenized sentence endings.
system.time(
x100_iwpN3.dfm <- tokens(x100_iwpN.3,ngrams=3,concatenator = "-") %>%
dfm(.)
)
user system elapsed
13.27 0.23 13.38
x100_iwpN3.dfm
Document-feature matrix of: 306,290 documents, 20,383 features (>99.99% sparse).
We see that there were 306,290 documents (lines of sentence-endings) with 20,383 distinct features (sentence-ending text). By default, textstat_frequency() function gives the frequency of sentence-endings sorted by frequency. Sorting this result further by the alphabetical order may give better insights into them.
Result
Sentence-endings are just a special case of what is known as N-grams in natural language processing. It is obvious that a longer N-gram would give a better insight to the content of the source-sentences, but they will become more sparse and therefore less useful for looking at the typicality of the sentence endings.
First I looked at the 100 most frequent sentence endings. There were no surprises.
x100SE3_tf <- textstat_frequency(x100_iwpN3.dfm)[,1:2] %>%
.[order(-.$frequency,.$feature),]
utf8::utf8_print(do.call("paste", c(sep= " = ", x100SE3_tf[1:100,])))
[1] "ခဲ့-သည်-။ = 41523" "လေ-သည်-။ = 26303"
[3] "ကြ-သည်-။ = 24917" "ရ-သည်-။ = 16157"
[5] "ရှိ-သည်-။ = 11552" "ပေ-သည်-။ = 6436"
[7] "ပါ-တယ်-။ = 5707" "ခြင်း-ဖြစ်သည်-။ = 4071"
[9] "ဖြစ်-၏-။ = 3445" "လာ-သည်-။ = 2645"
[11] "ခဲ့-၏-။ = 2642" "ကြ-၏-။ = 2594"
[13] "ဖြစ်-ပါသည်-။ = 2254" "ခဲ့-ပါသည်-။ = 2159"
[15] "ပင်-ဖြစ်သည်-။ = 2038" "သေး-သည်-။ = 2021"
[17] "ပါဝင်-သည်-။ = 1966" "ရ-၏-။ = 1949"
[19] "ရ-မည်-။ = 1840" "လိုက်-သည်-။ = 1562"
[21] "ရှိ-၏-။ = 1472" "သွား-သည်-။ = 1445"
[23] "ဟု-ဆိုသည်-။ = 1400" "တို့-ဖြစ်သည်-။ = 1373"
[25] "များ-ဖြစ်သည်-။ = 1359" "ဟု-ခေါ်သည်-။ = 1333"
[27] "ဖြစ်လာ-သည်-။ = 1298" "ခု-ဖြစ်သည်-။ = 1273"
[29] "မည်-ဖြစ်သည်-။ = 1250" "လည်း-ဖြစ်သည်-။ = 1245"
[31] "သူ-ဖြစ်သည်-။ = 1188" "မူ-သည်-။ = 1136"
[33] "ရ-ပါသည်-။ = 1095" "နိုင်-ပါသည်-။ = 1042"
[35] "ပေ-မည်-။ = 972" "တွင်-တည်ရှိသည်-။ = 941"
[37] "ကြ-ပါသည်-။ = 922" "ခဲ့-ပေ-။ = 906"
[39] "မျိုး-ဖြစ်သည်-။ = 837" "လေ-၏-။ = 797"
[41] "ရှိ-ပါသည်-။ = 792" "ထား-ပါသည်-။ = 746"
[43] "ဦး-ဖြစ်သည်-။ = 740" "ပြီ-ဖြစ်သည်-။ = 670"
[45] "ဆောင်ခဲ့-သည်-။ = 663" "မူ-၏-။ = 635"
[47] "ရှိ-ပေ-။ = 588" "နိုင်-၏-။ = 571"
[49] "ပါရှိ-သည်-။ = 559" "သာ-ဖြစ်သည်-။ = 552"
[51] "ပြီး-ဖြစ်သည်-။ = 540" "ရရှိ-သည်-။ = 536"
[53] "ဖော်ပြ-ထားသည်-။ = 527" "ဖြစ်-သည်-။ = 521"
[55] "အသုံးပြု-သည်-။ = 503" "ရ-ပြန်သည်-။ = 485"
[57] "ဆုံး-ဖြစ်သည်-။ = 484" "ဆို-၏-။ = 467"
[59] "ဖွားမြင်-သည်-။ = 466" "ယူခဲ့-သည်-။ = 466"
[61] "ကြ-ချေ-။ = 455" "လှ-သည်-။ = 446"
[63] "ထင်ရှား-သည်-။ = 444" "သင့်-သည်-။ = 442"
[65] "ကြောင့်-ဖြစ်သည်-။ = 439" "မြို့-ဖြစ်သည်-။ = 433"
[67] "တော့-ပေ-။ = 420" "လေ-တော့သည်-။ = 420"
[69] "ပျောက်-၏-။ = 411" "ကြ-ပေ-။ = 409"
[71] "ထား-၏-။ = 407" "မဟုတ်-ပေ-။ = 404"
[73] "ခဲ့-တယ်-။ = 403" "ထားခဲ့-သည်-။ = 398"
[75] "ပါ-ဘူး-။ = 396" "ဆောင်ရွက်-သည်-။ = 395"
[77] "ရှိ-ချေ-။ = 395" "သောကြောင့်-ဖြစ်သည်-။ = 393"
[79] ")-ဖြစ်သည်-။ = 392" "ပေ-လိမ့်မည်-။ = 383"
[81] "ခဲ့-ချေ-။ = 382" "တော့-ချေ-။ = 363"
[83] "စေ-နိုင်သည်-။ = 362" "နိုင်-ပေ-။ = 358"
[85] "စေ-၏-။ = 357" "နိုင်-ချေ-။ = 340"
[87] "သေး-၏-။ = 337" "မဟုတ်-ပါ-။ = 333"
[89] "ဆို-နိုင်သည်-။ = 328" "လေ-ပြီ-။ = 325"
[91] "ခဲ့-ပြန်သည်-။ = 324" "ကြ-ပြန်သည်-။ = 320"
[93] "တော့-၏-။ = 318" "ကြီး-ဖြစ်သည်-။ = 315"
[95] "ရ-ပေ-။ = 314" "တွေ့-နိုင်သည်-။ = 313"
[97] "မဟုတ်-ချေ-။ = 311" "လာ-၏-။ = 307"
[99] "သေး-ပေ-။ = 305" "ခဲ့-ဖူးသည်-။ = 297"
The percentage of sentence-endings with the lowest frequency of 1 is 63:
nrow(x100SE3_tf[which(x100SE3_tf$frequency==1)])*100/nrow(x100SE3_tf)
[1] 63.24388
I looked at the last 300 sentence endings. Since our corpus is taken from an encyclopedia, English and other languages as part of our sentence-endings has to be expected. However, there seems to be some typographical errors (items: 11,120,127,229), errors in tokenization (155,275,299), and one that I couldn’t make sense out of it (163).
utf8::utf8_print(do.call("paste", c(sep= " = ", x100SE3_tf[20084:20383,])))
[1] "၌-ပါသည်-။ = 1" "၌-ပူသည်-။ = 1"
[3] "၌-ပွင့်သည်-။ = 1" "၌-ဖြစ်ပေါ်သည်-။ = 1"
[5] "၌-ဖွင့်လှစ်သည်-။ = 1" "၌-ဖွင့်သည်-။ = 1"
[7] "၌-မျိုးစေ့ချသည်-။ = 1" "၌-မြှုပ်နှံသည်-။ = 1"
[9] "၌-လေး-။ = 1" "၌-သွားရောက်နေထိုင်သည်-။ = 1"
[11] "၌ု-ဖြစ်သည်-။ = 1" "၍-ကပ်-။ = 1"
[13] "၍-ကူးသည်-။ = 1" "၍-ကျက်စားသည်-။ = 1"
[15] "၍-ကျသည်-။ = 1" "၍-ကျိုသည်-။ = 1"
[17] "၍-ကျဲသည်-။ = 1" "၍-ကြဉ်-။ = 1"
[19] "၍-ကြည့်သည်-။ = 1" "၍-ကြန့်ကြာသည်-။ = 1"
[21] "၍-ကြီးထွားသည်-။ = 1" "၍-ကြေညာသည်-။ = 1"
[23] "၍-ကွယ်-။ = 1" "၍-ကွယ်လွန်သည်-။ = 1"
[25] "၍-ကွာခြားသည်-။ = 1" "၍-ခတ်သည်-။ = 1"
[27] "၍-ခပ်-။ = 1" "၍-ခိုက်ရန်ဖြစ်သည်-။ = 1"
[29] "၍-ခေါင်းဆောင်သည်-။ = 1" "၍-ချင့်စား-။ = 1"
[31] "၍-ချင့်တွက်သည်-။ = 1" "၍-ချစ်သည်-။ = 1"
[33] "၍-ချဉ်သည်-။ = 1" "၍-ချန်-။ = 1"
[35] "၍-ချီတက်သည်-။ = 1" "၍-ချီသည်-။ = 1"
[37] "၍-ခြားနားသည်-။ = 1" "၍-ခွင့်တောင်းသည်-။ = 1"
[39] "၍-ငုပ်သည်-။ = 1" "၍-ငွေစုသည်-။ = 1"
[41] "၍-စခန်းချသည်-။ = 1" "၍-စစ်မှုထမ်းသည်-။ = 1"
[43] "၍-စည်ကားသည်-။ = 1" "၍-စည်းရုံးသည်-။ = 1"
[45] "၍-စပ်သည်-။ = 1" "၍-စိတ်နာ-။ = 1"
[47] "၍-စိုက်သည်-။ = 1" "၍-စောင့်ရှောက်သည်-။ = 1"
[49] "၍-စွပ်စွဲသည်-။ = 1" "၍-စွဲချက်တင်သည်-။ = 1"
[51] "၍-ဆင်းရဲသည်-။ = 1" "၍-ဆန်သည်-။ = 1"
[53] "၍-ဆန်းကြယ်သည်-။ = 1" "၍-ဆိုးသည်-။ = 1"
[55] "၍-ဆီလျော်သည်-။ = 1" "၍-ဆွဲဆောင်သည်-။ = 1"
[57] "၍-ဈေးကြီးသည်-။ = 1" "၍-ညင်သာသည်-။ = 1"
[59] "၍-တက်ရောက်သည်-။ = 1" "၍-တင်ပို့သည်-။ = 1"
[61] "၍-တင်မြှောက်သည်-။ = 1" "၍-တည်ထောင်သည်-။ = 1"
[63] "၍-တပ်ဆင်သည်-။ = 1" "၍-တရားစွဲသည်-။ = 1"
[65] "၍-တရားဟောသည်-။ = 1" "၍-တိတ်သည်-။ = 1"
[67] "၍-တိုက်ဖျက်သည်-။ = 1" "၍-တိုက်ကျွေးနိုင်သည်-။ = 1"
[69] "၍-တီးခတ်သည်-။ = 1" "၍-တူးသည်-။ = 1"
[71] "၍-တောင်းသည်-။ = 1" "၍-တွင်ကျယ်သည်-။ = 1"
[73] "၍-တွေ့ရှိသည်-။ = 1" "၍-ထင်ရှားစေသည်-။ = 1"
[75] "၍-ထင်သည်-။ = 1" "၍-ထိုးပေးသည်-။ = 1"
[77] "၍-ထုတ်ပေးသည်-။ = 1" "၍-ထုတ်သည်-။ = 1"
[79] "၍-နင်းသည်-။ = 1" "၍-နိမ့်သည်-။ = 1"
[81] "၍-နှိပ်စက်သည်-။ = 1" "၍-ပစ်သည်-။ = 1"
[83] "၍-ပို့ချသည်-။ = 1" "၍-ပေါက်ကွဲသည်-။ = 1"
[85] "၍-ပေါက်ဖွားသည်-။ = 1" "၍-ပျောက်ကင်းသည်-။ = 1"
[87] "၍-ပျံသည်-။ = 1" "၍-ပျံသန်းသည်-။ = 1"
[89] "၍-ပြင်းသည်-။ = 1" "၍-ပြေးသည်-။ = 1"
[91] "၍-ပွသည်-။ = 1" "၍-ဖောက်လုပ်သည်-။ = 1"
[93] "၍-ဖြစ်ထွန်းသည်-။ = 1" "၍-ဖြာသည်-။ = 1"
[95] "၍-ဖြေသည်-။ = 1" "၍-ဖွဲ့စည်းသည်-။ = 1"
[97] "၍-ဘဝပြောင်းသည်-။ = 1" "၍-မက်မောသည်-။ = 1"
[99] "၍-မဟုတ်-။ = 1" "၍-မေးမြန်းသည်-။ = 1"
[101] "၍-မျော်-။ = 1" "၍-မျှတသည်-။ = 1"
[103] "၍-မျှောလိုက်သည်-။ = 1" "၍-မြင်သည်-။ = 1"
[105] "၍-မှတ်တမ်းတင်သည်-။ = 1" "၍-မှန်သည်-။ = 1"
[107] "၍-မှီ-။ = 1" "၍-မှုတ်သည်-။ = 1"
[109] "၍-လည်နေသည်-။ = 1" "၍-လား-။ = 1"
[111] "၍-လှုံ-။ = 1" "၍-လှူ-။ = 1"
[113] "၍-သင်ကြားပေးသည်-။ = 1" "၍-သည်-။ = 1"
[115] "၍-သာ-။ = 1" "၍-သာလျှင်-။ = 1"
[117] "၍-ဟောသည်-။ = 1" "၍-အာရုံ-။ = 1"
[119] "၍-အရောင်ဖျော့သည်-။ = 1" "၍့-ဖူးသည်-။ = 1"
[121] "၍-ကောက်သည်-။ = 1" "၎-င်းခေါ်သည်-။ = 1"
[123] "၏-ကုန်ကျစရိတ်-။ = 1" "၏-ကျွန်-။ = 1"
[125] "၏-ခင်ပွန်း-။ = 1" "၏-စတင်-။ = 1"
[127] "၏-စ်ာ-။ = 1" "၏-ဆိုသည်-။ = 1"
[129] "၏-ဆောင်းပါး-။ = 1" "၏-တကား-။ = 1"
[131] "၏-တည်း-။ = 1" "၏-ဒုတ်-။ = 1"
[133] "၏-နိုင်ငံတော်သီချင်း-။ = 1" "၏-ပ-။ = 1"
[135] "၏-ပထဝီဝင်-။ = 1" "၏-ပုံ-။ = 1"
[137] "၏-ဗိမာန်-။ = 1" "၏-မိတ်ဆွေဖြစ်သည်-။ = 1"
[139] "၏-မျက်နှာ-။ = 1" "၏-မြတ်စွာဘုရား-။ = 1"
[141] "၏-ရထား-။ = 1" "၏-လုပ်ငန်းစဉ်-။ = 1"
[143] "၏-လေ့ကျင့်ခန်း-။ = 1" "၏-ဝယ်ယူ-။ = 1"
[145] "၏-သက်တော်စောင့်-။ = 1" "၏-သည်-။ = 1"
[147] "၏-သေတမ်းစာ-။ = 1" "၏-ဟူလို-။ = 1"
[149] "၏-ဟူသည်-။ = 1" "၏-အခြေအနေ-။ = 1"
[151] "၏-အတိုင်းအတာ-။ = 1" "၏-အုပ်ထိန်းသူ-။ = 1"
[153] "၏-ဧရိယာ-။ = 1" "၏-၏-။ = 1"
[155] "႔ကရ-ပြန်သည်-။ = 1" "♍-ဖြစ်သည်-။ = 1"
[157] "媪-၊-။ = 1" "=-စာရေးဆရာ-။ = 1"
[159] "=-မြို့-။ = 1" "=-၂၄ဥဒါဟရုဏ်-။ = 1"
[161] "°-ခြားနားသည်-။ = 1" "…-ဘုရင်-။ = 1"
[163] "•-အူး-။ = 1" "1-ဖြစ်သည်-။ = 1"
[165] "1006-ဖြစ်သည်-။ = 1" "100e-ဖြစ်သည်-။ = 1"
[167] "135cs-ဖြစ်သည်-။ = 1" "17-ဖြစ်သည်-။ = 1"
[169] "2005nc-ဖြစ်သည်-။ = 1" "20j-ဖြစ်သည်-။ = 1"
[171] "239pu-ဖြစ်သည်-။ = 1" "25-ဖြစ်သည်-။ = 1"
[173] "3-ဖြစ်သည်-။ = 1" "365.2425-ဖြစ်သည်-။ = 1"
[175] "45-ဖြစ်သည်-။ = 1" "acid-ဖြစ်သည်-။ = 1"
[177] "acrylic-ဖြစ်သည်-။ = 1" "adams-ဖြစ်သည်-။ = 1"
[179] "ali-အကိုင်းအခက်-။ = 1" "amoudi-ဖြစ်သည်-။ = 1"
[181] "atwood-ထောက်ပြသည်-။ = 1" "ausf.e-ဖြစ်သည်-။ = 1"
[183] "b-ဖြစ်သည်-။ = 1" "backend-သည်-။ = 1"
[185] "ball-ကို-။ = 1" "bangles-ဖြစ်သည်-။ = 1"
[187] "banking-ဖြစ်သည်-။ = 1" "belarusian-ဖြစ်သည်-။ = 1"
[189] "bilal-တားဆီး-။ = 1" "bob-တုံ့ပြန်သည်-။ = 1"
[191] "bob-ထင်သည်-။ = 1" "bodybuilding-ဖြစ်သည်-။ = 1"
[193] "c.d.pain-ဖြစ်သည်-။ = 1" "cဲ့-သည်-။ = 1"
[195] "caf2-ဖြစ်သည်-။ = 1" "california-မှာ-။ = 1"
[197] "cbox-ဖြစ်သည်-။ = 1" "ce-ဖြစ်သည်-။ = 1"
[199] "ch5-ဖြစ်သည်-။ = 1" "chain-ဖြစ်သည်-။ = 1"
[201] "chromebook-ဖြစ်သည်-။ = 1" "cm-ဖြစ်သည်-။ = 1"
[203] "coast-ဖြစ်သည်-။ = 1" "colbun-ဖြစ်သည်-။ = 1"
[205] "contribution-ဖြစ်သည်-။ = 1" "convert-ဖြစ်သည်-။ = 1"
[207] "coroner-ဖြစ်သည်-။ = 1" "dance-ဖြစ်သည်-။ = 1"
[209] "datura-ဖြစ်သည်-။ = 1" "department-ဖြစ်သည်-။ = 1"
[211] "dio-ပါ-။ = 1" "diving-ဖြစ်သည်-။ = 1"
[213] "e-ဖြစ်သည်-။ = 1" "eksekutif-ဖြစ်သည်-။ = 1"
[215] "er-ဖြစ်သည်-။ = 1" "erikson-ဖြစ်သည်-။ = 1"
[217] "euphorbiaceae-ဖြစ်သည်-။ = 1" "firewall-ဖြစ်သည်-။ = 1"
[219] "forbes-ဖြစ်သည်-။ = 1" "g2-ဖြစ်သည်-။ = 1"
[221] "gb-ဖြစ်သည်-။ = 1" "ground-ဖြစ်သည်-။ = 1"
[223] "grunge-ဖြစ်သည်-။ = 1" "harlem-မြစ်-။ = 1"
[225] "hasan-ထင်းရူး-။ = 1" "ho-ဖြစ်သည်-။ = 1"
[227] "holeတို့-ဖြစ်သည်-။ = 1" "isp-ဖြစ်သည်-။ = 1"
[229] "jafar-ဆ-န္ေ-။ = 1" "kamodoensis-ဖြစ်သည်-။ = 1"
[231] "koothrappali-နှင့်-။ = 1" "laime-ဖြစ်သည်-။ = 1"
[233] "lamy-ဖြစ်သည်-။ = 1" "law-ဖြစ်သည်-။ = 1"
[235] "m0.5iab-ဖြစ်သည်-။ = 1" "makaurau-ဖြစ်သည်-။ = 1"
[237] "manima-ဖြစ်သည်-။ = 1" "metrocard-၊-။ = 1"
[239] "mineral_water-ဖြစ်သည်-။ = 1" "musume-ဖြစ်သည်-။ = 1"
[241] "naalsi2o6-ဖြစ်သည်-။ = 1" "newton-ဖြစ်သည်-။ = 1"
[243] "nightwish-ဖြစ်သည်-။ = 1" "nihilistic-ဖြစ်သည်-။ = 1"
[245] "nishizawa-ဖြစ်သည်-။ = 1" "nntp-ဖြစ်သည်-။ = 1"
[247] "ns-ဖြစ်သည်-။ = 1" "nsx-ဖြစ်သည်-။ = 1"
[249] "paganin-ဖြစ်သည်-။ = 1" "pareto-ဖြစ်သည်-။ = 1"
[251] "pinault-ဖြစ်သည်-။ = 1" "pitsuwan-ဖြစ်သည်-။ = 1"
[253] "player-ဖြစ်သည်-။ = 1" "powerဟု-ခေါ်သည်-။ = 1"
[255] "programming-ပေါ့-။ = 1" "queen-ဖြစ်သည်-။ = 1"
[257] "rap-ဖြစ်သည်-။ = 1" "rctp-ဖြစ်သည်-။ = 1"
[259] "reaction-ဖြစ်သည်-။ = 1" "real-time-ပေါင်းစပ်-။ = 1"
[261] "revised-ဖော်ပြသည်-။ = 1" "rocker-ဖြစ်သည်-။ = 1"
[263] "s-ဖြစ်သည်-။ = 1" "schmidt-ဖြစ်သည်-။ = 1"
[265] "seattleမှ-ဖြစ်သည်-။ = 1" "show-မှာ-။ = 1"
[267] "singh-ဖြစ်သည်-။ = 1" "skeletonဟု-ခေါ်သည်-။ = 1"
[269] "skyclad-ဖြစ်သည်-။ = 1" "smartfilter-ဖြစ်သည်-။ = 1"
[271] "smeaton-ဖြစ်သည်-။ = 1" "sn-ဖြစ်သည်-။ = 1"
[273] "software-ဖြစ်သည်-။ = 1" "soprano-ဖြစ်သည်-။ = 1"
[275] "sourceလည်း-ဖြစ်သည်-။ = 1" "sourceide-ဖြစ်သည်-။ = 1"
[277] "statistics-ဖြစ်သည်-။ = 1" "street-ဖြစ်သည်-။ = 1"
[279] "switchedတို့-ဖြစ်သည်-။ = 1" "syria-ဖြစ်သည်-။ = 1"
[281] "taichin-ဖြစ်သည်-။ = 1" "tang-gia-da-ဖြစ်သည်-။ = 1"
[283] "taqwa-ဖြစ်သည်-။ = 1" "tattoo-ရာဇဝင်-။ = 1"
[285] "telescopii-ဖြစ်သည်-။ = 1" "television-ဖြစ်သည်-။ = 1"
[287] "thrash-ဖြစ်သည်-။ = 1" "times-ပါ-။ = 1"
[289] "tree-ဖြစ်သည်-။ = 1" "tube-ဖြစ်သည်-။ = 1"
[291] "udfj-39546284-ဖြစ်သည်-။ = 1" "union-ဖြစ်သည်-။ = 1"
[293] "university-ဖြစ်သည်-။ = 1" "violawww-ဖြစ်သည်-။ = 1"
[295] "vocal-များ-။ = 1" "widget-ဖြစ်သည်-။ = 1"
[297] "wolf-ပေါ့-။ = 1" "www-ဖြစ်သည်-။ = 1"
[299] "xeroxed-artဖြစ်သည်-။ = 1" "zn-ဖြစ်သည်-။ = 1"
I looked at 100 sentence-endings somewhere in the middle of the list. Here, except for item-44 and 81, all look normal.
utf8::utf8_print(do.call("paste", c(sep= " = ", x100SE3_tf[1001:1100,])))
[1] "သတ္တိရှိ-သည်-။ = 17" "သုံးစွဲ-နိုင်သည်-။ = 17"
[3] "သေဆုံး-သည်-။ = 17" "ဟုတ်-ချေ-။ = 17"
[5] "အပ်နှင်း-သည်-။ = 17" "အုပ်-ဖြစ်သည်-။ = 17"
[7] "အောင်-ဖြစ်သည်-။ = 17" "က-ကြေညာသည်-။ = 16"
[9] "ကို-တင်ပြသည်-။ = 16" "ကို-နှစ်သက်သည်-။ = 16"
[11] "ကို-ပြုစုသည်-။ = 16" "ကြီးကျယ်-သည်-။ = 16"
[13] "ခက်-သည်-။ = 16" "ခေါ်-နိုင်သည်-။ = 16"
[15] "ခံ-ပေ-။ = 16" "ခွဲ-ဖြစ်သည်-။ = 16"
[17] "စား-နိုင်သည်-။ = 16" "စေ-မည်-။ = 16"
[19] "ဆို-ပြန်သည်-။ = 16" "ဆောင်ရွက်-ပါသည်-။ = 16"
[21] "တက်-စေသည်-။ = 16" "တည်-နေသည်-။ = 16"
[23] "တည်-၏-။ = 16" "တို-သည်-။ = 16"
[25] "တိုင်းတာ-သည်-။ = 16" "တိုင်းပြည်-ဖြစ်သည်-။ = 16"
[27] "တို့-တည်း-။ = 16" "တော်-စဉ်-။ = 16"
[29] "တွင်-၏-။ = 16" "ထား-ချေ-။ = 16"
[31] "ပါရှိ-ချေ-။ = 16" "ပေါက်-တတ်သည်-။ = 16"
[33] "ပေး-ပြန်သည်-။ = 16" "ပြု-စေသည်-။ = 16"
[35] "ပြော-တယ်-။ = 16" "ပြောင်းရွှေ့-နေထိုင်သည်-။ = 16"
[37] "ဖေါ်-ပြသည်-။ = 16" "ဖော်ပြ-နေသည်-။ = 16"
[39] "ဖြင့်-ပြုလုပ်သည်-။ = 16" "မန္တလေး-မြို့-။ = 16"
[41] "ရ-ပြီ-။ = 16" "ရတတ်-ပါသည်-။ = 16"
[43] "လည်-စေသည်-။ = 16" "လီ-သည်-။ = 16"
[45] "လုပ်ကိုင်-စေသည်-။ = 16" "လွှတ်ပေး-သည်-။ = 16"
[47] "လွှတ်လိုက်-သည်-။ = 16" "သကဲ့သို့-ဖြစ်သည်-။ = 16"
[49] "သာ-ချေ-။ = 16" "သာ-များသည်-။ = 16"
[51] "သိ-သည်-။ = 16" "သို့-စီးဆင်းသည်-။ = 16"
[53] "သွင်း-နိုင်သည်-။ = 16" "သွားရောက်-သည်-။ = 16"
[55] "ဟူ-သတည်း-။ = 16" "အခြေစိုက်-သည်-။ = 16"
[57] "အဆင့်-ဖြစ်သည်-။ = 16" "အသုံးပြု-ပါ-။ = 16"
[59] "အုပ်ချုပ်-၏-။ = 16" "အော်-တတ်သည်-။ = 16"
[61] "ဦး-မယ်-။ = 16" "ကို-တိုက်သည်-။ = 15"
[63] "ကို-ထမ်းဆောင်သည်-။ = 15" "ကူညီ-ပေးသည်-။ = 15"
[65] "ကြ-ဘူး-။ = 15" "ကြ-လော့-။ = 15"
[67] "ကြီး-ပါ-။ = 15" "ကြောင်း-ပြောသည်-။ = 15"
[69] "ခိုက်-ဖြစ်သည်-။ = 15" "ခေါ်တွင်-စေသည်-။ = 15"
[71] "ချင်-သည်-။ = 15" "ချိတ်ဆက်-ထားသည်-။ = 15"
[73] "ငှက်-ဖြစ်သည်-။ = 15" "စား-တတ်သည်-။ = 15"
[75] "စေ-နှင့်-။ = 15" "စွာ-တည်ရှိသည်-။ = 15"
[77] "ဆင်-သည်-။ = 15" "ဆင်း-၏-။ = 15"
[79] "ဆုတောင်း-၏-။ = 15" "ဆောင်သွား-သည်-။ = 15"
[81] "ဏီ-ယာ-။ = 15" "တည်း-ဖြစ်သည်-။ = 15"
[83] "ထ-သော-။ = 15" "ထင်ရှား-ပါသည်-။ = 15"
[85] "ထမ်း-ဆောင်-။ = 15" "ထိုက်-သည်-။ = 15"
[87] "နေ-ခြင်း-။ = 15" "နေထိုင်-စေသည်-။ = 15"
[89] "ပြည့်စုံ-၏-။ = 15" "ပြော-နိုင်သည်-။ = 15"
[91] "ဖြစ်-မယ်-။ = 15" "ဘာသာ-ဖြစ်သည်-။ = 15"
[93] "မူ-ပြီ-။ = 15" "များ-သည်-။ = 15"
[95] "ယူခဲ့-ပါသည်-။ = 15" "ရ-စေ-။ = 15"
[97] "ရောက်-တိုက်ခိုက်သည်-။ = 15" "ရေး-နိုင်သည်-။ = 15"
[99] "ရှင်-ဖြစ်သည်-။ = 15" "ရှိ-ပြီ-။ = 15"
Next, I checked for the two suspect endings mentioned above. To my surprise I found both to be legitimate. The first one seems to be the Rakhine version of “လေသည်။” and the second one belongs to Pali sentences. Well, my method of detecting Pali sentences I used earlier is obviously imperfect.
cat(grep("လီသည်။|ဏီယာ။",x100_itN_Sen5_paliN, value=TRUE))
ယင်းသို့ စုပေါင်းညီညွတ်သော တစ်ခုတည်းသောနယ်ချဲ့အရင်းသျှင်စနစ်တိုက်ဖျက်ရေး အင်အားစုဖြစ်တေ ရခိုင်တိုင်းလုံးဆိုင်ရာ တိုင်းရင်းသားအစည်းအရုံးကြီး၏ ညီလာခံကို ၁၃၀၁ ခု ကဆုန်လတွင် ပေါက်တောမြို့၌ကျင်းပခပြီး တောင်သူလယ်သမား လူတန်းစားတိုက်ပွဲ လမ်းစဉ်ကို ပြတ်ပြတ်သားသား ဖော်ထုတ်ချမှတ်ခလီသည်။ ညီလာခံအပြီး နံယုန်လတွင် နာယကဆရာတော်များဖြစ်သော ဦးစိန္တာနှင့် ဦးပညာသီဟရို့အား နယ်ချဲ့အစိုးရရို့က ဖမ်းဆီးပြီး ဆရာတော်အား အလုပ်ကြမ်းနန့် ၁၈ လထောင်ဒဏ် အပြစ်ပီးခံခရလီသည်။ ဆရာတော်၏ တပ်များသည် မြေပုံမြို့ကိုလည်းကောင်း၊ ကျောက်ဖြူမြို့ကိုလည်းကောင်း၊ နယ်ချဲ့လက်က သိမ်းယူထိန်းသိမ်းထားနိုင်ခလီသည်။ ထိုစဉ်အခါက ရခိုင်မျိုးချစ်တပ်များသည် နယ်ချဲ့အား တော်လှန်ခရရုံသာမက တစ်ဖက် ၌လည်း တောင်သူလယ်သမားဆင်းရဲသားရို့အား ခေတ်အပျက်တွင် ညှဉ်းပမ်းနှိပ်စက်လာသော တောကြောင်များကိုလည်း နှိမ်နင်းခကတ်ရလီသည်။ ၁၃၀၅ ခုနှစ်စတွင် ဆရာတော်သည် ရခိုင်တိုင်းလုံးဆိုင်ရာ တိုင်းရင်းသားအစည်းအရုံး ကိုယ်စားလှယ်အဖြစ် ရန်ကုန်သို့ဆင်းကာ ဗိုလ်ချုပ်အောင်ဆန်းနှင့် ဆက်ပြီး ဖက်ဆစ်တော်လှန်ရေးအတွက် စတင်စီစဉ်လီသည်။ ထိုနှစ်တန်းခူးလဆုတ် ၁၀ ရက်နိန့်တွင် မြေပုံမြို့ပိုင်နှင့် ကျောက်ဖြူခရိုင်ဝန်ရို့၏ သစ္စာဖောက်သတင်းပီးမှုကြောင့် ဆရာတော်ဦးစိန္တာသည် ဖက်ဆစ်ဂျပန်ရို့၏ ဖမ်းဆီးခြင်းကို ခံရပြန်လီသည်။ သို့သော် ဆရာတော်သည် ဖက်ဆစ်တိုက်ဖျက်ရေးတွင် နောက်မဆုတ်ဘဲ အင်တိုက်အားတိုက် ဆက်လက်ဂေါင်းဆောင်မှုပီးခရာ ဂန့်ဂေါတိုက်ပွဲသည် ကမ္ဘာကျော်ခရလီသည်။ ၁၃၀၆ ခုနှစ် ဂျပန်တော်လှန်ရေးအပြီးတွင် နယ်ချဲ့အင်္ဂလိပ်များပြန်ဝင်လာပြန်ရာ ဆရာတော်ဦးစိန္တာသည် ဖက်ကိုလည်း တော်လှန်မည်၊ အမျိုးသားလွတ်မြောက်ရေးအတွက် လက်နက်မအပ်ဘဲ နယ်ချဲ့ကိုလည်း ဆက်လက်တော်လှန်မည်ဟူသော တော်လှန်ရေးတပ်ဦးသစ္စာကို မဖောက်လို၍ နယ်ချဲ့အင်္ဂလိပ်အား ၂ နှစ်တိုင်တိုင် ဆက်လက်တော်လှန်ခလီသည်။ ၁၃၀၈ ခု၊ တန်းဆောင်မုန့်လ၌ ဆရာတော်ဦပညာသီဟ၊ ဝန်ကြီး ဦးအောင်ဇံဝေ၊ ဝန်ကြီးသခင်မြနှင့် တိုင်းရင်းသား အစည်းအရုံးဂေါင်းဆောင်များရို့သည် ကြာအင်းတောင် ဆရာတော်ကျောင်းသို့ ရောက်လာကတ်ပြီးလျှင် ဦးစိန္တာနှင့်တွိ့ဆုံဆွေးနွေးပြီးနောက် ထိုနှစ် နတ်တော်လ စတုတ္ထအပတ်တွင် ဆရာတော်အား လွတ်ငြိမ်းချမ်းသားခွင့် ကြေညာလိုက်သဖြင့် ဆရာတော်ဦးစိန္တာသည် တော်ခိုရာမှထွက်လာ၍ ကျယ်ပြန့်သောစည်းရုံးရေးကို ဆက်လက်ဆောင်ရွက်ခလီသည်။ ၁၃၀၉ ခု၊ ကဆုန်လဆန်း ၇ ရက်နိန့်တွင် မြေပုံမြို့မှ စစ်တွေမြို့သို့အလား ဦးစိန္တာသည် ဘင်္ဘောထက်၌ အဖမ်းခံရပြီးလျှင် ယင်းကဆုန်လကွယ်နိန့်ပင် စစ်တွေမှ လီယာဉ်ဖြင့် ရန်ကုန်မင်္ဂလာဒုံလီဆိပ်သို့ ယူဆောင်လျှက် သာယာဝတီထောင်သို့ အပို့ခံခရပြီးနောက် ၁၃၁၀ ခု၊ နှောင်းတန်းခူးလဆန်း ၆ ရက်နိန့်တွင် သာယာဝတီထောင်ကို သူပုန်းတပ်ပေါင်းစုများ ဖွင့်သောအခါမှ ဆရာတော်သည် ထောင်မှရွတ်ခရလီသည်။ ဆရာတော်ဦးစိန္တာအား အရင်းသျှင်နယ်ချဲ့ဖက်ဆစ်ရို့၏ ညှဉ်းပန်းနှိပ်စက်မှုဒဏ်သည် ဖိစီးလာခြင်းကြောင့် သက်တော် ၆၂၊ ဝါတော် ၄၂ ဝါမြောက်တွင် ၁၃၂၆ ခု၊ နတ်တော်ဆန်း ၁၀ ရက်၊ တနင်္လာနိန့် နိန့်ခြင်းဖက် ၂ နာရီအချိန်တွင်၊ ရန်ကုန်မြို့၊ ငါးထပ်ကြီးဘုရားလမ်း၊ အမှတ် ၁၅၂ ၊ သိမ်ကုန်းကျောင်းတိုက်၊ ရွှေဘုံသာကျောင်းဆရာတော် ဦးရဝိန္ဒထံ၌ တည်းခိုဆီးဝါးကုသနီစဉ်မှာပင် ဘုရားရဟန္တာအသျှင်မြတ်ရို့သော်မှ မလွန်ဆန်နိုင်သော သီဘေးတရားအရ ပျံလွန်တော်မူလီသည်။ ၎င်းဝါသုဒေဝညီနောင် တကျိပ်ရို့သည် ဒွါရာဝတီ(အာကာပျံဝဲမြို့သံတွဲ)ကို စောင့်ယှောက်သော မြို့စောင့်ဘီလူးမကြီးရန်အား နှိမ်နှင်းပြီးသော် သိမ်းပိုက်စိုးစံတော်မူကြလီသည်။ ထိုအချိန်ကာလတွင် ဟိမဝန္တာတောကြီး တောင်ကြီးများထဲမှာ အလွန်ကျော်ဇောထင်ရှားသော (ကုဏ္ဍရ)အိုင် (သက္ကဋဂူ)တွင်းကြီးတွင် ခိုအောင်းနီသော ပုဇွန်ကြီးတကောင်သည် များစွာကြီးထွားသန်မာလျှက် လွန်စွာကြောက်မက်ဖွယ် ကောင်း ကာ သူ၏လက်မ (ခြီမ) နှစ်ခုဖြင့် လာသမျှသော ရီသတ္တဝါ၊ ကုန်သတ္တဝါအပေါင်းရို့အား ညှပ်သတ်ဖြတ်လျှက် သီစီရလီသည်။ ထိုကာလမကြာမြင့်မီ ဟိမဝန္တာတောကြီးအတွင်း၌ အင်မတန်ခွန်အားဗလနှင့်ပြည့်စုံသော ကြောက်မက်ဖွယ်ကောင်းသော (ဆင်ဟတ္ထိ)ကြီးတကောင်သည် ထင်ရှားပေါ်ပေါက်လာ လီသည်။ ၎င်းဆင်ကြီးသည် အဆိုပါ (သက္ကဋဂူ)တွင် မင်းမူနီသော ပုဇွန်ကောင်ကြီးအား နင်းသတ်လျှက် လက်မ(ခြီမ)ကြီးနှစ်ချောင်းကို နှာမောင်းဖြင့် ချိုးဖဲ့ကာ မြစ်ထဲသို့ပစ်ချ လိုက်လီသည်။ ထိုပုဇွန်လက်မ(ခြီမ) တက္ကဋကို စည်တော်ကြက်လျှက် နန်းတော်တွင်တီးခတ်ကြလီရာ အင်မတန်ထူးခြားအံ့ဩဖွယ်သော သံစုံတီးလျှက် ပေါ်ထွန်းလာပြီးသော် သာယာငြိမ့် ညောင်းဖွယ်သော အသံစုံလင်စွာဖြင့် ပေါ်ထွန်းလာလီသဖြင့် အသံစည်တော်နှင့် ကိုက်ညီအောင် သာခြင်း အခြင်းများဖော်လျှက် သုခုမပညာပြောင်မြောက်စွာဖြင့် စပ်ဆိုကာ သီဆိုက,ကွက်ထွင်ပြီး (စည်တော်ကြီးကို စတင်တီးခတ်ကြလီသည်။ န ထူပကတော ဩမဒ္ဒိတွာ ပိဏ္ဍပါတံ ဘုဉ္ဇိဿာမီတိ သိက္ခာ ကရဏီယာ။ န သူပံ ဝါ ဗျဉ္ဇနံ ဝါ ဩဒနေန ပဋိစ္ဆာဒေဿာမိ ဘိယျောကမျှတံ ဥပါဒါယတိ သိက္ခာ ကရဏီယာ။ န သူပံ ဝါ ဩဒနံ ဝါ အဂိလာနော အတ္တနော အတ္တာယ ဝညာပေတွာ ဘုဉ္ဇိဿာမီတိ သိက္ခာ ကရဏီယာ။ န သာမိသေန ဟတ္ထေန ပါနီယထာလကံ ပဋိဂ္ဂ ဟေဿာမီတိ သိက္ခာ ကရဏီယာ။ န သသိတ္ထကံ ပတ္တဓောဝနံ အန္တရဃရေ ဆဋေဿာမီတိ သိက္ခာ ကရဏီယာ။ န အာဝုပေါနိဿ အဂိလာနဿ ဓမ္မံ ဒေသေဿာမီတိ သိက္ခာ ကရဏီယာ။ န ပါဒုကာရုဠဿ အဂိလာနဿ ဓမ္မံ ဒေသေဿာမီတိ သိက္ခာ ကရဏီယာ။ န ဥပါဟနာရုဠဿ အဂိလာနဿ ဓမ္မံ ဒေသေဿာမီတိ သိက္ခာ ကရဏီယာ။ န ဩဂုဏ္ဌိတသီသဿ အဂိလာနဿ ဓမ္မံ ဒေသေဿာမီတိ သိက္ခာ ကရဏီယာ။ န ဆမာယံ နိသီဒိတွာ အာသနေ နိသိန္နဿ အဂိလာနဿ ဓမ္မံ ဒေသေဿာမီတိ သိက္ခာ ကရဏီယာ။ န နီစေ အာသနေ နိသီဒိတွာ ဥစ္စေ အာသနေနိသိန္နဿ အဂိလာနဿ ဓမ္မံ ဒေသေဿာမီတိ သိက္ခာ ကရဏီယာ။ န ဌိတော နိသိန္နဿ အဂိလာနဿ ဓမ္မံ ဒေသေဿာမီတိ သိက္ခာ ကရဏီယာ။ န ဌိတော အဂိလာနော ဥစ္စာရံ ဝါ ပဿာဝံ ဝါ ကရိဿာမီတိ သိက္ခာ ကရဏီယာ။ န ဟရိတေ အဂိလာနော ဥစ္စာရံ ဝါ ပဿာဝံ ဝါ ခေဠံ ဝါ ကရိဿာမီတိ သိက္ခာ ကရဏီယာ။ န ဥဒကေ အဂိလာနော ဥစ္စာရံ ဝါ ပဿာဝံ ဝါ ခေဠံ ဝါ ကရဿာမီတိ သိက္ခာ ကရဏီယာ။
As of now, I am leaving them as is.
No comments:
Post a Comment