Monday, May 27, 2019

Cycle2: Fixing the sentence endings


By now you would have wondered: what’s this guy up to? With his never-ending, adhoc, cleanups?
I need not answer. Because that’s the only way I know how to, as you would easily have guessed! The truth is that I split the sentences into syllables and analyze the sentence endings.Then the top 50 list of sentence ending showed that I still have problems.
To see the problematic sentences, I search for sentence ending that were not Myanmar characters, and those that are numerals in Myanmar characters.
load("x10kSen4_x10kSyll.rda")
cat(x10k_itN_sen.4[grep("[^\u1000-\u104f]\u104b",x10k_itN_sen.4)][1:5])
အပြုသဘောစိတ်ကောင်းနှင့်ယှဉ်ပြီးနေ တတ်သော အလေ့အကျင့်(တူဒေး)။ လျောက်ပတ်သားနား၊ကွန့်ကွန့်လျားသော ၊ပါးတော်မြတ်နှစ်သွယ် ……………..။ ထို့ကြောင့် အိုဇုန်းကို ဓာတုဗေဒအရ မော်လီကျူး ဖွဲ့စည်းပုံ ဓာတုသင်္ကေတမှာ (O။ သခင်သန်းထွန်း၏နောက်ဆုံးနေ့များ (ပထမတွဲ စာမျက်နှာ ၇၊ ၈)။ ထို့ပြင် ဤအဘိဓာန်ကို လေ့လာခြင်းဖြင့် မြန်မာ စာသင်သားတို့အား အင်္ဂလိပ် ဘာသာစကား ကွျမ်းကျင်မှု ပေးနိုင် သကဲ့သို့ နိုင်ငံခြားသားများ အတွက်လည်း မြန်မာဘာသာ စကား ကွျမ်းကျင်မှုတွင် အကူအညီ ပေးနိုင် ပါလိမ့်မည်"။
cat(x10k_itN_sen.4[grep("[\u1040-\u1049]\u104b",x10k_itN_sen.4)][1:5])
၁၉၄၁ ခုနှစ် စာရင်းဇယားအမျိုးအစား တန်ချိန် ကျပ်ငွေတန်ဖိုး၁။ ပြည်ခရိုင်(၁)    ဗိုလ်ငြိမ်း (ခရိုင်စစ်ရေးတာဝန်ခံ)(၂)    ရဲဘော်ရွှေ (ခရိုင်ကော်မတီ)(၃)   ရဲဘော်ချစ်စရာ (သဲကုန်းမြို့နယ် ပါတီအတွင်းရေးမှူး)   ၅။ မင်္ဂလာမောင်မယ်ရုပ်စုံ၊ တွဲ ၁၃၊ မှတ် ၁ (ဇန် ၂၀၀၁) စာ ၁။ လမင်းထွန်း                          ဦးအောင်ဗိုလ်                     ၂-၇-၂၀၀၆                နောက်တန်း                    မကွေး၂၇။ လယ်၊ ယာ မြေ၏ အကျိုးအပြစ်သိသော အတတ်ဖြင့် ဟောခြင်း၊၁၂။
They don’t look like proper sentences. They seem to be notes or references. The best (easy) way to handle them will be to delete them from x100_itN_sen.4, my last QD-Corpus.
As far as I know, our sentences could have only “ပ” or “ရ” in addition to “၏” as ending and none of other consonants singly. Here I look for “ပ”. There was only one and it looks like a typographical error.
cat(x10k_itN_sen.4[grep("\u1015\u104b",x10k_itN_sen.4)])
ေနှာင်းပိုင်းကာလ၌ အခွန်ဝန်ရာထူးအေြပာင်းအလဲရှိခဲ့ေသာ်လည်း အမည်ကိုမူ မသိရေပ။
I searched Myanmar Wikipedia for this page and in the article entitled “အခွန်ဝန်” and I found the same မသိရေပ။ which should have been မသိရပေ။. Or is this a problem of my browser?
load("x100.rda")
length(x100_itN_sen.4)
[1] 309005
I am deleting sentences with non-Myanmar character ending, with Myanmar digits ending, with single character ending except for “ပ” or “ရ” or “၏”. First I identify how many “sentences” to be removed relating to Myanmar characters including Myanmar digits.
length(x100_itN_sen.4[grep("[\u1000-\u1014\u1016-\u101a\u101c-\u102a\u103f-\u1049\u104c-\u104e]\u104b",x100_itN_sen.4)])
[1] 1291
Additionally I have to remove sentence endings with non-Myanmar characters involved in these number of “sentences”.
length(x100_itN_sen.4[grep("[^\u1000-\u104f]\u104b", x100_itN_sen.4)])
[1] 1309
We delete sentences according to above plan and we now have 306,405 sentences left.
library(quanteda)
x100_itN_Sen.5 <- x100_itN_sen.4[-grep("[^\u1000-\u104f]\u104b",x100_itN_sen.4)] %>%
  .[-grep("[\u1000-\u1014\u1016-\u101a\u101c-\u102a\u103f-\u1049\u104c-\u104e]\u104b",.)]
length(x100_itN_Sen.5)
[1] 306405
We look at a random sample of 10 sentences. If you inspect more sentences, you are sure to find problems that need to be handled.
set.seed(52719)
samp <- sample(1:306405,10)
cat(x100_itN_Sen.5[samp])
တစ်နည်းဆိုရလျှင် မိမိတို့၏ လူမျိုး (သို့မဟုတ်) နယ်မြေအား ပိုင်ဆိုင်ခွင့်ရှိကြောင်း ပြသသည့် အမှတ်အသားဖြစ်သည် ဟုလည်းဆိုနိုင်ပါသည်။ ကိုဗဟုန်နှင့် ဦးသီလတို့အား နယ်နှင်သည့် အမိန့်စာကို မထုတ်ပြန်မီ နယ်နှင်ဒဏ် ပေးသည့် အမိန့်စာ မူကြမ်းကို ကြိုတင် ဖတ်ရသည့် လက်နှိပ်စက် စာရေး မစ္စတာ လားဇရိုးက ကိုဗဟုန်အား ကြိုတင် သတင်း ပေးခဲ့သည်။ ထို့ပြင် အငြင်းပွားမှုဖြစ်ပွားနေစဉ်အတွင်း အလုပ်မှ ရပ်စဲခံရသူ သို့မဟုတ် အလုပ်ထုတ်ခံရသူအလုပ်သမားလည်းပါဝင်သည်။ ခန့်မှန်းခြေ ကွာခြားချက် မှာ စလင်းမ် ( ဒေါ်လာ ၅၃.၁ ဘီလီလျှံ ) နှင့် ဘူးဖတ် ( ၅၂.၄ ဘီလီလျှံ) ဖြစ်သည်။ သုဇာတာအား မြှုပ်နှံထားသည့်နေရာတွင် စေတီတည်ရှိနေသည်ကို ပုံတွင် ပြထားသည့်အတိုင်း တွေ့မြင်နိုင်သည်။ ယူရေနီယမ်နှင့်သိုရီယမ်သတ္တုများကို အဏုမြူဓာတ် ပေါင်းဖိုများတွင် အဓိကလောင်စာအရင်းမြစ်အဖြစ်အသုံးပြုသည်။ ထိုအရောင်ပေါ်တွင် အတွင်းက ပေါ်လာသော အဖြူထက်ပင် ပဋိဘာဂနိမိတ်က အဆများစွာ သာလွန်၍ ဖြူချောနုနယ် ပြောင်လင်းသေး၏။ ထိုခေတ် လူတို့ နှစ်သက်လက်ခံသော ဝေါဟာရများကို ဦးစားပေး အသုံးပြုထားခြင်းပင် ဖြစ်သည်။ အစိုးရ အဖွဲ့အစည်းအတွက် ပြောရေးဆိုခွင့်ရှိသော အဖွဲ့များ၏ (ရဲ၊ ဘဏ္ဍာရေးဝန်ကြီးဌာန၊ အထူးရဲတပ်ဖွဲ့၊ စသည်ဖြင့်) အကြိုက်ကို လိုက်၍ ပိတ်ဆို့ထားသော ဝက်(ဘ်)ဆိုဒ်များ၏ မှတ်တမ်းကို ပြုစုရန် အဆိုပြုချက်များရှိသည်။ သူ၏တရားမကြောင်း စွဲဆိုမှုကို ရှန်ဟိုင်းရှိ ပူဒုန်တရားရုံးက လက်ခံခဲ့သည်။
I think, I have fixed most of the sentence ending problems. But note that we still need to deal with the problems I had touched earlier in my previous posts.

No comments:

Post a Comment