Friday, April 19, 2019

မွတ္က်ာက္ျရွည္ခံ_။ - 1


The title of this post is nothing other than the sentence-ending “syllable” in Myanmar language connected by an underscore character to the character representing the end of sentence. The dash and numeral 1 following them says that this sentence-ending occurs only once in my sample corpus. I have reported in my last post how this undecipherable sentence ending and other strange or illogical ones came about. To get insight into this I may need to look at the complete text of sentences with problematic sentence-ending syllables. To do so I will need to trace back to where this “syllable” comes from, and ultimately to the soure Myanmar Wikipedia article if applicable.

Quest for the unreadable sentence ending

df.stfA is the data frame of sentence ending with the lowest frequencies and as noted in my last post and it is the 44th element. I used kwic() to find the index of it location in that data frame.
nr <- row.names(df.stfA)[44]
kwic(xx,nr)
<fctr>
[text566, 112]
If you would recall, xs is the sample of 10,000 lines drawn from textMyNbl.s1 vector.
cat(xs[566])
များစွာသောဘူတာ၌ရထားစနစ်ရှိသည်။အဘို့ခွင့်ပြုပါခရီးသည်အဝင်ထံမှမျိုးစုံနေရာများမှာလမ်းဆုံများနှင့်ဆက်လက်ဆောင်ရွက်ဖို့မှန်ကန်သောပလက်ဖောင်းဖို့မလိုဘဲဖြတ်ကူးလမ္းမဝင်ခင်။အတွင်းကြသည်ခထိန်းချုပ်ရေးသမ်ား၊ခရီးရောက်ပေးဆပ်သူတို့၏ဒုက္ခကိုအောက်ရထားစနစ်။အတွက်အများအပြားအဟောင်းတွေ၊အခထိန်းချုပ်မှုဧရိယာမှာပလက်ဖောင်းနှင့်အတူအဆင့်အမွတ္က်ာက္ျရွည္ခံ။အပြားတိုးမြှင့်ဘူတာရုံလည်းရှိသည်ပလက်ဖောင်းအဆင့်အခထိန်းချုပ်မှုမရှိနှင့်အတူဘုံဘူတာအိမ်ကြားလမ်းညွန်ဝန်ဆောင်မှု၏။
Now, you can look for the paragraph beginning with the first sentence above.
grep("^များစွာသောဘူတာ၌ရထားစနစ်ရှိသည်။",textMyNbl.s1)
[1] 78953
cat(textMyNbl.s1[78953])
များစွာသောဘူတာ၌ရထားစနစ်ရှိသည်။အဘို့ခွင့်ပြုပါခရီးသည်အဝင်ထံမှမျိုးစုံနေရာများမှာလမ်းဆုံများနှင့်ဆက်လက်ဆောင်ရွက်ဖို့မှန်ကန်သောပလက်ဖောင်းဖို့မလိုဘဲဖြတ်ကူးလမ္းမဝင်ခင်။အတွင်းကြသည်ခထိန်းချုပ်ရေးသမ်ား၊ခရီးရောက်ပေးဆပ်သူတို့၏ဒုက္ခကိုအောက်ရထားစနစ်။အတွက်အများအပြားအဟောင်းတွေ၊အခထိန်းချုပ်မှုဧရိယာမှာပလက်ဖောင်းနှင့်အတူအဆင့်အမွတ္က်ာက္ျရွည္ခံ။အပြားတိုးမြှင့်ဘူတာရုံလည်းရှိသည်ပလက်ဖောင်းအဆင့်အခထိန်းချုပ်မှုမရှိနှင့်အတူဘုံဘူတာအိမ်ကြားလမ်းညွန်ဝန်ဆောင်မှု၏။
Since the closet text to the XML Myanmar Wikipedia dump file is the “myPageArticles-rawCorpus.txt” file which I had placed in the public domain, we’ll look at its source object textMyNbl.
grep("များစွာသောဘူတာ၌",textMyNbl)
[1] 1206302
Now that we have identified the line number, we open “myPageArticles-rawCorpus.txt” in Notepad++ and go to that line:

In the four screen shots shown above, the second one from top contains the text we are looking for highlighted in blue. Incidentally, line 1206245 possibly seems to be the title of the article which our text belongs to. So we search for that article on the Myanmar Wikipedia site.

Got it!


I found the piece of text I searched for, and also to my astonishment (and relief) came to know that the whole article has been created by machine translation! Now it explains everything why the Myanmar-sar here looks so strange. For the Wikipedia people it is a showcase of genuine “crowdsourcing”. Yet for an NLP dabbler like me, it is my sole responsibility to avoid such pitfalls. Then I was lucky.
Now that I’ve seen this, I have no alternative, but to delete the whole article from my raw corpus. Then, I’ll need to make necessary modifications in the subsequent steps of the related exercises also.

No comments:

Post a Comment