It must have been a piece of routine activity for XML and NLP gurus. But I was jubilant in being able to find and extract the Myanmar Wikipedia articles created by robots. No mean achievement for an old guy and a dummy, I thought. It won’t last long, however.
Recall that I have created my second quick and dirty corpus by, (i) removing the articles created by robots from the data in the Myanmar Wikipedia dump file, (ii) removed all non-Myanmar language characters and blank lines, (iii) split paragraphs into sentences, (iv) removed sentences shorter than 90 character in length. That has been reported in my last two posts. The end result is that I’ve got 250,291 sentences in the vector senP_nc90.
From that base, I’ve drawn a random sample of 25K sentences. Then I realize it is still too big to work on, and so I chose to do the syllable segmentation on just the first 10K sentences. Finishing that, I looked up the 9999th sentence before and after the syllable segmentation planning to show them in my next post.
set.seed(42519)
n <- length(senP_nc90)
senP_s25K <- senP_nc90[sample(1:n, 25000)]
cat(senP_s25K[9999])
ကမ်းယံလူမျိုးအာရှတိုက်အလယ်ပိုင်းတွင်နေထိုင်ကြသောမွန်ဂိုလူမျိုးတို့သည်မိမိတို့ဒေသ၌အစာရေစာရှားပါးသဖြင့်ရှေးနှစ်ပေါင်းများစွာကပင်တောင်ဖက်သို့တသုတ်ပြီးတသုတ်ပြောင်းရွှေ့လာကြရာမြန်မာနိုင်ငံသို့ရှေးဦးစွာဝင်လာသူများမှာမွန်ခမာလူမျိုးများဖြစ်၍ဒုတိယအသုတ်မှာတိဘက်မြန်မာလူမျိုးများဖြစ်ကြသည်။
cat(unlist(sen25K_syll[9999]))
ကမ်း ယံ လူ မျိုး အာ ရှ တိုက် အ လယ် ပိုင်း တွင် နေ ထိုင် ကြ သော မွန် ဂို လူ မျိုး တို့ သည် မိ မိ တို့ ဒေ သ ၌ အ စာ ရေ စာ ရှား ပါး သ ဖြင့် ရှေး နှစ် ပေါင်း များ စွာ က ပင် တောင် ဖက် သို့ တ သုတ် ပြီး တ သုတ် ပြောင်း ရွှေ့ လာ ကြ ရာ မြန် မာ နိုင် ငံ သို့ ရှေး ဦး စွာ ဝင် လာ သူ များ မှာ မွန် ခ မာ လူ မျိုး များ ဖြစ် ၍ ဒု တိ ယ အ သုတ် မှာ တိ ဘက် မြန် မာ လူ မျိုး များ ဖြစ် ကြ သည် ။
Looks fine. But wait! The first four syllables ကမ်းယံလူမျိုး seems to be the heading and not a part of the sentence in question. That’s my hiccup.
Then I retrieved the nodeset for the article with the title = “ကမ်းယံလူမျိုး”.
library(xml2)
xdoc <- read_xml("mywiki-20190201-pages-articles.xml", encoding = "UTF-8")
xml_ns(xdoc)
d1 <-> http://www.mediawiki.org/xml/export-0.10/
xsi <-> http://www.w3.org/2001/XMLSchema-instance
kns <- xml_find_all(xdoc, "//d1:page[./d1:title = 'ကမ်းယံလူမျိုး']/d1:revision/d1:text")
cat(xml_text(kns))
==ကမ်းယံလူမျိုး==
အာရှတိုက် အလယ်ပိုင်းတွင် နေထိုင်ကြ သော မွန်ဂိုလူမျိုးတို့သည် မိမိတို့ဒေသ၌ အစာရေစာ ရှားပါး သဖြင့် ရှေးနှစ်ပေါင်းများစွာကပင် တောင်ဖက်သို့ တသုတ်ပြီး
တသုတ် ပြောင်းရွှေ့လာကြရာ မြန်မာနိုင်ငံသို့ ရှေးဦးစွာ ဝင်လာသူများမှာ [[မွန်ခမာ]]လူမျိုးများဖြစ်၍ ဒုတိယအသုတ်မှာ တိဘက်မြန်မာလူမျိုးများ ဖြစ်ကြသည်။
သူတို့သည် အရှေ့ဖက်လမ်း၊ အနောက်ဖက်လမ်းဟူ၍ လမ်းနှစ်သွယ်ဖြင့် ဝင်ရောက်လာကြသည်။ အရှေ့ဖက်လမ်းဖြင့် ဝင်ရောက်လာသူသည် မဲခေါင်မြစ်ကြောင်း၊ သံလွင်မြစ်ကြောင်း
တို့ဖြင့် ဝင်ရောက်လာကြသည်။ အနောက်ဖက်လမ်းဖြင့် ဝင်ရောက်လာသူတို့အနက် အချို့မှာ ဒီဟောင်းခေါ် ဗြဟ္မပုတ္တရမြစ်ဝှမ်းအတိုင်း ဆင်းလာကြပြီးလျှင် အာသံနယ်၌ မြို့ပြ
တည်ထောင်နေထိုင်ကြသည်။ အချို့မှာ ဧရာဝတီမြစ်ကြောင်း၊ ချင်းတွင်းမြစ်ကြောင်းတို့ဖြင့် ဝင်ရောက်လာကြသည်။ ဤသို့ဖြင့် သူတို့သည် ဗြဟ္မပုတ္တရမြစ်နှင့် ဧရာဝတီမြစ်များအကြားရှိ
ရေဝေကုန်းတန်းကြီးတွင် မှီတင်းနေထိုင်လာကြရာ နောင်ကာလ ကြာမြင့်သော် တောင်ဘက်သို့ ပြန့်နှံ့လျက် နေထိုင်ကြလေသည်။
တိဘက်မြန်မာတို့သည် မြန်မာနိုင်ငံတွင်းသို့ ရောက်လာ သောအခါ ပျူ၊ ကမ်းယံ၊ သက်ဟူ၍ အမျိုးသုံးစား ကွဲပြားခဲ့ သည်။ ဧရာဝတီမြစ်ကမ်းတလျှောက်တွင် ပျူတို့မြို့ပြ တည်
ထောင်နေထိုင်ကြသည်။ အနောက်ရိုးမတစ်လျှောက်ဖြစ်သော တောင်ကုန်းဒေသများတွင် နေထိုင်သူများကို သက်ဟု ခေါ်တွင်သည်။ အနောက်ရိုးမ၏ တောင်ဘက်စွန်းဖြစ်သော
ရခိုင်ရိုးမနှင့် ဘင်္ဂလားအော်အကြားရှိ ပင်လယ်ကမ်းခြေ အရပ် ဒေသတွင် နေထိုင်ကြသူများကို ကမ်းယံဟု ခေါ်ကြသည်။ ကာလကြာမြင့်သော် ပျူတို့သည် ကွယ်ပျောက်၍ မြန်မာအစု
တွင် ပါဝင်လာကြသည်ဟု ဆိုသည်။ သက်နှင့် ကမ်းယံ များကိုမူ ချင်း၊ ရခိုင်အစုများတွင် ထည့်သွင်းရေတွက်ကြ လေသည်။
ကမ်းယံတို့ မှီတင်းနေထိုင်ရာဒေသမှာ သံတွဲမှစ၍ တောင်စဉ်ခုနစ်ခရိုင်ဖြစ်ကြောင်း၊ သရေခေတ္တရာတွင် ပျူတို့ ကောင်းစားစဉ် ရခိုင်ပြည်တောင်ပိုင်းတွင် ကမ်းယံတို့ရှိခဲ့ကြောင်း
ယင်းတို့မှာ ဗုဒ္ဓဝါဒီများဖြစ်ကြောင်း သိရသည်။<ref>မြန်မာ့စွယ်စုံကျမ်း၊ အတွဲ(၁)</ref>
== ကိုးကား ==
<references/>
{{မြန်မာပြည် လူမျိုးများ}}
[[Category:မြန်မာနိုင်ငံလူမျိုးများ]]
We look at the characters of the retrieved nodeset, we can see the line break characters “\n” below:
We now have an explanation for the problem. When we remove all the non-Myanmar Unicode characters, we also happened to remove the line break characters and that is good, because we get the whole sentences. On the other hand, the title in the article becomes part of the first sentence!
Having seen that, the formula for getting it right seems simple: for each of the nodesets (body text of articles) retrieved, isolate the first line and delete it! May be you have a better idea?