Machine Learning and Zawgyi

ဇော်ဂျီဟာ AI က မသိဘူး။ ဇော်ဂျီ နဲ့ ရေးထားရင် AI တွေက နားမလည်ဘူး စတာတွေကို လူတွေ ပြောနေကြတာကို တွေ့မိတယ်။ အဓိက ပြောနေသည် သူတွေ အကုန်လုံးက AI ဆိုတာ ဘာလဲ မသိသည့် သူတွေ ပဲ။ AI ဆိုရင် Terminator ကားထဲကလို စက်ရုပ်တွေ လို့ပဲ ထင်နေသည့် သူတွေက အများသားပဲ။ နောက်ပြီး တချို့ပညာရှင်တွေက AI သုံးလာမှာ ကို ကြောက်ကြတယ်ဆိုတာက Terminator ထဲကလို ဖြစ်လာမှာ ကြောက်တာထက် ပေါက်ကရ data ဝင်သွားရင် ပေါက်ကရတွေ ဖြစ်ကုန်မှာ။ အကောင်းဆုံး ဥပမာ အနေနဲ့ Microsoft ရဲ့ AI twitter bot ဖြစ်သည့် Tay က အကောင်းဆုံး ဥပမာပဲ။ Tay က တစ်ရက်တည်း နဲ့ ဟစ်တလာက ဂျူးတွေကို သတ်ပစ်တာကို ထောက်ခံသည့် သူတွေ ဖြစ်သွားတယ်။

Twitter taught Microsoft’s AI chatbot to be a racist asshole in less than a day

AI မှာက အဓိက က data ပဲ။ Data က အရေးကြီးတယ်။ ကျွန်တော်တို့ လူတွေလိုမျိုး ကိုယ့်ပတ်ဝန်းကျင် က အရေးပါတယ်။ ပတ်ဝန်းကျင်ပေါ်မှာ လိုက်ပြီး လူတွေက ပြောင်းလဲ တတ်သလို AI က လည်း Data ပေါ်မှာ အပြည့်အဝ မှီခို နေရပါတယ်။

AI အကြောင်းထက် လူတွေပြောနေသည့် ဇော်ဂျီ နဲ့ပတ်သက်သည့် Machine Learning ကို ပြောချင်တယ်။ AI က အကြမ်းအားဖြင့် လူတွေလို ပြုမူဆောင်ရွက်နိုင်ရင် AI လို့ ဆိုနိုင်တယ်။ Game တွေမှာ အစောကတည်းက ပါပြီး သွားတွေပါ။ သို့ပေမယ့် If condition ပေါင်းများစွာ ရေးထားတာလည်း ဖြစ်နိုင်တယ်။ Siri လိုမျိုး AI မှာတောင် Intent ဆွဲထုတ်ပြီး if နဲ့ ဆက်ပြီး ရေးရမှာပဲ။ If conditoin ပေါင်းများစွာ နဲ့ AI ဖြစ်ပါတယ်ဆိုသည့် concept လေးကို ဖန်တီးနိုင်တယ်။


အခု နောက်ပိုင်းမှာ machine learning , deep learning တွေကို အသုံးပြုလာပြီ။ AI က ပိုပြီးတော့ ကောင်းလာတယ်။ တိကျလာတယ်။ Data ပဲလိုတော့တယ်ဆိုသည့် ခေတ်ဖြစ်နေပြီ။ ဘာသာပြန်ဖို့ system လုပ်ချင်ရင် Google , Facebook လိုမျိုး company တွေက English စာတကြောင်း ဘာသာပြန်တစ်ကြောင်း နဲ့ အဲလိုမျိုး စာကြောင်း ၁ သန်းလောက် ရရင် အလိုလို ဘာသာပြန်စနစ် တစ်ခု ဖြစ်အောင် ဖန်တီးလို့ ရသည့် ခေတ်ပါ။ ဒါပေမယ့် စာကြောင်းရေ ၁ သန်း က ဘာသာပြန်တာ မှန် ဖို့လိုတယ်။ စာကြောင်းရေ နည်းနေသည့် အခါ စာကြောင်းတွေကို ပေါကရ ဝင်ပြန်ထားသည့် အခါမှာ အခု Google Translate လိုမျိုးတွေ ဖြစ်ကုန်တယ်။ Data မှန်ပြီး Data များများ ရဖို့သာ လိုတယ်။

Data များများ ရဖို့ ဆိုသည့် အခါမှာ မြန်မာစာ အတွက်က ဇော်ဂျီ လား Unicode လား စစ်စ်ထုတ်နေရတယ်။ စစ်ထုတ်ပြီး convert ပြန်လုပ်နေသည့် အဆင့်လို ထင်တယ်။ အကုန်လုံးကသာ unicode ကို သုံးရင် မလိုအပ်သည့် တဆင့် ဖြုတ်လိုက်လို့ရပြီ။

အခု အချိန်မှာ Data ကောက်ပြီး Train နေသည့် သူတွေ အကုန်လုံးက ဇော်ဂျီ ပဲ လာလာ Unicode ပဲ လာလာ Data ရအောင် အကုန်ယူမှာပဲ။ ဇော်ဂျီလာ unicode လားကို အလွယ်တကူ သိနိုင်တယ်။ Google ကတောင် Myanmar Tool ဆိုပြီး ထုတ်ပေးထားတယ်။ စာတွေကို Machine Learning နဲ့ train ပြီးတော့ Zawgyi လား Unicode လား ခွဲထုတ်ထားတယ်။ တကယ်လို့ ဇော်ဂျီ သာ ဖြစ်ရင် Unicode ပြောင်းလိုက်ရုံပဲ။

အခု ဇော်ဂျီ နဲ့ ရိုက်နေသည့် စာတွေ အကုန်လုံးကို facebook ကော google ကောက စာဟာ ဇော်ဂျီ နဲ့ ရိုက်ထားတာလား unicode နဲ့ရိုက်ထားတာလား အလွယ်တကူ ခွဲနိုင်တယ်။ ကျွန်တော်တို့တွေတောင် regular expression နဲ့ ခွဲထုတ် နိုင်သေးတာပဲ။ Facebook , Google တို့ အတွက်ကတော့ အလွယ်လေးပါ။ ပြီးရင် ဇော်ဂျီ ဆို Unicode ပြောင်းပြီး သူဘာပြောနေလဲ ဆိုတာကို ဆွဲထုတ်လိုက်ဖို့ က မခက်ပါဘူး။

ဒါကြောင့် ဇော်ဂျီ နဲ့ ရေးထားရင် AI က မသိဘူး။ ဇော်ဂျီ နဲ့ AI တွေ Machine Learning တွေ လုပ်မရဘူး ဆိုတာကတော့ မဟုတ်ဘူး။ Data တွေ Train သည့် အခါမှာလည်း ဇော်ဂျီ တွေ အကုန် unicode ပြောင်းပြီး Train ထားတာပဲ။ Data တွေက ဇော်ဂျီ ဖြစ်ဖြစ် unicode ဖြစ်ဖြစ် အကုန်လုံးကို Unicode ပြောင်းပြီး Train လို့ရတယ်။ ဇော်ဂျီ လား unicode လား အရေးမကြီးဘူး။ ဇော်ဂျီကနေ unicode က ML အနေနဲ့ normalize လုပ်တယ်။ data clean လုပ်တယ် ဆိုသည့် အဆင့်မှာပဲ ရှိပါတယ်။ Unicode data တွေလည်း clean လုပ်ရတာပဲ။ စာလုံးပေါင်းမှားနေတာ လ + ံ + ု + း နဲ့ လ + ု + ံ + း ရိုက်ထားတာတွေ ပြန်ညှိရတာ မ + ယ + ် + ့ နဲ့ မ + ယ + ့ + ် တွေကို ပြန်ပြီး ညှိရသည့် normalization တွေ လုပ်ရတာပဲ။ နည်းတာနဲ့ များတာပဲ ကွာတယ်။

နောက်ကွယ် core engine ကတော့ unicode နဲ့ အလုပ်လုပ်ပြီး သူက ဇော်ဂျီ ဆိုရင် unicode ပြောင်း ထွက်လာသည့် result ကို ဇော်ဂျီ ပြောင်းပြဆိုပြီး ကျွန်တော်တို့တွေ လုပ်ထားသည့် project တွေ လည်း ရှိပါတယ်။

ဒါကြောင့် ဇော်ဂျီ နဲ့ ရေး ရေး Unicode နဲ့ ရေးရေး Facebook က သိတယ်။ Google က သိတယ်။


Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Up Next:

Change to Unicode Again

Change to Unicode Again