Machine Learning and Zawgyi

ဇော်ဂျီဟာ AI က မသိဘူး။ ဇော်ဂျီ နဲ့ ရေးထားရင် AI တွေက နားမလည်ဘူး စတာတွေကို လူတွေ ပြောနေကြတာကို တွေ့မိတယ်။ အဓိက ပြောနေသည် သူတွေ အကုန်လုံးက AI ဆိုတာ ဘာလဲ မသိသည့် သူတွေ ပဲ။ AI ဆိုရင် Terminator ကားထဲကလို စက်ရုပ်တွေ လို့ပဲ ထင်နေသည့် သူတွေက အများသားပဲ။ နောက်ပြီး တချို့ပညာရှင်တွေက AI သုံးလာမှာ ကို ကြောက်ကြတယ်ဆိုတာက Terminator ထဲကလို ဖြစ်လာမှာ ကြောက်တာထက် ပေါက်ကရ data ဝင်သွားရင် ပေါက်ကရတွေ ဖြစ်ကုန်မှာ။ အကောင်းဆုံး ဥပမာ အနေနဲ့ Microsoft ရဲ့ AI twitter bot ဖြစ်သည့် Tay က အကောင်းဆုံး ဥပမာပဲ။ Tay က တစ်ရက်တည်း နဲ့ ဟစ်တလာက ဂျူးတွေကို သတ်ပစ်တာကို ထောက်ခံသည့် သူတွေ ဖြစ်သွားတယ်။

Twitter taught Microsoft’s AI chatbot to be a racist asshole in less than a day

AI မှာက အဓိက က data ပဲ။ Data က အရေးကြီးတယ်။ ကျွန်တော်တို့ လူတွေလိုမျိုး ကိုယ့်ပတ်ဝန်းကျင် က အရေးပါတယ်။ ပတ်ဝန်းကျင်ပေါ်မှာ လိုက်ပြီး လူတွေက ပြောင်းလဲ တတ်သလို AI က လည်း Data ပေါ်မှာ အပြည့်အဝ မှီခို နေရပါတယ်။

AI အကြောင်းထက် လူတွေပြောနေသည့် ဇော်ဂျီ နဲ့ပတ်သက်သည့် Machine Learning ကို ပြောချင်တယ်။ AI က အကြမ်းအားဖြင့် လူတွေလို ပြုမူဆောင်ရွက်နိုင်ရင် AI လို့ ဆိုနိုင်တယ်။ Game တွေမှာ အစောကတည်းက ပါပြီး သွားတွေပါ။ သို့ပေမယ့် If condition ပေါင်းများစွာ ရေးထားတာလည်း ဖြစ်နိုင်တယ်။ Siri လိုမျိုး AI မှာတောင် Intent ဆွဲထုတ်ပြီး if နဲ့ ဆက်ပြီး ရေးရမှာပဲ။ If conditoin ပေါင်းများစွာ နဲ့ AI ဖြစ်ပါတယ်ဆိုသည့် concept လေးကို ဖန်တီးနိုင်တယ်။


အခု နောက်ပိုင်းမှာ machine learning , deep learning တွေကို အသုံးပြုလာပြီ။ AI က ပိုပြီးတော့ ကောင်းလာတယ်။ တိကျလာတယ်။ Data ပဲလိုတော့တယ်ဆိုသည့် ခေတ်ဖြစ်နေပြီ။ ဘာသာပြန်ဖို့ system လုပ်ချင်ရင် Google , Facebook လိုမျိုး company တွေက English စာတကြောင်း ဘာသာပြန်တစ်ကြောင်း နဲ့ အဲလိုမျိုး စာကြောင်း ၁ သန်းလောက် ရရင် အလိုလို ဘာသာပြန်စနစ် တစ်ခု ဖြစ်အောင် ဖန်တီးလို့ ရသည့် ခေတ်ပါ။ ဒါပေမယ့် စာကြောင်းရေ ၁ သန်း က ဘာသာပြန်တာ မှန် ဖို့လိုတယ်။ စာကြောင်းရေ နည်းနေသည့် အခါ စာကြောင်းတွေကို ပေါကရ ဝင်ပြန်ထားသည့် အခါမှာ အခု Google Translate လိုမျိုးတွေ ဖြစ်ကုန်တယ်။ Data မှန်ပြီး Data များများ ရဖို့သာ လိုတယ်။

Data များများ ရဖို့ ဆိုသည့် အခါမှာ မြန်မာစာ အတွက်က ဇော်ဂျီ လား Unicode လား စစ်စ်ထုတ်နေရတယ်။ စစ်ထုတ်ပြီး convert ပြန်လုပ်နေသည့် အဆင့်လို ထင်တယ်။ အကုန်လုံးကသာ unicode ကို သုံးရင် မလိုအပ်သည့် တဆင့် ဖြုတ်လိုက်လို့ရပြီ။

အခု အချိန်မှာ Data ကောက်ပြီး Train နေသည့် သူတွေ အကုန်လုံးက ဇော်ဂျီ ပဲ လာလာ Unicode ပဲ လာလာ Data ရအောင် အကုန်ယူမှာပဲ။ ဇော်ဂျီလာ unicode လားကို အလွယ်တကူ သိနိုင်တယ်။ Google ကတောင် Myanmar Tool ဆိုပြီး ထုတ်ပေးထားတယ်။ စာတွေကို Machine Learning နဲ့ train ပြီးတော့ Zawgyi လား Unicode လား ခွဲထုတ်ထားတယ်။ တကယ်လို့ ဇော်ဂျီ သာ ဖြစ်ရင် Unicode ပြောင်းလိုက်ရုံပဲ။

အခု ဇော်ဂျီ နဲ့ ရိုက်နေသည့် စာတွေ အကုန်လုံးကို facebook ကော google ကောက စာဟာ ဇော်ဂျီ နဲ့ ရိုက်ထားတာလား unicode နဲ့ရိုက်ထားတာလား အလွယ်တကူ ခွဲနိုင်တယ်။ ကျွန်တော်တို့တွေတောင် regular expression နဲ့ ခွဲထုတ် နိုင်သေးတာပဲ။ Facebook , Google တို့ အတွက်ကတော့ အလွယ်လေးပါ။ ပြီးရင် ဇော်ဂျီ ဆို Unicode ပြောင်းပြီး သူဘာပြောနေလဲ ဆိုတာကို ဆွဲထုတ်လိုက်ဖို့ က မခက်ပါဘူး။

ဒါကြောင့် ဇော်ဂျီ နဲ့ ရေးထားရင် AI က မသိဘူး။ ဇော်ဂျီ နဲ့ AI တွေ Machine Learning တွေ လုပ်မရဘူး ဆိုတာကတော့ မဟုတ်ဘူး။ Data တွေ Train သည့် အခါမှာလည်း ဇော်ဂျီ တွေ အကုန် unicode ပြောင်းပြီး Train ထားတာပဲ။ Data တွေက ဇော်ဂျီ ဖြစ်ဖြစ် unicode ဖြစ်ဖြစ် အကုန်လုံးကို Unicode ပြောင်းပြီး Train လို့ရတယ်။ ဇော်ဂျီ လား unicode လား အရေးမကြီးဘူး။ ဇော်ဂျီကနေ unicode က ML အနေနဲ့ normalize လုပ်တယ်။ data clean လုပ်တယ် ဆိုသည့် အဆင့်မှာပဲ ရှိပါတယ်။ Unicode data တွေလည်း clean လုပ်ရတာပဲ။ စာလုံးပေါင်းမှားနေတာ လ + ံ + ု + း နဲ့ လ + ု + ံ + း ရိုက်ထားတာတွေ ပြန်ညှိရတာ မ + ယ + ် + ့ နဲ့ မ + ယ + ့ + ် တွေကို ပြန်ပြီး ညှိရသည့် normalization တွေ လုပ်ရတာပဲ။ နည်းတာနဲ့ များတာပဲ ကွာတယ်။

နောက်ကွယ် core engine ကတော့ unicode နဲ့ အလုပ်လုပ်ပြီး သူက ဇော်ဂျီ ဆိုရင် unicode ပြောင်း ထွက်လာသည့် result ကို ဇော်ဂျီ ပြောင်းပြဆိုပြီး ကျွန်တော်တို့တွေ လုပ်ထားသည့် project တွေ လည်း ရှိပါတယ်။

ဒါကြောင့် ဇော်ဂျီ နဲ့ ရေး ရေး Unicode နဲ့ ရေးရေး Facebook က သိတယ်။ Google က သိတယ်။

Leave a Comment

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.