ဇော်ဂျီဟာ AI က မသိဘူး။ ဇော်ဂျီ နဲ့ ရေးထားရင် AI တွေက နားမလည်ဘူး စတာတွေကို လူတွေ ပြောနေကြတာကို တွေ့မိတယ်။ အဓိက ပြောနေသည် သူတွေ အကုန်လုံးက AI ဆိုတာ ဘာလဲ မသိသည့် သူတွေ ပဲ။ AI ဆိုရင် Terminator ကားထဲကလို စက်ရုပ်တွေ လို့ပဲ ထင်နေသည့် သူတွေက အများသားပဲ။ နောက်ပြီး တချို့ပညာရှင်တွေက AI သုံးလာမှာ ကို ကြောက်ကြတယ်ဆိုတာက Terminator ထဲကလို ဖြစ်လာမှာ ကြောက်တာထက် ပေါက်ကရ data ဝင်သွားရင် ပေါက်ကရတွေ ဖြစ်ကုန်မှာ။ အကောင်းဆုံး ဥပမာ အနေနဲ့ Microsoft ရဲ့ AI twitter bot ဖြစ်သည့် Tay က အကောင်းဆုံး ဥပမာပဲ။ Tay က တစ်ရက်တည်း နဲ့ ဟစ်တလာက ဂျူးတွေကို သတ်ပစ်တာကို ထောက်ခံသည့် သူတွေ ဖြစ်သွားတယ်။

Twitter taught Microsoft’s AI chatbot to be a racist asshole in less than a day

AI မှာက အဓိက က data ပဲ။ Data က အရေးကြီးတယ်။ ကျွန်တော်တို့ လူတွေလိုမျိုး ကိုယ့်ပတ်ဝန်းကျင် က အရေးပါတယ်။ ပတ်ဝန်းကျင်ပေါ်မှာ လိုက်ပြီး လူတွေက ပြောင်းလဲ တတ်သလို AI က လည်း Data ပေါ်မှာ အပြည့်အဝ မှီခို နေရပါတယ်။

AI အကြောင်းထက် လူတွေပြောနေသည့် ဇော်ဂျီ နဲ့ပတ်သက်သည့် Machine Learning ကို ပြောချင်တယ်။ AI က အကြမ်းအားဖြင့် လူတွေလို ပြုမူဆောင်ရွက်နိုင်ရင် AI လို့ ဆိုနိုင်တယ်။ Game တွေမှာ အစောကတည်းက ပါပြီး သွားတွေပါ။ သို့ပေမယ့် If condition ပေါင်းများစွာ ရေးထားတာလည်း ဖြစ်နိုင်တယ်။ Siri လိုမျိုး AI မှာတောင် Intent ဆွဲထုတ်ပြီး if နဲ့ ဆက်ပြီး ရေးရမှာပဲ။ If conditoin ပေါင်းများစွာ နဲ့ AI ဖြစ်ပါတယ်ဆိုသည့် concept လေးကို ဖန်တီးနိုင်တယ်။


အခု နောက်ပိုင်းမှာ machine learning , deep learning တွေကို အသုံးပြုလာပြီ။ AI က ပိုပြီးတော့ ကောင်းလာတယ်။ တိကျလာတယ်။ Data ပဲလိုတော့တယ်ဆိုသည့် ခေတ်ဖြစ်နေပြီ။ ဘာသာပြန်ဖို့ system လုပ်ချင်ရင် Google , Facebook လိုမျိုး company တွေက English စာတကြောင်း ဘာသာပြန်တစ်ကြောင်း နဲ့ အဲလိုမျိုး စာကြောင်း ၁ သန်းလောက် ရရင် အလိုလို ဘာသာပြန်စနစ် တစ်ခု ဖြစ်အောင် ဖန်တီးလို့ ရသည့် ခေတ်ပါ။ ဒါပေမယ့် စာကြောင်းရေ ၁ သန်း က ဘာသာပြန်တာ မှန် ဖို့လိုတယ်။ စာကြောင်းရေ နည်းနေသည့် အခါ စာကြောင်းတွေကို ပေါကရ ဝင်ပြန်ထားသည့် အခါမှာ အခု Google Translate လိုမျိုးတွေ ဖြစ်ကုန်တယ်။ Data မှန်ပြီး Data များများ ရဖို့သာ လိုတယ်။

Data များများ ရဖို့ ဆိုသည့် အခါမှာ မြန်မာစာ အတွက်က ဇော်ဂျီ လား Unicode လား စစ်စ်ထုတ်နေရတယ်။ စစ်ထုတ်ပြီး convert ပြန်လုပ်နေသည့် အဆင့်လို ထင်တယ်။ အကုန်လုံးကသာ unicode ကို သုံးရင် မလိုအပ်သည့် တဆင့် ဖြုတ်လိုက်လို့ရပြီ။

အခု အချိန်မှာ Data ကောက်ပြီး Train နေသည့် သူတွေ အကုန်လုံးက ဇော်ဂျီ ပဲ လာလာ Unicode ပဲ လာလာ Data ရအောင် အကုန်ယူမှာပဲ။ ဇော်ဂျီလာ unicode လားကို အလွယ်တကူ သိနိုင်တယ်။ Google ကတောင် Myanmar Tool ဆိုပြီး ထုတ်ပေးထားတယ်။ စာတွေကို Machine Learning နဲ့ train ပြီးတော့ Zawgyi လား Unicode လား ခွဲထုတ်ထားတယ်။ တကယ်လို့ ဇော်ဂျီ သာ ဖြစ်ရင် Unicode ပြောင်းလိုက်ရုံပဲ။

အခု ဇော်ဂျီ နဲ့ ရိုက်နေသည့် စာတွေ အကုန်လုံးကို facebook ကော google ကောက စာဟာ ဇော်ဂျီ နဲ့ ရိုက်ထားတာလား unicode နဲ့ရိုက်ထားတာလား အလွယ်တကူ ခွဲနိုင်တယ်။ ကျွန်တော်တို့တွေတောင် regular expression နဲ့ ခွဲထုတ် နိုင်သေးတာပဲ။ Facebook , Google တို့ အတွက်ကတော့ အလွယ်လေးပါ။ ပြီးရင် ဇော်ဂျီ ဆို Unicode ပြောင်းပြီး သူဘာပြောနေလဲ ဆိုတာကို ဆွဲထုတ်လိုက်ဖို့ က မခက်ပါဘူး။

ဒါကြောင့် ဇော်ဂျီ နဲ့ ရေးထားရင် AI က မသိဘူး။ ဇော်ဂျီ နဲ့ AI တွေ Machine Learning တွေ လုပ်မရဘူး ဆိုတာကတော့ မဟုတ်ဘူး။ Data တွေ Train သည့် အခါမှာလည်း ဇော်ဂျီ တွေ အကုန် unicode ပြောင်းပြီး Train ထားတာပဲ။ Data တွေက ဇော်ဂျီ ဖြစ်ဖြစ် unicode ဖြစ်ဖြစ် အကုန်လုံးကို Unicode ပြောင်းပြီး Train လို့ရတယ်။ ဇော်ဂျီ လား unicode လား အရေးမကြီးဘူး။ ဇော်ဂျီကနေ unicode က ML အနေနဲ့ normalize လုပ်တယ်။ data clean လုပ်တယ် ဆိုသည့် အဆင့်မှာပဲ ရှိပါတယ်။ Unicode data တွေလည်း clean လုပ်ရတာပဲ။ စာလုံးပေါင်းမှားနေတာ လ + ံ + ု + း နဲ့ လ + ု + ံ + း ရိုက်ထားတာတွေ ပြန်ညှိရတာ မ + ယ + ် + ့ နဲ့ မ + ယ + ့ + ် တွေကို ပြန်ပြီး ညှိရသည့် normalization တွေ လုပ်ရတာပဲ။ နည်းတာနဲ့ များတာပဲ ကွာတယ်။

နောက်ကွယ် core engine ကတော့ unicode နဲ့ အလုပ်လုပ်ပြီး သူက ဇော်ဂျီ ဆိုရင် unicode ပြောင်း ထွက်လာသည့် result ကို ဇော်ဂျီ ပြောင်းပြဆိုပြီး ကျွန်တော်တို့တွေ လုပ်ထားသည့် project တွေ လည်း ရှိပါတယ်။

ဒါကြောင့် ဇော်ဂျီ နဲ့ ရေး ရေး Unicode နဲ့ ရေးရေး Facebook က သိတယ်။ Google က သိတယ်။

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Discover more from Saturngod

Subscribe now to keep reading and get access to the full archive.

Continue reading