Crawl ဒီနေ့လုပ်လိုက်တာ result ရလာပြီ။ 1,080,000 result ထဲက 560 ကို crawl လုပ်ပြီး duplicate တွေ စစ်ထုတ်လိုက်တာ 416 site ရှိတယ်။ google ကလည်း result အားလုံးကို မထုတ်ပေးဘူးလေ။ result ပေါင်း 560 က ဂိတ်ဆုံးပဲ။ page rank မြင့်တဲ့ site တွေပဲ အရင်ထွက်တာပေါ့။ ကျွန်တော် သိတဲ့ အချို့ site တွေက 416 ခုထဲမှာ မပါလာတာကို တွေ့ရတယ်။ ဥပမာ။ ။ http://www.myatmon.com/ ၊ http://blog.calmhill.info/ ၊ http://mrdba.info/ စတာတွေ result ထဲမှာ မပါလာဘူး။ ဘာလို့ မပါတာလဲ။ page rank နိမ့်ရတာလဲဆိုတာကို သိချင်ရင်တော့ Beyond PageRank and Third Generation IR ကို သာ ဖတ်ကြည့်ပါ။ ကျွန်တော့် blog ပါတယ်။ www.htootayzar.com စတာတွေ ပါပါတယ်။ နောက်ပြီး sub path တွေ မပါဘူး။ duplicate တွေကို ဖယ်ထုတ်လိုက်တော့ group.ps/aaa စတာတွေ မပါတော့ဘူးပေါ့။
ဟုတ်ပြီ။ ဒါဆိုတော့ ဒီလိုပြန်တွက်ကြည့်မယ်…
560 = 416
1080000 = (1080000*416)/560 = 802285.714285714285714
ထပ်ပြီး တွက်ကြည့်ရအောင်
560 = 144 duplicate
802285 = 206301.857142857142857 duplicate
appro:
802285-206301= 595984
ဒါဆိုရင်တော့ မြန်မာစာ က အသုံးပြုတဲ့ site ၅ သိန်းကျော်ပဲ ရှိတယ်လို့ ဆိုပါတယ်။ အဲဒီအထဲမှာ duplicate ဖြစ်တယ်လို့ မှတ်ပြီး ၅ သိန်းကျော်လို့ ပဲ ယူလိုက်တာပါ။ ဒါကတော့ မှန်းခြေပါ။ သေချာတာကတော့ မြန်မာစာ site ၁၀ သိန်း မရှိသေးဘူး။ content တွေကသာ တော်တော်လေး များနေတယ်လို့ ဆိုရမယ်။
Leave a Reply