Skip to content

Posts tagged ‘statistics’

ทำไม Google Translate จึงแปลคำว่า “พันตำรวจโท” เป็น Thaksin Shinawatra


กลายเป็นที่ฮือฮากันทีเดียวสำหรับผู้ใช้อินเตอร์เน็ตของไทย โดยเฉพาะในวงการสังคมออนไลน์อย่าง Facebook และ Twitter ที่มีการส่งต่อข้อมูลการแปลของ Google Translate ในประโยคว่า

พันตำรวจโทที่(…คำที่มีความหมายเชิงลบต่างๆ…)ที่สุด”

ซึ่ง Google Translate ก็จะแปลเป็นว่า

Thaksin Shinawatra is the worst … (คำแปลภาษาอังกฤษของคำที่มีความหมายเชิงลบนั้น)

เรื่องนี้หากเรามองในแง่ดีว่าไม่น่าจะมีใครที่จะสามารถไปจ้างให้ Google แปลคำผิด (ในเชิงความหมายทางตรง) ได้หนาดนี้ คำอธิบายหนึ่งสำหรับเรื่องนี้คือระบบการแปลของ Google Translate

หากใครที่ได้ติดตาม website นี้ก็จะพบว่า ใน post เรื่อง สถิติ 101 – The Joy of Stats ที่ผมเคยเขียนแนะนำสารคดีที่เกี่ยวกับบทบาทของสถิติในชีวิตประจำวันของเรา ก้จะพบว่าจริงๆ แล้ว Google ใช้วิธีสร้าง เครื่องจักรการแปลโดยสถิติ ที่เรียกว่า “statistical machine translation” ซึ่งผมคิดว่าน่าจะคล้ายๆ ระบบของ Neural Network มาเรียนรู้ระบบความสำพันธ์ของแต่ะภาษา โดยจะให้ระะบบประสาทจำลองนี้ได้อ่านเนื้อหาข้อมูลที่มีการแปลมาแล้วจาก website และเอกสาร online ทั่วโลก เช่น UN และเรียนรู้คำที่มักจะมาพร้อมกัน เมื่อได้อ่านมากๆ ก็จะสามารถจับคำหรือประโยคที่น่าจะมีความหมายใกล้เคียงกันได้ ดังนั้นทีมงานที่เขียนระบบนี้ก้ไม่จำเป็นที่จะต้องรู้เรื่องหลักภาษาที่จะต้องแปลเลย ทั้งหมดมาจาก สถิติ ล้วนๆ เพราะฉะนั้นหลายๆ ครั้งเวลาที่เราใช้บริการ Google Translate ก็มักจะเจอกับคำแปลที่คลาดเคลื่อนบ้าง

ดังนี้สาเหตุหนึ่งอาจเป็นเพราะว่าเอกสารและข่าวจำนวนมากที่กล่าวถึง พันตำรวจโท… ก็มักจะหมายถึง Thanksin Shinawatra ไปโดยปริยาย อย่างไรก็ตามทาง Google ก็ได้เปลี่ยนคำแปลเป็น Police Lieutenant ไปเรียบร้อยแล้ว

นิทานเรื่องนี้สอนให้รู้ว่า…
ที่ใดมีสถิติ ที่นั่นย่อมมีความคลาดเคลื่อน
ดังนั้นจงในงานวิจัยของผมจึงมีการศึกษาเชิงคุณภาพ หลังจากได้ผลการวิเคราะห์ทางสถิติแล้วเสมอ

สถิติ 101 – The Joy of Stats


วันนี้มีสารคดีดีๆ มาแนะนำครับ

The Joy of Stats เป็นสารคดีที่จัดทำโดย BBC ที่นำเสนอเรื่องราวของสถิติที่มีผลต่อชีวิตประจำวันทั้งทางสังคมและเศรษฐกิจโดยเน้นการนำเสนอที่น่าสนใจ คล้ายๆ กับที่ผมได้ไปฟังที่สำนักงานสถิติที่ New Port แต่ที่น่าสนใจและน่าแปลกใจก็คือการที่ได้ทราบว่า Google Translate นั้นจริงๆแล้วเป็นผลงานทางสถิติ มิใช้การแปลตาหลักไวยยากรณ์ใดๆ

ผมตั้งใจว่าหากได้กลับไปสอนวิชา สถิติเศรษฐศาสตร์ Econ304 ที่เชียงใหม่ก็จะนำสารคดีนี้ไปเปิดให้นักศึกษาได้ชมกันในคาบแรกเลย

สำหรับใครที่อยู่ใน UK สามารถชมแบบชัดๆ ได้ที่ BBC iPlayer

สำหรับคนที่อยู่ที่อื่นก็สามารถดูได้ใน YouTube Channel ของ Open university ครับ

การวััดความอยู่ดีกินดีของประชาชน


วันนี้ได้มีโอกาสไปฟังการบรรยายสามเรื่องใน theme “Hot topics in business and official statistics. ณ สำนักงานสำนักงานสถิติของสหราชอาณาจักร (Office for National Statistics)

http://membership.rss.org.uk/main.asp?group=&page=1332&event=1345&month=&year=&date=

Paul Allin ได้นำเสนอโครงการวิจัยของ ONS เกี่ยวกับการพัฒนาหน่วยวัดความอยู่ดีกินดีของประชาชน โดยโครงการนี้มีระยะเวลา 4 ปี ใช้แบบสอบถามเก็บข้อมูลผ่าน Survey Monkey แต่มุ่งวิเคราะห์ในเชิงคุณภาพ (Qualitative Analysis)

Prof. Keith Whitfield จาก Cardiff Business School ได้นำเสนอการวิเคราะห์งานวิจัยในอดีตที่เกี่ยวกับความอยู่ดีกินดีในระดับจุลภาค คือ ความสุขของคนทำงาน การวิเคราะห์น่าจะใช้ Meta-Analysis 

Michael Blastland อดีตผู้รายงานข่าวของ BBC ได้นำเสนอสองเรื่องที่น่าสนใจอย่างมากเกี่ยวกับการสื่อสารข้อมูลสถิติเกี่ยวกับเศรษฐกิจของสหราชอาณาจักร 

เรื่องแรกคือความมีอคติในการนำเสนอข้อมูลสถิติต่างๆ เช่นการเล่นข่าว recession หรือเศรษฐกิจตกต่ำเกินจริง ทั้งๆ ที่เศรษฐกิจจริงๆ ก็ไม่ได้แย่ขนาดนั้น รวมทั้งการพยายามเชื่อมโยงเรื่องร้ายๆ ต่างๆ กับภาพมายาว่ามี recession อยู่

ส่วนเรื่องที่สองคือ รูปแบบการนำเสนอข้อมูลแบบใหม่ที่น่าสนใจมากกว่าวิธีปกติ คือมีการนำเสนอโดยภาพและมีการเคลื่อนที่และเปลี่ยนแปลงได้ง่ายๆ โดยใช้ความร่วมมือกับ Graphic Designers เช่น ทำ Flash นำเสนอข้อมูลเกี่ยวกับ GDP และ Budget Cuts เทียบระหว่างประเทศ ผ่านภาพวงกลมที่ใช้ขนาดของวงกลมแทนขนาดของ GDP และ Budget cuts แทนการใช้ตัวเลขตามแบบปกติ หรือ การสร้าง Flash ที่สามารถนำเสนอ Life expectancy หรือ การมีชีวิตอยู่ของประชากรโดยกำหนดตามปัจจัยต่างๆ เช่น อายุ เพศ และ พฤติกรรมเสี่ยงต่างๆ เช่น การดื่มสุรา โดยนำเสนอเป็นภาพคนหนึ่งร้อยคน ณ ปัจจุบัน และเมื่อกด play เวลาก็จะเดินพร้อมทั้งแสดงจำนวนคนที่เสียชีวิตในแต่ละปีโดยให้ภาพคนนั้นล้มลงไป  นอกจากนั้นยังนำเสนอตัวอย่างของบทความของตนเองที่ลงใน BBC ที่มีการใช้การนำเสนอข้อมูลเกี่ยวกับการว่างงานและการศึกษาอีกด้วย

%d bloggers like this: