|
Mission: (nearly) Impossible
โพสต์เมื่อ:
13:22 วันที่ 18 มิ.ย. 2546 ชมแล้ว:
218,991
ตอบแล้ว:
4
เมื่อต้นเดือนมิถุนายนนี่เองที่นักวิทยาศาสตร์อเมริกันและนักภาษาศาสตร์ได้รับมอบหมายงาน ระดับ Mission: (nearly) Impossible
เป้าหมายคือ ให้สร้างโปรแกรมที่แปลภาษาอังกฤษเป็นภาษาใดๆ ก็ได้ ที่สำคัญให้เวลา 1 เดือนเท่านั้น โปรเจ็คนี้ซึ่งสนับสนุนด้านการเงินโดย DARPA (Defense Advanced Research Projects Agency) ได้ประกาศท้าทายนักวิทยาศาสตร์ทั่วประเทศเพื่อให้สร้างระบบนี้อย่างเร่งด่วนสำหรับสถาณการณ์ที่ต้องการใช้เครื่องแปลภาษาอย่างที่อาจจะคาดไม่ถึง (นี่สงสัยคิดจะไปทำสงครามกับใครอีกหล่ะหนอ) โดยระหว่างที่แถลงข่าว รองศาสตราจารย์ Doug Oard, จาก College of Informantion Studies ของมหาวิทยาลัย Marryland, College Park, กล่าวว่า "สมัยก่อน ในช่วงสงครามเย็น เราไม่จำเป็นต้องมีความรู้ด้านภาษามากนัก, แต่ตอนนี้มันต่างกัน เราไม่รู้ว่าอะไรจะเกิด" โดยที่บอกว่าให้เวลา 1 เดือนหน่ะ จริงๆแล้วเอาแค่ภาษาเดียวก่อน คือภาษา Hindi เป็นการทดสอบ ลองดูซิ ถ้าเดือนนึงแปลอังกฤษเป็น Hindi ได้สำเร็จหล่ะก็งบประมาณก้อนโตๆก็จะถูกส่งมาให้ทำงานที่เหลือ ภายในหนึ่งเดือนนี้นักวิทยาศาสตร์และภาษาศาสตร์ต้องหาข้อมูลทั้งจากพจนานุกรม คัมภีร์ศาสนา ข่าว หรืออะไรทุกอย่างที่เกี่ยวข้องกับภาษา Hindi ให้ได้มากที่สุด แล้วสร้างเป็น สิ่งที่เรียกว่า เครื่องแปลภาษาเชิงสถิติ (Statistical Machine Translation) ซึ่งเจ้าเครื่องที่ว่านี้จริงๆแล้วก็เป็นการรวมเอาข้อมูลด้านภาษาทั้งหมดมาทำการวิเคราะห์ทางสถิติ เช่นว่า คำว่า กิน มีความหมายว่า eat ประมาณ 95% และมีความหมายว่า win ประมาณ 3% (ในกรณีแทงหวยแล้วโดนเจ้ามือกิน) และอะไรทำนองนี้ ให้ครอบคลุมมากที่สุดเท่าที่จะมากได้ และหากเป็นไปได้เจ้าเครื่องที่ว่าจะจัดกลุ่มแยกแยะให้อีกต่างหากว่าข้อความเหล่านี้จัดอยู่ในประเภทใด้ เช่น ข่าว บทความ บทละคร หรืออะไรทำนองนั้น จริงๆแล้ว ในเดือนมีนาคมที่ผ่านมา DARPA ก็ลองให้นักวิทยาศาสตร์กลุ่มนึงแปลภาษา Cebuano ซึ่งใช้กันอยู่ในฟิลิปปินส์ ซึ่งการทดลองครั้งนั้นใช้เวลา 2 อาทิตย์เอง เลยเห็นว่า แหม เดือนนึงนี่ก็ไม่ใช่เวลาน้อยๆหรอก คงจะทำได้ ปัญหาของงานนี้ไม่ได้อยู่ที่เนื้อภาษาแต่อย่างเดียว ยังอยู่ที่ด้านเทคนิคอีกเยอะ ปัจจุบันเราทราบดีว่า font ที่เราใช้ๆกันอยู่นี่หล่ะ เค้าเข้ารหัสตามมาตรฐาน ASCII ซึ่งแปลว่าเราจะเอาเข้าไปประมวลในคอมพิวเตอร์ง่ายนิดเดียวเพราะคอมพิวเตอร์รู้จักมันดีอยู่แล้ว แต่ถ้าเป็นภาษาที่ไม่เคยมีใครได้ยินมาก่อนนี่สิลำบากเลย ลองคิดง่ายๆ สมัยซัก 5-6 ปีที่แล้วที่ภาษาไทยกับคอมพิวเตอร์เป็นเรื่องที่ทำให้เราต้องฝันร้าย รับรองเจอเรื่องนี้เข้าไปไม่มีเวลาให้แม้แต่เข้านอนเพื่อเริ่มฝัน แน่นอน หากงานนี้สำเร็จ การแปลภาษาอังกฤษเป็นภาษาใดๆก็ไม่ใช่เรื่องยาก ประโยชน์ในแง่ธุรกิจก็มหาศาลตั้งรออยู่ข้างหน้าอยู่แล้ว เพียงแต่การบีบเวลาอย่างนี้ ก็เป็นการกระตุ้นต่อมถูกท้าทายของนักวิทยาศาสตร์ดีนักแล ref: WIRED Magazine http://www.wired.com/newss/print/0,1294,59093,00.html จำนวน 4 ความเห็น, หน้า่ | -1- ความเห็นเพิ่มเติมที่ 1 18 มิ.ย. 2546 (13:55) แปลที่ว่านี่ หมายถึงแปลเอกสาร หรือว่าแปลแบบภาษาพูดครับ Chemist (IP:203.220.83.236,,) ความเห็นเพิ่มเติมที่ 2 18 มิ.ย. 2546 (14:10) คงเป็นทั้งสองอย่างครับ บางภาษาเช่นภาษา Cebuano ก็เป็นภาษาของชนเผ่า หาภาษาเขียนเป็นลายลักษณ์อักษรแทบไม่ได้ครับ แต่งานหลักน่าจะเป็น จากข้อความไปเป็นข้อความก่อน หากทำขั้นนี้ได้สำเร็จการแปลภาษาจากเสียงก็ไม่ยากแล้ว เพียงแค่จับคู่ระหว่าง เสียง กับ คำ ให้ได้ ซึ่งเข้าข่าย Voice Recognition ที่ถือว่าเป็นงานวิจัยที่เรียกได้ว่า"พัฒนาแล้ว" คือ รู้และมีแนวทางว่าจะทำยังไงเรียบร้อยแล้วครับ นำมาใช้ในธุรกิจบ้างแล้วด้วย เช่น โทรศัพท์โทรออกด้วยเสียงสั่ง ก็ใช้ศาสตร์เรื่อง Voice Recognition นี่หล่ะครับ ฝากประกาศแทน NSTDA ละกันครับ วันนี้ สวทช สถาบันส่งเสริมวิทยาศาสตร์และเทคโนโลยีแห่งชาติ เปิดบ้านเป็นครั้งแรก พระเทพเสด็จเป็นประธาน ใครสนใจก็เชิญร่วมงาน พุธ พฤหัส ศุกร์ ครับ งานนี้มีการเปิดตัว ซอฟแวร์ชื่อ สาลิกา ด้วยครับ คุณพิมพ์ตัวอักษรภาษาไทยเข้าไป เจ้านี่จะผสมเสียงและเปล่งเป็นเสียงอ่านออกมาให้คุณ คราวนี้คนตาบอด ตาเจ็บ ตาบวม ตาเป็นกุ้งยิงก็ท่องเว็บได้ครับ ความเห็นเพิ่มเติมที่ 3 27 ต.ค. 2546 (08:24) เฉยๆ ธรรมดา Fukada (IP:203.113.35.8,,) อยากจะขอรายละเอียดเกี่ยวกับเรื่อง เครื่องแปลภาษาเชิงสถิติ (Statistical Machine Translation) หน่อย คะ พอดีตอนนี้กำลังทำโปรเจคอยู่คะ ขอความกรุณาด้วยนะคะ ขอบคุณคะ หากจะโพสต์คำตอบสำหรับกระทู้ในห้องนี้ ล๊อกอินก่อนนะคะ สมัครสมาชิก ฟรี ตลอดชีพ ที่ http://www.vcharkarn.com/my ค่ะ |
![]() บทความแนะนำBlog แนะนำHot Linksขอบคุณผู้สนับสนุน |
Copyright© 2000-2007, Vcharkarn.Com. All rights reserved.
|
คลิ๊กเพื่อดูสถิติ รับรองและสนับสนุนโดย |
![]() สสวท. |
![]() มูลนิธิ พสวท. |
![]() พสวท. |