Artificial Intelligence Struggles with Basic Math

งานวิจัยใหม่จาก Stanford University และ University of California, Berkeley ได้เปิดเผยถึงความท้าทายที่สำคัญในการพัฒนาปัญญาประดิษฐ์ (AI) นักวิจัยพบว่า ChatGPT ของ OpenAI แม้จะมีความสามารถในการสนทนาที่น่าประทับใจและความถูกต้องทางไวยากรณ์ กลับแย่ลงในการดำเนินการทางคณิตศาสตร์ขั้นพื้นฐาน

New research from Stanford University and the University of California, Berkeley has revealed a significant challenge in the development of artificial intelligence (AI). The researchers found that OpenAI’s ChatGPT, despite being capable of impressive conversation and grammatical accuracy, has actually become worse at performing basic math operations.

ปัญญาประดิษฐ์ เผชิญหน้ากับความสามารถด้านคณิตศาสตร์พื้นฐาน ที่ลดต่ำลง

งานวิจัยใหม่จาก Stanford University และ University of California, Berkeley ได้เปิดเผยถึงความท้าทายที่สำคัญในการพัฒนาปัญญาประดิษฐ์ (AI) นักวิจัยพบว่า ChatGPT ของ OpenAI แม้จะมีความสามารถในการสนทนาที่น่าประทับใจและความถูกต้องทางไวยากรณ์ กลับแย่ลงในการดำเนินการทางคณิตศาสตร์ขั้นพื้นฐาน

การเสื่อมถอยของความสามารถด้านคณิตศาสตร์นี้เป็นตัวอย่างของปรากฏการณ์ที่เรียกว่าการดริฟท์ (drift) ซึ่งการพยายามปรับปรุงด้านหนึ่งของโมเดล AI ส่งผลให้ด้านอื่นๆ เสื่อมถอย James Zou ศาสตราจารย์แห่ง Stanford และหนึ่งในผู้เขียนงานวิจัยกล่าวว่าการปรับปรุงในทิศทางเดียวอาจทำให้ประสิทธิภาพในทิศทางอื่นแย่ลง ทำให้การปรับปรุงอย่างต่อเนื่องมีความท้าทาย

เพื่อประเมินประสิทธิภาพของ ChatGPT อย่างเป็นระบบเมื่อเวลาผ่านไป นักวิจัยได้ทดสอบโมเดล 2 เวอร์ชัน ได้แก่ เวอร์ชัน 3.5 และเวอร์ชัน 4.0 พวกเขาให้แชทบอททำงานพื้นฐานในการระบุจำนวนเฉพาะ ซึ่งง่ายสำหรับคอมพิวเตอร์ แต่ซับซ้อนสำหรับมนุษย์ ในขณะที่ GPT-4 แบบพรีเมียมระบุตัวเลข 84% เป็นจำนวนเฉพาะได้อย่างถูกต้องในเดือนมีนาคม อัตราความสำเร็จลดลงเหลือ 51% ในเดือนมิถุนายน ในหลายๆ งาน GPT-4 ทำงานได้แย่กว่าถึง 6 จาก 8 ส่วน ในขณะที่ GPT-3.5 ปรับปรุง 6 มาตรการ แต่ยังคงด้อยกว่างานขั้นสูงในหลายๆ งาน

ผู้ใช้ที่พบ ChatGPT น่าประทับใจในตอนแรกเริ่มสังเกตเห็นคำตอบที่ไม่ถูกต้องมากขึ้นหรือแชทบอทปฏิเสธที่จะตอบสนอง การวิจัยจากทีมงาน Stanford-Berkeley ยืนยันข้อสังเกตเหล่านี้โดยประจักษ์ ซึ่งแสดงให้เห็นว่า ChatGPT ทำงานได้แย่ลงในฟังก์ชันบางอย่าง รวมถึงการคำนวณทางคณิตศาสตร์ คำถามทางการแพทย์ และการเขียนโค้ด

OpenAI ตอบสนองต่อการวิจัยโดยระบุว่าลำดับความสำคัญของพวกเขาคือการทำให้โมเดลใหม่ฉลาดขึ้นในงานต่างๆ และพวกเขาทำงานอย่างต่อเนื่องเพื่อปรับปรุงวิธีการประเมิน

แม้จะมีการเสื่อมถอย แต่ควรสังเกตว่าแชทบอทไม่ได้แย่ลงในระดับสากล มีการปรับปรุงในบางพื้นที่ในขณะที่บางพื้นที่ได้ลดลง ปรากฏการณ์การดริฟท์ที่คาดเดาไม่ได้นี้เป็นที่รู้จักในหมู่นักวิจัยที่ศึกษาแมชชีนเลิร์นนิงและ AI แต่ความเร็วของการดริฟท์ที่สังเกตได้ใน ChatGPT นั้นสร้างความประหลาดใจให้กับทีม Stanford-Berkeley

จำเป็นต้องมีการวิจัยและการปรับปรุงเพิ่มเติมเพื่อเอาชนะความท้าทายที่เกิดจากการดริฟท์ และทำให้แน่ใจว่าโมเดล AI ปรับปรุงอย่างสม่ำเสมอในงานต่างๆ

view original *