OpenAI releases o1, its first model with ‘reasoning’ abilities

มีข่าวลือว่า สามารถใช้งานโมเดล “Strawberry” ได้แล้ว และบริษัทระบุว่าโมเดลดังกล่าวสามารถจัดการกับแบบสอบถามที่ซับซ้อนได้มากขึ้น แต่ต้องจ่ายค่าใช้งานในราคาที่ค่อนข้างสูง

The rumored ‘Strawberry’ model is here, and the company says it can handle more complex queries — for a steep price.

OpenAI เปิดตัว o1 ซึ่งเป็นโมเดลแรกที่มีความสามารถในการ “ใช้เหตุผล”

OpenAI กำลังเปิดตัวโมเดลใหม่ที่เรียกว่า o1 ซึ่งเป็นโมเดลแรกในชุดโมเดล “การใช้เหตุผล” ที่วางแผนไว้ ซึ่งโมเดลนี้ได้รับการฝึกฝนให้ตอบคำถามที่ซับซ้อนยิ่งขึ้นได้เร็วกว่าที่มนุษย์จะทำได้ โดยโมเดลนี้จะเปิดตัวพร้อมกับ o1-mini ซึ่งเป็นรุ่นที่เล็กกว่าและราคาถูกกว่า และใช่แล้ว หากคุณคุ้นเคยกับข่าวลือเกี่ยวกับ AI แล้ว นี่คือโมเดล Strawberry ที่ได้รับความสนใจอย่างมาก

สำหรับ OpenAI แล้ว o1 ถือเป็นก้าวหนึ่งในการบรรลุเป้าหมายที่กว้างขึ้นของปัญญาประดิษฐ์ที่คล้ายกับมนุษย์ ในแง่ของการปฏิบัติจริงแล้ว o1 ทำงานได้ดีกว่าในการเขียนโค้ด และแก้ปัญหาหลายขั้นตอน เมื่อเทียบกับโมเดลก่อนหน้า แต่ก็มีราคาแพงกว่า และใช้งานได้ช้ากว่า GPT-4o OpenAI เรียกการเปิดตัว o1 นี้ว่า “preview” เพื่อเน้นย้ำว่า o1 ยังอยู่ในช่วงเริ่มต้น

ผู้ใช้ ChatGPT Plus และ Team จะสามารถเข้าถึงทั้ง o1-preview และ o1-mini ได้ตั้งแต่วันนี้เป็นต้นไป ในขณะที่ผู้ใช้ Enterprise และ Edu จะสามารถเข้าถึงได้ในช่วงต้นสัปดาห์หน้า OpenAI ระบุว่า มีแผนที่จะเปิดตัว o1-mini ให้ผู้ใช้ ChatGPT ฟรีทั้งหมดได้ใช้งาน แต่ยังไม่ได้กำหนดวันที่แน่นอน การใช้งาน o1 ของ Developer นั้นมีราคาแพงมาก ค่าใช้จ่าย API o1-preview มีราคา 15 ดอลลาร์ต่ออินพุตโทเค็น 1 ล้านรายการ หรือกลุ่มข้อความที่แยกวิเคราะห์โดยโมเดล และ 60 ดอลลาร์ต่อเอาต์พุตโทเค็น 1 ล้านรายการ เมื่อเปรียบเทียบแล้ว GPT-4o มีราคา 5 ดอลลาร์ต่ออินพุตโทเค็น 1 ล้านรายการและ 15 ดอลลาร์ต่อเอาต์พุตโทเค็น 1 ล้านรายการ

Jerry Tworek หัวหน้าฝ่ายวิจัยของ OpenAI บอกกับผมว่าการฝึกอบรมเบื้องหลัง o1 นั้นแตกต่างไปจากรุ่นก่อนๆ อย่างมาก แม้ว่าบริษัทจะยังไม่ชัดเจนเกี่ยวกับรายละเอียดที่แน่นอนก็ตาม เขากล่าวว่า o1 “ได้รับการฝึกอบรมโดยใช้ขั้นตอนวิธีการเพิ่มประสิทธิภาพใหม่ทั้งหมดและชุดข้อมูลการฝึกอบรมใหม่ที่ปรับแต่งมาโดยเฉพาะสำหรับขั้นตอนนี้”

OpenAI สอนโมเดล GPT ก่อนหน้านี้ให้เลียนแบบรูปแบบจากข้อมูลการฝึกอบรม ด้วย o1 o1 จะฝึกโมเดลให้แก้ปัญหาด้วยตัวเองโดยใช้เทคนิคที่เรียกว่า reinforcement learning ซึ่งจะสอนระบบผ่านรางวัลและบทลงโทษ จากนั้นจึงใช้ “chain of thought” เพื่อประมวลผลแบบสอบถาม ซึ่งคล้ายกับวิธีที่มนุษย์ประมวลผลปัญหาโดยดำเนินการทีละขั้นตอน

จากวิธีการฝึกใหม่นี้ OpenAI กล่าวว่าโมเดลนี้น่าจะแม่นยำยิ่งขึ้น “เราสังเกตเห็นว่าโมเดลนี้เกิด hallucinations น้อยลง” Tworek กล่าว แต่ปัญหายังคงมีอยู่ “เราไม่สามารถพูดได้ว่าเราสามารถแก้ hallucinations ได้”

สิ่งสำคัญที่ทำให้โมเดลใหม่นี้แตกต่างจาก GPT-4o คือความสามารถในการแก้ปัญหาที่ซับซ้อน เช่น การเขียนโค้ดและคณิตศาสตร์ ซึ่งดีกว่ารุ่นก่อนๆ มาก พร้อมทั้งอธิบายเหตุผลได้ด้วย ตามที่ OpenAI กล่าว

“โมเดลนี้แก้ข้อสอบคณิตศาสตร์ AP math test ได้ดีกว่าฉันแน่นอน และฉันเรียนวิชาคณิตศาสตร์เป็นวิชาโทในมหาวิทยาลัย” Bob McGrew หัวหน้าฝ่ายวิจัยของ OpenAI บอกกับฉัน เขาบอกว่า OpenAI ยังได้ทดสอบ o1 กับข้อสอบคัดเลือกสำหรับการแข่งขันคณิตศาสตร์โอลิมปิกระหว่างประเทศ และแม้ว่า GPT-4o จะแก้โจทย์ได้ถูกต้องเพียง 13 เปอร์เซ็นต์ แต่ o1 ทำคะแนนได้ 83 เปอร์เซ็นต์

ในการแข่งขันการเขียนโปรแกรมออนไลน์ที่เรียกว่าการแข่งขัน Codeforces โมเดลใหม่นี้ ได้เปอร์เซ็นต์ไทล์ที่ 89 จากผู้ร่วมการแข่งขันทและั้งหมด และ OpenAI อ้างว่าการอัปเดตครั้งต่อไปของโมเดลนี้จะมีประสิทธิภาพ “ในลักษณะเดียวกับที่นักศึกษาปริญญาเอกทำ ในการทดสอบประสิทธิภาพที่ท้าทายในสาขาฟิสิกส์ เคมี และชีววิทยา”

ในขณะเดียวกัน o1 ก็ไม่มีความสามารถเท่ากับ GPT-4o ในหลายๆ ด้าน มันไม่สามารถทำได้ดีเท่าในด้านความรู้เชิงข้อเท็จจริงเกี่ยวกับโลก นอกจากนี้ยังไม่มีความสามารถในการเรียกดูเว็บหรือประมวลผลไฟล์และรูปภาพ อย่างไรก็ตาม บริษัทเชื่อว่ามันเป็นเอเจนต์ของความสามารถประเภทใหม่เอี่ยม มันถูกตั้งชื่อว่า o1 เพื่อชี้ให้เข้าใจว่าเป็นการรีเซ็ตตัวนับเวอร์ชั่นเป็น 1

“ฉันจะพูดตรงๆ ว่า ฉันคิดว่าเราตั้งชื่อได้แย่มากในแบบเดิมๆ” McGrew กล่าว “ดังนั้นฉันหวังว่านี่จะเป็นก้าวแรกของชื่อใหม่ที่สมเหตุสมผลมากขึ้น ซึ่งสื่อถึงสิ่งที่เรากำลังทำกับส่วนที่เหลือของโลกได้ดีขึ้น”

ฉันไม่สามารถสาธิต o1 ด้วยตัวเองได้ แต่ McGrew และ Tworek แสดงให้ฉันดูผ่านวิดีโอคอลในสัปดาห์นี้ พวกเขาขอให้มันไขปริศนานี้:

โมเดลบัฟเฟอร์ไว้ 30 วินาที แล้วจึงให้คำตอบที่ถูกต้อง OpenAI ได้ออกแบบอินเทอร์เฟซเพื่อแสดงขั้นตอนการให้เหตุผล ในขณะที่โมเดลคิด สิ่งที่สะดุดตาสำหรับฉันไม่ใช่การที่โมเดลแสดงงานของมัน – GPT-4o สามารถทำได้หากได้รับคำสั่ง – แต่เป็นการที่ o1 ตั้งใจเลียนแบบความคิดแบบมนุษย์ วลีเช่น “ฉันอยากรู้” “ฉันกำลังคิดอยู่” และ “โอเค ให้ฉันดูหน่อย” สร้างภาพลวงตาทีละขั้นตอนของการคิด

แต่โมเดลนี้ไม่ใช่ทำการคิด และแน่นอนว่า โมเดลไม่ใช่มนุษย์ ดังนั้นทำไมต้องออกแบบให้ดูเหมือนว่าคิดล่ะ

ตามที่ Tworek กล่าว OpenAI ไม่เชื่อในความเท่าเทียมระหว่างการคิดแบบโมเดล AI กับความคิดของมนุษย์ แต่เขาบอกว่าอินเทอร์เฟซนั้นมีไว้เพื่อแสดงให้เห็นว่าโมเดลใช้เวลาในการประมวลผลและลงลึกในการแก้ปัญหามากขึ้นอย่างไร “มีหลายวิธีที่ให้ความรู้สึกถึงความเป็นมนุษย์มากกว่าโมเดลก่อนๆ”

McGrew กล่าวว่า “ผมคิดว่าคุณจะเห็นว่ามีหลายวิธีที่ให้ความรู้สึกเหมือนคนนอก แต่ก็มีหลายวิธีเช่นกันที่ให้ความรู้สึกเหมือนมนุษย์อย่างน่าประหลาดใจ” โมเดลได้รับเวลาจำกัดในการประมวลผลคำถาม ดังนั้นอาจกล่าวได้ว่า “โอ้ เวลาฉันใกล้จะหมดแล้ว ขอฉันหาคำตอบสักครู่” ในช่วงแรกๆ ระหว่างที่คิดอยู่ โมเดลอาจดูเหมือนว่ากำลังระดมความคิดและกล่าวบางอย่างเช่น “ฉันทำสิ่งนี้หรือสิ่งนั้นได้ ฉันควรทำอย่างไร”

โมเดลภาษาขนาดใหญ่ไม่ได้ฉลาดอย่างที่เป็นอยู่ในปัจจุบัน โดยพื้นฐานแล้วโมเดลเหล่านี้ทำนายลำดับคำเพื่อให้คุณได้รับคำตอบโดยอิงจากรูปแบบที่เรียนรู้จากข้อมูลจำนวนมาก ตัวอย่างเช่น ChatGPT ซึ่งมักจะอ้างอย่างผิดพลาดว่าคำว่า “strawberry” มีเพียงสองตัว R เนื่องจากไม่สามารถแยกคำได้อย่างถูกต้อง ซึ่งก็คุ้มค่าที่โมเดล o1 ใหม่นั้น ทำให้คำถามนั้นถูกต้อง

เนื่องจาก OpenAI กำลังมองหาวิธีระดมทุนเพิ่มเติมเพื่อประเมินมูลค่าบริษัทไว้ที่ 150,000 ล้านดอลลาร์ แรงผลักดันของบริษัทจึงขึ้นอยู่กับความก้าวหน้าทางการวิจัยเพิ่มเติม บริษัทกำลังนำความสามารถในการใช้เหตุผลมาสู่ LLM เนื่องจากมองเห็นอนาคตที่มีระบบอัตโนมัติ หรือเอเจนต์ที่สามารถตัดสินใจและดำเนินการแทนคุณได้

สำหรับนักวิจัยด้าน AI การไขปริศนาการใช้เหตุผลถือเป็นก้าวสำคัญต่อไปสู่ปัญญาประดิษฐ์ในระดับมนุษย์ แนวคิดคือ หากโมเดลมีความสามารถมากกว่าการจดจำรูปแบบ โมเดลนั้นอาจปลดล็อกความก้าวหน้าในด้านต่างๆ เช่น การแพทย์และวิศวกรรม อย่างไรก็ตาม ในตอนนี้ ความสามารถในการใช้เหตุผลของ o1 นั้นค่อนข้างช้า ไม่ใช่แบบเอเจนต์ และมีค่าใช้จ่ายสูงสำหรับ Developer

“เราใช้เวลาหลายเดือนในการทำงานเกี่ยวกับการใช้เหตุผล เพราะเราคิดว่านี่คือความก้าวหน้าที่สำคัญ” McGrew กล่าว “โดยพื้นฐานแล้ว นี่เป็นแนวทางใหม่สำหรับโมเดลต่างๆ เพื่อให้สามารถแก้ปัญหาที่ยากจริงๆ ที่จำเป็นต้องทำเพื่อก้าวไปสู่ระดับสติปัญญาที่เทียบเท่ามนุษย์”

view original *