Alibaba launches maths-specific AI models said to outperform LLMs from OpenAI, Google

โมเดลภาษาขนาดใหญ่ Qwen2-Math ใหม่ของอาลีบาบา ถูกออกแบบเพื่อช่วยแก้ปัญหาคณิตศาสตร์ที่ซับซ้อน

The new Qwen2-Math large language models are expected to help solve complex maths problems

อาลีบาบาเปิดตัวโมเดล AI เฉพาะทาง ที่ออกแบบเพื่อใช้แก้ปัญหาคณิตศาสตร์ได้ดีกว่า LLM จาก OpenAI และ Google

Alibaba Group Holding ตั้งเป้าที่จะยกระดับการพัฒนาปัญญาประดิษฐ์ (AI) ด้วยการเปิดตัวกลุ่มโมเดลภาษาขนาดใหญ่ (LLM) เฉพาะทางเพื่อช่วยแก้ปัญหาคณิตศาสตร์ ที่เรียกว่า Qwen2-Math ซึ่งยักษ์ใหญ่ด้านอีคอมเมิร์ซรายนี้อ้างว่าสามารถเอาชนะ GPT-4o ของ OpenAI ในด้านคณิตศาสตร์ได้

“ในช่วงปีที่ผ่านมา เราได้ทุ่มเทความพยายามอย่างมากในการค้นคว้าและพัฒนาความสามารถในการใช้เหตุผลของโมเดลภาษาขนาดใหญ่ โดยเน้นเป็นพิเศษที่ความสามารถในการแก้ปัญหาด้าน arithmetic และ mathematical problems” ทีมงาน Qwen ซึ่งเป็นส่วนหนึ่งของหน่วยคลาวด์คอมพิวติ้งของ Alibaba กล่าวในโพสต์ที่เผยแพร่บนแพลตฟอร์มนักพัฒนา GitHub เมื่อวันพฤหัสบดี Alibaba เป็นเจ้าของ South China Morning Post

LLM ล่าสุด ซึ่งเป็นเทคโนโลยีที่รองรับบริการ  generative AI  เช่น ChatGPT ถูกสร้างขึ้นบน LLM Qwen2 ที่เปิดตัวโดย Alibaba ในเดือนมิถุนายน และครอบคลุมโมเดลสามแบบตาม scale of parameters ซึ่งเป็นคำศัพท์ machine-learning term สำหรับตัวแปรที่มีอยู่ในระบบ AI ระหว่างการฝึก ซึ่งช่วยกำหนดว่า data prompts จะให้ผลลัพธ์ตามที่ต้องการได้อย่างไร

ทีมพัฒนา Qwen โพสต์ว่า โมเดลที่มีจำนวนพารามิเตอร์มากที่สุดคือ Qwen2-Math-72B-Instruct ซึ่งมีประสิทธิภาพเหนือกว่า LLM ที่พัฒนาในสหรัฐอเมริกา ในเกณฑ์มาตรฐานทางคณิตศาสตร์ ซึ่งรวมถึง GPT-4o, Claude 3.5 Sonnet ของ Anthropic, Gemini 1.5 Pro ของ Google และ Llama-3.1-405B ของ Meta 

“เราหวังว่า Qwen2-Math จะสามารถมีส่วนสนับสนุนผู้ใช้ในการแก้ไขปัญหาคณิตศาสตร์ที่ซับซ้อนได้” โพสต์ดังกล่าวระบุ

ตามรายงานระบุว่าโมเดล AI Qwen2-Math ได้รับการทดสอบบนเกณฑ์มาตรฐานคณิตศาสตร์ทั้งภาษาอังกฤษและภาษาจีน ซึ่งรวมถึง GSM8K ซึ่งเป็นชุดข้อมูลของปัญหาคณิตศาสตร์ระดับประถมศึกษา ที่มีความหลากหลายทางภาษา ที่มีคุณภาพสูง 8,500 ข้อ, OlympiadBench ซึ่งเป็นเกณฑ์มาตรฐานทางวิทยาศาสตร์แบบสองภาษาหลายโหมดระดับสูง และ gaokao ซึ่งเป็นข้อสอบเข้ามหาวิทยาลัยของจีน

ทีมพัฒนา Qwen กล่าวว่าโมเดลใหม่ยังมีข้อจำกัดบางประการเนื่องจาก “รองรับเฉพาะภาษาอังกฤษเท่านั้น” แผนคือการเปิดตัวโมเดลสองภาษาในเร็วๆ นี้ โดยจะมีหลักสูตร LLM หลายภาษาอยู่ในขั้นตอนการพัฒนาด้วย

โมเดลเฉพาะทางคณิตศาสตร์ของ Alibaba ช่วยเสริมความแข็งแกร่งให้กับ AI ของบริษัทที่ตั้งอยู่ในหางโจว หลังจาก Qwen-72B-Instruct LLM ติดอันดับโมเดลโอเพ่นซอร์ส 10 อันดับแรกของโลกเมื่อไม่นานนี้

Tongyi Qianwen เปิดให้นักพัฒนาซอฟต์แวร์ภายนอกได้เข้าถึง source code มานานกว่าหนึ่งปีแล้ว โอเพ่นซอร์สให้สาธารณชนเข้าถึงโค้ดต้นฉบับของโปรแกรม ทำให้ผู้พัฒนาซอฟต์แวร์ภายนอกสามารถปรับเปลี่ยนหรือแชร์การออกแบบ แก้ไขลิงก์ที่เสียหาย หรือเพิ่มขีดความสามารถของโปรแกรมได้

ในเดือนกรกฎาคม Qwen2-72B-Instruct เข้ามาอยู่อันดับตามหลัง GPT-4o และ Claude 3.5 Sonnet ในการจัดอันดับ LLM จาก SuperClue ซึ่งเป็นแพลตฟอร์มการเปรียบเทียบประสิทธิภาพที่ประเมินโมเดลต่างๆ โดยอิงจากตัวชี้วัดต่างๆ เช่น การคำนวณ การใช้เหตุผลเชิงตรรกะ การเข้ารหัส และการทำความเข้าใจข้อความ เป็นต้น

ช่องว่างระหว่างโมเดล AI ของจีนและสหรัฐฯ ดูเหมือนจะแคบลง ตามรายงานของ SuperClue ซึ่งระบุว่าจีนแผ่นดินใหญ่ได้พัฒนา domestic LLMs ให้ก้าวหน้าไปอย่างมากในช่วงครึ่งแรกของปีนี้

การทดสอบที่เผยแพร่ในเดือนกรกฎาคมโดย LMSYS ซึ่งเป็นองค์กรวิจัยโมเดล AI ที่ได้รับการสนับสนุนจากมหาวิทยาลัยแคลิฟอร์เนีย เบิร์กลีย์ พบว่า Qwen2-72B อยู่ในอันดับที่ 20 ในขณะที่โมเดลจาก OpenAI, Anthropic และ Google ครองตำแหน่ง 10 อันดับแรกได้เกือบทั้งหมด

view original *