Alibaba launches AI model that can understand images and have more complex conversations

เมื่อวันศุกร์ที่ผ่านมา อาลีบาบาได้เปิดตัวปัญญาประดิษฐ์รุ่นใหม่ 2 รุ่น ได้แก่ Qwen-VL และ Qwen-VL-Chat โดยบริษัทกล่าวว่าสามารถเข้าใจภาพและดำเนินการสนทนาที่ซับซ้อนมากขึ้นได้ ตัวอย่างเช่น การอ่านป้ายในโรงพยาบาล Qwen-VL-Chat สามารถตอบคำถามว่าแผนกต่างๆ ในโรงพยาบาล อยู่ชั้นใดของอาคารด้วยการตีความรูปภาพของป้ายการผลักดันด้าน AI นี้มาจากแผนกคลาวด์ของอาลีบาบาซึ่งกำลังมองหาการจุดประกายการเติบโตในขณะที่เตรียมออกสู่สาธารณะ

Alibaba launched on Friday two new artificial intelligence models — Qwen-VL and Qwen-VL-Chat — the company says can understand images and carry out more complex conversations. One example Alibaba gave is a hospital sign. Qwen-VL-Chat is able to answer questions about which floor of the building certain hospital departments are on by interpreting an image of the sign. This AI push comes from Alibaba’s cloud division which is looking to reignite growth as it prepares to go public.

อาลีบาบาเปิดตัวโมเดล AI ที่สามารถเข้าใจภาพและมีบทสนทนาที่ซับซ้อนมากขึ้น

อาลีบาบา เมื่อวันศุกร์ที่ผ่านมา ได้เปิดตัวโมเดลปัญญาประดิษฐ์ใหม่ที่บริษัทกล่าวว่าสามารถเข้าใจภาพและดำเนินการสนทนาที่ซับซ้อนได้มากกว่าผลิตภัณฑ์ก่อนหน้าของบริษัท เพิ่มศักยภาพในการแข่งขันเพื่อเป็นผู้นำในด้าน AI ระดับโลก

ยักษ์ใหญ่ด้านเทคโนโลยีของจีนกล่าวว่า Qwen-VL และ Qwen-VL-Chat รุ่นใหม่ 2 รุ่นจะเป็นโอเพ่นซอร์ส ซึ่งหมายความว่านักวิจัย นักวิชาการ และบริษัทต่างๆ ทั่วโลกสามารถใช้โมเดลเหล่านี้เพื่อสร้างแอป AI ของตนเองได้โดยไม่จำเป็นต้องฝึกระบบของตนเอง จึงช่วยประหยัดเวลาและค่าใช้จ่าย

อาลีบาบากล่าวว่า Qwen-VL สามารถตอบคำถามปลายเปิดที่เกี่ยวข้องกับรูปภาพต่างๆ และสร้างคำบรรยายภาพได้

ในขณะเดียวกัน Qwen-VL-Chat ให้ความสำคัญกับ “การโต้ตอบที่ซับซ้อน” มากขึ้น ตามข้อมูลของ Alibaba เช่น การเปรียบเทียบอินพุตรูปภาพหลายรายการ และการตอบคำถามหลายรอบ งานบางอย่างที่ Alibaba บอกว่า Qwen-VL-Chat สามารถทำได้ ได้แก่ การเขียนเรื่องราวและการสร้างภาพตามภาพถ่ายที่ผู้ใช้ป้อน รวมถึงการแก้สมการทางคณิตศาสตร์ที่แสดงในภาพ

ตัวอย่างหนึ่งที่อาลีบาบาให้คือการป้อนข้อมูลที่มีป้ายโรงพยาบาลเป็นภาษาจีน AI สามารถตอบคำถามเกี่ยวกับที่ตั้งของแผนกโรงพยาบาลบางแห่งโดยการตีความรูปภาพของป้าย

จนถึงตอนนี้ generative AI ส่วนใหญ่ซึ่งเทคโนโลยีสร้างการตอบสนองตามอินพุตของมนุษย์ ได้มุ่งเน้นไปที่การตอบสนองต่อข้อความ ChatGPT ของ OpenAI เวอร์ชันล่าสุดยังมีความสามารถในการเข้าใจรูปภาพและตอบกลับเป็นข้อความ เช่นเดียวกับ Qwen-VL-Chat

โมเดลล่าสุดสองรุ่นของอาลีบาบาสร้างขึ้นจากโมเดลภาษาขนาดใหญ่ของบริษัทที่เรียกว่า Tongyi Qianwen ซึ่งเปิดตัวเมื่อต้นปีนี้ LLM เป็นโมเดล AI ที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลจำนวนมหาศาลและสนับสนุนแอปพลิเคชันแชทบอท

บริษัทที่มีสำนักงานใหญ่ในหางโจวในเดือนนี้เปิดซอร์สโมเดล AI อีกสองโมเดล Alibaba ไม่เก็บค่าใช้จ่ายในการใช้งาน และเปิดให้เป็นโอเพ่นซอร์ส ช่วยให้บริษัทเปิดรับผู้ใช้โมเดล AI ของตนมากขึ้น ในขณะที่แผนกคลาวด์ของบริษัทกำลังมองหาจุดประกายการเติบโตในขณะที่เตรียมเปิดให้ใช้โมเดล AI เป็นสาธารณะ

view original *