A New AI Research Introduces Recognize Anything Model (RAM): A Robust Base Model For Image Tagging

เมื่อพูดถึงงานการประมวลผลภาษาธรรมชาติ (NLP) โมเดลภาษาขนาดใหญ่ (LLM) ที่ผ่านการฝึกอบรมชุดข้อมูลออนไลน์ขนาดใหญ่จะทำงานได้ดีเป็นพิเศษ Segment Anything Model (SAM) ได้แสดงความสามารถในการโลคัลไลเซชันแบบ Zero-shot ใน Computer Vision (CV) โดยการเพิ่มขนาดข้อมูล

When it comes to natural language processing (NLP) tasks, large language models (LLM) trained on massive online datasets perform exceptionally well. Segment Anything Model (SAM) has shown outstanding zero-shot localization abilities in computer vision (CV) by scaling up data.

การวิจัย AI ใหม่เปิดตัว Recognize Anything Model (RAM): A Robust Base Model For Image Tagging

เมื่อพูดถึงงานการประมวลผลภาษาธรรมชาติ (NLP) โมเดลภาษาขนาดใหญ่ (LLM) ที่ผ่านการฝึกอบรมชุดข้อมูลออนไลน์ขนาดใหญ่จะทำงานได้ดีเป็นพิเศษ Segment Anything Model (SAM) ได้แสดงความสามารถในการโลคัลไลเซชันแบบ Zero-shot ใน Computer Vision (CV) โดยการเพิ่มขนาดข้อมูล

น่าเสียดายที่ SAM ไม่สามารถสร้างป้ายกำกับความหมายได้ ซึ่งเป็นงานพื้นฐานในระดับ localization การ Recognizing หลายๆ เลเบิลสำหรับ single image เป็นเป้าหมายของ multi-label image recognition หรือที่เรียกว่าการ image tagging เนื่องจากรูปภาพมีป้ายกำกับต่างๆ รวมถึงวัตถุ ฉาก คุณสมบัติ และกิจกรรม การแท็กรูปภาพจึงเป็นปัญหาที่สำคัญและมีประโยชน์ต่อการมองเห็นของคอมพิวเตอร์

ปัจจัยหลักสองประการที่ขัดขวางการติดเลเบิลรูปภาพดังต่อไปนี้:

1.การรวบรวมข้อมูลคุณภาพสูงที่กว้างขวาง เอ็นจิ้นการใส่คำอธิบายประกอบข้อมูลที่มีประสิทธิภาพที่สามารถใส่คำอธิบายประกอบภาพถ่ายจำนวนมหาศาลแบบกึ่งอัตโนมัติ หรืออัตโนมัติ ในหมวดหมู่ต่างๆ ยังขาดอยู่ เช่นเดียวกับระบบการติดเลเบิล (labeling system) ที่เป็นมาตรฐานและครอบคลุมทุกรายละเอียด

2.มีโมเดลคำศัพท์แบบเปิด และโมเดลที่มีประสิทธิภาพไม่เพียงพอ การออกแบบโมเดลที่มีประสิทธิภาพและยืดหยุ่น ต้องใช้ดาต้าเซ็ตข้อมูลขนาดใหญ่ ซึ่งมักมี supervised data ไม่เพียงพอ

Recognize Anything Model (RAM) เป็นโมเดลพื้นฐานที่มีประสิทธิภาพสำหรับการแท็กรูปภาพ และเพิ่งได้รับการแนะนำโดยนักวิจัยจาก OPPO Research Institute, International Digital Economy Academy (IDEA) และ AI2 Robotics เมื่อพูดถึงข้อมูล RAM สามารถเอาชนะปัญหาต่างๆ เช่น ระบบการติดเลเบิลที่ไม่เพียงพอ ชุดข้อมูลไม่เพียงพอ กลไกจัดการข้อมูลที่ไม่มีประสิทธิภาพ และข้อจำกัดทางสถาปัตยกรรม

นักวิจัยเริ่มต้นด้วยการสร้างแบบแผนการตั้งชื่อสากลที่เป็นมาตรฐาน พวกเขาใช้ชุดข้อมูลทางวิชาการ academic datasets (การจัดประเภท การตรวจจับ และการแบ่งส่วน) และ commercial taggers (Google, Microsoft และ Apple) เพื่อเพิ่มประสิทธิภาพของระบบการแท็ก ด้วยการรวมแท็กสาธารณะที่มีอยู่ทั้งหมดเข้ากับแท็กแบบข้อความทั่วไป วิธีการติดเลเบิลจะให้ป้ายกำกับ 6,449 ป้าย ที่รวมเข้ากับกรณีการใช้งานส่วนใหญ่ นักวิจัยระบุว่าเป็นไปได้ที่จะจดจำป้ายกำกับคำศัพท์แบบเปิดที่เหลืออยู่โดยใช้การจดจำแบบเปิด open-set recognition

การเขียนคำอธิบายภาพขนาดใหญ่ Annotating large-scale photographs โดยใช้ระบบป้ายกำกับโดยอัตโนมัติ ถือเป็นงานที่ท้าทาย วิธีการติดแท็กรูปภาพที่เสนอได้แนวทางจากงานในภาคสนามที่ทำมาก่อน ซึ่งใช้ large-scale public image-text pairs ฝึกโมเดลภาพที่มีประสิทธิภาพ เพื่อนำข้อมูลรูปภาพ-ข้อความจำนวนมหาศาลเหล่านี้ไปใช้ประโยชน์ในการติดแท็ก ทีมงานใช้การแยกวิเคราะห์ความหมายของข้อความโดยอัตโนมัติเพื่อแยกแท็กรูปภาพ ด้วยวิธีนี้ พวกเขาสามารถรับแท็กรูปภาพชุดใหญ่โดยอ้างอิงจากi mage-text pairs โดยไม่ต้องอาศัยคำอธิบายประกอบด้วยตนเอง

การผสมรูปภาพและข้อความที่มาจากอินเทอร์เน็ตมักจะไม่ชัดเจนเนื่องจากสัญญาณรบกวนแบบสุ่ม ทีมสร้างเครื่องมือติดแท็กข้อมูลเพื่อปรับปรุงความแม่นยำของคำอธิบายประกอบ เพื่อแก้ปัญหาฉลากหาย พวกเขานำแบบจำลองที่มีอยู่แล้วมาใช้ในการจัดประเภทเพิ่มเติม เมื่อจัดการกับพื้นที่ที่มีป้ายกำกับไม่ถูกต้อง พวกเขาจะระบุบางส่วนภายในภาพที่สัมพันธ์กับป้ายกำกับที่แตกต่างกัน จากนั้นจึงใช้วิธีการจัดกลุ่มภูมิภาคเพื่อค้นหาและกำจัดความผิดปกติภายในหมวดหมู่เดียวกัน นอกจากนี้ ป้ายกำกับที่ทำให้การคาดคะเนที่ไม่สอดคล้องกันยังถูกลบออกเพื่อให้ได้คำอธิบายประกอบที่แม่นยำยิ่งขึ้น

RAM อนุญาต generalization แต่ละ novel classes โดยเพิ่ม semantic context เพื่อค้นหา label searches ความสามารถในการระบุตัวตนของ RAM สามารถเพิ่มได้ด้วยสถาปัตยกรรมโมเดลนี้สำหรับชุดข้อมูลภาพใด ๆ ซึ่งแสดงให้เห็นถึงความอเนกประสงค์ของมัน ด้วยการแสดงให้เห็นว่าโมเดลทั่วไปที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลที่มีสัญญาณรบกวนและปราศจากคำอธิบายประกอบอาจเอาชนะโมเดลที่มีการควบคุมดูแลสูงได้ RAM จึงนำเสนอกระบวนทัศน์ใหม่ให้กับการแท็กรูปภาพ RAM จำเป็นต้องมีชุดข้อมูลฟรีและเผยแพร่ต่อสาธารณะโดยไม่มีคำอธิบายประกอบ RAM เวอร์ชันที่ทรงพลังที่สุดต้องได้รับการฝึกฝนเป็นเวลาสามวันเท่านั้นบน GPU A100 แปดตัว

ทีมงานกล่าวว่าการปรับปรุงยังสามารถทำได้กับ RAM ซึ่งรวมถึงการเรียกใช้กลไกข้อมูลซ้ำหลายครั้ง การเพิ่มพารามิเตอร์แกนหลักเพื่อเพิ่มความจุของโมเดล และขยายชุดข้อมูลการฝึกอบรมเกินกว่า 14 ล้านภาพ เพื่อให้ครอบคลุมงานที่หลากหลายได้ดียิ่งขึ้น

view original