Meta AI’s DINO self-supervised learning demo for images.

ทีมงาน Facebook AI พัฒนา DINO เป็นวิธี self-supervised  สำหรับเทรนนิ่ง Vision Transformer โดยไม่ต้องเลเบล โดยใช้วิธี self-distillation เทคนิคนี้เกี่ยวข้องกับสองเน็ตเวิร์ก โดยกำหนดเน็ตเวิร์กหนึ่งเป็นผู้เรียน และอีกเน็ตเวิร์กเป็นผู้สอน นำเสนอภาพเดียวกันสองภาพ หนึ่งเป็นโกลบอลเน็ตเวิร์ก และอีกหนึ่งโลคอลเน็ตเวิร์ก และค่อยๆ เรียนรู้จากกันและกันระหว่างการเทรนนิ่ง ผลลัพธ์ของการใช้ DINO กับ Image-Net แสดงให้เห็นว่าโมเดลสามารถแบ่งส่วนและระบุวัตถุด้วยความแม่นยำสูงสุด แม้ในสิ่งกีดขวาง แนวทางที่เป็นนวัตกรรมของ DINO นำมาซึ่งผลลัพธ์ที่น่าตื่นเต้นในด้านคอมพิวเตอร์วิทัศน์ ซึ่งแสดงให้เห็นถึงศักยภาพของ Vision Transformers ในบริบทของดาต้าเซ็ตที่เลเบลได้ไม่ดี

DINO is a self-supervised method for training a Vision Transformer with no labels, using a self-distillation approach. It involves two networks, a student and a teacher, taking in two representations of the same image, one global and one local, and gradually learning from each other during training. The results of applying DINO to Image-Net show that the model is able to perform segmentation and identify objects with extreme precision, even in the presence of obstacles. DINO’s innovative approach has brought about exciting results in the field of computer vision, demonstrating the potential of Vision Transformers in contexts of poorly labeled datasets.

DINO Self-Distillation with no labels ใช้ประโยชน์จากแนวทางใหม่สำหรับการเรียนรู้ด้วยตนเองของ Vision Transformers

เป็นที่ชัดเจนแล้วว่า สถาปัตยกรรม Transformers  เป็นก้าวที่สำคัญของ A.I. และ Computer Vision แทบไม่มีใครสามารถจินตนาการถึงผลลัพธ์อันน่าทึ่งเช่นนี้จาก Vision Transformer หนึ่งในความก้าวหน้าที่น่าสนใจที่สุด สองสามปีที่ผ่านมา Facebook AI ได้นำเสนอวิธีการที่เรียกว่า DINO ซึ่งใช้ในการเทรนนิ่ง Vision Transformer รูปแบบหนึ่ง โดยกลไก Self-Distillation with no labels 

Transformers เป็นสถาปัตยกรรม Deep Learning ที่กลายเป็นหนึ่งในสถาปัตยกรรมที่ใช้กันอย่างแพร่หลายมากที่สุดในด้านการประมวลผลภาษาธรรมชาติมาหลายปีแล้วและตั้งแต่ปี 2020 ได้ถูกนำไปใช้กับด้านการมองเห็นของคอมพิวเตอร์ ได้รับผลลัพธ์ที่ยอดเยี่ยม

Transformer ปกติทำงานโดยการป้อนชุดของเวกเตอร์แทนคำของประโยคซึ่งใช้กลไกของการให้ความสนใจตนเอง สัญชาตญาณที่อนุญาตให้นำสถาปัตยกรรมนี้มาใช้ในด้านการมองเห็นของคอมพิวเตอร์คือการเห็นภาพเป็นชุดของแพตช์ที่ไม่ทับซ้อนกัน ซึ่งผ่านการแปลงเชิงเส้น จะถูกแปลงเป็นเวกเตอร์และถือว่าพวกมันเป็นคำของประโยค

DINO: Self-Distillation with no labels

นักวิจัย AI ของ Facebook สงสัยว่าความสำเร็จของ Transformers ใน Computer Vision นั้นเกิดจากการเทรนนิ่งภายใต้การดูแลหรือไม่ และมีวิธีสร้างระบบที่ควบคุมด้วยตนเองซึ่งสามารถเทรนนิ่งในชุดข้อมูลที่ไม่มีป้ายกำกับได้หรือไม่

แนวคิดนี้ดูเหมือนจะน่าสนใจเพื่อให้สามารถบรรลุผลลัพธ์ด้วย Vision Transformers ที่ไม่เพียงเทียบเคียงได้กับเน็ตเวิร์กแบบคอนโวลูชั่นเท่านั้น แต่ยังมีประสิทธิภาพดีกว่าอย่างชัดเจนและในบริบทของชุดข้อมูลที่มีป้ายกำกับไม่ดี จึงทำให้ความต้องการด้านการคำนวณของ Transformers และความต้องการของพวกเขาสำหรับขนาดใหญ่ จำนวนข้อมูลมีความหมายมากขึ้น แรงบันดาลใจมาจากความสำเร็จของ Transformers ในด้านการประมวลผลภาษาธรรมชาติ ซึ่งการใช้การเทรนนิ่งล่วงหน้าที่มีการดูแลด้วยตนเองนำไปสู่การเกิดขึ้นของแบบจำลองที่มีประสิทธิภาพอย่างยิ่ง เช่น BERT หรือ GPT ในการทำงานในสภาพแวดล้อมที่ดูแลตนเองได้นั้น จำเป็นต้องหาวิธีที่ชาญฉลาดในการดึงข้อมูลที่เกี่ยวข้องจากข้อมูลที่มีอยู่ และในกรณีนี้ แนวทางที่นักวิจัยเลือกคือการใช้สองเน็ตเวิร์กที่มีสถาปัตยกรรมเดียวกัน กำหนดให้เน็ตเวิร์กหนึ่งเป็นผู้เรียนและ อีกเน็ตเวิร์กหนึ่งเป็นผู้สอน เน็ตเวิร์กทั้งสองนี้จะใช้เป็นอินพุตสองตัวแทนของภาพเดียวกัน โดยเฉพาะอย่างยิ่ง สำหรับแต่ละภาพในชุดเทรนนิ่ง การครอบตัดแบบหลายส่วนจะถูกนำไปใช้เพื่อดึงภาพสองชุดออกมา ได้รับแพทช์สองขนาดที่ยอดเยี่ยมและบางส่วนที่ทับซ้อนกันซึ่งสามารถให้แนวคิดโดยรวมของภาพในการพิจารณาและชุดของแพทช์ขนาดเล็กอื่น ๆ ที่จะให้ตัวแทนของภาพในโลคอลแทน

มุมมองทั้งหมดจะถูกส่งต่อไปยังเน็ตเวิร์กผู้เรียน ในขณะที่มีเพียงมุมมองโกลบอลเท่านั้นที่จะถูกส่งต่อไปยังผู้สอน ยกตัวอย่างภาพลูกแมวสองตัว มุมมองส่วนกลาง 2 มุมมองจะถูกดึงออกมา ซึ่งแสดงถึงส่วนที่ดีของภาพและทำให้ตีความเนื้อหาได้ง่ายขึ้น และมุมมองในโลคอล 3 มุมมองที่แสดงถึงพื้นที่ต่างๆ ของภาพที่มีนัยสำคัญมากขึ้น ยากที่เน็ตเวิร์กจะตีความได้ มุมมองเหล่านี้ได้รับการเสริมโดยใช้เทคนิคต่างๆ เช่น การหมุนแบบสุ่มและการกระตุกของสี ในระหว่างการเทรนนิ่ง จะมีเพียงผู้เรียนเท่านั้นที่ได้รับการเทรนนิ่ง และสิ่งที่เราต้องการบรรลุก็คือชุดของเน็ตเวิร์กสามารถเข้าใจได้ว่าตัวแทนระดับโลคอลและระดับโกลบอล แม้ว่าจะแตกต่างกันอย่างเห็นได้ชัด แต่เป็นตัวแทนของหัวข้อเดียวกัน แต่ทำไมสองเน็ตเวิร์กนี้เรียกว่าผู้เรียนและผู้สอน? แล้วทำไมต้องเทรนนิ่งเฉพาะผู้เรียน? ซึ่งมาจากวิธี self-destillation ซึ่งเป็นเทคนิคที่ใช้ในการถ่ายทอดความรู้ที่สั่งสมมาระหว่างการเทรนนิ่งจากรุ่นไปสู่รุ่นที่เรียบง่ายขึ้น ในวิธีการ self-distillation แบบดั้งเดิม เราพยายามเทรนนิ่งเน็ตเวิร์กผู้เรียนให้ตรงกับผลลัพธ์ของเน็ตเวิร์กผู้สอนที่กำหนด ในกรณีนี้ มีการใช้การ self-destillationในลักษณะที่ต่างออกไป อันที่จริง เน็ตเวิร์กทั้งสองมีขนาดเท่ากัน ในระหว่างการเทรนนิ่ง ข้อมูลเล็กน้อยที่เรียนรู้จะถูกส่งไปยังผู้สอน ซึ่งค่อยๆ เรียนรู้จากมุมมองที่ผู้เรียนเห็น แต่ต้องทำการจัดหมวดหมู่ตามมุมมองทั่วโลกเท่านั้น

ผลลัพธ์ของ DINO

หนึ่งในความท้าทายที่ใหญ่ที่สุดในการมองเห็นด้วยคอมพิวเตอร์คือการแบ่งส่วนเสมอ ซึ่งมีประโยชน์อย่างยิ่งในงานต่างๆ จำนวนมาก และต้องการให้เน็ตเวิร์กสามารถเข้าใจสิ่งที่อยู่ในภาพได้อย่างสมบูรณ์ โดยปกติแล้วงานนี้จะถูกจัดการด้วยวิธีการที่มีการควบคุมดูแล แต่ถ้าคุณลองใช้ DINO คุณจะพบว่าการแบ่งส่วนที่ได้รับนั้นสะอาดกว่าและถูกต้องกว่าที่ได้รับจากวิธีการที่มีการดูแล และทั้งหมดนี้ไม่ต้องเลเบลดาต้าเซ็ต จากการฝึก Vision Transformer ด้วยอัลกอริธึม DINO ยังพบว่าโมเดลสามารถเรียนรู้ที่จะระบุวัตถุหลักในฉากในลักษณะเดียวกับที่มนุษย์ทำ และในลักษณะที่แม่นยำอย่างยิ่ง แม้กระทั่งการจัดการสิ่งกีดขวาง ที่ทำให้การมองเห็นวัตถุลดลงบางส่วน เช่น sea wave การนำ DINO ไปใช้กับ Image-Net นักวิจัยเห็นว่าสามารถใช้คุณสมบัติที่ได้เรียนรู้เพื่อดำเนินการแบ่งคลัสเตอร์ที่มีความแม่นยำสูงได้อย่างไร เป็นอีกครั้งที่ Transformers ได้รับการพิสูจน์แล้วว่าเป็นผู้นำเสนอสิ่งใหม่ๆ ที่ยอดเยี่ยม และด้วยแนวทางที่สร้างสรรค์ของ DINO ผลลัพธ์ที่ได้จึงน่าตื่นเต้นกว่าที่เคย ซึ่งทำให้เราได้รับสิ่งใหม่ๆ มากมายในสาขา Computer Vision

view original