Image recognition accuracy: An unseen challenge confounding today’s AI

“Minimum viewing time” เวลาขั้นต่ำที่ใช้เพื่อระบุตัวตนของภาพ สามารถใช้เป็นเบนช์มาร์กวัดความซับซ้อนในการจดจำภาพสำหรับระบบ AI โดยการวัดเวลาที่จำเป็นสำหรับการระบุตัวตนของมนุษย์อย่างแม่นยำ

“Minimum viewing time” benchmark gauges image recognition complexity for AI systems by measuring the time needed for accurate human identification.

Image recognition accuracy: ความท้าทายที่มองไม่เห็น อุปสรรคของ AI ในปัจจุบัน


ลองนึกภาพว่าคุณกำลังเลื่อนดูรูปภาพในโทรศัพท์ และเจอรูปภาพที่คุณเองจำไม่ได้ว่าถ่ายไว้ตอนไหน ดูเหมือนมีอะไรปุกปุยบนโซฟา อาจเป็นหมอนหรือเสื้อคลุมก็ได้? หลังจากนั้นไม่กี่วินาที มันก็คลิก — แน่นอน! สิ่งปุยปุยนั่นคือ “มอคค่า” แมวของเพื่อนของคุณ แม้ว่ารูปถ่ายบางรูปของคุณจะเข้าใจได้ในทันทีที่มองเห็น แต่เหตุใดรูปถ่ายแมวนี้จึงจำแนกยากกว่ามาก

นักวิจัยของ MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) รู้สึกประหลาดใจที่พบว่า แม้จะมีความสำคัญอย่างยิ่งในการทำความเข้าใจข้อมูลภาพในด้านสำคัญๆ ตั้งแต่การดูแลสุขภาพไปจนถึงการขนส่งไปจนถึงอุปกรณ์ในครัวเรือน แต่แนวคิดเรื่องความยากลำบากในการจดจำภาพสำหรับมนุษย์นั้นแทบจะทั้งหมด ละเลย หนึ่งในตัวขับเคลื่อนหลักที่ทำให้เกิดความก้าวหน้าใน AI ที่ใช้การเรียนรู้เชิงลึกคือชุดข้อมูล แต่เรารู้เพียงเล็กน้อยว่า ข้อมูลขับเคลื่อนความก้าวหน้าของ large-scale deep learning ให้ดีกว่าที่กำลังศึกษาอยู่ได้อย่างไร

ในแอปพลิเคชันในโลกแห่งความเป็นจริงที่ต้องการความเข้าใจข้อมูลภาพ มนุษย์มีประสิทธิภาพเหนือกว่าโมเดลการรู้จำวัตถุ แม้ว่าโมเดลจะทำงานได้ดีบนชุดข้อมูลปัจจุบัน รวมถึงโมเดลที่ออกแบบมาอย่างชัดเจนเพื่อท้าทายเครื่องจักรที่มีรูปภาพที่เบี่ยงเบนหรือการเปลี่ยนแปลงการกระจาย ปัญหานี้ยังคงมีอยู่ ส่วนหนึ่งเนื่องจากเราไม่มีคำแนะนำเกี่ยวกับความยากที่แท้จริงของรูปภาพหรือชุดข้อมูล หากไม่มีการควบคุมความยากของรูปภาพที่ใช้ในการประเมิน เป็นการยากที่จะประเมินความคืบหน้าไปสู่ประสิทธิภาพระดับมนุษย์อย่างเป็นกลาง เพื่อครอบคลุมความสามารถของมนุษย์ และเพื่อเพิ่มความท้าทายที่เกิดจากชุดข้อมูล

เพื่อเติมเต็มช่องว่างความรู้นี้ David Mayo นักศึกษาปริญญาเอกจาก MIT สาขาวิศวกรรมไฟฟ้าและวิทยาการคอมพิวเตอร์ และบริษัทในเครือ CSAIL ได้เจาะลึกโลกอันล้ำลึกของชุดข้อมูลรูปภาพ โดยสำรวจว่าเหตุใดภาพบางภาพจึงยากสำหรับมนุษย์และเครื่องในการจดจำมากกว่าภาพอื่นๆ “ภาพบางภาพใช้เวลาในการจดจำนานกว่า และจำเป็นอย่างยิ่งที่จะต้องเข้าใจกิจกรรมของสมองในระหว่างกระบวนการนี้และความสัมพันธ์กับโมเดลการเรียนรู้ของเครื่อง บางทีอาจมีวงจรประสาทที่ซับซ้อนหรือกลไกเฉพาะที่ขาดหายไปในโมเดลปัจจุบันของเรา ซึ่งมองเห็นได้เฉพาะเมื่อทดสอบด้วยภาพที่ท้าทายเท่านั้น สิ่งเร้า การสำรวจนี้มีความสำคัญอย่างยิ่งในการทำความเข้าใจและปรับปรุงโมเดลวิชันซิสเต็ม” Mayo ผู้เขียนหลักของรายงานวิจัยฉบับใหม่เกี่ยวกับงานนี้กล่าว

สิ่งนี้นำไปสู่การพัฒนาตัวชี้วัดใหม่ “เวลาในการดูขั้นต่ำ” Minimum viewing time (MVT) ซึ่งวัดระดับความยากในการจดจำภาพโดยพิจารณาจากระยะเวลาที่บุคคลต้องดูก่อนที่จะทำการระบุตัวตนที่ถูกต้อง ทีมงานใช้ชุดย่อยของ ImageNet ซึ่งเป็นชุดข้อมูลยอดนิยมในแมชชีนเลิร์นนิง และ ObjectNet ซึ่งเป็นชุดข้อมูลที่ออกแบบมาเพื่อทดสอบ object recognition robustnes ทีมงานได้แสดงภาพแก่ผู้เข้าร่วมในช่วงระยะเวลาที่แตกต่างกันตั้งแต่ 17 มิลลิวินาทีไปจนถึง 10 วินาที และถามพวกเขา เพื่อเลือกวัตถุที่ถูกต้องจากชุดตัวเลือก 50 รายการ หลังจากการทดลองนำเสนอภาพมากกว่า 200,000 ครั้ง ทีมงานพบว่าชุดการทดสอบที่มีอยู่ ซึ่งรวมถึง ObjectNet ดูเหมือนจะเอียงไปทางภาพ MVT ที่สั้นกว่าและง่ายกว่า โดยประสิทธิภาพการวัดประสิทธิภาพส่วนใหญ่มาจากภาพที่ง่ายสำหรับมนุษย์

โครงการนี้ได้ระบุแนวโน้มที่น่าสนใจในประสิทธิภาพของโมเดล โดยเฉพาะอย่างยิ่งในส่วนที่เกี่ยวข้องกับการปรับขนาด โมเดลขนาดใหญ่มีการปรับปรุงอย่างมากในภาพที่ง่ายกว่า แต่มีความคืบหน้าน้อยลงในภาพที่ท้าทายมากขึ้น โมเดล CLIP ซึ่งรวมเอาทั้งภาษาและการมองเห็น มีความโดดเด่นในขณะที่เคลื่อนไปในทิศทางของการจดจำที่เหมือนมนุษย์มากขึ้น

“โดยทั่วไป ชุดข้อมูลการรู้จำวัตถุจะเอียงไปทางภาพที่มีความซับซ้อนน้อยกว่า ซึ่งเป็นแนวทางปฏิบัติที่นำไปสู่การเพิ่มขึ้นของตัวชี้วัดประสิทธิภาพของโมเดล ซึ่งไม่ได้สะท้อนถึงความแข็งแกร่งของโมเดลหรือความสามารถในการจัดการกับงานด้านภาพที่ซับซ้อนอย่างแท้จริง การวิจัยของเราเผยให้เห็นว่าภาพที่แข็งกว่านั้นก่อให้เกิดความท้าทายที่รุนแรงกว่า ทำให้เกิดการเปลี่ยนแปลงในการกระจายซึ่งมักไม่รวมอยู่ในการประเมินมาตรฐาน” Mayo กล่าว “เราเปิดตัวชุดภาพที่แท็กตามความยาก พร้อมด้วยเครื่องมือในการคำนวณ MVT โดยอัตโนมัติ ทำให้สามารถเพิ่ม MVT ลงในเกณฑ์มาตรฐานที่มีอยู่และขยายไปยังแอปพลิเคชันต่างๆ ซึ่งรวมถึงการวัดความยากของชุดการทดสอบก่อนที่จะปรับใช้ระบบในโลกแห่งความเป็นจริง การค้นพบความสัมพันธ์ทางประสาทของความยากของภาพ และเทคนิคการจดจำวัตถุที่ก้าวหน้าเพื่อปิดช่องว่างระหว่างเกณฑ์มาตรฐานและประสิทธิภาพในโลกแห่งความเป็นจริง”

“ประเด็นสำคัญประการหนึ่งของฉันคือตอนนี้เรามีมิติอื่นในการประเมินแบบจำลองแล้ว เราต้องการโมเดลที่สามารถจดจำภาพใดๆ ก็ได้ แม้ว่าโดยเฉพาะอย่างยิ่งหากมนุษย์จะจดจำได้ยากก็ตาม เราเป็นคนแรกที่ระบุได้ว่าสิ่งนี้หมายถึงอะไร ผลลัพธ์ของเราแสดงให้เห็นว่าไม่เพียงแต่จะไม่ใช่กรณีของความทันสมัยในปัจจุบันเท่านั้น แต่ยังรวมถึงวิธีการประเมินในปัจจุบันของเราไม่สามารถบอกเราได้ว่าเมื่อใดเป็นกรณีนี้ เนื่องจากชุดข้อมูลมาตรฐานบิดเบือนไปเป็นรูปภาพที่เข้าใจง่ายมาก” Jesse Cummings นักศึกษาระดับบัณฑิตศึกษาจาก MIT สาขาวิศวกรรมไฟฟ้าและวิทยาการคอมพิวเตอร์ และเป็นผู้เขียนงานวิจัยร่วมกับ Mayo กล่าว

จาก ObjectNet สู่ MVT

เมื่อไม่กี่ปีที่ผ่านมา ทีมงานที่อยู่เบื้องหลังโปรเจ็กต์นี้ระบุถึงความท้าทายที่สำคัญในด้านการเรียนรู้ของเครื่อง: โมเดลประสบปัญหากับรูปภาพที่ไม่เผยแพร่ หรือรูปภาพที่ไม่ได้แสดงอย่างดีในข้อมูลการฝึกอบรม เข้าสู่ ObjectNet ซึ่งเป็นชุดข้อมูลที่ประกอบด้วยภาพที่รวบรวมจากการตั้งค่าในชีวิตจริง ชุดข้อมูลช่วยให้เห็นช่องว่างด้านประสิทธิภาพระหว่างโมเดลการเรียนรู้ของเครื่องและความสามารถในการจดจำของมนุษย์ โดยกำจัดความสัมพันธ์ปลอมๆ ที่มีอยู่ในการวัดประสิทธิภาพอื่นๆ เช่น ระหว่างวัตถุและพื้นหลัง ObjectNet ส่องสว่างช่องว่างระหว่างประสิทธิภาพของโมเดลวิชันซิสเต็มบนชุดข้อมูลและในแอปพลิเคชันในโลกแห่งความเป็นจริง สนับสนุนการใช้งานสำหรับนักวิจัยและนักพัฒนาจำนวนมาก ซึ่งต่อมาได้ปรับปรุงประสิทธิภาพของโมเดลในเวลาต่อมา

การก้าวไปข้างหน้าอย่างรวดเร็วจนถึงปัจจุบัน และทีมงานได้พัฒนาการวิจัยไปอีกขั้นด้วย MVT แตกต่างจากวิธีการแบบดั้งเดิมที่มุ่งเน้นไปที่ประสิทธิภาพที่แท้จริง วิธีการใหม่นี้จะประเมินประสิทธิภาพของแบบจำลองโดยการเปรียบเทียบการตอบสนองของแบบจำลองกับภาพที่ง่ายและยากที่สุด การศึกษายังสำรวจเพิ่มเติมว่าสามารถอธิบายและทดสอบความยากของภาพเพื่อความคล้ายคลึงกับการประมวลผลภาพของมนุษย์ได้อย่างไร ทีมงานพบว่าการประมวลผลภาพที่ยากกว่านั้นได้รับการประมวลผลแตกต่างกันไปตามเครือข่าย “ในขณะที่มีแนวโน้มที่สังเกตได้ เช่น ภาพที่ง่ายกว่าจะเป็นต้นแบบมากขึ้น แต่คำอธิบายเชิงความหมายที่ครอบคลุมเกี่ยวกับความยากของภาพยังไม่มีงานวิจัยที่ชัดเจน” Mayo กล่าว

ตัวอย่างเช่น ในขอบเขตของการดูแลสุขภาพ ความเกี่ยวข้องของการทำความเข้าใจความซับซ้อนของการมองเห็นจะยิ่งเด่นชัดยิ่งขึ้น ความสามารถของโมเดล AI ในการตีความภาพทางการแพทย์ เช่น ภาพเอ็กซ์เรย์ ขึ้นอยู่กับความหลากหลายและการกระจายตัวของภาพได้ยาก นักวิจัยสนับสนุนให้วิเคราะห์การกระจายความยากอย่างพิถีพิถันซึ่งออกแบบมาสำหรับมืออาชีพ เพื่อให้มั่นใจว่าระบบ AI ได้รับการประเมินตามมาตรฐานของผู้เชี่ยวชาญ ไม่ใช่การตีความของคนทั่วไป

ปัจจุบัน Mayo และ Cummings กำลังมองหารากฐานทางระบบประสาทของการจดจำภาพเช่นกัน โดยพิจารณาว่าสมองมีกิจกรรมที่แตกต่างกันหรือไม่เมื่อประมวลผลภาพที่ง่ายและท้าทาย การศึกษานี้มีจุดมุ่งหมายเพื่อคลี่คลายว่าภาพที่ซับซ้อนรับสมัครพื้นที่สมองเพิ่มเติมซึ่งโดยทั่วไปไม่เกี่ยวข้องกับการประมวลผลภาพหรือไม่ โดยหวังว่าจะช่วยให้เข้าใจได้ง่ายขึ้นว่าสมองของเราถอดรหัสโลกแห่งการมองเห็นได้อย่างแม่นยำและมีประสิทธิภาพอย่างไร

ยกระดับประสิทธิภาพให้ใกล้เคียงมนุษย์

เมื่อมองไปข้างหน้า นักวิจัยไม่เพียงแต่มุ่งเน้นไปที่การสำรวจวิธีการปรับปรุงความสามารถในการคาดการณ์ของ AI เกี่ยวกับความยากของภาพเท่านั้น ทีมงานกำลังทำงานเพื่อระบุความสัมพันธ์กับความยากลำบากในการดูเพื่อสร้างรูปภาพในเวอร์ชันที่ยากขึ้นหรือง่ายขึ้น

แม้จะมีความก้าวหน้าที่สำคัญของการศึกษา แต่นักวิจัยก็รับทราบถึงข้อจำกัด โดยเฉพาะอย่างยิ่งในแง่ของการแยกการรับรู้วัตถุออกจากงานค้นหาด้วยภาพ วิธีการในปัจจุบันมุ่งเน้นไปที่การจดจำวัตถุ โดยละทิ้งความซับซ้อนที่เกิดจากภาพที่เกะกะ

“แนวทางที่ครอบคลุมนี้จัดการกับความท้าทายที่มีมายาวนานในการประเมินความก้าวหน้าอย่างเป็นกลางต่อประสิทธิภาพระดับมนุษย์ในการจดจำวัตถุ และเปิดช่องทางใหม่สำหรับการทำความเข้าใจและพัฒนาสาขานี้” Mayo กล่าว “ด้วยศักยภาพในการปรับการวัดความยากของเวลาในการดูขั้นต่ำสำหรับงานด้านภาพที่หลากหลาย งานนี้ปูทางไปสู่ประสิทธิภาพการจดจำวัตถุที่แข็งแกร่งและเหมือนมนุษย์มากขึ้น ทำให้มั่นใจได้ว่าแบบจำลองจะได้รับการทดสอบอย่างแท้จริงและพร้อมสำหรับ ความซับซ้อนของความเข้าใจด้วยภาพในโลกแห่งความเป็นจริง”

Alan L. Yuille ศาสตราจารย์พิเศษด้าน Cognitive Science ของ Bloomberg กล่าวว่า “นี่เป็นการศึกษาที่น่าสนใจเกี่ยวกับวิธีการใช้การรับรู้ของมนุษย์เพื่อระบุจุดอ่อนในวิธีเปรียบเทียบโมเดลการมองเห็นของ AI ซึ่งประเมินประสิทธิภาพของ AI สูงเกินไปโดยมุ่งเน้นไปที่ภาพที่ง่ายดาย” วิทยาการคอมพิวเตอร์ที่มหาวิทยาลัย Johns Hopkins ซึ่งไม่เกี่ยวข้องกับบทความนี้ “สิ่งนี้จะช่วยพัฒนาเกณฑ์มาตรฐานที่สมจริงมากขึ้น ซึ่งไม่เพียงแต่นำไปสู่การปรับปรุง AI เท่านั้น แต่ยังทำให้การเปรียบเทียบที่ยุติธรรมยิ่งขึ้นระหว่าง AI และการรับรู้ของมนุษย์”

“มีการกล่าวอ้างอย่างกว้างขวางว่าขณะนี้ระบบคอมพิวเตอร์วิทัศน์มีประสิทธิภาพเหนือกว่ามนุษย์ และในชุดข้อมูลการวัดประสิทธิภาพบางชุดก็เป็นเรื่องจริง” Simon Kornblith PhD ’17 เจ้าหน้าที่ด้านเทคนิคด้าน Anthropic ผู้ซึ่งไม่ได้เกี่ยวข้องกับงานนี้กล่าว “อย่างไรก็ตาม ความยากในการวัดประสิทธิภาพเหล่านั้นมาจากความไม่ชัดเจนของสิ่งที่อยู่ในภาพ คนทั่วไปไม่มีความรู้เพียงพอที่จะจำแนกสุนัขสายพันธุ์ต่างๆ ได้ งานนี้เน้นไปที่ภาพที่ผู้คนจะสามารถทำให้ถูกต้องได้หากให้เวลาเพียงพอเท่านั้น โดยทั่วไปแล้วภาพเหล่านี้จะยากกว่ามากสำหรับระบบคอมพิวเตอร์วิทัศน์ แต่ระบบที่ดีที่สุดนั้นแย่กว่ามนุษย์เพียงเล็กน้อยเท่านั้น”

Mayo, Cummings และ Xinyu Lin MEng ’22 เขียนรายงานวิจัยร่วมกับ Andrei Barbu นักวิทยาศาสตร์การวิจัย CSAIL, Boris Katz นักวิทยาศาสตร์การวิจัยหลักของ CSAIL และ Dan Gutfreund นักวิจัยหลักของ MIT-IBM Watson AI Lab นักวิจัยเป็นบริษัทในเครือของศูนย์สมอง จิตใจ และเครื่องจักรของ MIT

ทีมงานกำลังนำเสนอผลงานในการประชุมระบบประมวลผลข้อมูลประสาท (NeurIPS) ปี 2023

view original *