AI agents help explain other AI systems

นักวิจัยของ MIT แนะนำวิธีการที่ใช้ปัญญาประดิษฐ์ เพื่อทำให้การอธิบาย complex neural networks เป็นแบบอัตโนมัติ

MIT researchers introduce a method that uses artificial intelligence to automate the explanation of complex neural networks.

“FIND” AI agents ที่ช่วยอธิบายระบบ AI ที่มี neural networks ซับซ้อน

การอธิบายพฤติกรรมของ complex neural networks ที่ได้รับการฝึกยังคงเป็นปริศนาที่น่าสนใจ โดยเฉพาะอย่างยิ่งเมื่อโมเดลเหล่านี้มีขนาดและความซับซ้อนเพิ่มมากขึ้น เช่นเดียวกับความท้าทายทางวิทยาศาสตร์อื่นๆ ในประวัติศาสตร์ การทำวิศวกรรมย้อนกลับว่าระบบปัญญาประดิษฐ์ทำงานอย่างไรนั้นจำเป็นต้องมีการทดลองจำนวนมาก เช่น การสร้างสมมติฐาน การแทรกแซงพฤติกรรม และแม้แต่การแยกเครือข่ายขนาดใหญ่เพื่อตรวจสอบเซลล์ประสาทแต่ละตัว จนถึงปัจจุบัน การทดลองที่ประสบความสำเร็จส่วนใหญ่เกี่ยวข้องกับการกำกับดูแลของมนุษย์จำนวนมาก การอธิบายการคำนวณทุกรายการภายในโมเดลที่มีขนาด GPT-4 และใหญ่กว่านั้นแทบจะต้องใช้ระบบอัตโนมัติมากกว่านี้อย่างแน่นอน แม้กระทั่งการใช้โมเดล AI เองก็ด้วยซ้ำ

เพื่ออำนวยความสะดวกให้กับความพยายามในเวลาที่เหมาะสมนี้ นักวิจัยจากห้องปฏิบัติการวิทยาการคอมพิวเตอร์และปัญญาประดิษฐ์ (CSAIL) ของ MIT ได้พัฒนาแนวทางใหม่ที่ใช้โมเดล AI เพื่อทำการทดลองกับระบบอื่นและอธิบายพฤติกรรมของพวกเขา วิธีการของพวกเขาใช้ตัวแทนที่สร้างขึ้นจากโมเดลภาษาที่ได้รับการฝึกอบรมมาล่วงหน้าเพื่อสร้างคำอธิบายที่เข้าใจง่ายของการคำนวณภายในเครือข่ายที่ได้รับการฝึกอบรม

หัวใจสำคัญของกลยุทธ์นี้คือ “automated interpretability agent” (AIA) ซึ่งออกแบบมาเพื่อเลียนแบบกระบวนการทดลองของนักวิทยาศาสตร์ เจ้าหน้าที่การตีความจะวางแผนและดำเนินการทดสอบกับระบบคอมพิวเตอร์อื่นๆ ซึ่งอาจมีขนาดตั้งแต่เซลล์ประสาทแต่ละตัวไปจนถึงโมเดลทั้งหมด เพื่อสร้างคำอธิบายของระบบเหล่านี้ในรูปแบบต่างๆ ได้แก่ คำอธิบายภาษาว่าระบบทำอะไรและล้มเหลวที่ใด และ รหัสที่สร้างพฤติกรรมของระบบขึ้นมาใหม่ ซึ่งแตกต่างจากขั้นตอนการตีความที่มีอยู่ซึ่งจะจำแนกหรือสรุปตัวอย่างเฉยๆ AIA มีส่วนร่วมอย่างแข็งขันในการสร้างสมมติฐาน การทดสอบเชิงทดลอง และการเรียนรู้ซ้ำ ดังนั้นจึงช่วยปรับปรุงความเข้าใจของระบบอื่นๆ ในแบบเรียลไทม์

การเสริมวิธีการของ AIA คือเกณฑ์มาตรฐานการตีความฟังก์ชันและคำอธิบาย ”function interpretation and description“ (FIND) ใหม่ ซึ่งเป็นชุดทดสอบของฟังก์ชันที่คล้ายกับการคำนวณภายในเครือข่ายที่ได้รับการฝึกอบรม และคำอธิบายพฤติกรรมของฟังก์ชันเหล่านั้นด้วย ความท้าทายหลักประการหนึ่งในการประเมินคุณภาพของคำอธิบายของส่วนประกอบเครือข่ายในโลกแห่งความเป็นจริงคือคำอธิบายนั้นดีพอๆ กับความสามารถในการอธิบายเท่านั้น นักวิจัยไม่สามารถเข้าถึงป้ายกำกับความจริงภาคพื้นดินของหน่วยหรือคำอธิบายของการคำนวณที่เรียนรู้ได้ FIND จัดการกับปัญหาที่มีมายาวนานในภาคสนามโดยจัดเตรียมมาตรฐานที่เชื่อถือได้สำหรับการประเมินขั้นตอนการตีความได้: คำอธิบายฟังก์ชันต่างๆ (เช่น produced by an AIA) สามารถประเมินเทียบกับคำอธิบายฟังก์ชันในเกณฑ์มาตรฐานได้

ตัวอย่างเช่น FIND มี synthetic neurons ที่ออกแบบมาเพื่อเลียนแบบพฤติกรรมของเซลล์ประสาทจริงในโมเดลภาษา ซึ่งบางส่วนเป็นแบบเลือกสรรสำหรับแนวคิดส่วนบุคคล เช่น “ground transportation” AIA ได้รับสิทธิ์ในการเข้าถึง synthetic neurons แบบกล่องดำและอินพุตการออกแบบ (เช่น “ต้นไม้” “ความสุข” และ “รถยนต์”) เพื่อทดสอบการตอบสนองของเซลล์ประสาท หลังจากสังเกตเห็นว่า synthetic neurons สร้างค่าการตอบสนองสำหรับ “รถยนต์” ที่สูงกว่าอินพุตอื่นๆ เอไอเออาจออกแบบการทดสอบที่มีรายละเอียดมากขึ้นเพื่อแยกแยะความแตกต่างของการเลือกสรรของเซลล์ประสาทสำหรับรถยนต์จากการขนส่งรูปแบบอื่นๆ เช่น เครื่องบินและเรือ เมื่อ AIA สร้างคำอธิบาย เช่น “เซลล์ประสาทนี้มีไว้สำหรับการขนส่งทางถนน ไม่ใช่การเดินทางทางอากาศหรือทางทะเล” คำอธิบายนี้จะได้รับการประเมินเทียบกับคำอธิบายความจริงภาคพื้นดินของ synthetic neurons (“แบบเลือกสำหรับ ground transportation”) ใน FIND เกณฑ์มาตรฐานสามารถใช้เพื่อเปรียบเทียบความสามารถของเอไอเอกับวิธีการอื่นๆ ในงานวิจัยได้

Sarah Schwettmann PhD ’21 ผู้ร่วมเขียนบทความเกี่ยวกับงานใหม่และนักวิทยาศาสตร์การวิจัยที่ CSAIL เน้นย้ำถึงข้อดีของแนวทางนี้ “ความสามารถของ AIA ในการสร้างและทดสอบสมมติฐานอัตโนมัติอาจสามารถแสดงพฤติกรรมที่อาจเป็นเรื่องยากสำหรับนักวิทยาศาสตร์ที่จะตรวจจับได้ เป็นเรื่องน่าทึ่งที่โมเดลภาษาเมื่อติดตั้งเครื่องมือสำหรับตรวจสอบระบบอื่นๆ จะสามารถออกแบบการทดลองประเภทนี้ได้” Schwettmann กล่าว “การวัดประสิทธิภาพที่เรียบง่ายและชัดเจนพร้อมคำตอบจากความจริงได้เป็นตัวขับเคลื่อนหลักที่ทำให้เกิดความสามารถทั่วไปมากขึ้นในโมเดลภาษา และเราหวังว่า FIND จะสามารถมีบทบาทที่คล้ายกันในการวิจัยความสามารถในการตีความได้”

Automating interpretability

โมเดลภาษาขนาดใหญ่ยังคงรักษาสถานะของพวกเขาในฐานะคนดังที่เป็นที่ต้องการของโลกเทคโนโลยี ความก้าวหน้าล่าสุดใน LLM ได้เน้นย้ำถึงความสามารถในการทำงานด้านการใช้เหตุผลที่ซับซ้อนในโดเมนที่หลากหลาย ทีมงานที่ CSAIL ตระหนักดีว่าด้วยความสามารถเหล่านี้ โมเดลภาษาอาจทำหน้าที่เป็นแกนหลักของตัวแทนทั่วไปสำหรับการตีความอัตโนมัติ “ความสามารถในการตีความได้ในอดีตเป็นสาขาที่มีหลายแง่มุมมาก” Schwettmann กล่าว “ไม่มีแนวทางใดที่เหมาะกับทุกคน ขั้นตอนส่วนใหญ่จะเฉพาะเจาะจงมากกับคำถามแต่ละข้อที่เราอาจมีเกี่ยวกับระบบ และกับรูปแบบเฉพาะบุคคล เช่น การมองเห็นหรือภาษา วิธีการที่มีอยู่ในการติดป้ายกำกับเซลล์ประสาทแต่ละตัวภายในโมเดลการมองเห็นจำเป็นต้องฝึกอบรมโมเดลเฉพาะทางเกี่ยวกับข้อมูลของมนุษย์ โดยที่โมเดลเหล่านี้ทำงานเพียงงานเดียวเท่านั้น ตัวแทนความสามารถในการตีความที่สร้างขึ้นจากโมเดลภาษาสามารถจัดเตรียมอินเทอร์เฟซทั่วไปสำหรับการอธิบายระบบอื่นๆ โดยการสังเคราะห์ผลลัพธ์จากการทดลอง การบูรณาการในรูปแบบต่างๆ แม้กระทั่งการค้นพบเทคนิคการทดลองใหม่ๆ ในระดับพื้นฐาน”

เมื่อเราเข้าสู่ระบอบการปกครองที่โมเดลที่ทำการอธิบายนั้นเป็นกล่องดำ การประเมินภายนอกของวิธีการตีความก็มีความสำคัญมากขึ้น เกณฑ์มาตรฐานใหม่ของทีมตอบสนองความต้องการนี้ด้วยชุดฟังก์ชันที่มีโครงสร้างที่ทราบ ซึ่งจำลองตามพฤติกรรมที่สังเกตได้ในป่า ฟังก์ชันภายใน FIND ครอบคลุมโดเมนที่หลากหลาย ตั้งแต่การให้เหตุผลทางคณิตศาสตร์ไปจนถึงการดำเนินการเชิงสัญลักษณ์บนสตริง ไปจนถึง synthetic neurons ที่สร้างขึ้นจากงานระดับคำ ชุดข้อมูลของฟังก์ชันเชิงโต้ตอบถูกสร้างขึ้นตามขั้นตอน ความซับซ้อนในโลกแห่งความเป็นจริงถูกนำมาใช้กับฟังก์ชันง่ายๆ โดยการเพิ่มสัญญาณรบกวน ฟังก์ชันการเขียน และการจำลองอคติ ซึ่งช่วยให้สามารถเปรียบเทียบวิธีการตีความได้ในสภาพแวดล้อมที่แปลเป็นประสิทธิภาพในโลกแห่งความเป็นจริง

นอกเหนือจากชุดข้อมูลฟังก์ชันแล้ว นักวิจัยยังได้แนะนำโปรโตคอลการประเมินผลที่เป็นนวัตกรรมใหม่เพื่อประเมินประสิทธิผลของ AIA และวิธีการตีความแบบอัตโนมัติที่มีอยู่ โปรโตคอลนี้เกี่ยวข้องกับสองแนวทาง สำหรับงานที่ต้องจำลองฟังก์ชันในโค้ด การประเมินจะเปรียบเทียบการประมาณค่าที่สร้างโดย AI และฟังก์ชันความจริงภาคพื้นดินดั้งเดิมโดยตรง การประเมินมีความซับซ้อนมากขึ้นสำหรับงานที่เกี่ยวข้องกับคำอธิบายฟังก์ชันในภาษาธรรมชาติ ในกรณีเหล่านี้ การประเมินคุณภาพของคำอธิบายเหล่านี้อย่างแม่นยำจำเป็นต้องมีความเข้าใจเนื้อหาเชิงความหมายโดยอัตโนมัติ เพื่อรับมือกับความท้าทายนี้ นักวิจัยได้พัฒนาโมเดลภาษา “บุคคลที่สาม” แบบพิเศษ โมเดลนี้ได้รับการฝึกอบรมมาโดยเฉพาะเพื่อประเมินความถูกต้องและความสอดคล้องของคำอธิบายภาษาธรรมชาติที่ระบบ AI ให้มา และเปรียบเทียบกับ ground-truth function behavior

FIND ช่วยให้การประเมินเผยให้เห็นว่าเรายังห่างไกลจากการตีความอัตโนมัติอย่างสมบูรณ์ แม้ว่าเอไอเอจะมีประสิทธิภาพเหนือกว่าแนวทางการตีความที่มีอยู่ แต่ก็ยังไม่สามารถอธิบายฟังก์ชันเกือบครึ่งหนึ่งในเกณฑ์มาตรฐานได้อย่างแม่นยำ Tamar Rott Shaham ผู้เขียนร่วมของการศึกษาวิจัยและ postdoc ใน CSAIL ตั้งข้อสังเกตว่า “แม้ว่า AIA รุ่นนี้มีประสิทธิภาพในการอธิบายฟังก์ชันการทำงานระดับสูง แต่พวกเขาก็มักจะมองข้ามรายละเอียดปลีกย่อย โดยเฉพาะอย่างยิ่งในโดเมนย่อยของฟังก์ชันที่มีสัญญาณรบกวนหรือ พฤติกรรมที่ผิดปกติ อาจเกิดจากการสุ่มตัวอย่างไม่เพียงพอในพื้นที่เหล่านี้ ประเด็นหนึ่งก็คือประสิทธิภาพของ AIA อาจถูกขัดขวางโดยข้อมูลการสำรวจเบื้องต้น เพื่อตอบโต้สิ่งนี้ เราได้พยายามชี้แนะการสำรวจของ AIA โดยเริ่มต้นการค้นหาด้วยข้อมูลเฉพาะที่เกี่ยวข้อง ซึ่งช่วยเพิ่มความแม่นยำในการตีความอย่างมาก” แนวทางนี้เป็นการผสมผสานวิธีการใหม่ของ AIA เข้ากับเทคนิคก่อนหน้านี้ โดยใช้ตัวอย่างที่คำนวณไว้ล่วงหน้าเพื่อเริ่มกระบวนการตีความ

นักวิจัยยังกำลังพัฒนาชุดเครื่องมือเพื่อเพิ่มความสามารถของ AIA ในการทำการทดลองที่แม่นยำยิ่งขึ้นเกี่ยวกับ complex neural networks ทั้งในการตั้งค่ากล่องดำและกล่องสีขาว ชุดเครื่องมือนี้มีจุดมุ่งหมายเพื่อให้ AIA มีเครื่องมือที่ดีกว่าสำหรับการเลือกอินพุตและปรับปรุงความสามารถในการทดสอบสมมติฐานเพื่อการวิเคราะห์ complex neural networks ที่เหมาะสมและแม่นยำยิ่งขึ้น ทีมงานยังจัดการกับความท้าทายเชิงปฏิบัติในด้านการตีความของ AI โดยมุ่งเน้นไปที่การกำหนดคำถามที่ถูกต้องเพื่อถามเมื่อวิเคราะห์โมเดลในสถานการณ์จริง เป้าหมายของพวกเขาคือการพัฒนากระบวนการตีความแบบอัตโนมัติที่สามารถช่วยระบบตรวจสอบผู้คนได้ในที่สุด เช่น การขับขี่อัตโนมัติหรือการจดจำใบหน้า เพื่อวินิจฉัยโหมดความล้มเหลวที่อาจเกิดขึ้น อคติที่ซ่อนอยู่ หรือพฤติกรรมที่น่าประหลาดใจก่อนการใช้งาน

Watching the watchers

ทีมงานจินตนาการว่าวันหนึ่งจะพัฒนา AIA ที่เกือบจะเป็นอิสระซึ่งสามารถตรวจสอบระบบอื่นๆ โดยมีนักวิทยาศาสตร์ที่เป็นมนุษย์คอยดูแลและให้คำแนะนำ AIA ขั้นสูงสามารถพัฒนาการทดลองและคำถามรูปแบบใหม่ๆ ซึ่งอาจอยู่นอกเหนือการพิจารณาเบื้องต้นของนักวิทยาศาสตร์ที่เป็นมนุษย์ จุดมุ่งเน้นอยู่ที่การขยายความสามารถในการตีความของ AI เพื่อรวมพฤติกรรมที่ซับซ้อนมากขึ้น เช่น วงจรประสาททั้งหมดหรือเครือข่ายย่อย และการคาดการณ์อินพุตที่อาจนำไปสู่พฤติกรรมที่ไม่พึงประสงค์ การพัฒนานี้ถือเป็นก้าวสำคัญในการวิจัย AI โดยมีเป้าหมายเพื่อทำให้ระบบ AI เข้าใจง่ายและเชื่อถือได้มากขึ้น

“เกณฑ์มาตรฐานที่ดีคือเครื่องมืออันทรงพลังในการรับมือกับความท้าทายที่ยากลำบาก” Martin Wattenberg ศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์แห่งมหาวิทยาลัยฮาร์วาร์ด ซึ่งไม่ได้เกี่ยวข้องกับการศึกษาวิจัยกล่าว “เป็นเรื่องมหัศจรรย์ที่ได้เห็นเกณฑ์มาตรฐานที่ซับซ้อนสำหรับความสามารถในการตีความ ซึ่งเป็นหนึ่งในความท้าทายที่สำคัญที่สุดในการเรียนรู้ของเครื่องในปัจจุบัน ฉันประทับใจเป็นพิเศษกับตัวแทนการตีความอัตโนมัติที่ผู้เขียนสร้างขึ้น มันเป็นยิวยิตสูที่สามารถตีความได้ โดยเปลี่ยน AI กลับคืนมาเพื่อช่วยให้มนุษย์เข้าใจ”

Schwettmann, Rott Shaham และเพื่อนร่วมงานนำเสนอผลงานของพวกเขาที่ NeurIPS 2023 ในเดือนธันวาคม ผู้เขียนร่วมของ MIT เพิ่มเติม ซึ่งเป็นบริษัทในเครือของ CSAIL และภาควิชาวิศวกรรมไฟฟ้าและวิทยาการคอมพิวเตอร์ (EECS) ได้แก่นักศึกษาระดับบัณฑิตศึกษา Joanna Materzynska นักศึกษาระดับปริญญาตรี Neil Chowdhury, Shuang Li PhD ’23, ผู้ช่วยศาสตราจารย์ Jacob Andreas และศาสตราจารย์ Antonio Torralba ผู้ช่วยศาสตราจารย์ David Bau จากมหาวิทยาลัย Northeastern เป็นผู้เขียนร่วมเพิ่มเติม

งานวิจัยนี้ได้รับการสนับสนุนจาก MIT-IBM Watson AI Lab, Open Philanthropy, Amazon Research Award, Hyundai NGV, the U.S. Army Research Laboratory, the U.S. National Science Foundation, the Zuckerman STEM Leadership Program และ Viterbi Fellowship .

view original *