Researchers use large language models to help robots navigate

วิธีการนี้ใช้ language-based inputs อินพุตด้วยการบรรยายเป็นภาษาแทนข้อมูลภาพ (visual data) ที่มีราคาแพง เพื่อสั่งหุ่นยนต์ผ่านงานการนำทางแบบหลายขั้นตอน

The method uses language-based inputs instead of costly visual data to direct a robot through a multistep navigation task.

นักวิจัยใช้ large language model ร่วมกับ visual เพื่อพัฒนา navigation performance ของหุ่นยนต์ให้มีประสิทธิภาพดีขึ้น

สักวันหนึ่ง คุณอาจต้องการให้หุ่นยนต์ช่วยงานบ้านของคุณขนเสื้อผ้าใช้แล้วจำนวนหนึ่ง ลงบันได แล้วนำเสื้อผ้าไปใส่ในเครื่องซักผ้า ที่ตั้งอยู่มุมซ้ายสุดของห้องใต้ดิน หุ่นยนต์จะต้องรวมคำสั่งของคุณเข้ากับ visual observations เพื่อกำหนดขั้นตอนที่ควรดำเนินการเพื่อทำงานนี้ให้สำเร็จ

สำหรับAI agent พูดง่ายกว่าทำ แนวทางในปัจจุบันมักใช้ machine-learning models ที่สร้างขึ้นโดยเฉพาะหลายแบบ เพื่อจัดการกับส่วนต่างๆ ของงาน ซึ่งต้องใช้ความพยายามและความเชี่ยวชาญของมนุษย์อย่างมากในการสร้าง วิธีการเหล่านี้ ซึ่งใช้การแสดงภาพเพื่อตัดสินใจในการนำทางโดยตรง ต้องการข้อมูลภาพจำนวนมหาศาลสำหรับการฝึกอบรม ซึ่งมักจะทำได้ยาก

เพื่อเอาชนะความท้าทายเหล่านี้ นักวิจัยจาก MIT และ MIT-IBM Watson AI Lab ได้คิดค้นวิธีการนำทางที่แปลงการนำเสนอด้วยภาพให้เป็นภาษาต่างๆ จากนั้นจะถูกป้อนเข้าใน large language model ตัวเดียว ที่สามารถบรรลุทุกส่วนของงานการนำทางแบบหลายขั้นตอน

แทนที่จะ encoding visual features สภาพแวดล้อมของหุ่นยนต์เป็นการแสดงภาพ ซึ่งต้องใช้การประมวลผลอย่างหนัก (computationally intensive) วิธีการของพวกเขาจะสร้างคำบรรยายข้อความที่อธิบายมุมมองของหุ่นยนต์  large language model ใช้คำบรรยายเพื่อคาดการณ์การกระทำที่หุ่นยนต์ควรทำเพื่อปฏิบัติตามคำแนะนำตามภาษาของผู้ใช้

เนื่องจากวิธีการของพวกเขาใช้การนำเสนอตามภาษาเพียงอย่างเดียว พวกเขาจึงสามารถใช้ large language model เพื่อสร้างข้อมูลการฝึกอบรมสังเคราะห์จำนวนมหาศาลได้อย่างมีประสิทธิภาพ

แม้ว่าวิธีนี้จะไม่ได้มีประสิทธิภาพเหนือกว่าเทคนิคที่ใช้ visual features แต่ก็ทำงานได้ดีในสถานการณ์ที่ขาดข้อมูลภาพเพียงพอสำหรับการฝึกอบรม นักวิจัยพบว่าการรวมอินพุตที่ใช้ภาษาบรรยาย (language-based inputs) เข้ากับ visual signals เข้าด้วยกัน ทำให้ navigation performance มีประสิทธิภาพดีขึ้น

“การใช้ภาษาเป็นตัวแทนการรับรู้เพียงอย่างเดียว แนวทางของเราจึงตรงไปตรงมามากขึ้น เนื่องจากอินพุตทั้งหมดสามารถเข้ารหัสเป็นการบรรยายด้วยภาษาได้ เราจึงสามารถสร้างวิถีที่มนุษย์เข้าใจได้” Bowen Pan นักศึกษาระดับบัณฑิตศึกษาสาขาวิศวกรรมไฟฟ้าและวิทยาการคอมพิวเตอร์ (EECS) และผู้เขียนรายงานเกี่ยวกับแนวทางนี้กล่าว

ผู้เขียนร่วมของ Pan ได้แก่ ที่ปรึกษาของเขา Aude Oliva ผู้อำนวยการฝ่ายการมีส่วนร่วมในอุตสาหกรรมเชิงกลยุทธ์ที่ MIT Schwarzman College of Computing ผู้อำนวยการ MIT ของ MIT-IBM Watson AI Lab และนักวิทยาศาสตร์การวิจัยอาวุโสในห้องปฏิบัติการวิทยาการคอมพิวเตอร์และปัญญาประดิษฐ์ (CSAIL ); Philip Isola รองศาสตราจารย์ของ EECS และสมาชิกของ CSAIL; ผู้เขียนอาวุโส Yoon Kim ผู้ช่วยศาสตราจารย์ของ EECS และสมาชิกของ CSAIL; และอื่นๆ ที่ MIT-IBM Watson AI Lab และ Dartmouth College งานวิจัยนี้จะถูกนำเสนอในการประชุมบทอเมริกาเหนือของสมาคมภาษาศาสตร์คอมพิวเตอร์

การแก้ปัญหา vision ด้วยภาษา

เนื่องจาก large language model เป็นโมเดลแมชชีนเลิร์นนิงที่ทรงพลังที่สุดที่มีอยู่ นักวิจัยจึงพยายามรวมโมเดลเหล่านี้เข้ากับงานที่ซับซ้อนที่เรียกว่า vision-and-language navigation

แต่โมเดลดังกล่าวใช้อินพุตแบบข้อความและไม่สามารถประมวลผลข้อมูลภาพจากกล้องของหุ่นยนต์ได้ ทีมงานจึงต้องหาวิธีใช้ภาษาแทน

เทคนิคของพวกเขาใช้แบบจำลองคำบรรยายอย่างง่าย (simple captioning model) เพื่อใช้คำอธิบายเป็นข้อความ (text descriptions) แจกแจง visual observations สิ่งที่หุ่นยนต์มองเห็น คำบรรยายเหล่านี้จะถูกรวมเป็น language-based instructions และป้อนเข้าสู่ large language model  ซึ่งจะตัดสินว่าหุ่นยนต์ควรดำเนินการขั้นตอนการนำทางใดต่อไป

large language model จะแสดงคำอธิบายของฉากที่หุ่นยนต์ควรเห็นหลังจากเสร็จสิ้นขั้นตอนนั้น ใช้เพื่ออัปเดต trajectory history เพื่อให้หุ่นยนต์สามารถติดตามตำแหน่งที่มันไป

แบบจำลองทำซ้ำกระบวนการเหล่านี้เพื่อสร้างเส้นทาง trajectory ที่จะนำทางหุ่นยนต์ไปสู่เป้าหมายทีละขั้น

เพื่อปรับปรุงกระบวนการนี้ นักวิจัยได้ออกแบบเทมเพลตเพื่อให้ข้อมูลการสังเกตถูกนำเสนอต่อโมเดลในรูปแบบมาตรฐาน ซึ่งเป็นชุดตัวเลือกที่หุ่นยนต์สามารถเลือกได้ตามสภาพแวดล้อม

ตัวอย่างเช่น คำบรรยายอาจบอกว่า ทางซ้าย 30 องศาของคุณ คือ ประตูที่มีกระถางต้นไม้อยู่ข้างๆ ด้านหลังของคุณคือห้องทำงานเล็กๆ ที่มีโต๊ะ และคอมพิวเตอร์  เป็นต้น โมเดลจะเลือกว่าหุ่นยนต์ควรเคลื่อนไปทางนั้นหรือไม่ ประตูหรือสำนักงาน

“หนึ่งในความท้าทายที่ใหญ่ที่สุดคือการหาวิธีเข้ารหัสข้อมูลประเภทนี้เป็นภาษาด้วยวิธีที่เหมาะสมเพื่อทำให้ตัวแทนเข้าใจว่างานคืออะไรและพวกเขาควรตอบสนองอย่างไร” Pan กล่าว

ข้อดีของภาษา

เมื่อพวกเขาทดสอบแนวทางนี้ แม้ว่าจะไม่สามารถทำได้ดีกว่า vision-based techniques  แต่พวกเขาพบว่ามีข้อดีหลายประการ

ประการแรก เนื่องจากข้อความต้องการทรัพยากรการคำนวณน้อยกว่าในการสังเคราะห์มากกว่าข้อมูลรูปภาพที่ซับซ้อน วิธีการของข้อความจึงสามารถนำมาใช้เพื่อสร้างข้อมูลการฝึกสังเคราะห์ได้อย่างรวดเร็ว ในการทดสอบครั้งหนึ่ง พวกเขาสร้าง 10,000 synthetic trajectories จาก 10 visual trajectories ในโลกจริง

เทคนิคนี้ยังช่วยลดช่องว่างที่สามารถป้องกันไม่ให้ตัวแทนที่ได้รับการฝึกด้วยสภาพแวดล้อมจำลองทำงานได้ดีในโลกแห่งความเป็นจริง ช่องว่างนี้มักเกิดขึ้นเนื่องจากรูปภาพที่สร้างด้วยคอมพิวเตอร์อาจปรากฏค่อนข้างแตกต่างจากฉากในโลกแห่งความเป็นจริงเนื่องจากองค์ประกอบต่างๆ เช่น แสงหรือสี แต่ภาษาที่อธิบายภาพสังเคราะห์กับภาพจริงคงแยกได้ยากกว่ามาก Pan กล่าว 

นอกจากนี้ การเป็นตัวแทนที่โมเดลของพวกเขาใช้นั้นยังง่ายกว่าสำหรับมนุษย์ที่จะเข้าใจ เนื่องจากพวกมันเขียนด้วยภาษาธรรมชาติ

“หากตัวแทนไม่บรรลุเป้าหมาย เราจะระบุได้ง่ายขึ้นว่าล้มเหลวตรงไหนและเหตุใดจึงล้มเหลว บางทีข้อมูลประวัติไม่ชัดเจนเพียงพอ หรือการสังเกตมองข้ามรายละเอียดที่สำคัญบางอย่าง” แพนกล่าว

นอกจากนี้ วิธีการนี้สามารถนำไปใช้กับงานและสภาพแวดล้อมที่หลากหลายได้ง่ายขึ้น เนื่องจากใช้อินพุตประเภทเดียวเท่านั้น ตราบใดที่ข้อมูลสามารถเข้ารหัสเป็นภาษาได้ ก็สามารถใช้โมเดลเดียวกันได้โดยไม่ต้องทำการแก้ไขใดๆ

แต่ข้อเสียประการหนึ่งก็คือ วิธีการของพวกเขาจะสูญเสียข้อมูลบางอย่างที่จะถูกบันทึกโดยแบบจำลองตาม vision  เช่น ข้อมูลเชิงลึก

อย่างไรก็ตาม นักวิจัยรู้สึกประหลาดใจที่เห็นว่าการผสมผสานการนำเสนอโดยใช้ภาษาและวิธีการที่ใช้ vision ช่วยเพิ่มความสามารถในการนำทางของตัวแทน

“บางทีนี่อาจหมายความว่าภาษาสามารถรวบรวมข้อมูลในระดับที่สูงกว่าที่ไม่สามารถบันทึกได้ด้วย pure vision features” เขากล่าว

นี่เป็นพื้นที่หนึ่งที่นักวิจัยต้องการสำรวจต่อไป พวกเขายังต้องการพัฒนาคำบรรยายที่เน้นการนำทางซึ่งสามารถเพิ่มประสิทธิภาพของวิธีการได้ นอกจากนี้ พวกเขาต้องการตรวจสอบความสามารถของ large language model เพื่อแสดงการรับรู้เชิงพื้นที่ และดูว่าสิ่งนี้สามารถช่วย language-based navigation

งานวิจัยนี้ได้รับทุนบางส่วนจาก MIT-IBM Watson AI Lab

view original *