ทีมวิจัยได้แสดงให้เห็นเป็นครั้งแรกว่าการเรียนรู้แบบเสริมกำลัง (Reinforcement learning) เช่น neural network จะเรียนรู้การทำงานที่ดีที่สุด ขึ้นอยู่กับกลไกการให้รางวัล ช่วยให้ยานยนต์อัตโนมัติและหุ่นยนต์ใต้น้ำสามารถระบุตำแหน่งและติดตามวัตถุและสัตว์ทะเลได้อย่างรัดกุม
A research team has shown for the first time that reinforcement learning—i.e., a neural network that learns the best action to perform at each moment based on a series of rewards—allows autonomous vehicles and underwater robots to locate and carefully track marine objects and animals.
Reinforcement learning ช่วยให้หุ่นยนต์ใต้น้ำสามารถระบุตำแหน่งและติดตามวัตถุใต้น้ำได้
ทีมวิจัยได้แสดงให้เห็นเป็นครั้งแรกว่าการเรียนรู้แบบเสริมกำลัง (Reinforcement learning) เช่น neural network จะเรียนรู้การทำงานที่ดีที่สุด ขึ้นอยู่กับกลไกการให้รางวัล ช่วยให้ยานยนต์อัตโนมัติและหุ่นยนต์ใต้น้ำสามารถระบุตำแหน่งและติดตามวัตถุและสัตว์ทะเลได้อย่างรัดกุม
รายละเอียดได้รับการตีพิมพ์ในบทความงานวิจัยใน Science Robotics
ในปัจจุบัน วิทยาการหุ่นยนต์ใต้น้ำกำลังกลายเป็นเครื่องมือสำคัญในการพัฒนาความรู้ด้านมหาสมุทรท่ามกลางความยากลำบากมากมายในการสำรวจมหาสมุทร ด้วยยานพาหนะที่สามารถดำดิ่งลงสู่ระดับความลึกได้ถึง 4,000 เมตร นอกจากนี้ ข้อมูลในแหล่งกำเนิดยังช่วยเสริมข้อมูลอื่นๆ เช่น ข้อมูลที่ได้รับจากดาวเทียม เทคโนโลยีนี้ทำให้สามารถศึกษาปรากฏการณ์ขนาดเล็ก เช่น การจับ CO2 โดยสิ่งมีชีวิตในทะเล ซึ่งช่วยควบคุมการเปลี่ยนแปลงสภาพภูมิอากาศ
โดยเฉพาะอย่างยิ่ง งานใหม่นี้เผยให้เห็นว่าการเรียนรู้แบบเสริมกำลังซึ่งใช้กันอย่างแพร่หลายในด้านการควบคุมและวิทยาการหุ่นยนต์ ตลอดจนการพัฒนาเครื่องมือที่เกี่ยวข้องกับการประมวลผลภาษาธรรมชาติ เช่น ChatGPT ช่วยให้หุ่นยนต์ใต้น้ำสามารถเรียนรู้สิ่งที่ต้องดำเนินการในเวลาใดก็ตาม เพื่อบรรลุเป้าหมายที่เฉพาะเจาะจง นโยบายการดำเนินการเหล่านี้ตรงกันหรือปรับปรุงในบางสถานการณ์กับวิธีการดั้งเดิมที่อาศัยการพัฒนาเชิงวิเคราะห์
“การเรียนรู้ประเภทนี้ช่วยให้เราสามารถฝึก neural network เพื่อเพิ่มประสิทธิภาพให้กับงานเฉพาะอย่าง ซึ่งจะทำได้ยากมากๆ หากไม่เป็นเช่นนั้น ตัวอย่างเช่น เราสามารถแสดงให้เห็นว่ามีความเป็นไปได้ที่จะปรับเส้นทางการเคลื่อนที่ของยานพาหนะให้เหมาะสมเพื่อหาตำแหน่งและ ติดตามวัตถุที่เคลื่อนที่ใต้น้ำ” Ivan Masmitjà ผู้เขียนหลักของการศึกษาอธิบาย ซึ่งทำงานระหว่าง Institut de Ciències del Mar (ICM-CSIC) และสถาบันวิจัยพิพิธภัณฑ์สัตว์น้ำอ่าวมอนเทอเรย์ (MBARI)
สิ่งนี้ “จะช่วยให้เราสามารถศึกษาปรากฏการณ์ทางนิเวศวิทยาได้ลึกซึ้งยิ่งขึ้น เช่น การอพยพหรือการเคลื่อนที่ของสัตว์ทะเลหลากหลายชนิดในระดับเล็กและใหญ่ โดยใช้หุ่นยนต์อัตโนมัติ นอกจากนี้ ความก้าวหน้าเหล่านี้ยังทำให้สามารถตรวจสอบเครื่องมือทางสมุทรศาสตร์อื่นๆ ได้แบบเรียลไทม์ผ่าน เครือข่ายของหุ่นยนต์ ซึ่งบางตัวสามารถอยู่บนพื้นผิวการตรวจสอบและส่งสัญญาณโดยดาวเทียมถึงการกระทำที่ดำเนินการโดยแพลตฟอร์มหุ่นยนต์อื่น ๆ บนพื้นทะเล” Joan Navarro นักวิจัยของ ICM-CSIC ซึ่งเข้าร่วมในการศึกษานี้ชี้ให้เห็น
เพื่อดำเนินงานนี้ นักวิจัยใช้เทคนิคเรนจ์อะคูสติก ซึ่งช่วยให้สามารถประมาณตำแหน่งของวัตถุโดยพิจารณาจากการวัดระยะทางที่จุดต่างๆ อย่างไรก็ตาม ข้อเท็จจริงนี้ทำให้ความแม่นยำในการระบุตำแหน่งวัตถุนั้นขึ้นอยู่กับสถานที่ที่ใช้การวัดช่วงเสียง
และนี่คือจุดที่การประยุกต์ใช้ปัญญาประดิษฐ์และโดยเฉพาะอย่างยิ่ง การเรียนรู้แบบเสริมกำลัง ซึ่งช่วยให้สามารถระบุจุดที่ดีที่สุด และดังนั้น เส้นทางที่เหมาะสมที่สุดที่หุ่นยนต์จะดำเนินการจึงกลายเป็นสิ่งสำคัญ
neural network บางส่วนได้รับการฝึกอบรมโดยใช้คลัสเตอร์คอมพิวเตอร์ที่ศูนย์คอมพิวเตอร์ซูเปอร์คอมพิวเตอร์แห่งบาร์เซโลนา (BSC-CNS) ซึ่งเป็นที่ตั้งของซูเปอร์คอมพิวเตอร์ที่ทรงพลังที่สุดในสเปนและเป็นหนึ่งในอุปกรณ์ที่ทรงพลังที่สุดในยุโรป “สิ่งนี้ทำให้สามารถปรับพารามิเตอร์ของอัลกอริธึมต่างๆ ได้เร็วกว่าการใช้คอมพิวเตอร์ทั่วไป” ศาสตราจารย์ Mario Martin จากแผนกวิทยาการคอมพิวเตอร์ของ UPC และผู้เขียนรายงานระบุ
เมื่อผ่านการฝึกอบรมแล้ว อัลกอริทึมจะได้รับการทดสอบบนยานพาหนะอัตโนมัติต่างๆ รวมถึง AUV Sparus II ที่พัฒนาโดย VICOROB ในชุดของภารกิจทดลองที่พัฒนาขึ้นในท่าเรือ Sant Feliu de Guíxols ใน Baix Empordà และในอ่าว Monterey (แคลิฟอร์เนีย) ร่วมกับนักวิจัยหลักของ Bioinspiration Lab ที่ MBARI, Kakani Katija
“สภาพแวดล้อมจำลองของเราประกอบด้วยสถาปัตยกรรมการควบคุมของยานพาหนะจริง ซึ่งช่วยให้เรานำอัลกอริทึมไปใช้ได้อย่างมีประสิทธิภาพก่อนออกทะเล” Narcís Palomeras จาก UdG อธิบาย
สำหรับการวิจัยในอนาคต ทีมงานจะศึกษาความเป็นไปได้ในการใช้อัลกอริทึมเดียวกันเพื่อแก้ไขภารกิจที่ซับซ้อนมากขึ้น ตัวอย่างเช่น การใช้ยานพาหนะหลายคันเพื่อค้นหาวัตถุ ตรวจจับด้านหน้าและเทอร์โมไคลน์ (thermoclines) หรือการรวมตัวกันของสาหร่ายที่แสดงขึ้นมาผ่าน multi-platform reinforcement learning techniques