F2NeRF: ระบบ Grid-Based NeRF ใหม่ AI สังเคราะห์การมองเห็นที่รวดเร็วและมีประสิทธิภาพ

เมื่อ Neural Radiance Field (NeRF) แบบใหม่ ที่เพิ่งได้พัฒนาขึ้นเมื่อเร็วๆ นี้ การวิจัยการสังเคราะห์การมองเห็น เป็นนวัตกรรมใหม่ กำลังพัฒนาไปอย่างมาก แนวคิดหลักของ NeRF คือ differentiable volume rendering approach การใช้วิธีการแสดงผลปริมาณที่แตกต่างกัน เพื่อปรับปรุงเครือข่าย Multi-layer Perceptron (MLP) เพื่อเข้ารหัสความหนาแน่น (density) และฟิลด์ความสว่าง (radiance fields) ของแต่ละซีนภาพ

As the Neural Radiance Field (NeRF) emerged recently, innovative view synthesis research has evolved significantly. NeRF’s main concept is to use the differentiable volume rendering approach to improve Multi-layer Perceptron (MLP) networks to encode the scene’s density and radiance fields.

F2NeRF: ระบบ Grid-Based NeRF แบบใหม่

หลังการฝึกอบรม NeRF สามารถสร้างภาพถ่ายคุณภาพสูง จากตำแหน่งการวางกล้องที่เหมาะสม แม้ว่า NeRF อาจให้ผลการเรนเดอร์ที่เหมือนภาพถ่าย แต่การฝึกอบรม NeRF อาจใช้เวลาหลายชั่วโมงหรือหลายวัน เนื่องจากความช้าของการเพิ่มประสิทธิภาพ Deep Neural Network ซึ่งจะจำกัดขอบเขตความสามารถของแอปพลิเคชันที่สามารถใช้งานได้

การศึกษาเมื่อเร็วๆ นี้แสดงให้เห็นว่าเทคนิคแบบกริด เช่น Plenoxels, DVGO, TensoRF และ Instant-NGP ช่วยให้สามารถฝึก NeRF ได้อย่างรวดเร็วภายในไม่กี่นาที แต่เมื่อรูปภาพใหญ่ขึ้น หน่วยความจำที่ใช้แทนตารางดังกล่าวจะเพิ่มขึ้นตามลำดับลูกบาศก์ การตัด Voxel การสลายตัวของเทนเซอร์ และการจัดทำดัชนีแฮชเป็นเพียงไม่กี่วิธีที่ได้รับการแนะนำเพื่อลดการใช้หน่วยความจำ อย่างไรก็ตาม อัลกอริธึมเหล่านี้สามารถจัดการกับฉากที่มีข้อจำกัดได้ก็ต่อเมื่อมีการสร้างกริดใน Euclidean space เดิมเท่านั้น space-warping technique ที่แปลงพื้นที่ที่ไม่มีขอบเขตให้เป็นพื้นที่จำกัดเป็นวิธีการที่ใช้บ่อยเพื่ออธิบายมุมมองภาพที่ไม่มีขอบเขต

โดยทั่วไปแล้ว มีฟังก์ชันการแปรปรวน (warping functions) สองประเภทที่แตกต่างกัน (1) สำหรับภาพจากมุมมองข้างหน้า (รูปที่ 1 (a) Normalized Device Coordinate (NDC) ใช้เพื่อแมปความยุ่งเหยิงจากการมองเห็นที่ไกลไม่สิ้นสุดให้อยู่ในกล่องที่มีขอบเขต โดยการบีบพื้นที่ตามแกน z (2) สำหรับภาพมุมมองที่ไม่มีขอบเขตที่มีวัตถุเป็นศูนย์กลาง 360° เทคนิค inverse-sphere warping สามารถแมปพื้นที่ขนาดใหญ่ไม่สิ้นสุดกับทรงกลมที่มีขอบเขต โดยการแปลงกลับด้านทรงกลม อย่างไรก็ตาม เทคนิค warping technique ทั้งสองนี้ไม่สามารถรองรับรูปแบบวิถีการเคลื่อนที่ของกล้องแบบสุ่มได้ และจะใช้รูปแบบบางอย่างแทน คุณภาพของภาพที่ผลิตออกมาจะแย่ลงโดยเฉพาะอย่างยิ่งเมื่อวิถีเคลื่อนที่มีความยาวและประกอบด้วยรายการที่น่าสนใจหลายรายการ ซึ่งเรียกว่าวิถีการเคลื่อนที่อิสระ ดังที่แสดงในรูปที่ 1(c)

การจัดสรรความสามารถในการเป็นตัวแทนเชิงพื้นที่ที่ไม่สม่ำเสมอทำให้ประสิทธิภาพของวิถีการเคลื่อนที่อิสระลดลง โดยเฉพาะอย่างยิ่ง พื้นที่ทิวทัศน์จำนวนมากยังคงว่างเปล่าและมองไม่เห็นการมองเห็นอินพุตใด ๆ เมื่อเส้นทางโคจรยาวและแคบ อย่างไรก็ตาม ไม่ว่าพื้นที่นั้นจะว่างหรือไม่ก็ตาม กริดของแนวทางปัจจุบันจะถูกเรียงต่อกันอย่างสม่ำเสมอทั่วทั้งภาพ เป็นผลให้ต้องกู้คืนความสามารถในการเป็นตัวแทนจำนวนมากไปยังพื้นที่ที่ไม่ได้ใช้ แม้ว่าจะสามารถลดการใช้สุรุ่ยสุร่ายนี้ลงได้โดยใช้การตัดแต่ง voxel ที่ว่างเปล่าแบบโปรเกรสซีฟ การสลายตัวของเทนเซอร์ หรือการทำดัชนีแฮช แต่ก็ยังส่งผลให้ภาพพร่ามัวเนื่องจากหน่วยความจำ GPU ถูกจำกัด

รูปที่ 1: ด้านบน: (a) ทิศทางของกล้องที่ชี้ไปข้างหน้า (b) วิถีกล้องโฟกัสวัตถุ 360 องศา วิถีของกล้องอิสระคือ (c) เป็นเรื่องยากมากในข้อ (c) เนื่องจากวิถีของกล้องมีความยาวและมีวัตถุเบื้องหน้าหลายรายการ ด้านล่าง: รูปภาพที่เรนเดอร์โดยใช้เทคนิคการฝึกอบรม NeRF แบบเร็วล่าสุดและ F2 -NeRF ในสถานการณ์จำลองที่มีวิถีเคลื่อนที่อิสระ

นอกจากนี้ มีเพียงอินพุตภาพที่มองเห็น กระจัดกระจายและห่างไกลเท่านั้น ที่เติมเต็มช่องว่างพื้นหลัง ในขณะที่รายการเบื้องหน้าจำนวนมากในรูปที่ 1 (c) ถูกสังเกตด้วยการมองเห็นอินพุตที่หนาแน่นและปิดในพื้นที่ที่มองเห็นได้ ในสถานการณ์สมมตินี้ ควรกำหนดกริดแบบหนาแน่นให้กับวัตถุเบื้องหน้าเพื่อรักษารายละเอียดของฟอร์ม และควรวางกริดแบบหยาบในพื้นที่พื้นหลังเพื่อใช้ประโยชน์สูงสุดจากการแสดงเชิงพื้นที่ของกริด อย่างไรก็ตาม ระบบที่ใช้กริดที่มีอยู่จะกระจายกริดอย่างสม่ำเสมอทั่วทั้งพื้นที่ ซึ่งส่งผลให้ใช้ความจุของตัวแทนอย่างไม่มีประสิทธิภาพ นักวิจัยจาก University of Hong Kong, S-Lab NTU, Max Plank Institute และ Texas A&M University แนะนำ F2 -NeRF (Fast-Free-NeRF) ซึ่งเป็นแนวทางการฝึกอบรม NeRF ที่รวดเร็ววิธีแรกที่ช่วยให้สามารถเคลื่อนที่กล้องได้ฟรีสำหรับฉากขนาดใหญ่ที่ไม่มีขอบเขต แก้ไขปัญหาดังกล่าวข้างต้น

F2 – NeRF ซึ่งใช้เฟรมเวิร์ก Instant-NGP รักษาความเร็วการบรรจบกันอย่างรวดเร็วของการแสดงแฮช-กริด และสามารถฝึกฝนได้ดีในฉากที่ไม่มีขอบเขตด้วยวิถีของกล้องที่แตกต่างกัน ตามมาตรฐานนี้ พวกเขาสร้างการบิดเบี้ยวของเปอร์สเป็คทีฟ ซึ่งเป็นเทคนิคการบิดเบี้ยวในอวกาศพื้นฐานที่สามารถใช้กับวิถีของกล้องใดก็ได้ พวกเขาสรุปเกณฑ์สำหรับฟังก์ชันการแปรปรวนที่เหมาะสมสำหรับการตั้งค่ากล้องใน F2 – NeRF

หลักการพื้นฐานของการบิดเปอร์สเป็คทีฟคือการอธิบายตำแหน่งของจุด 3 มิติ p โดยเชื่อมพิกัด 2 มิติของเส้นโครงของ p ในภาพอินพุตเข้าด้วยกัน จากนั้นใช้การวิเคราะห์องค์ประกอบหลัก (PCA) จับคู่พิกัด 2 มิติเหล่านี้เข้ากับพื้นที่ย่อย 3 มิติที่มีขนาดกะทัดรัด พวกเขาแสดงให้เห็นเชิงประจักษ์ว่าการแปรปรวนของการมองเห็นที่เสนอนั้นเป็นลักษณะทั่วไปของการแปรปรวนของ NDC ในปัจจุบันและการแปรปรวนของทรงกลมผกผันไปยังวิถีโคจรโดยพลการ การบิดเปอร์สเป็คทีฟสามารถจัดการกับวิถีการเคลื่อนที่แบบสุ่มได้ ในขณะที่สามารถลดฟังก์ชันการบิดเบี้ยวทั้งสองนี้โดยอัตโนมัติในฉากที่หันไปข้างหน้าหรือฉากที่มีวัตถุเป็นศูนย์กลาง 360°

พวกเขายังมีวิธีการแบ่งพื้นที่เพื่อใช้ตารางหยาบแบบปรับได้สำหรับพื้นที่พื้นหลังและตารางแคบสำหรับพื้นที่เบื้องหน้า เพื่อให้เกิดการบิดเบี้ยวของเปอร์สเป็คทีฟในเฟรมเวิร์ก NeRF แบบใช้กริด พวกเขาทำการทดสอบที่ครอบคลุมในชุดข้อมูลแบบหันไปข้างหน้าแบบไม่จำกัด ชุดข้อมูล 360 object-centric แบบไม่จำกัด และชุดข้อมูลวิถีอิสระแบบไม่มีขอบเขตชุดใหม่ การทดสอบแสดงให้เห็นว่า F2 – NeRF แสดงผลภาพคุณภาพสูงบนชุดข้อมูลทั้งสามชุดด้วยรูปแบบเส้นทางการเคลื่อนที่ที่หลากหลายโดยใช้การบิดการมองเห็นเดียวกัน โซลูชันของพวกเขาเหนือกว่าอัลกอริธึม NeRF แบบกริดมาตรฐานบนชุดข้อมูลฟรีใหม่พร้อมวิถีกล้องฟรี โดยใช้เวลาประมาณ 12 นาทีในการฝึกอบรมบน GPU 2080Ti

view original *