AI Paper: Make-it-3D: An Artificial Intelligence (AI) Framework For High-Fidelity 3D Object Generation From A Single Image

พบกับ Make-it-3D: กรอบงาน AI สำหรับการสร้างวัตถุ 3 มิติ ที่มีความเที่ยงตรงสูงจากภาพเดียว

ที่มา: https://arxiv.org/abs/2303.14184

จินตนาการเป็นกลไกอันทรงพลังของมนุษยชาติ เมื่อนำเสนอด้วยภาพเดียว มนุษย์มีความสามารถที่น่าทึ่งในการจินตนาการว่าวัตถุที่ปรากฎจะปรากฎออกมาอย่างไรจากมุมมองที่แตกต่างกัน แม้ว่าการดำเนินการนี้ดูเหมือนง่ายสำหรับสมองของเรา แต่ก็ค่อนข้างท้าทายสำหรับคอมพิวเตอร์วิทัศน์และโมเดลการเรียนรู้เชิงลึก แท้จริงแล้ว การสร้างวัตถุ 3 มิติจากภาพเดียวเป็นงานที่ซับซ้อน เนื่องจากข้อมูลที่มีอยู่อย่างจำกัดจากมุมมองเดียว

มีการเสนอวิธีการต่างๆ ด้วยความตั้งใจนี้ รวมถึง 3D photo effects และ single-view 3D reconstruction ด้วย neural rendering อย่างไรก็ตาม วิธีการเหล่านี้มีข้อจำกัดในการสร้างรูปทรงเรขาคณิตที่ละเอียดขึ้นใหม่ (reconstructing fine geometry) และแสดงมุมมองขนาดใหญ่ (rendering large views) เทคนิคอื่นๆ เกี่ยวข้องกับการฉายภาพอินพุตลงในพื้นที่แฝงของเครือข่ายกำเนิด 3D-aware ที่ได้รับการฝึกฝนไว้ล่วงหน้า

ถึงกระนั้น เครือข่ายเหล่านี้มักจะถูกจำกัดไว้เฉพาะคลาสออบเจกต์เฉพาะ และไม่สามารถจัดการออบเจกต์ 3 มิติทั่วไปได้ นอกจากนี้ การสร้างชุดข้อมูลที่หลากหลายสำหรับการประมาณค่ามุมมองใหม่หรือโมเดลรากฐาน 3 มิติอันทรงพลังสำหรับวัตถุทั่วไปในปัจจุบันถือเป็นความท้าทายที่ยากจะเอาชนะได้

รูปภาพมีอยู่ทั่วไป ในขณะที่โมเดล 3 มิติ ยังคงหายาก ความก้าวหน้าล่าสุดในแบบจำลองการแพร่กระจาย เช่น Midjourney หรือ Stable Diffusion ช่วยให้สามารถสังเคราะห์ภาพ 2 มิติได้ก้าวหน้าอย่างน่าทึ่ง แบบจำลองการกระจายภาพที่ได้รับการฝึกฝนมาเป็นอย่างดีสามารถสร้างภาพจากมุมมองที่แตกต่างกันได้อย่างน่าทึ่ง ซึ่งบ่งบอกว่าพวกเขาได้หลอมรวมความรู้ด้าน 3D ไว้แล้ว

จากข้อสังเกตนี้ กระดาษที่นำเสนอในบทความนี้จะสำรวจความเป็นไปได้ในการใช้ประโยชน์จากความรู้ 3 มิติโดยนัยนี้ในแบบจำลองการแพร่กระจาย 2 มิติเพื่อสร้างวัตถุ 3 มิติขึ้นใหม่ สำหรับจุดประสงค์นี้ วิธีการแบบสองขั้นตอนที่เรียกว่า Make-It-3D ได้รับการเสนอเพื่อสร้างเนื้อหา 3 มิติคุณภาพสูงจากภาพเดียวโดยใช้การแพร่กระจายก่อนหน้านี้

ภาพรวมสถาปัตยกรรมแสดงไว้ด้านล่าง

ในช่วงแรก การแพร่กระจายจะช่วยปรับปรุง neural radiance field (NeRF) โดยใช้การสุ่มตัวอย่างแบบแยกคะแนน score distillation sampling (SDS)

นอกจากนี้ การควบคุมมุมมองอ้างอิงยังใช้เป็นข้อจำกัดสำหรับการเพิ่มประสิทธิภาพ ซึ่งแตกต่างจากวิธี text-to-3D ก่อนหน้านี้ที่เน้นคำอธิบายที่เป็นข้อความ Make-it-3D จัดลำดับความสำคัญของความเที่ยงตรงของโมเดล 3 มิติให้กับภาพอ้างอิง เนื่องจากเป้าหมายคือการสร้างภาพ 3 มิติ อย่างไรก็ตาม แม้ว่าโมเดล 3 มิติที่สร้างด้วย SDS จะสอดคล้องกับคำอธิบายที่เป็นข้อความได้ดี แต่ก็มักจะไม่สอดคล้องกับภาพอ้างอิง ซึ่งไม่ได้บันทึกรายละเอียดของวัตถุทั้งหมด เพื่อแก้ไขปัญหานี้ แบบจำลองจะถูกขอให้เพิ่มความคล้ายคลึงกันระหว่างข้อมูลอ้างอิงและการแสดงภาพมุมมองใหม่ที่แยกโดยแบบจำลองการแพร่กระจาย เนื่องจากโดยเนื้อแท้แล้วรูปภาพมีข้อมูลที่เกี่ยวข้องกับรูปทรงเรขาคณิตมากกว่าคำอธิบายที่เป็นข้อความ ความลึกของภาพอ้างอิงจึงสามารถกำหนดเป็นรูปทรงเรขาคณิตเพิ่มเติมได้ก่อนที่จะลดความคลุมเครือของการเพิ่มประสิทธิภาพ NeRF เกี่ยวกับรูปร่าง

ขั้นตอนการสร้างแบบจำลอง 3 มิติเริ่มต้นจะสร้างแบบจำลองคร่าวๆ ที่มีรูปทรงเรขาคณิตที่เหมาะสม ถึงกระนั้น ลักษณะที่ปรากฏมักจะขาดคุณภาพของภาพอ้างอิง ด้วยพื้นผิวที่เรียบเกินไปและสีที่อิ่มตัว ด้วยเหตุนี้ จึงจำเป็นต้องปรับปรุงความสมจริงของโมเดลให้ดียิ่งขึ้นโดยการลดความแตกต่างระหว่างโมเดลคร่าวๆ และภาพอ้างอิง เนื่องจากพื้นผิวมีความสำคัญมากกว่ารูปทรงเรขาคณิตสำหรับการเรนเดอร์คุณภาพสูง ขั้นตอนที่สองจึงเน้นที่การปรับปรุงพื้นผิวโดยที่รักษารูปทรงเรขาคณิตจากขั้นตอนแรก การปรับแต่งขั้นสุดท้ายเกี่ยวข้องกับการใช้พื้นผิวความจริงพื้นฐานสำหรับภูมิภาคที่มองเห็นได้ในภาพอ้างอิงที่ได้จากการทำแผนที่โมเดลและพื้นผิวของ NeRF ไปจนถึง point clouds และ voxels
ผลลัพธ์ของวิธีการนี้ถูกนำไปเปรียบเทียบกับเทคนิคล้ำสมัยอื่นๆ ตัวอย่างบางส่วนที่นำมาจากงานที่กล่าวถึงมีดังต่อไปนี้

นี่คือบทสรุปของ Make-it-3D ซึ่งเป็นเฟรมเวิร์ก AI สำหรับการสร้างวัตถุ 3 มิติ ที่มีความเที่ยงตรงสูงจากภาพเดียว
หากคุณสนใจหรือต้องการเรียนรู้เพิ่มเติมเกี่ยวกับงานนี้ คุณสามารถค้นหาลิงก์ไปศึกษาเอกสารงานวิจัย https://arxiv.org/abs/2303.14184 และหน้าโครงการ

view original *

Daniele Lorenzi สำเร็จการศึกษาระดับปริญญาโท สาขา ICT for Internet and Multimedia Engineering ในปี 2021 จาก University of Padua ประเทศอิตาลี ขณะนี้ กำลังศึกษาในระดับปริญญาเอก