ระบบ Full Self-Driving (FSD) ของ Tesla ทำงานอย่างไร โดยเริ่มจากความสามารถพื้นฐานสำหรับการมองเห็นและการใช้กล้องแปดตัวเพื่อสร้างพื้นที่เวกเตอร์ 3 มิติผ่านโครงข่ายประสาทเทียม บทความนี้ยังกล่าวถึง Regnet ซึ่งใช้เป็นแกนหลักของโครงข่ายประสาทเทียมของ Tesla และเครือข่ายพีระมิดคุณลักษณะ (FPN) สำหรับงานตรวจจับวัตถุ บทความนี้ยังเน้นย้ำว่า Tesla สามารถสร้างสมดุลระหว่างเวลาแฝงกับความแม่นยำได้อย่างไร และเหตุใดจึงเลือกใช้กล้องเพียงแปดตัว
How Tesla’s Full Self-Driving (FSD) system works, starting with its basic capacity for vision and using eight cameras to create a 3D vector space through neural networks. The article also discusses the Regnet, which is used as Tesla’s neural network backbone, and the feature pyramid network (FPN) for object detection tasks. The article also highlights how Tesla is able to balance latency and accuracy, and why it chose to use only eight cameras.
อัลกอริทึมการขับขี่ด้วยตนเองของ Tesla
เทคโนโลยีการขับขี่ด้วยตนเองเต็มรูปแบบ (FSD) ของเทสลาได้รับการแนะนำอย่างละเอียดเป็นครั้งแรกที่งาน Tesla AI Day ระบบโครงข่ายประสาทเทียมคอมพิวเตอร์ที่ใช้การมองเห็นใช้กล้อง 8 ตัวเพื่อสร้าง “Vector Space” 3 มิติ ผ่านโครงข่ายประสาทเทียมที่แสดงถึงทุกสิ่งที่จำเป็นสำหรับการขับขี่ ซึ่งรวมถึงเส้น ขอบ ขอบทาง สัญญาณจราจร สัญญาณไฟจราจร รถยนต์ และตำแหน่ง ทิศทาง ความลึก และความเร็วของรถยนต์
เทคโนโลยี FSD ของเทสลาสร้างขึ้นจากการศึกษาการมองเห็นของมนุษย์หรือสัตว์ อินพุตของ Tesla Vision มาจากข้อมูลวิดีโอรูปแบบดิบ (ดิจิทัลเนกาทีฟ) นั่นคือกล้อง 8 ตัว ที่มีความละเอียด 1280×960 12-Bit (HDR) ที่ 36Hz โดยไม่มีเซ็นเซอร์อื่นใด เช่น Lidars หรือเรดาร์ mmWave
แกนหลักของโครงข่ายประสาทเทียมคือ Regnet ซึ่งเป็นแนวทางการออกแบบเครือข่ายใหม่ ได้จากงานการวิจัย AI ของ Facebook ประจำปี 2020 Designing Network Design Spaces โดยใช้บล็อกเครือข่ายประสาทที่เหลือและออกแบบพื้นที่การออกแบบเครือข่ายที่กำหนดจำนวนพารามิเตอร์ของเครือข่าย สำรวจโครงสร้างเครือข่าย (เช่น ความกว้าง ความลึก กลุ่ม ฯลฯ) สมมติว่าเป็นตระกูลโมเดลมาตรฐาน ได้แก่ VGG, ResNet และ ResNeXt
เพื่อให้แน่ใจว่ามีความยืดหยุ่นและลักษณะทั่วไป เทสลาใช้ Neck จุดเชื่อมระหว่างแบ็คโบน และ ส่วนหัวของโครงข่ายประสาทเทียม เน็คใช้เพื่อแยกคุณลักษณะที่ซับซ้อนมากขึ้น เช่น คุณลักษณะพีระมิดเครือข่าย (FPN) หรือ BiFPN ส่วนหัวของโครงข่ายประสาทเทียมคือส่วนหัวการตรวจจับ ซึ่งแสดงแผนที่คุณลักษณะที่เป็นตัวแทนของอินพุตและใช้เพื่อจดจำวัตถุหลายชิ้นในภาพเดียว
เทคโนโลยี FSD ของ Tesla ได้รับการฝึกอบรมด้วยการฝึกอบรมข้อมูลจำนวนมาก ซึ่งข้อมูลการฝึกอบรมจำนวนมากถูกใช้เพื่อฝึกอบรมโครงข่ายประสาทเทียม ข้อมูลประกอบด้วยป้ายกำกับที่ช่วยให้โครงข่ายประสาทเทียมจดจำและจำแนกวัตถุได้ เทสลายังใช้แผนที่ HD เพื่อปรับปรุงความแม่นยำnของระบบ
เทคโนโลยี FSD ทำงานบนชิป ซีพียู และ GPU แบบกำหนดเองของ Tesla ซึ่งออกแบบมาโดยเฉพาะสำหรับการขับขี่อัตโนมัติ ระบบใช้อัลกอริธึมการวางแผนและความปลอดภัยเพื่อให้มั่นใจในการขับขี่ที่ปลอดภัยและมีประสิทธิภาพ
เทคโนโลยี FSD ของเทสลาแสดงถึงความก้าวหน้าครั้งสำคัญของเทคโนโลยีการขับขี่อัตโนมัติ จากการศึกษาการมองเห็นของมนุษย์หรือสัตว์และใช้กระบวนทัศน์การออกแบบเครือข่ายที่เป็นนวัตกรรมใหม่ เทสลาได้พัฒนาโครงข่ายประสาทเทียมที่สามารถจดจำและจำแนกวัตถุได้แบบเรียลไทม์ ด้วยวิวัฒนาการอย่างต่อเนื่องของเทคโนโลยี เทสลาตั้งเป้าที่จะบรรลุอนาคตที่รถยนต์ไร้คนขับเป็นเรื่องปกติ
Figure 9. Left Output by the Single-Camera Network vs Right Output by the Multi-Camera Network (from Tesla AI Day)