Tesla’s Self Driving Algorithm Explained

ระบบ Full Self-Driving (FSD) ของ Tesla ทำงานอย่างไร โดยเริ่มจากความสามารถพื้นฐานสำหรับการมองเห็นและการใช้กล้องแปดตัวเพื่อสร้างพื้นที่เวกเตอร์ 3 มิติผ่านโครงข่ายประสาทเทียม บทความนี้ยังกล่าวถึง Regnet ซึ่งใช้เป็นแกนหลักของโครงข่ายประสาทเทียมของ Tesla และเครือข่ายพีระมิดคุณลักษณะ (FPN) สำหรับงานตรวจจับวัตถุ บทความนี้ยังเน้นย้ำว่า Tesla สามารถสร้างสมดุลระหว่างเวลาแฝงกับความแม่นยำได้อย่างไร และเหตุใดจึงเลือกใช้กล้องเพียงแปดตัว

How Tesla’s Full Self-Driving (FSD) system works, starting with its basic capacity for vision and using eight cameras to create a 3D vector space through neural networks. The article also discusses the Regnet, which is used as Tesla’s neural network backbone, and the feature pyramid network (FPN) for object detection tasks. The article also highlights how Tesla is able to balance latency and accuracy, and why it chose to use only eight cameras.

Figure 1. Neural Network Backbone with Multi-Scale Feature Pyramid Fusion (from *Tesla AI Day*).

อัลกอริทึมการขับขี่ด้วยตนเองของ Tesla

เทคโนโลยีการขับขี่ด้วยตนเองเต็มรูปแบบ (FSD) ของเทสลาได้รับการแนะนำอย่างละเอียดเป็นครั้งแรกที่งาน Tesla AI Day ระบบโครงข่ายประสาทเทียมคอมพิวเตอร์ที่ใช้การมองเห็นใช้กล้อง 8 ตัวเพื่อสร้าง “Vector Space” 3 มิติ ผ่านโครงข่ายประสาทเทียมที่แสดงถึงทุกสิ่งที่จำเป็นสำหรับการขับขี่ ซึ่งรวมถึงเส้น ขอบ ขอบทาง สัญญาณจราจร สัญญาณไฟจราจร รถยนต์ และตำแหน่ง ทิศทาง ความลึก และความเร็วของรถยนต์

เทคโนโลยี FSD ของเทสลาสร้างขึ้นจากการศึกษาการมองเห็นของมนุษย์หรือสัตว์ อินพุตของ Tesla Vision มาจากข้อมูลวิดีโอรูปแบบดิบ (ดิจิทัลเนกาทีฟ) นั่นคือกล้อง 8 ตัว ที่มีความละเอียด 1280×960 12-Bit (HDR) ที่ 36Hz โดยไม่มีเซ็นเซอร์อื่นใด เช่น Lidars หรือเรดาร์ mmWave

Figure 2. Example of a Feature Map by Minh Nguyen on Medium

แกนหลักของโครงข่ายประสาทเทียมคือ Regnet ซึ่งเป็นแนวทางการออกแบบเครือข่ายใหม่ ได้จากงานการวิจัย AI ของ Facebook ประจำปี 2020 Designing Network Design Spaces โดยใช้บล็อกเครือข่ายประสาทที่เหลือและออกแบบพื้นที่การออกแบบเครือข่ายที่กำหนดจำนวนพารามิเตอร์ของเครือข่าย สำรวจโครงสร้างเครือข่าย (เช่น ความกว้าง ความลึก กลุ่ม ฯลฯ) สมมติว่าเป็นตระกูลโมเดลมาตรฐาน ได้แก่ VGG, ResNet และ ResNeXt

เพื่อให้แน่ใจว่ามีความยืดหยุ่นและลักษณะทั่วไป เทสลาใช้ Neck จุดเชื่อมระหว่างแบ็คโบน และ ส่วนหัวของโครงข่ายประสาทเทียม เน็คใช้เพื่อแยกคุณลักษณะที่ซับซ้อนมากขึ้น เช่น คุณลักษณะพีระมิดเครือข่าย (FPN) หรือ BiFPN ส่วนหัวของโครงข่ายประสาทเทียมคือส่วนหัวการตรวจจับ ซึ่งแสดงแผนที่คุณลักษณะที่เป็นตัวแทนของอินพุตและใช้เพื่อจดจำวัตถุหลายชิ้นในภาพเดียว

Figure 3. Detailed Layer on the Left vs Context Layer on the Right (from *Tesla AI Day*).

เทคโนโลยี FSD ของ Tesla ได้รับการฝึกอบรมด้วยการฝึกอบรมข้อมูลจำนวนมาก ซึ่งข้อมูลการฝึกอบรมจำนวนมากถูกใช้เพื่อฝึกอบรมโครงข่ายประสาทเทียม ข้อมูลประกอบด้วยป้ายกำกับที่ช่วยให้โครงข่ายประสาทเทียมจดจำและจำแนกวัตถุได้ เทสลายังใช้แผนที่ HD เพื่อปรับปรุงความแม่นยำnของระบบ

เทคโนโลยี FSD ทำงานบนชิป ซีพียู และ GPU แบบกำหนดเองของ Tesla ซึ่งออกแบบมาโดยเฉพาะสำหรับการขับขี่อัตโนมัติ ระบบใช้อัลกอริธึมการวางแผนและความปลอดภัยเพื่อให้มั่นใจในการขับขี่ที่ปลอดภัยและมีประสิทธิภาพ

เทคโนโลยี FSD ของเทสลาแสดงถึงความก้าวหน้าครั้งสำคัญของเทคโนโลยีการขับขี่อัตโนมัติ จากการศึกษาการมองเห็นของมนุษย์หรือสัตว์และใช้กระบวนทัศน์การออกแบบเครือข่ายที่เป็นนวัตกรรมใหม่ เทสลาได้พัฒนาโครงข่ายประสาทเทียมที่สามารถจดจำและจำแนกวัตถุได้แบบเรียลไทม์ ด้วยวิวัฒนาการอย่างต่อเนื่องของเทคโนโลยี เทสลาตั้งเป้าที่จะบรรลุอนาคตที่รถยนต์ไร้คนขับเป็นเรื่องปกติ

Figure 4. Multi-Task Learning HydraNets (from *Tesla AI Day*)

Figure 5. Cameras Stiched to a 3D Vector Space (from *Tesla AI Day*)

Figure 6. Lane Detection Stitched into 3D Space (from *Tesla AI Day*)

Figure 8. Image to Bird’s Eye View (BEV) Perspective Transformation and Multi-Camera Fusion (from *Tesla AI Day*)

Figure 9. Left Output by the Single-Camera Network vs Right Output by the Multi-Camera Network (from Tesla AI Day)

Figure 10. Feature Queue and Video Module (from *Tesla AI Day*)

view original*