งานวิจัยใหม่ ใช้ Convolutional Neural Network (CNN) ในการจำแนกภาพซากดึกดำบรรพ์

การศึกษาวิจัยใหม่ นำเสนอการใช้ Deep Convolutional Neural Networks (CNNs) ช่วยระบุอนุกรมวิธานโดยอัตโนมัติ โดยฝึกด้วยชุดข้อมูลภาพฟอสซิลขนาดใหญ่ มากกว่า 415,000 ภาพ

A New Study Proposes Automatic Taxonomic Identification Based On The Fossil Image Dataset (>415,000 images) And Deep Convolutional Neural Networks

ใช้ Convolutional Neural Network (CNN) ในการจำแนกภาพซากดึกดำบรรพ์

ซากดึกดำบรรพ์เป็นสาขาที่น่าสนใจที่ช่วยให้เราเข้าใจประวัติศาสตร์ของสิ่งมีชีวิตบนโลกโดยการศึกษารูปแบบชีวิตโบราณและวิวัฒนาการของพวกมัน อย่างไรก็ตาม หนึ่งในความท้าทายที่สำคัญในการวิจัยซากดึกดำบรรพ์คือกระบวนการระบุอนุกรมวิธานที่ใช้แรงงานมากและใช้เวลานาน ซึ่งต้องใช้ความรู้และประสบการณ์ที่กว้างขวางในกลุ่มอนุกรมวิธานเฉพาะ ยิ่งไปกว่านั้น ผลการระบุมักจะต้องสอดคล้องกันระหว่างผู้วิจัยและชุมชนต่างๆ

Deep Learning Techniques กลายเป็นวิธีแก้ปัญหาที่มีแนวโน้มในการสนับสนุนการระบุอนุกรมวิธานของซากดึกดำบรรพ์ ในบริบทนี้ ทีมวิจัยของจีนเพิ่งตีพิมพ์บทความเกี่ยวกับศักยภาพของ Deep Learning สำหรับการปรับปรุงความแม่นยำในการจำแนกอนุกรมวิธาน

การสนับสนุนหลักของบทความนี้คือการสร้างและตรวจสอบความถูกต้องของชุดข้อมูลภาพซากดึกดำบรรพ์ Fossil Image Dataset (FID) ขนาดใหญ่และครอบคลุมโดยใช้โปรแกรมรวบรวมข้อมูลเว็บและการดูแลจัดการด้วยตนเอง ชุดข้อมูลประกอบด้วยรูปภาพ 415,339 รูปจากฟอสซิล 50 กลุ่ม ที่แตกต่างกัน ซึ่งรวมถึงสัตว์ไม่มีกระดูกสันหลัง สัตว์มีกระดูกสันหลัง พืช ไมโครฟอสซิล และฟอสซิลร่องรอย มีการใช้ Convolutional Neural Network (CNN) ในการจำแนกภาพซากดึกดำบรรพ์และได้รับความแม่นยำในการจำแนกประเภทสูง ซึ่งแสดงให้เห็นถึงศักยภาพของ FID สำหรับการระบุและจำแนกซากดึกดำบรรพ์โดยอัตโนมัติ ผู้เขียนยังเผยแพร่ FID ต่อสาธารณะเพื่อใช้และการพัฒนาในอนาคต

การศึกษานี้เป็นการทดลองตรวจสอบการใช้การเรียนรู้การถ่ายโอนด้วยแบบจำลองที่ได้รับการฝึกฝนบน ImageNet เพื่อระบุและจำแนกฟอสซิลในฐานข้อมูลภาพฟอสซิล (FID) ผู้เขียนพบว่าการแช่แข็งเลเยอร์เครือข่ายครึ่งหนึ่งเป็นตัวแยกฟีเจอร์และฝึกเลเยอร์ที่เหลือให้ประสิทธิภาพที่ดีที่สุด การเพิ่มและเลิกใช้ข้อมูลเป็นวิธีการที่มีประสิทธิภาพในการป้องกันการใช้งานมากเกินไป ในขณะที่อัตราการเรียนรู้ที่ลดลงบ่อยครั้งและขนาดชุดการฝึกอบรมที่มากมีส่วนทำให้การบรรจบกันเร็วขึ้นและมีความแม่นยำสูง การศึกษายังได้ตรวจสอบผลกระทบของข้อมูลที่ไม่สมดุลในอัลกอริทึมและใช้วิธีการสุ่มตัวอย่างสำหรับการเรียนรู้ที่ไม่สมดุล คุณภาพของชุดข้อมูลมีความสำคัญต่อการระบุตัวตนที่แม่นยำ โดยไมโครฟอสซิลทำงานได้ดีเนื่องจากมีภาพคุณภาพสูง ในขณะที่ฟอสซิลบางชนิดมีการเก็บรักษาไม่ดีและมีตัวอย่างบางส่วนที่ทำงานได้ไม่ดี ผู้เขียนยังพบว่าความหลากหลายทางสัณฐานวิทยาภายในคลาสขนาดใหญ่ของบางกลุ่มขัดขวางความแม่นยำในการระบุเนื่องจากความยากของสถาปัตยกรรม DCNN ในการแยกลักษณะการเลือกปฏิบัติ

สถาปัตยกรรม Inception-ResNet-v2 มีความแม่นยำเฉลี่ย 0.90 ในชุดข้อมูลทดสอบเมื่อใช้การเรียนรู้การถ่ายโอน ซากดึกดำบรรพ์ไมโครฟอสซิลและสัตว์มีกระดูกสันหลังมีความแม่นยำในการระบุสูงสุดเท่ากับ 0.95 และ 0.90 ตามลำดับ อย่างไรก็ตาม กลุ่มตัวอย่าง เช่น ฟองน้ำ ไบรโอซัว และซากดึกดำบรรพ์ที่มีสัณฐานวิทยาต่างๆ หรือมีตัวอย่างเพียงเล็กน้อยในชุดข้อมูล มีความแม่นยำในการจำแนกต่ำกว่า 0.80

โดยสรุป Deep Learning Techniques โดยเฉพาะอย่างยิ่งการเรียนรู้แบบถ่ายโอน ได้แสดงให้เห็นผลลัพธ์ที่น่ายินดีในการปรับปรุงความแม่นยำและประสิทธิภาพของการระบุอนุกรมวิธานของซากดึกดำบรรพ์ การสร้างและการตรวจสอบความถูกต้องของชุดข้อมูลภาพซากดึกดำบรรพ์ขนาดใหญ่และครอบคลุม เช่น ฐานข้อมูลภาพซากดึกดำบรรพ์ (FID) มีความสำคัญอย่างยิ่งต่อการได้รับความแม่นยำในการระบุตัวตนสูง ความพร้อมสำหรับการใช้งานสาธารณะและการพัฒนาเป็นประโยชน์ต่อการพัฒนาด้านบรรพชีวินวิทยา อย่างไรก็ตาม ความแม่นยำของโมเดล Deep Learning ขึ้นอยู่กับคุณภาพและความหลากหลายของชุดข้อมูล โดยบางกลุ่มอาจมีความท้าทายเนื่องจากความหลากหลายทางสัณฐานวิทยาภายในคลาสหรือการเก็บรักษาที่ไม่ดี การวิจัยและพัฒนาเพิ่มเติมเกี่ยวกับ Deep Learning Techniques และชุดข้อมูลภาพซากดึกดำบรรพ์ขนาดใหญ่เป็นสิ่งที่จำเป็นเพื่อเอาชนะความท้าทายเหล่านี้และปรับปรุงความแม่นยำและประสิทธิภาพของการวิจัยซากดึกดำบรรพ์

ยิ่งไปกว่านั้น Deep Learning Techniques ในซากดึกดำบรรพ์อาจเปลี่ยนสาขานอกเหนือจากการจำแนกอนุกรมวิธาน เทคนิคเหล่านี้สามารถดึงข้อมูลเพิ่มเติมจากข้อมูลซากดึกดำบรรพ์ เช่น การแบ่งส่วนและการสร้างใหม่ของซากดึกดำบรรพ์ การรวมข้อมูลซากดึกดำบรรพ์เข้ากับข้อมูลประเภทอื่นๆ และการตรวจหารูปแบบและความผิดปกติในชุดข้อมูลซากดึกดำบรรพ์ขนาดใหญ่ สิ่งนี้ขยายความเข้าใจของเราเกี่ยวกับประวัติของสิ่งมีชีวิตบนโลก ปูทางไปสู่การค้นพบที่น่าตื่นเต้นและความก้าวหน้า

view original *

Mahmoud Ghorbel เป็นนักวิจัยระดับปริญญาเอกด้านแมชชีนเลิร์นนิง จบปริญญาตรีสาขาวิทยาศาสตร์กายภาพ และปริญญาโท สาขาระบบโทรคมนาคมและระบบเครือข่าย
เขาสนใจศึกษา การวิจัยเกี่ยวกับคอมพิวเตอร์วิทัศน์ การทำนายตลาดหุ้น และ Deep Learning
การเรียนรู้. เขาผลิตบทความทางวิทยาศาสตร์หลายเรื่องเกี่ยวกับ person re-
identification and the study of the robustness and stability of deep
networks.