Researchers develop a way to hear photos using artificial intelligence

ด้วยการใช้เทคโนโลยีระบบป้องกันภาพสั่นไหวร่วมกับปัญญาประดิษฐ์ ทำให้สามารถสร้างเสียงจากภาพนิ่ง และวิดีโอที่ถูกปิดเสียง

The technology uses image stabilization and artificial intelligence to extract audio from still images and muted videos.

นักวิจัย พัฒนาวิธีฟังภาพถ่ายโดยใช้ปัญญาประดิษฐ์

นักวิจัยจากมหาวิทยาลัย Northeastern ได้พัฒนาวิธีการแยกเสียงจากทั้งภาพนิ่งและวิดีโอที่ถูกปิดเสียงโดยใช้ปัญญาประดิษฐ์

โครงการวิจัยนี้มีชื่อว่า Side Eye

“กล้องส่วนใหญ่ในปัจจุบันมีสิ่งที่เรียกว่าฮาร์ดแวร์ป้องกันภาพสั่นไหว” Kevin Fu ศาสตราจารย์ด้านวิศวกรรมไฟฟ้าและคอมพิวเตอร์ที่มหาวิทยาลัย Northeastern กล่าว “ปรากฎว่าเมื่อคุณพูดใกล้กับเลนส์กล้องที่มีฟังก์ชั่นบางอย่างเหล่านี้ เลนส์กล้องจะขยับเล็กน้อย ซึ่งเรียกว่าการปรับเสียงของคุณ ลงบนภาพ และพิกเซลจะเปลี่ยน”

โดยพื้นฐานแล้ว การเคลื่อนไหวเล็กๆ น้อยๆ เหล่านี้สามารถตีความได้เป็นเสียงพื้นฐาน ซึ่งปัญญาประดิษฐ์ Side Eye สามารถตีความเป็นคำแต่ละคำที่มีความแม่นยำสูงได้ ตามที่ทีมวิจัยระบุ

“คุณสามารถรับตัวอย่างได้หลายพันตัวอย่างต่อวินาที สิ่งนี้หมายความว่า? หมายความว่าโดยพื้นฐานแล้วคุณจะได้ไมโครโฟนขั้นพื้นฐาน” Fu กล่าว

แม้ว่าเสียงที่กู้คืนมาจะฟังดูไม่ชัด แต่ข้อมูลบางส่วนก็สามารถดึงออกมาได้

“สิ่งต่างๆ เช่น การทำความเข้าใจว่าเพศของผู้พูดคืออะไร ไม่ใช่บนกล้อง แต่อยู่ในห้องขณะถ่ายภาพหรือวิดีโอ นั่นแม่นยำเกือบ 100%” เขากล่าว

แล้วเทคโนโลยีแบบนี้สามารถนำไปใช้ทำอะไรได้บ้าง?

“เช่น ในคดีทางกฎหมาย หรือการสอบสวนการพิสูจน์หรือหักล้างการมีอยู่ของใครบางคน มันให้หลักฐานที่สามารถยืนยันได้ด้วยวิทยาศาสตร์ว่าใครบางคนน่าจะอยู่ในห้องพูดหรือไม่” ฟู่กล่าว

“นี่เป็นอีกเครื่องมือหนึ่งที่เราสามารถใช้เพื่อนำหลักฐานที่แท้จริงมาสู่การสอบสวน แต่ยังพยายามแก้ไขการยื่นฟ้องทางอาญาด้วย” เขากล่าว

view original *