Multimodal Language Models: The Future of Artificial Intelligence (AI)

โมเดลภาษาขนาดใหญ่ (LLM) เป็นโมเดลคอมพิวเตอร์ที่สามารถวิเคราะห์และสร้างข้อความได้  พวกเขาได้รับการฝึกฝนเกี่ยวกับข้อมูลที่เป็นข้อความจำนวนมหาศาลเพื่อเพิ่มประสิทธิภาพในงานต่างๆ เช่น การสร้างข้อความและแม้แต่การเขียนโค้ด

Large language models (LLMs) are computer models capable of analyzing and generating text. They are trained on a vast amount of textual data to enhance their performance in tasks like text generation and even coding.

โมเดล Multimodal LLMs : อนาคตของปัญญาประดิษฐ์ (AI)

LLM ในปัจจุบันส่วนใหญ่เป็นแบบข้อความเท่านั้น กล่าวคือ เชี่ยวชาญในแอปพลิเคชันแบบข้อความเท่านั้น และมีความสามารถจำกัดในการทำความเข้าใจข้อมูลประเภทอื่นๆ

 ตัวอย่างของ LLM แบบข้อความเท่านั้น ได้แก่ GPT-3, BERT, RoBERTa เป็นต้น

ในทางตรงกันข้าม Multimodal LLMs รวมประเภทข้อมูลอื่นๆ เช่น รูปภาพ วิดีโอ เสียง และอินพุตทางประสาทสัมผัสอื่นๆ พร้อมกับข้อความ  การผสานการทำงานหลายรูปแบบเข้ากับ LLM ช่วยแก้ไขข้อจำกัดบางประการของรูปแบบข้อความอย่างเดียวในปัจจุบัน และเปิดโอกาสสำหรับแอปพลิเคชันใหม่ที่ก่อนหน้านี้ไม่สามารถทำได้

GPT-4 ที่เพิ่งเปิดตัวโดย Open AI เป็นตัวอย่างของ Multimodal LLMs  สามารถรับอินพุตรูปภาพและข้อความและได้แสดงประสิทธิภาพระดับมนุษย์ในเกณฑ์มาตรฐานมากมาย

การเพิ่มขึ้นของ AI แบบ Multimodal LLMs

ความก้าวหน้าของ AI หลายรูปแบบ สามารถให้เครดิตกับเทคนิคการเรียนรู้ของเครื่องที่สำคัญสองอย่าง: Representation learning  และ transfer learning

ด้วย Representation learning แบบจำลองสามารถพัฒนาตัวแทนที่ใช้ร่วมกันสำหรับรูปแบบทั้งหมด ในขณะที่ transfer learning ช่วยให้พวกเขาเรียนรู้ความรู้พื้นฐาน ก่อนการปรับแต่งอย่างละเอียดในโดเมนเฉพาะ

เทคนิคเหล่านี้มีความสำคัญต่อการทำให้ AI หลายรูปแบบเป็นไปได้และมีประสิทธิภาพ ดังที่เห็นได้จากความก้าวหน้าล่าสุด เช่น CLIP ซึ่งจัดแนวรูปภาพและข้อความ และ DALL·E 2 และ Stable Diffusion ซึ่งสร้างภาพคุณภาพสูงจากข้อความแจ้ง

เมื่อขอบเขตระหว่างรูปแบบข้อมูลต่างๆ มีความชัดเจนน้อยลง เราจึงคาดหวังได้ว่าแอปพลิเคชัน AI จำนวนมากขึ้น จะใช้ประโยชน์จากความสัมพันธ์ระหว่างรูปแบบต่างๆ จำนวนมาก ซึ่งบ่งบอกถึงการเปลี่ยนแปลงกระบวนทัศน์ในด้านนี้

แนวทางแบบเฉพาะกิจจะค่อยๆ ล้าสมัย และความสำคัญของการทำความเข้าใจความเชื่อมโยงระหว่างรูปแบบต่างๆ จะมีแต่จะเติบโตขึ้นเรื่อยๆ

การทำงานของ Multimodal LLMs

Source: https://jina.ai/news/paradigm-shift-towards-multimodal-ai/

Text-only Language Models (LLMs) ขับเคลื่อนโดยโมเดล Transformer ซึ่งช่วยให้เข้าใจและสร้างภาษาได้  โมเดลนี้รับข้อความเข้าและแปลงเป็นการแสดงตัวเลขที่เรียกว่า “การฝังคำ-word embeddings”  การฝังเหล่านี้ช่วยให้โมเดลเข้าใจความหมายและบริบทของข้อความ

โมเดล Transformer จะใช้สิ่งที่เรียกว่า “attention layers” เพื่อประมวลผลข้อความและกำหนดว่าคำต่างๆ ในข้อความอินพุตเกี่ยวข้องกันอย่างไร  ข้อมูลนี้ช่วยให้โมเดลทำนายคำถัดไปที่เป็นไปได้มากที่สุดในเอาต์พุต

ในทางกลับกัน Multimodal LLMs ไม่เพียงแต่ทำงานกับข้อความเท่านั้น แต่ยังรวมถึงข้อมูลในรูปแบบอื่นๆ ด้วย เช่น รูปภาพ เสียง และวิดีโอ  โมเดลเหล่านี้แปลงข้อความและประเภทข้อมูลอื่นๆ เป็นพื้นที่เข้ารหัสทั่วไป ซึ่งหมายความว่าโมเดลเหล่านี้สามารถประมวลผลข้อมูลทุกประเภทโดยใช้กลไกเดียวกัน  ซึ่งช่วยให้โมเดลสร้างการตอบสนองที่รวมข้อมูลจากหลาย ๆ รูปแบบ นำไปสู่ผลลัพธ์ที่แม่นยำและตรงตามบริบทมากขึ้น

เหตุใดจึงต้องใช้ Multimodal Language Models

 LLM แบบข้อความเท่านั้น เช่น GPT-3 และ BERT มีแอปพลิเคชันที่หลากหลาย เช่น การเขียนบทความ การเขียนอีเมล และการเขียนโค้ด  อย่างไรก็ตาม วิธีการแบบข้อความอย่างเดียวนี้ได้เน้นถึงข้อจำกัดของโมเดลเหล่านี้ด้วย

 แม้ว่าภาษาจะเป็นส่วนสำคัญของความฉลาดของมนุษย์ แต่มันก็เป็นเพียงด้านหนึ่งของความฉลาดของเราเท่านั้น  ความสามารถทางปัญญาของเราพึ่งพาการรับรู้และความสามารถโดยไม่รู้ตัวอย่างมาก ซึ่งส่วนใหญ่กำหนดโดยประสบการณ์ในอดีตของเราและความเข้าใจเกี่ยวกับวิธีการทำงานของโลก

LLMs ที่ได้รับการฝึกฝนเฉพาะด้านข้อความนั้นมีข้อจำกัดโดยเนื้อแท้ในความสามารถในการรวมสามัญสำนึกและความรู้ทางโลก ซึ่งสามารถพิสูจน์ได้ว่าเป็นปัญหาสำหรับงานบางอย่าง  การขยายชุดข้อมูลการฝึกอบรมสามารถช่วยได้ในระดับหนึ่ง แต่โมเดลเหล่านี้อาจยังพบช่องว่างที่คาดไม่ถึงในความรู้ของพวกเขา  แนวทางต่อเนื่องหลายรูปแบบสามารถจัดการกับความท้าทายเหล่านี้ได้

เพื่อให้เข้าใจได้ดีขึ้น ลองพิจารณาตัวอย่าง ChatGPT และ GPT-4

แม้ว่า ChatGPT จะเป็นรูปแบบภาษาที่โดดเด่นซึ่งพิสูจน์แล้วว่ามีประโยชน์อย่างมากในหลายๆ บริบท แต่ก็มีข้อจำกัดบางประการในด้านต่างๆ เช่น การใช้เหตุผลที่ซับซ้อน

เพื่อแก้ไขปัญหานี้ GPT ซ้ำครั้งต่อไป GPT-4 คาดว่าจะเกินความสามารถในการให้เหตุผลของ ChatGPT  ด้วยการใช้อัลกอริทึมขั้นสูงมากขึ้นและการผสมผสานหลายรูปแบบ ทำให้ GPT-4 พร้อมที่จะยกระดับการประมวลผลภาษาธรรมชาติไปอีกขั้น ทำให้สามารถจัดการกับปัญหาการใช้เหตุผลที่ซับซ้อนมากขึ้น และปรับปรุงความสามารถในการสร้างการตอบสนองที่เหมือนมนุษย์มากขึ้น

Source: https://openai.com/product/gpt-4

ตัวอย่างบางส่วนของ Multimodal LLMs

OpenAI: GPT-4

GPT-4 เป็นโมเดลหลายรูปแบบขนาดใหญ่ที่สามารถรับทั้งการป้อนรูปภาพและข้อความ และสร้างเอาต์พุตข้อความ  แม้ว่า GPT-4 อาจไม่มีความสามารถเท่ามนุษย์ในบางสถานการณ์ในโลกแห่งความเป็นจริง แต่ GPT-4 ได้แสดงประสิทธิภาพในระดับมนุษย์ในเกณฑ์มาตรฐานทางวิชาชีพและวิชาการมากมาย

เมื่อเปรียบเทียบกับรุ่นก่อน GPT-3.5 ความแตกต่างระหว่างสองรุ่นอาจดูเล็กน้อยในการสนทนาทั่วไป แต่จะปรากฏชัดเจนเมื่อความซับซ้อนของงานถึงเกณฑ์ที่กำหนด  GPT-4 มีความน่าเชื่อถือและสร้างสรรค์มากกว่า และสามารถจัดการกับคำสั่งที่เหมาะสมกว่า GPT-3.5

นอกจากนี้ยังสามารถจัดการข้อความแจ้งที่เกี่ยวข้องกับข้อความและรูปภาพ ซึ่งช่วยให้ผู้ใช้สามารถระบุวิสัยทัศน์หรืองานด้านภาษาได้  GPT-4 ได้แสดงความสามารถในโดเมนต่างๆ รวมถึงเอกสารที่มีข้อความ รูปถ่าย ไดอะแกรม หรือภาพหน้าจอ และสามารถสร้างเอาต์พุตข้อความ เช่น ภาษาธรรมชาติและรหัส

Khan Academy ได้ประกาศเมื่อเร็ว ๆ นี้ว่าจะใช้ GPT-4 เพื่อพัฒนาผู้ช่วยสอน AI Khanmigo ซึ่งจะทำหน้าที่เป็นติวเตอร์เสมือนจริงสำหรับนักเรียน และเป็นผู้ช่วยในชั้นเรียนสำหรับครู  เนื่องจาก ความสามารถของนักเรียนแต่ละคน ในการเข้าใจแนวคิด แตกต่างกันอย่างมาก และการใช้ GPT-4 จะช่วยให้ Khan Academy จัดการกับปัญหานี้ได้

Source: https://openai.com/customer-stories/khan-academy

ไมโครซอฟท์: Kosmos-1

Kosmos-1 เป็น Multimodal Large Language Model (MLLM) ที่สามารถรับรู้รูปแบบต่างๆ เรียนรู้ในบริบท (ไม่กี่ช็อต) และทำตามคำสั่ง (zero-shot)  Kosmos-1 ได้รับการฝึกอบรมตั้งแต่เริ่มต้นด้วยข้อมูลเว็บ รวมถึงข้อความและรูปภาพ คู่คำบรรยายภาพ และข้อมูลข้อความ

แบบจำลองได้รับประสิทธิภาพที่น่าประทับใจในด้านภาษา

งานด้านความเข้าใจ การสร้าง ภาษาการรับรู้ และการมองเห็น  Kosmos-1 รองรับกิจกรรมภาษา ภาษาการรับรู้ และการมองเห็นโดยกำเนิด และสามารถจัดการงานที่ต้องใช้การรับรู้มากและใช้ภาษาธรรมชาติได้

 Kosmos-1 ได้แสดงให้เห็นว่าการทำงานหลายรูปแบบช่วยให้โมเดลภาษาขนาดใหญ่บรรลุผลสำเร็จได้มากขึ้นโดยใช้เวลาน้อยลง และช่วยให้โมเดลขนาดเล็กสามารถแก้ปัญหาที่ซับซ้อนได้

Source: https://arxiv.org/pdf/2302.14045.pdf

Google: PaLM-E

PaLM-E เป็นแบบจำลองหุ่นยนต์ใหม่ที่พัฒนาโดยนักวิจัยที่ Google และ TU Berlin ซึ่งใช้การถ่ายโอนความรู้จากโดเมนภาพและภาษาต่างๆ เพื่อปรับปรุงการเรียนรู้ของหุ่นยนต์  PaLM-E ฝึกโมเดลภาษาเพื่อรวมข้อมูลเซ็นเซอร์ดิบจากตัวแทนหุ่นยนต์โดยตรง ซึ่งแตกต่างจากความพยายามก่อนหน้านี้  ส่งผลให้ได้โมเดลการเรียนรู้ของหุ่นยนต์ที่มีประสิทธิภาพสูง ซึ่งเป็นโมเดลภาษาภาพเพื่อวัตถุประสงค์ทั่วไปที่ล้ำสมัย

โมเดลรับข้อมูลเข้าด้วยข้อมูลประเภทต่างๆ เช่น ข้อความ รูปภาพ และความเข้าใจในสภาพแวดล้อมของหุ่นยนต์  สามารถสร้างการตอบสนองในรูปแบบข้อความธรรมดาหรือชุดคำสั่งที่เป็นข้อความที่สามารถแปลเป็นคำสั่งปฏิบัติการสำหรับหุ่นยนต์ตามประเภทข้อมูลอินพุตที่หลากหลาย รวมถึงข้อความ รูปภาพ และข้อมูลด้านสิ่งแวดล้อม

PaLM-E แสดงให้เห็นถึงความสามารถทั้งในงานที่เป็นตัวเป็นตนและไม่ใช่ตัวเป็นตน ซึ่งเห็นได้จากการทดลองที่ดำเนินการโดยนักวิจัย  การค้นพบของพวกเขาบ่งชี้ว่าการฝึกอบรมแบบจำลองเกี่ยวกับการผสมผสานระหว่างงานและรูปแบบต่างๆ จะช่วยเพิ่มประสิทธิภาพในการทำงานแต่ละงาน

นอกจากนี้ ความสามารถของโมเดลในการถ่ายโอนความรู้ช่วยให้สามารถแก้ปัญหางานหุ่นยนต์ได้แม้จะมีตัวอย่างการฝึกอบรมที่จำกัดอย่างมีประสิทธิภาพ  นี่เป็นสิ่งสำคัญอย่างยิ่งในวิทยาการหุ่นยนต์ ซึ่งการได้รับข้อมูลการฝึกอบรมที่เพียงพออาจเป็นเรื่องที่ท้าทาย

Source: https://palm-e.github.io/

ข้อจำกัดของ Multimodal LLMs

มนุษย์เรียนรู้และผสมผสานวิธีต่างๆ และวิธีการทำความเข้าใจโลกรอบตัวโดยธรรมชาติ  ในทางกลับกัน multimodal LLMs พยายามที่จะเรียนรู้ภาษาและการรับรู้ไปพร้อมๆ กัน หรือรวมส่วนประกอบที่ได้รับการฝึกอบรมไว้ล่วงหน้า  แม้ว่าวิธีนี้จะนำไปสู่การพัฒนาที่เร็วขึ้นและความสามารถในการปรับขยายที่ดีขึ้น แต่ก็อาจส่งผลให้เกิดความไม่ลงรอยกันกับสติปัญญาของมนุษย์ ซึ่งอาจแสดงออกมาผ่านพฤติกรรมที่แปลกหรือผิดปกติ

แม้ว่า multimodal LLMs กำลังมีความก้าวหน้าในการแก้ไขปัญหาที่สำคัญบางประการของรูปแบบภาษาสมัยใหม่และระบบการเรียนรู้เชิงลึก แต่ก็ยังมีข้อจำกัดที่ต้องแก้ไข  ข้อจำกัดเหล่านี้รวมถึงความไม่ตรงกันที่อาจเกิดขึ้นระหว่างแบบจำลองและความฉลาดของมนุษย์ ซึ่งอาจขัดขวางความสามารถในการเชื่อมช่องว่างระหว่าง AI และความรู้ความเข้าใจของมนุษย์

สรุป: เหตุใด Multimodal LLMs จึงเป็นอนาคต

ขณะนี้เราอยู่ในระดับแนวหน้าของยุคใหม่ในด้านปัญญาประดิษฐ์ และแม้จะมีข้อจำกัดในปัจจุบัน แต่โมเดลหลายรูปแบบก็พร้อมจะเข้ามาแทนที่  โมเดลเหล่านี้รวมประเภทข้อมูลและรูปแบบต่างๆ เข้าด้วยกัน และมีศักยภาพในการเปลี่ยนแปลงวิธีที่เราโต้ตอบกับเครื่องจักรได้อย่างสมบูรณ์

multimodal LLMs ประสบความสำเร็จอย่างน่าทึ่งในด้านคอมพิวเตอร์วิทัศน์และการประมวลผลภาษาธรรมชาติ  อย่างไรก็ตาม ในอนาคต เราคาดหวังได้ว่า multimodal LLMs จะมีผลกระทบอย่างมากต่อชีวิตของเรา

ความเป็นไปได้ของ multimodal LLMs นั้นไม่มีที่สิ้นสุด และเราเพิ่งจะเริ่มสำรวจศักยภาพที่แท้จริงของพวกเขาเท่านั้น  ด้วยคำสัญญาอันยิ่งใหญ่ของพวกเขา เป็นที่ชัดเจนว่า multimodal LLMs จะมีบทบาทสำคัญในอนาคตของ AI

view original *