จุดกำเนิดของ ChatGPT (1)

บิ๊ก พงษ์ระพี เตชพาหพงษ์ / pongrapee@gmail.com

วันนี้ผมจะมาเล่าเกร็ดเล็กเกร็ดน้อยของประวัติที่มาการเกิดของ ChatGPT นะครับ

โลกของ Generative AI เดินทางมาจุดเปลี่ยนใหญ่อีกครั้งเมื่องานเปเปอร์ที่ชื่อว่า Attention is all you need ของนาย Vaswani ตีพิมพ์ออกมา (pdf) ในปี 2017 โดยผมเข้าใจว่าความตั้งใจแรกของ Vaswani คือการแก้ปัญหาของโมเดล RNN ที่เทรนได้ช้าและลืมง่าย โดยนำเสนอ Mechanism ตัวใหม่ที่ชื่อว่า Self Attention แล้วก็ประกอบร่างส่วนต่างๆเป็นสถาปัตยกรรมใหม่ที่เรียกว่า “Transformer” ทั้งหมดนี้เป็นการพัฒนาเรื่องของ NLP (Natural Language Processing)

พูดง่ายๆคือทำให้พวกงานภาษาทำงานได้ดีขึ้นนั่นเอง (พวกแปลภาษา พวกสรุปความ ฯลฯ) ผมคิดว่า Vaswani คงอึ้ง เมื่อสิ่งที่เขาคิดมันได้ถูกต่อยอดและเดินทางมาถึงขนาดนี้ ว่าไปแล้วคงไม่ต่างจากซาโตชิ นากาโมโตะที่คิดบิทคอยน์เพื่อเป็น electronic cash แต่มันก็ได้เดินทางไปไกลมากกว่านั้นเยอะ

สถาปัตยกรรม Transformer นั้น เราจะคุ้นตากับกราฟิกชุดที่เห็นนี้ ถ้ามองให้มันส่วนใหญ่ๆ เราจะแบ่งออกเป็นสองส่วนด้วยกันคือ ฝั่ง Encoder และฝั่ง Decoder สองส่วนนี้สามารถดึงไปใช้แยกกันได้ ในฝั่งซ้ายนั้นมันมีชื่อเรียกมาจากชื่อย่อหลายๆตัวเข้าด้วยกัน เรียกว่า BERT (Bidirectional Encoder Representations for Transformer) ให้ดูโลโก้ของมัน ดูแว๊บแรก ผมเชื่อได้เลยว่าหลายคนจะคิดถึง Angry Bird แต่จริงๆแล้วไม่ใช่ มันเป็นตัวละคร BERT ในละครหุ่นเด็ก Sesame Street ต่างหาก

ส่วนฝั่งขวาที่เป็น Decoder นั้นจะเรียกว่า GPT (Generative Pre-trained Transformer) รายละเอียดชื่อตัวนี้ ไว้มีโอกาสจะมาเล่าอีกทีนะครับ

ทีมงานของ OpenAI แต่เดิมพัฒนาบนโมเดล RNN ซึ่งเป็นโมเดลเก่าก็คงติดปัญหาค่อนข้างเยอะ พอเปเปอร์นี้ตัวนี้ออกมา ทีมงานถึงกลับตาลุกวาว และหันหัวเรือไปยังโมเดลใหม่นี้ทันที โดยเอาส่วน GPT นั้นมาใช้อย่างเต็มรูปแบบ และเดินเครื่องพัฒนาบนพื้นฐานของโมเดลนี้ และหนึ่งในนั้นก็คือ “การเทรนดาต้าเซต” ซึ่งมีมากมายมหาศาล

คำถามคือ จะไปเอาเงินและเครื่องแรงๆที่ไหนมาเทรนวะ?

โชคชะตาฟ้าลิขิต หนึ่งในเทวดานางฟ้าที่ลงมาโปรดเรื่องนี้ก็คือ “ไมโครซอฟต์” นายสัตยา CEO เล็งเห็นศักยภาพของทีมนี้ และแกก็อยู่ทีม Cloud มาก่อน บอกว่าไอ้นี่แหละคืออนาคต ก็เลยให้ทุนแบบจุกๆ 10B ในรูปแบบเครดิตการใช้ Azure พร้อมกับสร้างซุปเปอร์คอมพิวเตอร์ให้เลย พูดง่ายๆก็คือให้คูปองมาใช้งานนั่นแหละ

แซม CEO OpenAI ก็เอาสิครับ และหลังจากนั้นไม่กี่ปี ผลงานสะเทือนโลกก็มาในชื่อที่เรียกว่า ChatGPT นั่นเอง!

จบตอน ไม่รู้ว่าเรื่องราวมันน่าสนใจหรือเปล่า ถ้าใครอ่านแล้วชอบก็คอมเมนท์หน่อยนะครับ จะได้มีกำลังใจเขียนต่อต่อไป