Auto-GPT and BabyAGI: How ‘autonomous agents’ are bringing generative AI to the masses
Autonomous agents อาจเป็นก้าวสำคัญสู่โลกที่ระบบที่ขับเคลื่อนด้วย AI ด้วยความฉลาดพอ ที่จะทำงานด้วยตัวเองได้ โดยไม่จำเป็นต้องให้มนุษย์เข้ามาเกี่ยวข้อง
Autonomous agents may mark an important step toward a world where AI-driven systems are smart enough to work on their own, without need of human involvement.
Auto-GPT และ BabyAGI: Autonomous agents ข่วยใช้งาน Generative AI โดยพึ่งพามนุษย์ลดลง
ในช่วงสัปดาห์ที่ผ่านมา นักพัฒนาซอฟต์แวร์ทั่วโลกได้เริ่มสร้าง “autonomous agents ” ที่ทำงานร่วมกับโมเดลภาษาขนาดใหญ่ (Large Language Model – LLM) เช่น GPT-4 ของ OpenAI เพื่อแก้ปัญหาที่ซับซ้อน ในขณะที่ยังใหม่มาก Agent ดังกล่าวสามารถเป็นAgent ของความสำเร็จครั้งสำคัญในการประยุกต์ใช้ LLM อย่างมีประสิทธิผล
โดยปกติ เราโต้ตอบกับ GPT-4 โดยพิมพ์ prompt ข้อความแจ้งอย่างระมัดระวังลงในหน้าต่างข้อความของ ChatGPT จนกว่าโมเดลจะสร้างผลลัพธ์ที่เราต้องการ แต่พวกเราส่วนใหญ่ขาดทักษะและความอดทนในการนั่งและเขียนคำแนะนำครั้งแล้วครั้งเล่า เป็นแนวทางให้ LLM ตอบคำถามที่ซับซ้อน เช่น “แผนธุรกิจใดเหมาะสมที่สุดสำหรับการดึงดูด 20% ของตลาดยาทาเล็บ” ค่อนข้างเป็นธรรมชาติที่นักพัฒนาคิดหาวิธีทำให้กระบวนการส่วนใหญ่นั้นเป็นไปโดยอัตโนมัติ นั่นคือสิ่งที่ autonomous agents เข้ามา
โดยทั่วไป autonomous agents สามารถสร้างลำดับงานที่เป็นระบบซึ่ง LLM ดำเนินการจนกว่าจะบรรลุ “เป้าหมาย” ที่กำหนดไว้ล่วงหน้า autonomous agents สามารถทำงานต่างๆ ได้แล้ว เช่น การวิจัยเว็บ การเขียนโค้ด และสร้างรายการสิ่งที่ต้องทำ (creating to-do lists)
Agent เพิ่มส่วนต่อประสานซอฟต์แวร์แบบดั้งเดิมที่ด้านหน้าของโมเดลภาษาขนาดใหญ่ได้อย่างมีประสิทธิภาพ และอินเทอร์เฟซนั้นสามารถใช้แนวทางปฏิบัติของซอฟต์แวร์ที่รู้จักกันดี (เช่น การวนซ้ำและฟังก์ชันต่างๆ) เพื่อแนะนำโมเดลภาษาเพื่อให้บรรลุวัตถุประสงค์ทั่วไป (เช่น “ค้นหาวิดีโอ YouTube ทั้งหมดเกี่ยวกับภาวะถดถอยครั้งใหญ่และกลั่นกรองประเด็นสำคัญ”) บางคนเรียกพวกเขาว่า “Agent แบบเรียกซ้ำ” เพราะพวกเขาทำงานเป็นลูป ถามคำถาม LLM แต่ละคำถามตามผลลัพธ์ของคำถามสุดท้าย จนกว่าโมเดลจะให้คำตอบที่สมบูรณ์
BABYAGI
BabyAGI Agent น้ำเชื้ออิสระถูกสร้างขึ้นโดย Yohei Nakajima VC และผู้เขียนโค้ดและนักทดลองที่เป็นนิสัย เขาอธิบายว่า BabyAGI เป็น “Autonomous AI agent ที่มีตัวจัดการงาน AI task manager ”
Nakajima หุ้นส่วนของบริษัท VC ขนาดเล็ก Untapped Capital กล่าวว่า เดิมทีเขาตั้งใจที่จะสร้าง Agent ที่จะทำให้งานบางอย่างที่เขาทำเป็นประจำในฐานะ VC เป็นไปโดยอัตโนมัติ เช่น การวิจัยเทคโนโลยีและบริษัทใหม่ๆ และอื่นๆ โดยการจำลองเวิร์กโฟลว์ของเขาเอง “ผมตื่นนอนตอนเช้าและจัดการกับสิ่งแรกในรายการ และตลอดทั้งวัน ผมจะเพิ่มงานใหม่ จากนั้นตอนกลางคืน ผมจะทบทวนงานและจัดลำดับความสำคัญใหม่ จากนั้นจึงค่อยตัดสินใจว่าจะทำอะไรในวันรุ่งขึ้น” เขากล่าว นอกจากนี้ BabyAGI ยังดำเนินการเพิ่ม เพิ่ม และจัดลำดับความสำคัญของงานอย่างเป็นระบบเพื่อให้โมเดลภาษา GPT-4 เสร็จสมบูรณ์
เมื่อตระหนักว่าการสร้างของเขาสามารถนำไปใช้กับวัตถุประสงค์อื่นๆ ได้ทุกประเภท Nakajima จึงถอดเอเจนต์ออกจนเหลือแต่ bare bone (โค้ด 105 บรรทัด) และอัปโหลดบน GitHub เพื่อให้คนอื่นๆ ใช้เป็นพื้นฐานสำหรับเอเจนต์ (ที่เชี่ยวชาญกว่า) ของตนเอง
Nakajima กล่าวว่าเขาได้รับแรงบันดาลใจจากวิธีที่นักพัฒนารายอื่นปรับปรุง BabyAGI นักพัฒนาบางคนได้เพิ่มฟังก์ชั่นการควบคุม เขากล่าวพร้อมกับความสามารถในการทำงานแบบคู่ขนาน ความสามารถในการสร้างAgent เพิ่มเติม เช่นเดียวกับการเพิ่มฟังก์ชั่นการเขียนโค้ดและหุ่นยนต์
AUTO-GPT
Auto-GPT ดูเหมือนจะมีความเป็นอิสระมากยิ่งขึ้น พัฒนาโดย Toran Bruce Richards Auto-GPT อธิบายไว้ใน GitHub ว่าเป็นAgent ที่ขับเคลื่อนด้วย GPT-4 ที่สามารถค้นหาอินเทอร์เน็ตในรูปแบบที่มีโครงสร้าง สามารถสร้างงานย่อยและเปิดตัวAgent ใหม่เพื่อดำเนินการให้เสร็จสิ้น มันใช้ GPT-4 ในการเขียนโค้ดของตัวเอง จากนั้นจึงสามารถจัดการโค้ดดิ้ง “ดีบัก พัฒนา และปรับปรุงตัวเองซ้ำๆ” ได้
สามารถใช้ GPT อัตโนมัติกับปัญหาต่างๆ ได้ แต่กรณีตัวอย่างที่อธิบายไว้ใน GitHub เกี่ยวข้องกับ “เชฟ” ที่พยายามจัดการและขยายธุรกิจการทำอาหาร ในตัวอย่าง Agent “Chef-GPT” “พัฒนาและจัดการธุรกิจอย่างอิสระเพื่อเพิ่มมูลค่าสุทธิ”
Richards กล่าวว่าเดิมทีเขาต้องการให้Agent AI ส่งอีเมลข่าว AI รายวันโดยอัตโนมัติ แต่อย่างที่เขาบอกกับมาเธอร์บอร์ด เขาตระหนักในกระบวนการว่า LLM ที่มีอยู่ประสบปัญหากับ “งานที่ต้องใช้การวางแผนระยะยาว” หรือ “ไม่สามารถปรับแต่งแนวทางของตนเองได้โดยอัตโนมัติตามข้อเสนอแนะแบบเรียลไทม์” ความเข้าใจดังกล่าวเป็นแรงบันดาลใจให้เขาสร้าง Auto-GPT ซึ่งเขากล่าวว่า “สามารถนำเหตุผลของ GPT4 ไปใช้กับปัญหาที่กว้างขึ้นและซับซ้อนขึ้น ซึ่งต้องใช้การวางแผนระยะยาวและหลายขั้นตอน” (ริชาร์ดไม่ตอบคำขอสัมภาษณ์ Fast Company)
“THEY GET CONFUSED”
autonomous agents ในช่วงแรกนี้ส่วนใหญ่เป็นการทดลอง และมีข้อจำกัดร้ายแรงบางประการที่ทำให้ไม่ได้รับสิ่งที่ต้องการจากโมเดลภาษาขนาดใหญ่
พวกเขามักจะต่อสู้เพื่อให้ LLM มุ่งเน้นไปที่วัตถุประสงค์ ท้ายที่สุดแล้ว LLM นั้นไม่สามารถคาดเดาได้มากนัก ตัวอย่างเช่น หากผู้ใช้สองคนเขียนพรอมต์เดียวกันใน ChatGPT พวกเขาจะได้รับคำตอบที่แตกต่างกันจากโมเดลทุกครั้ง
Sully Omar นักพัฒนาจากแวนคูเวอร์ทำงานกับAgent ที่เขาหวังว่าจะทำการวิจัยตลาดเกี่ยวกับรองเท้ากันน้ำ แต่ด้วยเหตุผลบางประการ LLM เริ่มเสียสมาธิและเริ่มมุ่งความสนใจไปที่เชือกผูกรองเท้า
“พวกเขาสับสน” Omar กล่าว “พวกเขาไม่สามารถเข้าใจได้ว่า ‘ฉันทำสิ่งนี้แล้ว ฉันกำลังจะวนซ้ำ’”
Omar กล่าวว่านักพัฒนามีแนวโน้มที่จะหาวิธีใหม่ในการปล่อยให้autonomous agents วาง “รั้ว” ไว้รอบ ๆ LLM เพื่อให้พวกเขาทำงานต่อไปโดยไม่หลงทาง
และสิ่งสำคัญคือต้องจำไว้ว่า autonomous agents เริ่มปรากฏบน GitHub (และ Twitter) เมื่อสัปดาห์ที่แล้วเพียงเล็กน้อยเท่านั้น เมื่อพิจารณาถึงพลังของ Generative AI และความก้าวหน้าของการพัฒนาในปัจจุบัน มีเหตุผลที่จะเชื่อได้ว่าเจ้าหน้าที่จะเอาชนะข้อจำกัดในช่วงแรกๆ ของพวกเขาได้
“ความจริงที่ว่าเพิ่งผ่านไปเพียง 9 วัน หมายความว่ามีอะไรมากมายที่อาจเกิดขึ้นได้” Omar กล่าว
ขั้นตอนสู่ปัญญาประดิษฐ์ทั่วไป AGI
และนั่นเป็นสาเหตุส่วนใหญ่ของความสนใจในปัจจุบัน (และโฆษณาเกินจริง) autonomous agents พวกเขาแนะนำขั้นตอนสำคัญสู่ปัญญาประดิษฐ์ทั่วไป (AGI) ซึ่งระบบที่ขับเคลื่อนด้วย AI นั้นฉลาดพอที่จะทำงานด้วยตัวเองโดยไม่จำเป็นต้องให้มนุษย์เข้ามาเกี่ยวข้อง
อันที่จริง เมื่อฉันขอให้ Nakajima หาวิธีง่ายๆ ในการทำความเข้าใจautonomous agents เขาอธิบายว่า “Agent ” เป็น AI เอง ไม่ใช่แค่โปรแกรมซอฟต์แวร์ที่แจ้ง LLM
“หากคุณมี ChatGPT สองตัวคุยกันได้ พวกมันสามารถคุยกันตลอดไปได้หากได้รับคำแนะนำที่ถูกต้อง” เขากล่าว “จากนั้นคุณสามารถเปลี่ยนคนหนึ่งให้เป็นผู้จัดการงานเพื่อสร้างงาน และอีกคนหนึ่งเป็นผู้ทำภารกิจ . . และพวกเขาจะทำงานต่อไปหลังจากที่คุณกด Go”
Nakajima บอกฉันว่าเพื่อนคนหนึ่งคิดชื่อ BabyAGI ขึ้นมาแบบติดตลก BabyAGI ไม่ใช่ “ความฉลาดโดยทั่วไป” แต่สถาปัตยกรรมของมันแนะนำวิธีการผลักดันโมเดลภาษาขนาดใหญ่ไปสู่บางอย่างเช่น AGI
AI ที่ทำงานด้วยความเป็นอิสระเป็นความคิดที่ทำให้มนุษย์เราประหม่าในระดับที่เกือบจะเป็นสัญชาตญาณ เรากลัวอนาคตที่ระบบ AI เริ่มทำงานร่วมกันเร็วกว่าที่มนุษย์จะเข้าใจ และมุ่งสู่เป้าหมายที่อาจไม่ตรงกับความสนใจของเรา ภายใต้ทุกทวีตที่ประกาศautonomous agents รายใหม่ คุณจะพบทวีตย่อยที่ถามเกี่ยวกับความเป็นไปได้ที่Agent และ LLM อาจหลอกลวงและเริ่มสร้างความเสียหาย
autonomous agents อาจเติมเชื้อไฟให้กับความเชื่อที่ว่าอุตสาหกรรมเทคโนโลยีควรทำให้การพัฒนาโมเดลภาษาขนาดใหญ่ “หยุดชั่วคราว” จนกว่าจะเข้าใจผลลัพธ์และความเสี่ยงที่เป็นไปได้ดีขึ้น