DERA: Dialog- Enabled Resolving Agents
An AI Framework For Enhancing Large Language Model Completions With Dialog-Enabled Resolving Agents
เอกสารการวิจัย โมเดล Large Language Model แบบ Deep Learning เป้าหมาย พัฒนาขึ้นเพื่อเลือกเอาต์พุตที่สอดคล้องกับอินพุต โต้ตอบกันด้วยภาษาธรรมชาติ มีเนื้อหาคำถาม-คำตอบที่ถูกต้อง เหมาะสม ซึ่งเป็นความท้าทายในการสร้าง LLM ปรับปรุงประสิทธิภาพของการสื่อสารด้วยภาษาธรรมชาติ
การพัฒนาโมเดล LLM (Large Language Model) ใหม่ ในการศึกษานี้ ได้นำโมเดลมาทดลองใช้กับงานด้านการแพทย์ เช่น การซักประวัติผู้ป่วย การสอบถามอาการ การพูดคุยถาม-ตอบ และการสรุป (วินิจฉัน) โดยใช้ Prompt ที่เป็นคำสั่งภาษาธรรมชาติ ออกแบบด้วยโมเดล LLM ให้สอดคล้องกับข้อกำหนดเฉพาะ ตามระเบียบขั้นตอนปฏิบัติ การให้บริการทางการแพทย์ โดยตัวเลือกตัวอย่างบางส่วนของอินพุตและเอาต์พุตของงาน รวมอยู่ในชุดคำสั่งเหล่านี้
ความสามารถของ Generative language models ในการสร้างเอาท์พุตตามคำสั่งในภาษาธรรมชาติ ช่วยลดความจำเป็นต้องฝึกอบรมบุคลากรเฉพาะงาน และช่วยให้ผู้ที่ไม่ใช่ผู้เชี่ยวชาญสามารถใช้เทคโนโลยีนี้ เพื่อให้การดูแลผู้ป่วยได้ แม้ว่าก่อนนี้ การทำงานเรียงลำดับได้ทีละคิวเดียว แต่การวิจัยใหม่ๆ แสดงให้เห็นว่า สามารถแบ่งงานออกเป็นส่วนย่อยๆ ช่วยปรับปรุงประสิทธิภาพของงาน โดยเฉพาะในด้านการดูผู้ป่วย ทางเลือกที่ประกอบด้วยสององค์ประกอบที่สำคัญ เริ่มต้นด้วยกระบวนการทำซ้ำเพื่อปรับปรุงงานแรก มีการขัดเกลาการปฏิบัติงานโดยรวม ประการที่สอง ให้คำแนะนำการปฏิบัติงานเฉพาะเรื่อง ที่จะมุ่งเน้นการทำซ้ำแต่ละครั้ง ทำให้เข้าใจขั้นตอนต่างๆ ได้มากขึ้น
ด้วยพัฒนาการของ GPT-4 มีเอเจนต์ที่สื่อสารได้ใกล้เคียงกับภาษาธรรมชาติ นักวิจัยจาก Curai Health พัฒนาเอเจนต์ใหม่ Dialog-Enabled Resolving Agents หรือ DERA โดย DERA เป็นเฟรมเวิร์กเพื่อช่วยสื่อสารด้วยภาษาธรรมชาติ โดยมี dialogue resolution สามารถเพิ่มประสิทธิภาพในงานดูแลผู้ป่วยได้อย่างไร พวกเขายืนยันว่าการกำหนดเอเจนต์แต่ละตัวให้มีบทบาทเฉพาะ จะช่วยให้สามารถเน้นการโต้ตอบบางแง่มุมของงาน และรับประกันว่าพาร์ทเนอร์เอเจนต์ จะโต้ตอบไปในแนวทางเดียวกันสู่เป้าหมายโดยรวม พร้อมทั้งมีเอเจนต์ค้นหาข้อมูลที่เกี่ยวข้องเกี่ยวกับปัญหาและหัวข้อ เพื่อให้เอเจนต์อื่น สื่อสารไปในแนวทางเดียวกัน
เพื่อเพิ่มประสิทธิภาพในงานภาษาธรรมชาติ พวกเขาเสนอ DERA ซึ่งเป็นเฟรมเวิร์กสำหรับการโต้ตอบระหว่างเอเจนต์กับเอเจนต์ พวกเขาประเมิน DERA โดยพิจารณาจากงานทางการแพทย์สามประเภทที่แตกต่างกัน ในการตอบคำถามแต่ละข้อ จำเป็นต้องมีข้อความและระดับความเชี่ยวชาญที่หลากหลาย ความท้าทายในการสรุปการสนทนาโต้ตอบทางการแพทย์ มีจุดมุ่งหมาย เพื่อให้ได้บทสรุปของบทสนทนาระหว่างแพทย์และผู้ป่วยที่ถูกต้อง ตามข้อเท็จจริงและปราศจากอาการประสาทหลอนหรือการละเว้น การสร้างแผนการดูแลต้องใช้ข้อมูลจำนวนมากและมีผลลัพธ์ที่ยาวซึ่งเป็นประโยชน์ในการสนับสนุนการตัดสินใจทางการแพทย์ บทบาทของเอเจนต์ผู้ตัดสินใจมีอิสระที่จะตอบสนองต่อข้อมูลนี้ และเลือกแนวทางการดำเนินการขั้นสุดท้ายสำหรับผลลัพธ์
งานนี้มีวิธีแก้ปัญหาที่หลากหลายและมีวัตถุประสงค์เพื่อสร้างเนื้อหาที่ถูกต้องตามข้อเท็จจริงและตรงประเด็นมากที่สุดเท่าที่จะเป็นไปได้ การตอบคำถามเกี่ยวกับยาเป็นงานปลายเปิดที่ต้องใช้การคิดเชิงความรู้และมีทางออกเดียวที่เป็นไปได้ พวกเขาใช้ชุดข้อมูลตอบคำถามสองชุดเพื่อทำการวิจัยในสภาพแวดล้อมที่ท้าทายยิ่งขึ้นนี้ ในการประเมินทั้งที่มีคำอธิบายประกอบโดยมนุษย์ พวกเขาพบว่า DERA ทำงานได้ดีกว่า GPT-4 ในการสร้างแผนการดูแล และบทสนทนาทางการแพทย์ เพื่อสรุปการรักษา เกี่ยวกับมาตรการต่างๆ จากการวิเคราะห์เชิงปริมาณ DERA ประสบความสำเร็จในการแก้ไขสรุปการสนทนาสอบถามทางการแพทย์ที่มีความไม่ถูกต้องจำนวนมาก
ในทางกลับกัน พวกเขาพบว่า ประสิทธิภาพของ GPT-4 และ DERA ถูกปรับปรุงขึ้นเพียงเล็กน้อย หรือแตกต่างเลยในการตอบคำถาม ซึ่งตามทฤษฎี วิธีนี้ ควรใช้ได้ผลดี กับการสร้างการสนทนาโต้ตอบยาวๆ ที่เกี่ยวข้องกับรายละเอียดมาก ตามที่ได้เผยแพร่การทดลองโต้ตอบด้วยคำถาม-คำตอบ ทางการแพทย์แบบปลายเปิด โดยใช้ MedQA ซึ่งประกอบด้วยคำถามเชิงปฏิบัติที่ใช้ทดสอบในการออกใบอนุญาตทางการแพทย์ของสหรัฐอเมริกา (practice questions for the US Medical Licensing Test) ดังนั้น การศึกษาวิจัยโมเดลใหม่ๆ ระบบประเมินคำถาม-คำตอบ และ chaining strategies นั่นคือกลไกเชื่อมโยงเหตุผลและเป้าหมายที่เฉพาะเจาะจง
Chain-of-thought techniques โมเดลกระบวนความคิดที่ Generative AI สามารถโต้ตอบเพื่อวินิจฉัยปัญหาของผู้ป่วย ในรูปแบบที่ผู้เชี่ยวชาญทำ ด้วยคำตอบที่เหมาะสมในรูปแบบภาษาธรรมชาติ ในขณะนี้ ระบบ prompt ถูกจำกัดไว้เพียงชุดดาต้าเซ็ตที่เทรนนิ่งไว้ล่วงหน้า ซึ่งสร้างขึ้นโดยมีวัตถุประสงค์เฉพาะ เช่น การเขียนคำอธิบายหรือการแก้ไขความผิดปกติของเอาต์พุต เป็นข้อจำกัดพื้นฐานของวิธีการนี้ พวกเขามีขั้นตอนที่ดีในทิศทางนี้ แต่การนำไปใช้กับสถานการณ์จริง ในโลกแห่งความเป็นจริง ยังคงเป็นความท้าทายอย่างมาก