Framework to help detect healthcare AI hallucinations

งานวิจัยใหม่แสดงให้เห็นถึงศักยภาพของแนวทางในการจัดการกับ hallucinations ในบทสรุปทางการแพทย์ที่สร้างโดยปัญญาประดิษฐ์ (artificial intelligence-generated medical summaries.)

New research demonstrates the potential of an approach to address faithfulness hallucinations in artificial intelligence-generated medical summaries.

การศึกษาเฟรมเวิร์กของระบบช่วยตรวจจับ healthcare AI hallucinations อัตโนมัติ

นักวิจัยจากมหาวิทยาลัยแมสซาชูเซตส์แอมเฮิร์สต์และบริษัท Mendel ซึ่งเป็นบริษัทด้าน AI ในด้านการดูแลสุขภาพ ได้เผยแพร่งานวิจัยเรื่อง  framework for hallucination detection in AI-generated medical summaries.

ในขณะที่ AI กำลังมีกระแสในอุตสาหกรรมการดูแลสุขภาพ ผู้มีส่วนได้ส่วนเสียต่างก็พยายามหาวิธีปรับปรุงความแม่นยำ ความปลอดภัย และประสิทธิภาพของเครื่องมือเหล่านี้

เทคโนโลยีต่างๆ เช่น  generative AI  ซึ่งรวมถึงโมเดลภาษาขนาดใหญ่ (LLM) ได้แสดงให้เห็นถึงแนวโน้มในการปรับปรุงเอกสารการพยาบาลและการสร้างสรุปทางการแพทย์ ผู้สนับสนุนการผสานรวม AI ในระบบการดูแลสุขภาพยืนยันว่ากรณีการใช้งานดังกล่าวเน้นย้ำถึงศักยภาพของเครื่องมือ ในการลดภาระงานด้านการบริหารของแพทย์ แต่บางคนก็ยืนกรานว่าต้องมีการศึกษาวิจัยและพัฒนาเพิ่มเติม เพื่อให้แน่ใจว่า AI มีความน่าเชื่อถือและปลอดภัยก่อนที่จะนำไปใช้งาน

อุปสรรคสำคัญประการหนึ่งในการนำ AI มาใช้ในระบบการดูแลสุขภาพคือ AI hallucination ซึ่งเกิดขึ้นเมื่อโมเดลสร้างข้อมูลเท็จหรือทำให้เข้าใจผิด LLM มักเกิด hallucination ได้ง่าย ซึ่งก่อให้เกิดความเสี่ยงอย่างมากในการใช้งานในสภาพแวดล้อมทางการแพทย์ที่มีความเสี่ยงสูง

เพื่อลดความเสี่ยงเหล่านี้ ทีมวิจัยจึงได้พัฒนากรอบการทำงานในการตรวจจับ hallucination ที่สามารถนำไปใช้กับ LLM ที่มีหน้าที่สร้างสรุปทางการแพทย์ได้

เพื่อทดสอบความสามารถของกรอบการทำงานในการระบุและจัดหมวดหมู่ hallucination อย่างเป็นระบบ นักวิจัยได้นำไปใช้กับกลุ่มบทสรุปทางการแพทย์ 100 ชุด ที่สร้างขึ้นโดย GPT-4o และ Llama 3

การวิเคราะห์ที่ได้เผยให้เห็นว่า hallucination เกิดขึ้นในการตอบสนองจากทั้งสองโมเดลในห้าหมวดหมู่ของความไม่สอดคล้องของเหตุการณ์ทางการแพทย์ ได้แก่ ข้อมูลผู้ป่วย ประวัติผู้ป่วย การวินิจฉัยและขั้นตอนการรักษา คำแนะนำที่เกี่ยวข้องกับยา และการติดตามผล นอกจากนี้ ยังมีการรายงาน hallucination ที่เกี่ยวข้องกับความไม่สอดคล้องตามลำดับเวลา และการใช้เหตุผลที่ไม่ถูกต้องด้วย

โดยทั่วไป GPT-4o สร้างบทสรุปที่ยาวกว่า โดยเฉลี่ยมากกว่า 500 คำ และสร้างคำชี้แจงการใช้เหตุผลสองขั้นตอน บทสรุปที่ยาวมากกว่าเหล่านี้ ซึ่งมีการอนุมาน (inferences) อย่างกว้างขวาง นำไปสู่ความไม่สอดคล้องของเหตุการณ์ทางการแพทย์ 21 รายการ การให้เหตุผลที่ไม่ถูกต้อง 44 กรณี และความไม่สอดคล้องตามลำดับเวลา 2 รายการ

บทสรุปของ Llama-3 สั้นกว่า มี inferences น้อยกว่า แต่ส่งผลให้คุณภาพลดลงเมื่อเทียบกับคำตอบของ GPT-4o โดยรวมแล้ว Llama-3 ให้คำตอบที่มีเหตุการณ์ทางการแพทย์ที่ไม่สอดคล้องกัน 18 กรณี การใช้เหตุผลไม่ถูกต้อง 26 กรณี และความคลาดเคลื่อนตามลำดับเวลา 1 กรณี

“ผลการวิจัยของเราเน้นย้ำถึงความเสี่ยงที่สำคัญที่เกิดจาก hallucination ในบทสรุปทางการแพทย์ที่สร้างโดย AI” ดร. แอนดรูว์ แม็กคัลลัม ศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์แห่งมหาวิทยาลัยแมสซาชูเซตส์ แอมเฮิร์สต์ กล่าวในข่าวเผยแพร่ “การรับรองความถูกต้องของโมเดลเหล่านี้ถือเป็น สิ่งสำคัญที่สุดในการป้องกันการวินิจฉัยผิดพลาด และการรักษาที่ไม่เหมาะสมในระบบดูแลสุขภาพ”

นอกเหนือจากผลการวิจัยเหล่านี้ ทีมวิจัยยังได้ศึกษาความเป็นไปได้ของ Mendel’s Hypercube system ในการตรวจจับ hallucination โดยอัตโนมัติ เนื่องจากการตรวจจับ hallucination โดยมนุษย์เป็นกระบวนการที่ใช้เวลานานและมีค่าใช้จ่ายสูง

เครื่องมือนี้ใช้ฐานความรู้ทางการแพทย์ การประมวลผลภาษาธรรมชาติ และการใช้เหตุผลเชิงสัญลักษณ์เพื่อแสดงเอกสารของผู้ป่วย โดย Hypercube ได้รับการออกแบบมาเพื่อจัดการกับข้อมูลที่ซ้ำซ้อนและอาจขัดแย้งกันใน EHR โดยรวบรวมข้อมูลเหล่านี้ให้เป็นชุดคุณสมบัติและเหตุการณ์

การศึกษาพบว่าการรวบรวมข้อมูลในลักษณะนี้ทำให้เครื่องมือนี้แสดงให้เห็นถึงแนวโน้มในการปรับปรุงขั้นตอนการตรวจจับ hallucination เบื้องต้นก่อนการตรวจสอบโดยผู้เชี่ยวชาญ

ทีมงานระบุว่าการวิจัยในอนาคตในขอบเขตด้านนี้ควรดำเนินการเพื่อปรับปรุงระบบการตรวจจับ hallucination อัตโนมัติ เพื่อลดต้นทุนการตรวจจับโดยมนุษย์ และลด hallucination ในโมเดล AI ที่ใช้ในการดูแลสุขภาพ

view original *