Google AI has better bedside manner than human doctors — and makes better diagnoses

นักวิจัยกล่าวว่าระบบปัญญาประดิษฐ์ สามารถช่วยให้การให้บริการทางการแพทย์ขั้นปฐมภูมิ เปิดรับฟังผู้ป่วยมากขึ้น

Researchers say their artificial-intelligence system could help to democratize medicine.

Google AI ซักประวัติ/สอบถามอาการผู้ป่วย ด้วยท่าทีที่ดีกว่าบุคลากรทางการแพทย์ที่เป็นมนุษย์ และทำการวินิจฉัยได้ดีกว่า

ระบบปัญญาประดิษฐ์ (AI) ที่ได้รับการฝึกอบรม สามารถทำการซักประวัติ/สอบถามอาการป่วย ได้เช่นเดียวกันกับบุคลากรทางการแพทย์ที่เป็นมนุษย์ โดยในการสนทนาซักประวัติ/สอบถามอาการกับผู้ป่วยจำลอง พบว่ามีประสิทธิภาพ แม่นยำเหนือกว่า ในการวินิจฉัยที่เป็นไปได้ตามประวัติการรักษาของผู้ป่วย

แชทบอทซึ่งมีพื้นฐานมาจากโมเดลภาษาขนาดใหญ่ (LLM) ที่พัฒนาโดย Google มีความแม่นยำมากกว่าแพทย์ปฐมภูมิที่ได้รับการรับรองจากคณะกรรมการในการวินิจฉัยภาวะระบบทางเดินหายใจและหลอดเลือดหัวใจ และอื่นๆ เมื่อเปรียบเทียบกับบุคลากรทางการแพทย์ที่เป็นมนุษย์ ระบบสามารถรับข้อมูลในปริมาณที่ใกล้เคียงกันในระหว่างซักประวัติ/สอบถามอาการป่วย และได้รับการประเมินสูงกว่าในด้านความเห็นอกเห็นใจ

“ตามความรู้ของเรา นี่เป็นครั้งแรกที่ระบบ AI ได้รับการออกแบบอย่างเหมาะสมที่สุดสำหรับการซักประวัติ/สอบถามอาการ เพื่อการวินิจฉัยและการซักประวัติทางคลินิก” Alan Karthikesalingam นักวิทยาศาสตร์การวิจัยทางคลินิกที่ Google Health ในลอนดอนและเป็นผู้เขียนร่วมของการศึกษานี้ ซึ่งเผยแพร่เมื่อวันที่ 11 มกราคมในคลังข้อมูลก่อนการพิมพ์ของ arXiv ที่ยังไม่ได้รับการตรวจสอบโดยผู้ทรงคุณวุฒิ

Chatbot ที่เรียกว่า Articulate Medical Intelligence Explorer (AMIE) ยังคงอยู่ในขั้นการทดลองกับผู้ป่วยจำลอง โดยนักแสดงที่ได้รับการฝึกฝนให้แสดงเลียนแบบผู้ที่มีอาการป่วยเท่านั้น ยังไม่มีการทดสอบกับผู้ที่มีปัญหาสุขภาพจริงๆ “เราต้องการให้ตีความผลลัพธ์ด้วยความระมัดระวังและความอ่อนน้อมถ่อมตน” Karthikesalingam กล่าว

แม้ว่าแชทบอทจะยังห่างไกลจากการนำไปใช้ในการดูแลรักษาทางคลินิก แต่ผู้เขียนยืนยันว่าในที่สุดมันก็สามารถมีบทบาทในการดูแลสุขภาพที่พัฒนาด้านความเห็นอกเห็นใจได้ เครื่องมือนี้อาจมีประโยชน์ แต่ไม่ควรแทนที่การมีปฏิสัมพันธ์กับแพทย์ Adam Rodman แพทย์อายุรศาสตร์ที่ Harvard Medical School ในบอสตัน รัฐแมสซาชูเซตส์ กล่าว “การแพทย์เป็นมากกว่าการรวบรวมข้อมูล แต่เป็นเรื่องของความสัมพันธ์ของมนุษย์” เขากล่าว

การเรียนรู้งานที่ละเอียดอ่อน

ความพยายามเพียงเล็กน้อยในการควบคุม LLM สำหรับการแพทย์ได้สำรวจว่าระบบสามารถเลียนแบบความสามารถของแพทย์ในการซักประวัติทางการแพทย์ของบุคคลและนำไปใช้ในการวินิจฉัยได้หรือไม่ นักศึกษาแพทย์ใช้เวลาส่วนใหญ่ในการฝึกอบรมเพื่อทำสิ่งนั้น Rodman กล่าว “เป็นทักษะที่สำคัญและยากที่สุดประการหนึ่งที่จะปลูกฝังให้แพทย์”

ความท้าทายประการหนึ่งที่นักพัฒนาต้องเผชิญคือการขาดแคลนบทสนทนาทางการแพทย์ในโลกแห่งความเป็นจริงที่สามารถใช้เป็นข้อมูลการฝึกอบรม Vivek Natarajan นักวิทยาศาสตร์การวิจัย AI ที่ Google Health ใน Mountain View แคลิฟอร์เนียและผู้เขียนร่วมของการศึกษากล่าว เพื่อจัดการกับความท้าทายดังกล่าว นักวิจัยได้คิดค้นวิธีให้แชทบอทฝึกฝน “การสนทนา” ของตัวเอง

นักวิจัยได้ทำการปรับแต่ง LLM พื้นฐานอย่างละเอียดด้วยชุดข้อมูลที่มีอยู่จริง เช่น บันทึกสุขภาพแบบอิเล็กทรอนิกส์ และบทสนทนาทางการแพทย์ที่ถอดความ เพื่อฝึกโมเดลเพิ่มเติม นักวิจัยได้กระตุ้นให้ LLM เล่นบทบาทของบุคคลที่มีอาการเฉพาะ และบทบาทของแพทย์ผู้เห็นอกเห็นใจ โดยมีเป้าหมายเพื่อทำความเข้าใจประวัติของบุคคลนั้น และสร้างการวินิจฉัยที่เป็นไปได้

ทีมงานยังได้ขอให้โมเดลนี้มีบทบาทเพิ่มอีกส่วนหนึ่ง นั่นคือ ส่วนของนักวิจารณ์ที่ประเมินปฏิสัมพันธ์ของแพทย์กับผู้ที่ได้รับการรักษา และให้ข้อเสนอแนะเกี่ยวกับวิธีการปรับปรุงปฏิสัมพันธ์นั้น คำวิจารณ์ดังกล่าวใช้เพื่อฝึกอบรม LLM เพิ่มเติม และสร้างบทสนทนาที่ได้รับการปรับปรุง

เพื่อทดสอบระบบนี้ นักวิจัยได้เกณฑ์คน 20 คนที่ได้รับการฝึกอบรมให้ปลอมตัวเป็นผู้ป่วย และให้พวกเขาได้รับคำปรึกษาผ่านข้อความออนไลน์ ทั้งกับ AMIE และแพทย์ที่ได้รับการรับรองจากคณะกรรมการ 20 คน พวกเขาไม่ได้บอกว่าพวกเขากำลังสนทนากับมนุษย์หรือบอท

นักแสดงจำลองสถานการณ์ทางคลินิก 149 สถานการณ์ จากนั้นขอให้ประเมินประสบการณ์ของพวกเขา กลุ่มผู้เชี่ยวชาญยังให้คะแนนประสิทธิภาพของ AMIE และของแพทย์ด้วย

AMIE aces the test

ระบบ AI จับคู่หรือเหนือกว่าความแม่นยำในการวินิจฉัยของแพทย์ในสาขาการแพทย์เฉพาะทางทั้ง 6 สาขาที่พิจารณา บอทมีประสิทธิภาพเหนือกว่าแพทย์ในเกณฑ์ 24 ข้อจาก 26 ข้อในด้านคุณภาพการสนทนา ซึ่งรวมถึงความสุภาพ อธิบายอาการและการรักษา ถือว่ามีความซื่อสัตย์ และแสดงความเอาใจใส่และความมุ่งมั่น

“นี่ไม่ได้หมายความว่า LLM จะดีกว่าแพทย์ในการซักประวัติทางคลินิก” Karthikesalingam กล่าว เขาตั้งข้อสังเกตว่าแพทย์ปฐมภูมิในการศึกษานี้อาจไม่คุ้นเคยกับการโต้ตอบกับผู้ป่วยผ่านการแชทผ่านข้อความ ซึ่งอาจส่งผลต่อประสิทธิภาพการทำงานของพวกเขา

ในทางตรงกันข้าม AMIE มีข้อได้เปรียบที่ไม่ยุติธรรมคือ สามารถเขียนคำวินิจฉัยที่ยาวและมีโครงสร้างสวยงามได้อย่างรวดเร็ว Karthikesalingam กล่าว AMIE สามารถคำนึงถึงผู้อื่นอย่างสม่ำเสมอโดยไม่เบื่อหน่าย

Wanted: unbiased chatbot

เขากล่าวว่าขั้นตอนถัดไปที่สำคัญสำหรับการวิจัยคือการดำเนินการศึกษาที่มีรายละเอียดมากขึ้นเพื่อประเมินอคติที่อาจเกิดขึ้นและรับรองว่าระบบมีความเป็นธรรมในกลุ่มประชากรที่แตกต่างกัน ทีมงาน Google กำลังเริ่มพิจารณาข้อกำหนดทางจริยธรรมในการทดสอบระบบกับมนุษย์ที่มีปัญหาทางการแพทย์จริงๆ

Daniel Ting นักวิทยาศาสตร์ด้าน AI แพทย์ที่ Duke-NUS Medical School ในสิงคโปร์ ยอมรับว่าการตรวจสอบระบบเพื่อหาอคติเป็นสิ่งสำคัญเพื่อให้แน่ใจว่าอัลกอริทึมจะไม่ลงโทษกลุ่มเชื้อชาติที่ไม่ได้มีการนำเสนออย่างดีในชุดข้อมูลการฝึกอบรม

ความเป็นส่วนตัวของผู้ใช้ Chatbot ก็เป็นสิ่งสำคัญที่ต้องพิจารณาเช่นกัน Ting กล่าว “สำหรับแพลตฟอร์มโมเดลภาษาขนาดใหญ่เชิงพาณิชย์จำนวนมากในขณะนี้ เรายังไม่แน่ใจว่าข้อมูลถูกเก็บไว้ที่ใด และถูกวิเคราะห์อย่างไร” เขากล่าว

doi: https://doi.org/10.1038/d41586-024-00099-4

view original *