Do You Really Need Reinforcement Learning (RL) in RLHF?

คุณยังต้องการ Reinforcement Learning (RL) ใน RLHF หรือไม่? การวิจัยใหม่ของ Stanford เสนอ DPO (Direct Preference Optimization): กระบวนทัศน์การฝึกอบรมอย่างง่ายสำหรับการฝึกอบรม Language Models จาก Preferences โดยไม่มี RL

Do You Really Need Reinforcement Learning (RL) in RLHF? A New Stanford Research Proposes DPO (Direct Preference Optimization): A Simple Training Paradigm For Training Language Models From Preferences Without RL

Direct Preference Optimization: Your Language Model is Secretly a Reward.

เมื่อนักวิจัยทดลองฝึกอบรม huge unsupervised LMs ด้วยดาต้าเซ็ตขนาดใหญ่มาก ต้องการพลัง ที่ทำให้ประหลาดใจ อย่างไรก็ตาม โมเดลเหล่านี้ได้รับการฝึกฝนจากข้อมูลที่สร้างขึ้นโดยผู้ที่มีแรงจูงใจ วัตถุประสงค์ และความสามารถที่หลากหลาย ความทะเยอทะยานและความสามารถเหล่านี้อาจไม่สามารถเลียนแบบได้ทั้งหมด สิ่งสำคัญคือต้องเลือกการตอบสนองและพฤติกรรมที่ต้องการของโมเดลอย่างระมัดระวังจากคลังข้อมูลและทักษะที่มีอยู่มากมายเพื่อสร้างระบบที่เชื่อถือได้ มีประสิทธิภาพ และจัดการได้

โดยไม่ใช้ explicit reward modeling หรือ reinforcement learning มหาวิทยาลัยสแตนฟอร์ดและนักวิจัยของ CZ สาธิตวิธีการปรับ language model ให้เหมาะสมเพื่อให้สอดคล้องกับรสนิยมของมนุษย์ งานของพวกเขาแสดงให้เห็นว่าวัตถุประสงค์ตาม RL ที่ใช้โดยวิธีการปัจจุบันสามารถปรับให้เหมาะสมที่สุดกับ simple binary cross-entropy objective ทำให้กระบวนการเรียนรู้รูปแบบ (preference learning process) มีประสิทธิภาพมากขึ้นและแสดงให้เห็นว่าสามารถทำได้ในทางปฏิบัติอย่างไร

พวกเขาเสนอ Direct Preference Optimization (DPO) อัลกอริธึมใหม่นี้บรรลุวัตถุประสงค์เดียวกันกับอัลกอริทึม RLHF ที่มีอยู่โดยปริยาย (reward maximization with a KL-divergence constraint) แต่สร้างและฝึกได้ง่ายกว่า ในขณะที่การอัปเดต DPO ช่วยเพิ่มอัตราส่วนบันทึกของการตอบกลับที่ต้องการและไม่ชอบโดยสัญชาตญาณ มันยังรวมน้ำหนักนัยสำคัญแบบไดนามิกต่อตัวอย่างที่หยุดโมเดลไม่ให้ลดระดับลง

เช่นเดียวกับอัลกอริทึมอื่นๆ DPO ประเมินความสอดคล้องของ reward function with empirical preference data โดยใช้ theoretical preference model.ในขณะที่วิธีการทั่วไป กำหนด preference loss โดยใช้ preference model เพื่อฝึก reward mode แต่ DPO แทนที่จะใช้การฝึกเพิ่มโมเดลรางวัลที่เรียนรู้ให้สูงสุด โดยใช้ variable switch ดังนั้น DPO. อาจปรับแนวทางให้เหมาะสม โดยมี simple binary cross-entropy goal ที่กำหนดชุดข้อมูลความชอบของมนุษย์มากกว่าการตอบสนองของโมเดล โดยไม่ต้องเรียนรู้ฟังก์ชันการให้รางวัลหรือการสุ่มตัวอย่างจากนโยบายอย่างชัดเจนในระหว่างการฝึกอบรม

ผลการวิจัยแสดงให้เห็นว่า DPO มีประสิทธิภาพพอๆ กับแนวทางที่ทันสมัย ​​เช่น RLHF ที่ใช้ PPO สำหรับการเรียนรู้ตามความชอบในงานต่างๆ รวมถึงการมอดูเลตความรู้สึก การสรุป และบทสนทนา ด้วยโมเดลภาษาที่มีมากถึง พารามิเตอร์ 6B 58% ของผู้คนชอบการสรุปของ DPO มากกว่าการสรุป PPO (การประเมินโดยมนุษย์) และ 61% ชอบการสรุปของ DPO มากกว่าการประเมินโดยมนุษย์ในชุดแบบทดสอบ ใน Anthropic HH นั้น 60% ของเวลา การตอบสนองแบบเทิร์นเดียวจาก DPO เป็นที่ต้องการมากกว่าการเลือกเสร็จสิ้น

ทีมงานระบุว่า DPO. มีศักยภาพในการใช้งานมากมายนอกเหนือจากการฝึกอบรมรูปแบบภาษาตามความชอบของมนุษย์เท่านั้น ตัวอย่างเช่น สามารถฝึกโมเดล Generative models ในรูปแบบต่างๆ

การประเมินโมเดลที่เสนอนั้นสูงถึงพารามิเตอร์ 6B แต่ทีมงานเชื่อว่าการทำงานต่อไปควรสำรวจการปรับสเกล DPO ให้เป็นโมเดลที่ล้ำสมัยด้วยลำดับของข้อมูลจำนวนมาก นักวิจัยยังพบว่าข้อความแจ้งส่งผลต่ออัตราการชนะที่คำนวณของ GPT -4 ในอนาคต พวกเขาวางแผนที่จะตรวจสอบวิธีที่มีประสิทธิภาพสูงสุดในการดึงความคิดเห็นของผู้เชี่ยวชาญจากเครื่อง

view original *