MIT Researchers Make Advances in Privacy Protection for Machine Learning Models

นักวิทยาศาสตร์ที่ MIT ประสบความสำเร็จในการปกป้องข้อมูลสำคัญที่เข้ารหัสภายในโมเดลแมชชีนเลิร์นนิง พวกเขาได้พัฒนาโมเดลแมชชีนเลิร์นนิงที่สามารถทำนายได้อย่างแม่นยำว่าผู้ป่วยเป็นมะเร็งหรือไม่จากภาพสแกนปอด อย่างไรก็ตาม การแชร์โมเดลนี้กับโรงพยาบาลทั่วโลกมีความเสี่ยงที่จะถูกดึงข้อมูลโดยเจ้าหน้าที่ที่เป็นอันตราย เพื่อแก้ไขปัญหานี้ นักวิจัยได้แนะนำเมตริกความเป็นส่วนตัวแบบใหม่ที่เรียกว่า Probably Approximately Correct (PAC) Privacy พร้อมกับเฟรมเวิร์กที่กำหนดปริมาณสัญญาณรบกวนขั้นต่ำที่จำเป็นในการปกป้องข้อมูลที่มีความละเอียดอ่อน

Scientists at MIT have achieved a breakthrough in protecting sensitive data encoded within machine learning models. They have developed a machine learning model that can accurately predict whether a patient has cancer from lung scan images. However, sharing this model with hospitals worldwide poses a risk of potential data extraction by malicious agents. To address this issue, the researchers have introduced a novel privacy metric called Probably Approximately Correct (PAC) Privacy, along with a framework that determines the minimal amount of noise required to protect sensitive data.

นักวิจัยของ MIT สร้างความก้าวหน้าในการปกป้องความเป็นส่วนตัวสำหรับโมเดลแมชชีนเลิร์นนิง

นักวิทยาศาสตร์ที่ MIT ประสบความสำเร็จในการปกป้องข้อมูลสำคัญที่เข้ารหัสภายในโมเดลแมชชีนเลิร์นนิง พวกเขาได้พัฒนาโมเดลแมชชีนเลิร์นนิงที่สามารถทำนายได้อย่างแม่นยำว่าผู้ป่วยเป็นมะเร็งหรือไม่จากภาพสแกนปอด อย่างไรก็ตาม การแชร์โมเดลนี้กับโรงพยาบาลทั่วโลกมีความเสี่ยงที่จะถูกดึงข้อมูลโดยเจ้าหน้าที่ที่เป็นอันตราย เพื่อแก้ไขปัญหานี้ นักวิจัยได้แนะนำเมตริกความเป็นส่วนตัวแบบใหม่ที่เรียกว่า Probably Approximately Correct (PAC) Privacy พร้อมกับเฟรมเวิร์กที่กำหนดปริมาณสัญญาณรบกวนขั้นต่ำที่จำเป็นในการปกป้องข้อมูลที่มีความละเอียดอ่อน

แนวทางการรักษาความเป็นส่วนตัวแบบเดิม เช่น Differential Privacy มุ่งเน้นที่การป้องกันฝ่ายตรงข้ามจากการแยกแยะการใช้ข้อมูลเฉพาะโดยการเพิ่มสัญญาณรบกวนจำนวนมหาศาล ซึ่งลดความแม่นยำของแบบจำลอง PAC Privacy ใช้มุมมองที่แตกต่างออกไปโดยการประเมินความยากของฝ่ายตรงข้ามในการสร้างส่วนต่างๆ ของข้อมูลที่ละเอียดอ่อนใหม่ แม้ว่าจะมีการเพิ่มสัญญาณรบกวนแล้วก็ตาม

ในการนำ PAC Privacy ไปใช้ นักวิจัยได้พัฒนาอัลกอริทึมที่กำหนดปริมาณสัญญาณรบกวนที่เหมาะสมที่สุดที่จะเพิ่มลงในแบบจำลอง ซึ่งรับประกันความเป็นส่วนตัวแม้กระทั่งกับศัตรูที่มีพลังการประมวลผลที่ไม่มีที่สิ้นสุด อัลกอริทึมอาศัยความไม่แน่นอนหรือเอนโทรปีของข้อมูลต้นฉบับจากมุมมองของฝ่ายตรงข้าม ด้วยการสุ่มตัวอย่างข้อมูลย่อยและเรียกใช้อัลกอริทึมการฝึกอบรมการเรียนรู้ของเครื่องหลายครั้ง อัลกอริทึมจะเปรียบเทียบความแปรปรวนระหว่างเอาต์พุตต่างๆ เพื่อกำหนดปริมาณสัญญาณรบกวนที่จำเป็น ค่าความแปรปรวนน้อยแสดงว่าต้องการสัญญาณรบกวนน้อยลง

ข้อได้เปรียบที่สำคัญประการหนึ่งของอัลกอริทึมความเป็นส่วนตัวของ PAC คือไม่จำเป็นต้องมีความรู้เกี่ยวกับการทำงานภายในของโมเดลหรือกระบวนการฝึกอบรม ผู้ใช้สามารถระบุระดับความมั่นใจที่ต้องการเกี่ยวกับความสามารถของฝ่ายตรงข้ามในการสร้างข้อมูลที่ละเอียดอ่อนขึ้นใหม่ และอัลกอริทึมจะให้ปริมาณสัญญาณรบกวนที่เหมาะสมเพื่อให้บรรลุเป้าหมายนั้น อย่างไรก็ตาม สิ่งสำคัญคือต้องทราบว่าอัลกอริทึมไม่ได้ประเมินการสูญเสียความแม่นยำซึ่งเป็นผลมาจากการเพิ่มสัญญาณรบกวนให้กับโมเดล นอกจากนี้ การนำ PAC Privacy ไปใช้อาจมีค่าใช้จ่ายสูงเนื่องจากต้องฝึกฝนโมเดลแมชชีนเลิร์นนิงซ้ำๆ ในชุดข้อมูลตัวอย่างย่อยต่างๆ

เพื่อปรับปรุงความเป็นส่วนตัวของ PAC นักวิจัยแนะนำให้แก้ไขกระบวนการฝึกอบรมการเรียนรู้ของเครื่องเพื่อเพิ่มความเสถียร ซึ่งช่วยลดความแปรปรวนระหว่างเอาต์พุตตัวอย่างย่อย วิธีการนี้จะช่วยลดภาระการคำนวณของอัลกอริทึมและลดปริมาณสัญญาณรบกวนที่จำเป็น นอกจากนี้ แบบจำลองที่เสถียรกว่ามักจะแสดงข้อผิดพลาดทั่วไปที่ต่ำกว่า ซึ่งนำไปสู่การคาดคะเนข้อมูลใหม่ที่แม่นยำยิ่งขึ้น

ความก้าวหน้าในการปกป้องความเป็นส่วนตัวสำหรับโมเดลแมชชีนเลิร์นนิงนี้มีความหมายที่มีแนวโน้มในการปกป้องข้อมูลที่ละเอียดอ่อนในด้านต่างๆ รวมถึงการดูแลสุขภาพ ด้วยการใช้ประโยชน์จาก PAC Privacy วิศวกรสามารถพัฒนาโมเดลที่ปกป้องข้อมูลการฝึกอบรมในขณะที่รักษาความถูกต้องในการใช้งานจริง ด้วยศักยภาพในการลดปริมาณสัญญาณรบกวนที่จำเป็นลงอย่างมาก เทคนิคนี้จึงเปิดโอกาสใหม่ๆ สำหรับการแบ่งปันข้อมูลอย่างปลอดภัย

view original*