A Gentle Introduction to Generative Adversarial Networks (GANs)

Generative Adversarial Networks หรือเรียกสั้นๆ ว่า GAN เป็นแนวทางในการสร้าง Generative Model โดยใช้วิธี Deep learning methods เช่น Convolutional Neural Networks (CNN) GAN เป็น Machine Learning แบบสร้างเลิร์นนิ่งทาสก์โดยไม่ใช้ supervisor ที่เกี่ยวข้องกับการค้นหาและเรียนรู้ความสม่ำเสมอหรือรูปแบบในข้อมูลอินพุตโดยอัตโนมัติในลักษณะที่โมเดลสามารถนำไปใช้สร้างหรือแสดงตัวอย่างใหม่ที่น่าจะดึงมาจากชุดข้อมูลดั้งเดิม

Generative Adversarial Networks, or GANs for short, are an approach to generative modeling using deep learning methods, such as convolutional neural networks. Generative modeling is an unsupervised learning task in machine learning that involves automatically discovering and learning the regularities or patterns in input data in such a way that the model can be used to generate or output new examples that plausibly could have been drawn from the original dataset. GANs are a clever way of training a generative model by framing the problem as a supervised learning problem with two sub-models: the generator model that we train to generate new examples, and the discriminator model that tries to classify examples as either real (from the domain) or fake (generated). The two models are trained together in a zero-sum game, adversarial, until the discriminator model is fooled about half the time, meaning the generator model is generating plausible examples. GANs are an exciting and rapidly changing field, delivering on the promise of generative models in their ability to generate realistic examples across a range of problem domains, most notably in image-to-image translation tasks such as translating photos of summer to winter or day to night, and in generating photorealistic photos of objects, scenes, and people that even humans cannot tell are fake.

Generative Adversarial Networks

Generative Adversarial Networks (GAN) เป็นวิธีที่ชาญฉลาดในการฝึก Generative model โดยการกำหนดกรอบปัญหาว่าเป็นปัญหาการเรียนรู้แบบมีผู้สอนโดยมีแบบจำลองย่อยสองแบบ: โมเดลตัวกำเนิดที่เราฝึกเพื่อสร้างตัวอย่างใหม่ และแบบจำลองตัวจำแนกที่พยายามจำแนกตัวอย่างว่าเป็นของจริง (จาก โดเมน) หรือปลอม (สร้างขึ้น) แบบจำลองทั้งสองได้รับการฝึกฝนร่วมกันในเกมผลรวมศูนย์ ซึ่งเป็นคู่ต่อสู้กัน จนกว่าแบบจำลองผู้เลือกปฏิบัติจะถูกหลอกประมาณครึ่งเวลา หมายความว่า Generative Model กำลังสร้างตัวอย่างที่น่าเชื่อถือ GAN เป็นสาขาที่น่าตื่นเต้นและเปลี่ยนแปลงอย่างรวดเร็ว โดยส่งมอบตามคำมั่นสัญญาของแบบจำลองเชิงกำเนิดในความสามารถของพวกเขาในการสร้าง

ตัวอย่างที่เหมือนจริงในขอบเขตของปัญหาต่างๆ โดยเฉพาะอย่างยิ่งในงานแปลแบบภาพต่อภาพ เช่น การแปลภาพถ่ายของฤดูร้อนเป็นฤดูหนาวหรือกลางวัน จนถึงกลางคืน และในการสร้างภาพถ่ายเสมือนจริงของวัตถุ ฉาก และผู้คนที่แม้แต่มนุษย์ยังบอกไม่ได้ว่าเป็นของปลอม Generative Model ที่ใช้ AI สร้างข้อมูลที่ไม่มีอยู่จริง โดยสอน AI ให้เรียนรู้จากแบบจำลองของข้อมูลสิ่งต่างๆ ที่มีอยู่จริง หนึ่งในเทคนิคการสร้างแบบจำลองที่น่าสนใจ คือ Generative Adversarial Networks (GAN) ใช้สร้างภาพใบหน้าที่สมจริง มีความละเอียดสูง นำไปใช้สร้าง Virtual Influencer ที่ไม่มีตัวตนอยู่จริง เพื่อทำหน้าที่เป็นนักร้อง ผู้ประกาศข่าว หรือไอดอลได้

ความแตกต่างระหว่าง CNN, RNN, GAN CNN (Convolutional Neural Network) คือประเภทของโครงข่ายประสาทเทียมที่ใช้กันทั่วไปสำหรับงานจดจำภาพและวิดีโอ มีประโยชน์อย่างยิ่งสำหรับการระบุรูปแบบและคุณลักษณะในภาพ RNN (Recurrent Neural Network) คือประเภทของโครงข่ายประสาทเทียมที่เหมาะสำหรับการประมวลผลข้อมูลตามลำดับ เช่น ข้อมูลอนุกรมเวลาหรือภาษาธรรมชาติ RNN มีส่วนประกอบ “หน่วยความจำ” ซึ่งช่วยให้ประมวลผลข้อมูลตามลำดับและรักษาบริบทได้ GAN (Generative Adversarial Network) เป็นโครงข่ายประสาทชนิดหนึ่งที่ใช้สำหรับงานเชิงสร้างสรรค์ เช่น การสร้างรูปภาพ วิดีโอ หรือข้อความใหม่ GAN ประกอบด้วยสององค์ประกอบหลัก: เครือข่ายตัวสร้าง ซึ่งสร้างข้อมูลใหม่ และเครือข่ายตัวจำแนก ซึ่งพยายามแยกแยะข้อมูลที่สร้างขึ้นจากข้อมูลจริง ตัวสร้างและผู้เลือกปฏิบัติได้รับการฝึกฝนร่วมกัน

โดยตัวสร้างจะพยายามสร้างข้อมูลที่สามารถหลอกผู้เลือกปฏิบัติได้ กล่าวโดยย่อ CNN เก่งในการประมวลผลภาพ, RNN เก่งในการประมวลผลข้อมูลแบบซีเควนเชียล และ GAN เก่งในงานสร้าง Generative Model GAN มีประโยชน์และใช้งานหลากหลาย ไม่ว่าจะเป็นการเพิ่มความละเอียดภาพให้อยู่ในระดับ Super–Resolution ช่วยแปลงภาพถ่ายให้คมชัดมากขึ้น แปลงภาพในเวลากลางวันให้กลายเป็นภาพตอนกลางคืน แปลงภาพขาวดำให้เป็นภาพสี หรือแม้แต่แปลงภาพแบบไม่ต้องมีคู่ตัวอย่างให้ AI เรียนรู้ก่อน เช่น การแปลงม้าเป็นม้าลาย มีผลงานวิจัยที่เกี่ยวข้องกับ Generative Model ในประเทศไทย ที่น่าสนใจ ดังนี้ VAJA ที่เป็นระบบการสังเคราะห์เสียงจากข้อความภาษาไทย, Automatic Image Caption Generation In Thai เพื่อสร้างคำบรรยายภาพที่เป็นภาษาไทยอย่างอัตโนมัติ, Z-Size Ladies ที่เป็นระบบการจำลองรูปร่างแบบ 3 มิติ สำหรับคุณแม่ที่ตั้งครรภ์ระยะ 2-40 สัปดาห์, VISTEC กำลังศึกษากระบวนการคอมพิวเตอร์กราฟิกที่ใช้จำลองการขยับใบหน้าของคนอย่างสมจริง

View original*