SingSong: นักวิจัย AI ของ Google พัฒนากลไกสร้างเพลงประกอบจากอินพุตเสียงร้อง

นักวิจัย AI ของ Google ได้พัฒนาระบบที่เรียกว่า SingSong ซึ่งใช้การเรียนรู้เชิงลึกเพื่อสร้างเพลงที่สอดคล้องกับการร้องเพลงมากกว่าระบบอื่นๆ ที่มีอยู่ สามารถใช้ SingSong เพื่อสร้างเพลงคาราโอเกะสำหรับนักร้องมืออาชีพหรือช่วยนักร้องมือสมัครเล่นในการค้นหาเพลงประกอบที่เข้ากับเสียงของพวกเขา ระบบได้รับการพัฒนาโดยใช้การบันทึกเพลงจำนวนมหาศาลและโดยการแก้ไข AudioLM ซึ่งเป็นวิธีการที่ทันสมัยสำหรับการผลิตเสียงแบบไม่มีเงื่อนไข เพื่อรับการฝึกอบรมเกี่ยวกับคู่ที่แยกจากแหล่งที่มา (เสียงร้องและเครื่องดนตรี) สำหรับงานสร้าง . SingSong ยังอยู่ในช่วงเริ่มต้นของการพัฒนา แต่มีศักยภาพที่จะปฏิวัติวงการคาราโอเกะและช่วยให้นักร้องสมัครเล่นค้นหาดนตรีประกอบที่เหมาะกับพวกเขา

ระบบสำหรับการสร้างดนตรีประกอบอาศัยอัลกอริทึมที่พยายามจับคู่จังหวะและระดับเสียงของการร้องเพลง

Google AI researchers have developed a system called SingSong that uses deep learning to generate music that is more in sync with singing than other existing systems. SingSong could be used to create karaoke tracks for professional singers or to help amateur singers find accompaniment that matches their voices. The system was developed using a massive corpus of music recordings and by modifying AudioLM, a cutting-edge method for unconditional audio production, to be trained on source-separated (vocal, instrumental) pairs for conditional “audio-to-audio” generation tasks. SingSong is still in the early stages of development, but has the potential to revolutionize the karaoke industry and help amateur singers find accompaniment that works well for them.

SingSong: นักวิจัย AI ของ Google ค้นหาวิธีสร้างเพลงประกอบกับเสียงร้องที่ป้อน

ระบบใหม่ที่เรียกว่า SingSong ใช้โมเดลการเรียนรู้เชิงลึกเพื่อสร้างเพลงที่สอดคล้องกับการร้องเพลงมากกว่าระบบที่มีอยู่

นักวิจัยกล่าวว่าระบบนี้สามารถใช้เพื่อสร้างเพลงคาราโอเกะสำหรับนักร้องมืออาชีพหรือช่วยนักร้องสมัครเล่นในการค้นหาเพลงประกอบที่เข้ากับเสียงของพวกเขา

นักวิจัยที่ Google ได้ค้นพบวิธีใช้ปัญญาประดิษฐ์เพื่อสร้างเพลงที่เข้ากันได้กับการร้องเพลง ระบบใหม่นี้เรียกว่า SingSong ใช้โมเดลการเรียนรู้เชิงลึกเพื่อสร้างเสียงคลอที่สอดคล้องกับการร้องเพลงมากกว่าระบบอื่นๆ ที่มีอยู่ นักวิจัยกล่าวว่าระบบนี้สามารถใช้เพื่อสร้างเพลงคาราโอเกะสำหรับนักร้องมืออาชีพหรือเพื่อช่วยให้นักร้องสมัครเล่นค้นหาดนตรีประกอบที่เหมาะกับเสียงของพวกเขามากขึ้น

SingSong เป็นระบบที่พัฒนาโดย Google ที่สร้างเพลงบรรเลงประกอบเสียงร้อง อาจช่วยให้ทั้งนักดนตรีและไม่ใช่นักดนตรีมีแนวทางใหม่ง่ายๆ ในการทำเพลงที่มีเสียงของตัวเอง นักพัฒนาสร้างความก้าวหน้าล่าสุดในการแยกแหล่งที่มาของดนตรีและการผลิตเสียงเพื่อให้บรรลุเป้าหมายนี้ นักพัฒนาใช้วิธีการแยกแหล่งที่มาที่ล้ำสมัยโดยเฉพาะเพื่อสร้างคู่ของเสียงร้องและเสียงเครื่องดนตรีที่สอดคล้องกันจากคลังเสียงขนาดใหญ่ของการบันทึกเสียง จากนั้น นักพัฒนาแก้ไข AudioLM ซึ่งเป็นวิธีการที่ทันสมัยสำหรับการผลิตเสียงแบบไม่มีเงื่อนไข เพื่อให้ได้รับการฝึกฝนเกี่ยวกับคู่ที่แยกจากแหล่งที่มา (เสียงร้อง การบรรเลง) สำหรับงานสร้าง “เสียงต่อเสียง” ตามเงื่อนไข

นักวิจัย AI ตรวจสอบคุณสมบัติต่างๆ ของอินพุตเสียงพูด ซึ่งวิธีที่ดีที่สุดจะช่วยเพิ่มประสิทธิภาพเชิงปริมาณของเสียงร้องแยกได้ 53% เมื่อเทียบกับคุณสมบัติ AudioLM เริ่มต้น เพื่อปรับปรุงการวางระบบโดยรวมจากข้อมูลการฝึกที่แยกจากแหล่งที่มา (instrumental) ไปจนถึงเสียงร้องแยกที่ผู้พัฒนาอาจคาดหวังจากผู้ใช้ ผู้ฟังแสดงความพึงพอใจอย่างมากต่อเครื่องดนตรีที่ผลิตโดย SingSong มากกว่าเครื่องดนตรีที่มาจากพื้นฐานการดึงข้อมูลที่แข็งแกร่งในการเปรียบเทียบแบบคู่กับอินพุตเสียงเดียวกัน

ในทางตรงกันข้าม ระบบใหม่นี้ใช้โมเดลการเรียนรู้เชิงลึกที่ได้รับการฝึกอบรมในชุดข้อมูลเพลงขนาดใหญ่ สิ่งนี้ทำให้ระบบสามารถสร้างดนตรีประกอบที่สอดคล้องกับเสียงและจังหวะของนักร้อง

สำหรับการศึกษานี้ ผู้ฟังจะได้รับการผสมเสียงและเครื่องดนตรี 10 วินาทีสองครั้ง โดยที่เสียง (นำมาจากการทดสอบ MUSDB18) จะเหมือนกัน ในขณะที่เครื่องดนตรีต่างกันและมาจากแหล่งต่างๆ (ความจริงพื้นฐาน โมเดลของ Google หรือเส้นฐาน) คำถามนี้ขอให้ผู้ฟังเลือกชุดค่าผสมใดจากสองชุดที่พวกเขารู้สึกว่าเสียงดนตรีที่บรรเลงอยู่ด้านหลังเหมาะสมกับเสียงร้องมากกว่า

ตัวอย่างใหม่ของ SingSong

ด้วยการใช้เครือข่ายประสาทเทียมระดับลึกและแบบจำลองกำเนิด นักพัฒนาสามารถสร้างเสียงประกอบฮาร์มอนิกโดยไม่มีเวลาแฝงสำหรับเซ็กเมนต์ที่ยาวขึ้น

เสียงระดับมืออาชีพของชุดข้อมูล MUSDB18 ถูกนำมาใช้ในตัวอย่างก่อนหน้านี้ นอกจากนี้ เรายังรู้สึกทึ่งกับความสามารถของ SingSong ในการสนับสนุนและทำให้ทุกคนสามารถสร้างเพลงด้วยเสียงของพวกเขาได้ ที่นี่ เราตรวจสอบสิ่งนี้โดยใช้ตัวอย่างเสียงจากชุดข้อมูล Vocadito ซึ่งรวมถึงการบันทึกเสียงของนักร้องสมัครเล่นที่ทำขึ้นจากอุปกรณ์อิเล็กทรอนิกส์สำหรับผู้บริโภค

ระบบยังอยู่ในช่วงเริ่มต้นของการพัฒนา แม้ว่านักวิจัยกล่าวว่าจะต้องมีการปรับปรุงก่อนที่จะนำไปใช้ในเชิงพาณิชย์ได้ แต่พวกเขาเชื่อว่ามันมีศักยภาพในการปฏิวัติอุตสาหกรรมคาราโอเกะและช่วยให้นักร้องสมัครเล่นค้นพบดนตรีประกอบที่เหมาะกับพวกเขา

view original