AI Startup Can Now Generate Speech Using Your Voice In 30 Languages

ต้องการทราบว่าเสียงของคุณเมื่อพูดภาษาอื่นโดยไม่ต้องสำเนียงเป็นอย่างไร ค้นหาด้วยโปรแกรมสร้างคำพูดใหม่ของ ElevenLab

Want to know how you would sound speaking another language—without an accent? Find out with ElevenLab’s new speech generator.

สตาร์ทอัพ AI สามารถสร้างคำพูดโดยใช้เสียงของคุณใน 30 ภาษาได้แล้ว

การแข่งขันด้านอาวุธของ AI ยังคงเพิ่มขึ้นอย่างต่อเนื่อง โดยมีขอบเขตใหม่ของการโคลนเสียงเกิดขึ้นเกือบทุกวัน การพัฒนาล่าสุดมาจากสตาร์ทอัพ ElevenLabs ในซานฟรานซิสโก ซึ่งเพิ่งประกาศว่าโมเดล AI ใหม่ของพวกเขาสามารถเลียนแบบเสียงที่พูดได้อย่างคล่องแคล่วใน 30 ภาษาที่แตกต่างกัน ซึ่งเป็นการขยายอย่างมากจากแปดเวอร์ชันดั้งเดิมที่รองรับก่อนหน้านี้

บริษัทใช้ Lukeman Literary ซึ่งเป็นหน่วยงานวรรณกรรมและผู้จัดพิมพ์อิสระเป็นตัวอย่าง โดยอธิบายว่าบริษัทผลิตหนังสือเสียงจำนวนมากในแต่ละปีในหลายภาษา

“ทีมของ Lukeman เคยใช้เวลาหลายสัปดาห์ในการผลิตหนังสือเสียงเพียงเล่มเดียว เพราะพวกเขาต้องหาศิลปินพากย์เสียงที่เหมาะสม จองสตูดิโอบันทึกเสียง บันทึกและจัดการขั้นตอนหลังการผลิต” ElevenLabs กล่าวในบล็อกโพสต์อย่างเป็นทางการ “ตอนนี้ กระบวนการทั้งหมดใช้เวลาไม่กี่ชั่วโมง”

จากข้อมูลของ ElevenLabs โมเดล Multilingual v2 ใหม่ให้เสียงที่ “เต็มไปด้วยอารมณ์” ซึ่งจับเสียงพูดที่เป็นธรรมชาติ ผู้ใช้พิมพ์ข้อความที่ต้องการพูดในภาษาเป้าหมาย และ AI จะสร้างเสียงบรรยายที่ราบรื่น

บริษัทมีตัวเลือกการโคลนเสียงหลักสองแบบ: เครื่องมือแปลงข้อความเป็นคำพูดและ “VoiceLab” สำหรับการโคลนเสียงเฉพาะ

ผู้ใช้อัปโหลดตัวอย่างคำพูดเพื่อสร้างโคลนเสียงแบบกำหนดเอง ซึ่ง AI จะวิเคราะห์เพื่อสร้างเวอร์ชันสังเคราะห์ เสียงโคลนนี้สามารถถูกดัดแปลงให้พูดอะไรก็ได้เท่าที่จะจินตนาการได้ ElevenLabs อ้างว่าการอัปเดตล่าสุดหมายความว่าตอนนี้ doppelganger AI เหล่านี้สามารถพูดภาษาต่างๆ เช่น สวีเดน อาหรับ และมาเลย์ ได้อย่างคล่องแคล่ว

ความสามารถทางภาษาที่เพิ่มขึ้นยังเกิดขึ้นพร้อมกับการที่ ElevenLabs ย้ายเทคโนโลยีการโคลนเสียงออกจากการทดสอบเบต้า บริษัทมีเป้าหมายที่จะทำการตลาดเครื่องมือสำหรับการใช้งานจริง เช่น หนังสือเสียงบรรยาย ในกรณีของ Lukeman Literary

Addressing concerns

ศักยภาพของเทคโนโลยีในการใช้งานในทางที่ผิดทำให้เกิดความทะเยอทะยานทางธุรกิจเหล่านี้ เสียง Deepfake ทำให้ผู้ใช้เสี่ยงต่อการฉ้อโกงและแคมเปญการให้ข้อมูลที่ไม่ถูกต้อง ElevenLabs เองก็ต้องเผชิญกับฟันเฟืองเมื่อปีที่แล้วเมื่อแพลตฟอร์มของตนถูกใช้เพื่อแอบอ้างและคุกคามบุคคลสาธารณะ

บริษัทกล่าวว่ามีการใช้มาตรการป้องกันที่เข้มงวดมากขึ้นตั้งแต่นั้นมา แต่ข้อกังวลด้านจริยธรรมยังคงมีอยู่ ตามที่ Decrypt รายงานเมื่อเร็ว ๆ นี้ “นักต้มตุ๋นสามารถใช้ AI เพื่อโคลนเสียงของคนที่คุณรัก” และสิ่งที่ต้องใช้เพื่อให้ได้ผลลัพธ์ที่น่าเชื่อถือก็คือเสียงเพียงไม่กี่นาที

บริษัทเทคโนโลยีรายใหญ่อย่าง Meta เผชิญกับคำวิจารณ์ที่คล้ายกันในการพัฒนา AI เจนเนอเรชั่นอันทรงพลังโดยไม่มีความโปร่งใสทั้งหมด Meta เพิ่งเปิดตัวเครื่องมือสังเคราะห์เสียงพูด AI ที่เรียกว่า Voicebox ซึ่งเป็นที่ยอมรับว่าสามารถอำนวยความสะดวกในการ deepfakes ได้อย่างง่ายดาย ต่างจาก ElevenLabs ตรงที่ Meta ละเว้นจากการเผยแพร่ต่อสาธารณะใด ๆ เนื่องจาก “ความเสี่ยงของการใช้งานในทางที่ผิด”

อย่างไรก็ตาม แม้จะมีความกลัว แต่ความก้าวหน้าอย่างรวดเร็วในการโคลนเสียงของ AI ดูเหมือนจะผ่านพ้นไม่ได้ ดังที่นักภาษาศาสตร์ Mati Staniszewski แห่ง ElevenLabs กล่าวว่า “ในที่สุด เราก็หวังว่าจะครอบคลุมภาษาและเสียงต่างๆ ได้มากขึ้นด้วยความช่วยเหลือของ AI และขจัดอุปสรรคทางภาษาในเนื้อหา”

การดำเนินการตามหลักจริยธรรมยังคงเป็นความท้าทายที่สูง เนื่องจากเส้นแบ่งระหว่างการใช้ข้อมูลที่ไม่ถูกต้อง และนวัตกรรมนั้นบางมาก การก้าวย่างพัฒนานวัตกรรมอย่างระมัดระวังคือกุญแจสำคัญ

view original *