ต้องการทราบว่าเสียงของคุณเมื่อพูดภาษาอื่นโดยไม่ต้องสำเนียงเป็นอย่างไร ค้นหาด้วยโปรแกรมสร้างคำพูดใหม่ของ ElevenLab
Want to know how you would sound speaking another language—without an accent? Find out with ElevenLab’s new speech generator.
![](http://34.126.175.50/wp-content/uploads/2023/08/IMG_0370.webp)
สตาร์ทอัพ AI สามารถสร้างคำพูดโดยใช้เสียงของคุณใน 30 ภาษาได้แล้ว
การแข่งขันด้านอาวุธของ AI ยังคงเพิ่มขึ้นอย่างต่อเนื่อง โดยมีขอบเขตใหม่ของการโคลนเสียงเกิดขึ้นเกือบทุกวัน การพัฒนาล่าสุดมาจากสตาร์ทอัพ ElevenLabs ในซานฟรานซิสโก ซึ่งเพิ่งประกาศว่าโมเดล AI ใหม่ของพวกเขาสามารถเลียนแบบเสียงที่พูดได้อย่างคล่องแคล่วใน 30 ภาษาที่แตกต่างกัน ซึ่งเป็นการขยายอย่างมากจากแปดเวอร์ชันดั้งเดิมที่รองรับก่อนหน้านี้
บริษัทใช้ Lukeman Literary ซึ่งเป็นหน่วยงานวรรณกรรมและผู้จัดพิมพ์อิสระเป็นตัวอย่าง โดยอธิบายว่าบริษัทผลิตหนังสือเสียงจำนวนมากในแต่ละปีในหลายภาษา
“ทีมของ Lukeman เคยใช้เวลาหลายสัปดาห์ในการผลิตหนังสือเสียงเพียงเล่มเดียว เพราะพวกเขาต้องหาศิลปินพากย์เสียงที่เหมาะสม จองสตูดิโอบันทึกเสียง บันทึกและจัดการขั้นตอนหลังการผลิต” ElevenLabs กล่าวในบล็อกโพสต์อย่างเป็นทางการ “ตอนนี้ กระบวนการทั้งหมดใช้เวลาไม่กี่ชั่วโมง”
จากข้อมูลของ ElevenLabs โมเดล Multilingual v2 ใหม่ให้เสียงที่ “เต็มไปด้วยอารมณ์” ซึ่งจับเสียงพูดที่เป็นธรรมชาติ ผู้ใช้พิมพ์ข้อความที่ต้องการพูดในภาษาเป้าหมาย และ AI จะสร้างเสียงบรรยายที่ราบรื่น
บริษัทมีตัวเลือกการโคลนเสียงหลักสองแบบ: เครื่องมือแปลงข้อความเป็นคำพูดและ “VoiceLab” สำหรับการโคลนเสียงเฉพาะ
ผู้ใช้อัปโหลดตัวอย่างคำพูดเพื่อสร้างโคลนเสียงแบบกำหนดเอง ซึ่ง AI จะวิเคราะห์เพื่อสร้างเวอร์ชันสังเคราะห์ เสียงโคลนนี้สามารถถูกดัดแปลงให้พูดอะไรก็ได้เท่าที่จะจินตนาการได้ ElevenLabs อ้างว่าการอัปเดตล่าสุดหมายความว่าตอนนี้ doppelganger AI เหล่านี้สามารถพูดภาษาต่างๆ เช่น สวีเดน อาหรับ และมาเลย์ ได้อย่างคล่องแคล่ว
ความสามารถทางภาษาที่เพิ่มขึ้นยังเกิดขึ้นพร้อมกับการที่ ElevenLabs ย้ายเทคโนโลยีการโคลนเสียงออกจากการทดสอบเบต้า บริษัทมีเป้าหมายที่จะทำการตลาดเครื่องมือสำหรับการใช้งานจริง เช่น หนังสือเสียงบรรยาย ในกรณีของ Lukeman Literary
Addressing concerns
ศักยภาพของเทคโนโลยีในการใช้งานในทางที่ผิดทำให้เกิดความทะเยอทะยานทางธุรกิจเหล่านี้ เสียง Deepfake ทำให้ผู้ใช้เสี่ยงต่อการฉ้อโกงและแคมเปญการให้ข้อมูลที่ไม่ถูกต้อง ElevenLabs เองก็ต้องเผชิญกับฟันเฟืองเมื่อปีที่แล้วเมื่อแพลตฟอร์มของตนถูกใช้เพื่อแอบอ้างและคุกคามบุคคลสาธารณะ
บริษัทกล่าวว่ามีการใช้มาตรการป้องกันที่เข้มงวดมากขึ้นตั้งแต่นั้นมา แต่ข้อกังวลด้านจริยธรรมยังคงมีอยู่ ตามที่ Decrypt รายงานเมื่อเร็ว ๆ นี้ “นักต้มตุ๋นสามารถใช้ AI เพื่อโคลนเสียงของคนที่คุณรัก” และสิ่งที่ต้องใช้เพื่อให้ได้ผลลัพธ์ที่น่าเชื่อถือก็คือเสียงเพียงไม่กี่นาที
บริษัทเทคโนโลยีรายใหญ่อย่าง Meta เผชิญกับคำวิจารณ์ที่คล้ายกันในการพัฒนา AI เจนเนอเรชั่นอันทรงพลังโดยไม่มีความโปร่งใสทั้งหมด Meta เพิ่งเปิดตัวเครื่องมือสังเคราะห์เสียงพูด AI ที่เรียกว่า Voicebox ซึ่งเป็นที่ยอมรับว่าสามารถอำนวยความสะดวกในการ deepfakes ได้อย่างง่ายดาย ต่างจาก ElevenLabs ตรงที่ Meta ละเว้นจากการเผยแพร่ต่อสาธารณะใด ๆ เนื่องจาก “ความเสี่ยงของการใช้งานในทางที่ผิด”
อย่างไรก็ตาม แม้จะมีความกลัว แต่ความก้าวหน้าอย่างรวดเร็วในการโคลนเสียงของ AI ดูเหมือนจะผ่านพ้นไม่ได้ ดังที่นักภาษาศาสตร์ Mati Staniszewski แห่ง ElevenLabs กล่าวว่า “ในที่สุด เราก็หวังว่าจะครอบคลุมภาษาและเสียงต่างๆ ได้มากขึ้นด้วยความช่วยเหลือของ AI และขจัดอุปสรรคทางภาษาในเนื้อหา”
การดำเนินการตามหลักจริยธรรมยังคงเป็นความท้าทายที่สูง เนื่องจากเส้นแบ่งระหว่างการใช้ข้อมูลที่ไม่ถูกต้อง และนวัตกรรมนั้นบางมาก การก้าวย่างพัฒนานวัตกรรมอย่างระมัดระวังคือกุญแจสำคัญ