Infomalangraya.com –
Hari ini, kita selangkah lebih dekat ke masa depan selebritas abadi yang telah lama dijanjikan (sejak April). Meta telah meluncurkan Voicebox, model text-to-speech generatifnya yang menjanjikan untuk melakukan kata yang diucapkan seperti yang dilakukan ChatGPT dan Dall-E, dengan hormat, untuk pembuatan teks dan gambar.
Pada dasarnya, ini adalah generator teks-ke-output seperti GPT atau Dall-E — alih-alih membuat prosa atau gambar cantik, ia mengeluarkan klip audio. Meta mendefinisikan sistem sebagai “model pencocokan aliran non-autoregresif yang dilatih untuk mengisi ucapan, mengingat konteks audio dan teks.” Sudah dilatih lebih dari 50.000 jam audio tanpa filter. Secara khusus, Meta menggunakan rekaman pidato dan transkrip dari banyak buku audio domain publik yang ditulis dalam bahasa Inggris, Prancis, Spanyol, Jerman, Polandia, dan Portugis.
Kumpulan data yang beragam itu memungkinkan sistem untuk menghasilkan lebih banyak ucapan yang terdengar seperti percakapan, terlepas dari bahasa yang digunakan oleh masing-masing pihak, menurut para peneliti. “Hasil kami menunjukkan bahwa model pengenalan ucapan yang dilatih pada ucapan sintetik yang dihasilkan Voicebox bekerja hampir sama baiknya dengan model yang dilatih pada ucapan nyata.” Terlebih lagi, ucapan yang dihasilkan komputer dilakukan hanya dengan penurunan tingkat kesalahan 1 persen, dibandingkan dengan penurunan 45 hingga 70 persen yang terlihat pada model TTS yang ada.
Sistem ini pertama kali diajarkan untuk memprediksi segmen ucapan berdasarkan segmen di sekitarnya serta transkrip bagian tersebut. “Setelah belajar mengisi ucapan dari konteks, model kemudian dapat menerapkannya di seluruh tugas pembuatan ucapan, termasuk membuat bagian di tengah rekaman audio tanpa harus membuat ulang seluruh masukan,” jelas para peneliti Meta.
Voicebox juga dilaporkan mampu mengedit klip audio secara aktif, menghilangkan kebisingan dari ucapan dan bahkan mengganti kata-kata yang salah bicara. “Seseorang dapat mengidentifikasi segmen mentah mana dari ucapan yang dirusak oleh kebisingan (seperti gonggongan anjing), memangkasnya, dan menginstruksikan model untuk membuat ulang segmen tersebut,” kata para peneliti, seperti menggunakan perangkat lunak pengedit gambar untuk membersihkan foto. .
Generator Text-to-Speech telah ada selama satu menit — begitulah cara TomTom orang tua Anda dapat memberikan petunjuk arah mengemudi yang cerdik dengan suara Morgan Freeman. Iterasi modern seperti Speechify atau Prime Voice AI dari Elevenlab jauh lebih mumpuni, tetapi sebagian besar masih membutuhkan tumpukan materi sumber untuk meniru subjek mereka dengan benar — dan kemudian segunung data berbeda untuk masing-masing. lajang. lainnya. mata pelajaran yang Anda inginkan untuk dilatih.
Voicebox tidak, berkat metode pelatihan text-to-speech zero-shot baru yang disebut Meta Flow Matching. Hasil tolok ukur bahkan tidak mendekati karena AI Meta dilaporkan mengungguli keadaan terkini baik dalam kejelasan (tingkat kesalahan kata 1,9 persen vs 5,9 persen) dan “kemiripan audio” (skor komposit 0,681 ke SOA 0,580), semuanya sambil beroperasi sebanyak 20 kali lebih cepat dari sistem TTS terbaik saat ini.
Tapi jangan sampai navigator selebritas Anda berbaris dulu, baik aplikasi Voicebox maupun kode sumbernya tidak dirilis ke publik saat ini, Meta mengkonfirmasi pada hari Jumat, mengutip “potensi risiko penyalahgunaan” meskipun “banyak penggunaan yang menarik kasus untuk model ucapan generatif. Sebaliknya, perusahaan merilis serangkaian contoh audio (lihat di atas/di bawah) serta makalah penelitian awal program. Di masa mendatang, tim peneliti berharap teknologi ini akan menemukan jalan menuju prostetik untuk pasien dengan kerusakan pita suara, NPC dalam game, dan asisten digital.