Model AI baru NVIDIA, Fugatto, dapat membuat audio dari perintah teks

Infomalangraya.com –

NVIDIA telah meluncurkan model AI generatif eksperimental baru, yang digambarkan sebagai “pisau Swiss Army untuk suara”. Model yang disebut Foundational Generative Audio Transformer Opus 1, atau Fugatto, dapat mengambil perintah dari perintah teks dan menggunakannya untuk membuat audio atau memodifikasi file musik, suara, dan suara yang ada. Ini dirancang oleh tim peneliti AI dari seluruh dunia, dan NVIDIA mengatakan hal itu menjadikan “kemampuan multi-aksen dan multibahasa model tersebut lebih kuat.”

“Kami ingin menciptakan model yang memahami dan menghasilkan suara seperti yang dilakukan manusia,” kata Rafael Valle, salah satu peneliti di balik proyek tersebut dan manajer penelitian audio terapan di NVIDIA. Perusahaan tersebut mencantumkan beberapa kemungkinan skenario dunia nyata di mana Fugatto dapat digunakan dalam pengumumannya. Produser musik, disarankan, dapat menggunakan teknologi ini untuk dengan cepat menghasilkan prototipe ide lagu, yang kemudian dapat mereka edit dengan mudah untuk mencoba gaya, suara, dan instrumen yang berbeda.

Orang-orang dapat menggunakannya untuk menghasilkan materi alat pembelajaran bahasa sesuai pilihan mereka. Dan pengembang video game dapat menggunakannya untuk membuat variasi aset yang direkam sebelumnya agar sesuai dengan perubahan dalam game berdasarkan pilihan dan tindakan pemain. Selain itu, para peneliti menemukan bahwa model tersebut dapat menyelesaikan tugas-tugas yang bukan bagian dari pra-pelatihannya, dengan beberapa penyesuaian. Ini bisa menggabungkan instruksi yang dilatih secara terpisah, seperti menghasilkan ucapan yang terdengar marah dengan aksen tertentu atau suara kicauan burung saat terjadi badai petir. Model ini juga dapat menghasilkan suara yang berubah seiring waktu, seperti deburan badai saat bergerak melintasi daratan.

NVIDIA tidak mengatakan apakah mereka akan memberikan akses publik ke Fugatto, namun model tersebut bukanlah teknologi AI generatif pertama yang dapat menghasilkan suara dari perintah teks. Meta sebelumnya merilis kit AI open source yang dapat menghasilkan suara dari deskripsi teks. Google memiliki AI text-to-music sendiri yang disebut MusicLM yang dapat diakses orang melalui situs web AI Test Kitchen milik perusahaan.