Meta Umumkan Voicebox, AI Generatif Untuk Audio

Beberapa waktu lalu Meta mengumumkan AI Generatif terbarunya yang mereka sebut dengan Voicebox, AI ini dirancang untuk membantu creator dengan kemmapuan melakukan tugas pembuatan speech generation task seperti Audio Editing, Sampling dan bahkan Stylising.

Menurut Meta, model AI baru ini akan bermanfaat bagi banyak orang di seluruh dunia, seperti membantu orang tunanetra untuk mendengar pesan tertulis dari teman dengan suara mereka, serta memungkinkan pengguna untuk berbicara bahasa asing dengan suara mereka sendiri.

Menariknya nih, Model AI itu sendiri dapat menghasilkan Klik Audio berkualitas tinggi, dan mengedit audio yang direkam sebelumnya untuk menghilangkan gangguan yang tidak diinginkan seperti klakson dan Noise lain sambil mempertahankan konten dan gaya audio.

Sebagai perbandingan, Meta bahkan membandingkan Voicebox dengan model AI audio lainnya di luar sana, khususnya menyebut Vall-E dan YourTTS sebagai pesaing, dimana mereka menunjukkan bahwa Voicebox lebih maju dan mengungguli kedua model saat membandingkan tingkat kesalahan kata dan kesamaan gaya.

Selain itu, menurut Meta, Voicebox ini telah dibangun di atas model Flow Matching, yang merupakan model generatif non-autoregresif Meta terbaru, dimana teknologi ini dapat mempelajari pemetaan yang sangat tidak deterministik antara teks dan ucapan sehingga memungkinkan Voicebox untuk belajar dari berbagai data ucapan tanpa harus diberi label agar data menjadi lebih beragam dan dalam skala yang lebih besar.

Voicebox ini kabarnya telah dilatih selama lebih dari 50.000 jam rekaman ucapan dan transkrip dari audiobook domain publik dalam bahasa Inggris, Prancis, Spanyol, Jerman, Polandia, dan Portugis sejauh ini, dan juga dapat memprediksi segmen ucapan saat diberikan pidato di sekitarnya dan transkripnya dari segmen.

Meskipun begitu, sayangnya Meta saat ini berencana tidak akan membuat program AI ini untuk semua pengguna, dan bahkan tidak akan merilis source codenya, untuk detail lebih lanjut mengenai hal ini mungkin kamu bisa cek saja pada halaman berikut, kedepannya Meta juga akan memberikan pengumuman tambahan mengenai Voicebox.

"There are many exciting use cases for generative speech models, but because of the potential risks of misuse, we are not making the Voicebox model or code publicly available at this time. While we believe it is important to be open with the AI community and to share our research to advance the state of the art in AI, its also necessary to strike the right balance between openness with responsibility. With these considerations, today we are sharing audio samples and a research paper detailing the approach and results we have achieved. In the paper, we also detail how we built a highly effective classifier that can distinguish between authentic speech and audio generated with Voicebox." ungkap Meta.

Nah bagaimana menurutmu mengenai layanan ini? apakah kamu tertarik mencoba?.