
(Source: Freepik)
Untuk membangun aplikasi yang mendukung suara, biasanya memerlukan berbagai model artificial intelligence (AI). Dari pengenalan ucapan untuk mengubah ucapan menjadi teks, dilanjutkan ke model bahasa besar (large language model/LLM) untuk memahami dan menghasilkan respons, dan kemudian memakai model teks-ke-ucapan untuk mengubah teks kembali menjadi audio. Pendekatan ini tidak hanya meningkatkan kompleksitas pengembangan tetapi juga gagal mempertahankan konteks akustik dan nuansa penting seperti nada, intomasi, dan gaya bicara pada perbincangan yang natural.
Amazon Inc melihat peluang ini dengan meluncurkan Amazon Nova Sonic, model AI terbaru yang menggabungkan kemampuan memahami dan menghasilkan suara dalam satu arsitektur terpadu. Model ini tersedia di platform Amazon Bedrock yang dapat diaskes lewat layanan cloud. Pengembang aplikasi berbasis suara seperti layanan pelanggan otomatis atau agen AI di industri travel, edukasi, kesehatan, hiburan dan sebagainya bisa memanfaatkan kemudahan model AI ini.
Nova Sonic mengintegrasikan semua tahapan tersebut dalam satu model. Hasil yang didapat mempertahankan nuansa percakapan manusia, termasuk jeda, interupsi, atau perubahan topik, sehingga dialog terasa lebih alami. Nova Sonic bahkan memahami nuansa percakapan manusia, termasuk jeda dan keraguan alami pembicara, dapat menunggu untuk berbicara hingga waktu yang tepat, dan dengan baik menangani interupsi.
Berdasarkan hasil uji coba standar industri, Nova Sonic menunjukkan performa yang mengungguli model kompetitor seperti GPT-4o dan Gemini Flash 2.0. Pada dataset Common Eval, suara maskulin dengan aksen Inggris-Amerika dari Nova Sonic mencapai win-rate 51% saat dibandingkan dengan GPT-4o dan 69,7% terhadap Gemini Flash 2.0. Sementara itu, suara feminin dengan aksen Inggris-Amerika dan Inggris-Britania masing-masing meraih win-rate 50,9% dan 58,3%.
Kelebihan Nova Sonic juga terlihat dalam akurasi pengenalan kata (Word Error Rate/WER). Pada dataset Multilingual LibriSpeech, WER model ini hanya 4,2% atau lebih rendah 36,4% dibandingkan GPT-4o. Di lingkungan bising seperti dataset AMI, WER Nova Sonic untuk bahasa Inggris 46,7% lebih baik daripada kompetitor. Kemampuan ini memastikan respons akurat meskipun pengguna berbicara dengan aksen khas atau dalam kondisi berisik.
Dari segi kecepatan, Nova Sonic memiliki latensi rata-rata 1,09 detik—lebih cepat dibanding GPT-4o (1,18 detik) dan Gemini Flash 2.0 (1,41 detik). Model ini juga 80% lebih hemat biaya operasional daripada GPT-4o.
Saat ini Nova Sonic mendukung tiga suara ekspresif, termasuk suara maskulin dan suara feminin yang tersedia dalam bahasa Inggris, dan mendukung pembuatan ucapan dalam berbagai aksen bahasa Inggris termasuk Amerika dan Inggris. Dukungan untuk bahasa dan aksen tambahan akan segera hadir. Kita tunggu saja ketersediaan dalam bahasa Indonesia beraksen Jawa, Sunda atau Batak nanti.






