(Source: Nvidia)
Dari sekitar 7.000 bahasa di dunia, hanya sebagian kecil yang didukung oleh model bahasa AI. Hal ini menjadi masalah bagi pengembang yang ingin membuat aplikasi yang mendukung pengguna global dengan teknologi ucapan yang cepat dan akurat. Mengatasi masalah ini, NVIDIA merilis data set dan model baru yang mendukung pengembangan pengenalan dan terjemahan ucapan berkualitas tinggi untuk 25 bahasa Eropa.
Alat-alat baru ini akan memungkinkan para pengembang untuk lebih mudah menyesuaikan aplikasi AI untuk berbagai kasus penggunaan skala produksi, seperti chatbot multibahasa, agen suara layanan pelanggan, dan layanan terjemahan yang hampir terjadi secara waktu nyata. Alat-alat ini mencakup Granary, sebuah korpus himpunan data ucapan multibahasa sumber terbuka, serta dua model AI baru, yaitu NVIDIA Canary 1b v2 dan NVIDIA Parakeet tdt 0.6b v3.
Untuk mengembangkan himpunan data Granary, tim AI ucapan NVIDIA bekerja sama dengan para peneliti dari Carnegie Mellon University dan Fondazione Bruno Kessler. Mereka mengolah audio tanpa label melalui alur pemrosesan inovatif yang didukung oleh toolkit NVIDIA NeMo Speech Data Processor, yang mengubahnya menjadi data terstruktur dan berkualitas tinggi. Alur ini tersedia sebagai sumber terbuka di GitHub, memungkinkan peneliti untuk meningkatkan data ucapan publik ke dalam format yang dapat digunakan untuk pelatihan AI tanpa memerlukan anotasi manusia.
Granary Kumpulan Data Ucapan Multibahasa
Dengan data Granary yang bersih dan siap pakai, para pengembang dapat memulai membangun model yang menangani tugas transkripsi dan terjemahan di hampir semua 24 bahasa resmi Uni Eropa, ditambah bahasa Rusia dan Ukraina. Tim NVIDIA menunjukkan dalam makalah mereka di Interspeech, dibandingkan dengan kumpulan data populer lainnya, dibutuhkan sekitar setengah dari data pelatihan Granary untuk mencapai tingkat akurasi target untuk pengenalan ucapan otomatis dan terjemahan ucapan otomatis.
Model Canary 1b v2 dirancang untuk akurasi pada tugas-tugas yang rumit. Model ini menduduki puncak papan peringkat model terbuka Hugging Face untuk akurasi pengenalan ucapan multibahasa. Model ini menawarkan kualitas transkripsi dan terjemahan yang sebanding dengan model yang berukuran tiga kali lebih besar, sambil menjalankan inferensi hingga sepuluh kali lebih cepat. Selain itu, NVIDIA juga merilis Parakeet tdt 0.6b v3, sebuah model 600 juta parameter yang disederhanakan yang dirancang untuk transkripsi waktu nyata. Model ini memiliki throughput tertinggi di antara model multibahasa di papan peringkat Hugging Face, yang diukur sebagai durasi audio yang ditranskripsi dibagi dengan waktu komputasi.
Baik model Canary maupun Parakeet secara otomatis mendeteksi bahasa dari audio masukan dan memberikan tanda baca, kapitalisasi, serta stempel waktu tingkat kata yang akurat dalam keluarannya. Dengan membagikan metodologi di balik himpunan data Granary dan kedua model ini, NVIDIA memungkinkan komunitas pengembang AI ucapan global untuk menyesuaikan alur kerja pemrosesan data ini dengan model ASR atau AST lain atau bahasa tambahan, yang pada akhirnya dapat mempercepat inovasi AI ucapan secara keseluruhan.