Dari sekitar 7.000 bahasa di dunia, sebagian kecil dari model bahasa AI didukung. NVIDIA menangani masalah ini dengan kumpulan data dan model baru yang mendukung pengembangan pengakuan ucapan berkualitas tinggi dan terjemahan AI dalam 25 bahasa Eropa, termasuk bahasa dengan data terbatas yang tersedia, seperti Kroasia, Estonia dan Malta.
Alat-alat ini memungkinkan pengembang untuk meningkatkan aplikasi AI dengan lebih mudah dan mendukung pengguna global dengan teknologi bicara yang cepat dan akurat untuk kasus penggunaan skala produksi seperti chatbot multibahasa, agen suara layanan pelanggan, dan layanan terjemahan hampir-real-time. Mereka adalah:
- BulirKorpus besar dan open-source dari dataset audio multibahasa yang berisi sekitar 1 juta jam audio, termasuk sekitar 650.000 jam untuk pengenalan suara dan lebih dari 350.000 jam untuk terjemahan pidato.
- NVIDIA CANARY-1B-V2satu miliar model parameter yang dilatih dalam lumbung untuk transkripsi berkualitas tinggi bahasa Eropa, serta terjemahan antara bahasa Inggris dan dua lusin bahasa yang didukung. itu Atasan memeluk papan peringkat wajah Model terbuka untuk akurasi pengenalan suara multibahasa.
- NVIDIA PARAKEET-TDT-0.6B-V3model 600 juta parameter yang dirampingkan yang dirancang untuk transkripsi bahasa yang didukung secara real-time atau dalam jumlah besar atau besar. Model multibahasa memiliki throughput tertinggi Memeluk papan peringkat wajahdiukur sebagai durasi audio diskon dalam waktu perhitungan.
Kertas di belakang lumbung Ini akan disajikan di pidato, konferensi pemrosesan bahasa yang akan diadakan di Belanda dari 17 hingga 21 Agustus. Dataset dan model Canary dan Paraquito baru sekarang Dapat digunakan dengan wajah pelukan.
Bagaimana Granary Berurusan dengan Kekurangan Data
Untuk mengembangkan dataset lumbung, kembangkan tim AI NVIDIA Speech AI Saya berkolaborasi dengan para peneliti Dari Universitas Carnegie Mellon dan Fondagione Bruno Kessler. Tim melewati audio yang tidak valid melalui pipa pemrosesan yang inovatif prosesor data suara nvidia nemo Toolkit yang mengubahnya menjadi data terstruktur dan berkualitas tinggi.
Pipa ini memungkinkan para peneliti untuk meningkatkan data audio publik ke dalam bentuk yang tersedia untuk pelatihan AI, tanpa perlu anotasi manusia yang intensif sumber daya. itu Tersedia di Open Source di GitHub.
Dengan data Granary yang bersih dan siap digunakan, pengembang bisa mendapatkan model bangunan headstart yang membahas hampir setiap bahasa resmi Uni Eropa, serta hampir setiap tugas transkripsi dan terjemahan Rusia dan Ukraina.
Untuk bahasa Eropa yang diremehkan dalam kumpulan data yang difokuskan manusia, Granary menyediakan sumber daya penting untuk mengembangkan teknologi bicara yang lebih komprehensif, menggunakan data pelatihan yang lebih sedikit yang lebih mencerminkan keragaman bahasa benua.
Tim menunjukkan dalam makalah pidato-ke-pidato bahwa sekitar setengah dari data pelatihan lumbung diperlukan untuk mencapai tingkat akurasi target pengenalan suara otomatis (ASR) dan terjemahan wicara otomatis (AST) dibandingkan dengan set data populer lainnya.
Ketuk Nvidia Nemo ke Turbocharge Transfer
Model Canary dan Paraquiet yang baru memberikan contoh -contoh jenis model yang dapat dibangun pengembang di lumbung yang disesuaikan untuk aplikasi target mereka. Sementara CANARY-1B-V2 dioptimalkan untuk keakuratan tugas-tugas kompleks, parkit-TDT-0.6B-V3 dirancang untuk tugas latensi rendah yang cepat.
Dengan berbagi metodologi di balik kedua model ini dengan dataset lumbung, NVIDIA memungkinkan komunitas pengembang AI pidato global untuk menyesuaikan alur kerja pemrosesan data ini dengan model ASR atau AST lainnya atau bahasa tambahan, mempercepat inovasi ucapan AI.
Canary-1b-v2, tersedia untuk a Lisensi yang dapat diterimamemperluas bahasa yang didukung keluarga Canary dari 4 hingga 25. Ini melakukan inferensi hingga 10 kali lebih cepat, sambil memberikan kualitas transkripsi dan terjemahan yang sebanding dengan model 3x yang lebih besar.
nvidia nemoSerangkaian perangkat lunak modular untuk mengelola siklus hidup agen AI, mempercepat pengembangan model AI. NemoculatorBeberapa rangkaian perangkat lunak telah membuat tim mengecualikan contoh sintetis dari data sumber, dan hanya sampel berkualitas tinggi yang digunakan untuk pelatihan model. Tim juga memanfaatkan Toolkit Prosesor Data Pidato NEMO untuk tugas -tugas seperti mengonversi transkrip ke format yang diperlukan untuk file audio.
Parateet-TDT-0.6B-V3 memprioritaskan throughput tinggi dan dapat mentransfer segmen audio 24 menit dengan lulus inferensi tunggal. Model secara otomatis mendeteksi bahasa audio input dan menyalinnya tanpa langkah prompt tambahan.
Model Canary dan Paraquite memberikan tanda baca yang akurat, kapitalisasi, dan cap waktu level dalam output.
Baca lebih lanjut di GitHub Dan mari kita mulai Nenek merangkul wajah.
NVIDIA melepaskan set data terbuka, model untuk ucapan multibahasa AI


