You are here
Blog Featured Hot News Technology 

Microsoft Voice Recognition AI

Microsoft Voice Recognition AI Sekarang Melebihi Manusia Dlm Pidato Transkripsi

“Apa pun yang dapat Anda lakukan Saya bisa lebih baik, Aku bisa melakukan sesuatu yang lebih baik daripada Anda. ” Itulah mantra kemungkinan Microsoft, sebagai penyihir penelitian telah mencapai suatu tonggak dalam pidato pengakuan, dengan tingkat kesalahan kata (WER) hanya 5,9 persen. Angka itu sendiri adalah turun dari bulan lalu, ketika sistem pengenalan suara Microsoft berdiri di 6,3 persen (WER)

“Kami telah mencapai paritas daya manusia,” kata Xuedong Huang, kepala ilmuwan pidato Microsoft. “Ini merupakan prestasi bersejarah.” Tapi hal-hal yang sedikit lebih baik dari itu, Microsoft mengakui bahwa ini sistem pengenalan suara benar-benar “membuat sama atau lebih sedikit kesalahan” dari transcriptionists profesional.

“Bahkan lima tahun yang lalu, saya tidak akan berpikir kami bisa mencapai ini. Aku hanya tidak akan berpikir itu akan menjadi mungkin, “tambah Harry Shum, wakil presiden eksekutif untuk Microsoft Artificial Intelligence dan kelompok Research.

microsoft-main

Kemajuan mengesankan Microsoft dalam pidato pengakuan yang dimungkinkan oleh  its Computational Network Toolkit (CNTK), yang menggunakan algoritma pembelajaran mendalam yang berjalan pada kinerja tinggi GPU akselerator. Sistem ini juga menggunakan model bahasa neural untuk melihat kata-kata sebagai vektor di ruang angkasa berkelanjutan.

Jadi apa artinya semua ini di dunia nyata? Apa aplikasi praktis untuk sistem pengenalan suara yang kuat? Microsoft membayangkan itu sedang digunakan dalam perangkat Xbox One atau untuk membantu membuat Cortana bahkan lebih cerdas pada Windows 10. Dan tentu saja, instant transkripsi pidato-ke-teks dengan akurasi yang lebih besar akan melakukan keajaiban untuk produk seperti Skype Translator.

Sekarang, sistem pengenalan suara Microsoft dioptimalkan untuk bekerja di lingkungan laboratorium di mana ada sedikit kebisingan latar belakang. Namun, di masa depan, Microsoft percaya bahwa sistem yang dapat menangani lingkungan yang lebih ketat seperti jalan raya mengemudi (jalan / kebisingan angin) atau di sebuah restoran yang ramai. Sistem ini juga akan bertugas beradaptasi dengan berbagai suara dan aksen yang mungkin dihadapi di sepanjang jalan.

akurasi meningkat ketika datang ke pidato transkripsi pasti merembes bagus, tapi akhir permainan untuk Microsoft adalah untuk benar-benar dapat memahami kata-kata yang keluar dari mulut seseorang. “The perbatasan berikutnya adalah untuk pindah dari pengakuan pemahaman,” kata Geoffrey Zweig, yang mengawasi kelompok riset Pidato & Dialog. Tapi seperti Shum menjelaskan, “Ini akan menjadi lebih lama, lebih jauh di jalan sampai komputer dapat memahami arti sebenarnya dari apa yang dikatakan atau ditampilkan.”

Related posts