Diterbitkan January 16, 2025•~9 min baca

Memahami Tingkat Kesalahan Kata dalam Model Pidato

Word Error Rate (WER) adalah metrik utama untuk mengevaluasi akurasi sistem pengenalan suara. Ini mengukur kesalahan transkripsi dengan menganalisis subsitusi, penyisipan, dan penghapusan dalam keluaran dibandingkan dengan teks asli. Skor WER yang lebih rendah berarti kualitas transkripsi yang lebih baik, dengan penulis transkripsi manusia biasanya mencapai sekitar 4% WER.

Poin-Poin Kunci:

Formula:
WER = (Substitusi + Penyisipan + Penghapusan) / Total Kata × 100%
Contoh:
Asli: "Cuacanya indah hari ini"
Keluaran ASR: "Cuaca apakah indah hari"
WER = 40%
Aplikasi: Digunakan dalam asisten suara, transkripsi otomatis, dan subtitle video.
Tantangan: Kesulitan dengan aksen, konteks, dan terminologi khusus.

Alternatif untuk WER:

Metrik lain seperti Token Error Rate (TER), Character Error Rate (CER), dan Formatting F1 Score mengatasi keterbatasan WER dengan berfokus pada konteks, tanda baca, dan akurasi tingkat kalimat.

Perbandingan Cepat Layanan Pengakuan Suara:

LayananWERBahasa yang DidukungFitur KhususGoogle Speech-to-Text4.9%125+Kosakata khusus, tanda bacaMicrosoft Azure5.1%100+Transkripsi waktu nyataDubSmartTidak diungkapkan70+Dubbing video, subtitleUpbe ASRBervariasiTerbatasAturan tata bahasa dan konteks

WER adalah metrik dasar, tetapi menggabungkannya dengan alat evaluasi lain memberikan gambaran yang lebih lengkap tentang kinerja ASR.

Perhitungan Word Error Rate

Formula WER dan Komponen

Word Error Rate (WER) mengukur kesalahan dalam pengenalan suara dengan mempertimbangkan subsitusi, penyisipan, dan penghapusan. Setiap jenis kesalahan memiliki bobot yang sama dalam perhitungan, meskipun dampaknya terhadap makna teks dapat berbeda.

Formula untuk WER sederhana:

WER = (Substitusi + Penyisipan + Penghapusan) / Total Kata × 100%

Mari kita uraikan dengan contoh.

Contoh Perhitungan WER

Teks Asli: "Cuacanya indah hari ini"
Keluaran ASR: "Cuaca apakah indah hari"

Substitusi: 2 ("apakah" menggantikan "adalah" dan "hari" menggantikan "hari ini")
Penyisipan: 0
Penghapusan: 0
Total Kata dalam Asli: 5

Sekarang, menerapkan formula:

WER = (2 + 0 + 0) / 5 × 100% = 40%

Contoh ini menggambarkan bagaimana setiap jenis kesalahan memengaruhi skor WER secara keseluruhan.

Misalnya, layanan pengakuan suara-to-teks DubSmart menggunakan algoritma canggih untuk mencapai WER lebih rendah di lebih dari 70 bahasa. Sistem ini meningkatkan akurasi dengan mengandalkan data pelatihan berkualitas tinggi dan teknik mutakhir.

Aplikasi dan Tantangan WER

Aplikasi WER

Word Error Rate (WER) memainkan peran kunci dalam mengukur bagaimana akurat sistem pengakuan suara dalam berbagai kasus penggunaan, seperti transkripsi panggilan otomatis dan sistem yang menangani berbagai bahasa. Bisnis sering mengandalkan WER untuk menilai sistem ini, terutama dalam pengaturan layanan pelanggan di mana ketepatan sangat penting.

Dalam sistem multibahasa, WER membantu menangani tugas yang sulit untuk menjaga akurasi transkripsi konsisten di berbagai bahasa dan sistem fonetik. Ini sangat berguna saat bekerja dengan kumpulan data besar, karena WER menjadi tolok ukur sejauh mana sistem Pengenalan Suara Otomatis (ASR) berkinerja dalam lingkungan linguistik yang beragam.

Ambil platform seperti DubSmart, misalnya. Mereka menggunakan WER untuk meningkatkan kualitas transkripsi dan terjemahan dalam 70 bahasa. Ini memastikan hasil yang lebih baik untuk layanan seperti dubbing video dan aplikasi suara-ke-teks. Dengan menganalisis WER, pengembang dapat menentukan area yang perlu diperbaiki dan menyempurnakan model ASR untuk penggunaan dunia nyata yang praktis.

Meskipun demikian, meskipun WER adalah alat yang berharga, WER memiliki kekurangan, terutama saat menangani konteks dan keragaman linguistik.

Keterbatasan WER

WER, sebagai metrik, memiliki beberapa kekurangan yang membatasi efektivitasnya ketika digunakan sendiri:

Kekurangan Konteks: WER memperlakukan semua kesalahan dengan cara yang sama, bahkan ketika kesalahan tertentu secara drastis mengubah makna suatu kalimat.
Tantangan Aksen: Ini kesulitan dengan variasi aksen, menunjukkan celah dalam cara model ASR saat ini menangani pola bicara yang beragam.
Makna Terlewatkan: Dengan berfokus hanya pada akurasi tingkat kata, WER sering kali kehilangan gambaran yang lebih besar, seperti maksud keseluruhan atau makna konten percakapan.

Untuk mengatasi masalah ini, pendekatan baru seperti Estimasi WER yang Tidak Tergantung pada Sistem (SIWE) telah muncul. Metode ini telah menunjukkan kemajuan, meningkatkan kesalahan akar kuadrat rata-rata dan koefisien korelasi Pearson masing-masing sebesar 17,58% dan 18,21%, pada kumpulan data standar.

Dalam bidang khusus seperti transkripsi medis, keterbatasan WER menyoroti perlunya metrik tambahan untuk memastikan hasil yang andal dan tepat. Tantangan ini memperjelas bahwa WER harus dilengkapi dengan alat evaluasi lain untuk memberikan penilaian yang lebih lengkap tentang kinerja ASR.

Metrik Evaluasi Lain untuk Pengakuan Suara

Metrik Alternatif

Meskipun Word Error Rate (WER) adalah ukuran akurasi yang banyak digunakan, metrik ini tidak mencakup semuanya - konteks, pemformatan, dan detail khusus bahasa masih dapat terlewatkan. Di sinilah metrik tambahan masuk.

Token Error Rate (TER) melampaui sekadar kata, berfokus pada pemformatan, tanda baca, dan istilah khusus. Ini sangat berguna untuk tugas yang menuntut ketelitian di area ini. Sementara itu, Character Error Rate (CER) unggul saat menangani sistem penulisan yang kompleks, sedangkan Sentence Error Rate (SER) mengevaluasi akurasi pada tingkat kalimat.

Metrik lain yang berguna adalah Formatting F1 Score, yang menilai seberapa baik sistem mempertahankan elemen struktural seperti tanda baca dan kapitalisasi. Ini penting untuk industri seperti transkripsi hukum atau medis, di mana detail ini penting.

Mengapa Menggunakan Beberapa Metrik?

Mengandalkan satu metrik saja bisa memberikan gambaran yang tidak lengkap tentang kinerja sistem. Menggabungkan berbagai metrik membantu menciptakan kerangka evaluasi yang lebih menyeluruh. Misalnya, dataset Google Fleurs menunjukkan ini dengan menyediakan data evaluasi untuk 120 bahasa, menangani berbagai tantangan linguistik.

Berikut perincian singkat tentang metrik utama dan aplikasi idealnya:

Jenis MetrikFokus AreaTerbaik UntukWord Error RateAkurasi tingkat kataTranskripsi umumToken Error RatePemformatan dan tanda bacaDokumentasi teknisCharacter Error RateKetelitian tingkat karakterSistem penulisan yang kompleksTingkat Penyelesaian TugasKeberhasilan fungsionalSistem perintah suaraFormatting F1 ScoreAkurasi strukturalTranskripsi profesional

Menggunakan beberapa metrik mengungkapkan kekuatan dan kelemahan dalam suatu sistem. Misalnya, sistem mungkin berkinerja baik dengan akurasi kata, tetapi kesulitan dengan pemformatan. Dengan menganalisis berbagai metrik, pengembang dan pengguna dapat memilih alat yang tepat untuk kebutuhan spesifik mereka.

Platform pengakuan suara modern mengambil pendekatan ini, menggunakan berbagai metrik untuk mengidentifikasi area yang perlu diperbaiki tanpa mengorbankan kinerja keseluruhan. Metode ini memastikan sistem dioptimalkan untuk aplikasi yang beragam, mulai dari dubbing video hingga transkripsi profesional.

sbb-itb-f4517a0

Kesimpulan dan Masa Depan Evaluasi Pengakuan Suara

Meninjau Kembali WER

Word Error Rate (WER) sudah lama menjadi metrik andalan untuk menilai akurasi sistem pengenalan suara. Ini menawarkan cara yang jelas untuk mengukur kinerja, membantu pengembang dan bisnis membuat keputusan yang terinformasi. Misalnya, sistem terbaik seperti dari Google dan Microsoft sekarang memiliki skor WER 4,9% dan 5,1%, yang mendekati akurasi transkripsi manusia pada 4%.

Namun, WER bukan tanpa cacatnya. Metrik ini tidak mempertimbangkan konteks kata-kata, variasi kualitas audio, atau penggunaan terminologi khusus. Ini membuat jelas bahwa WER harus menjadi bagian dari kerangka evaluasi yang lebih luas daripada satu-satunya ukuran keberhasilan.

Perubahan Tren dalam Evaluasi

Cara kita mengevaluasi sistem pengakuan suara sedang berubah, dengan fokus yang lebih besar untuk memahami konteks dan menghadapi berbagai skenario. Pergeseran ini bertujuan untuk mengisi celah yang ditinggalkan oleh WER dan menciptakan proses evaluasi yang lebih menyeluruh.

TrenDampak PotensialPemahaman KontekstualMenambahkan analisis semantik untuk mendapatkan makna yang lebih dalamEvaluasi Multi-metrikMempersembahkan pandangan yang lebih luas tentang kinerjaAnalisis Ditingkatkan AIMengidentifikasi dan mengkategorikan pola kesalahan lebih efektifPenggunaan Dataset Skala BesarMeningkatkan adaptabilitas terhadap pola bicara yang beragam

Kumpulan data seperti Fleurs menggambarkan bagaimana data latih yang beragam dapat meningkatkan kinerja sistem melintasi berbagai bahasa. Metode evaluasi baru berfokus pada:

Kecerdasan Kontekstual: Tidak hanya mengukur akurasi transkripsi tetapi seberapa baik sistem menangkap makna keseluruhan dari pidato.
Kinerja dalam Lingkungan yang Beragam: Menguji bagaimana sistem menangani berbagai pengaturan akustik.
Akurasi Spesifik Industri: Mengevaluasi seberapa baik sistem berkinerja di bidang khusus seperti kesehatan atau keuangan.

Pembaruan ini sangat penting untuk aplikasi khusus. Alat yang didukung oleh AI sudah menggunakan kemajuan ini untuk memberikan pengenalan suara yang lebih tepat dan dapat diandalkan di berbagai bahasa dan industri. Fokus evaluasi bergeser menuju pemahaman bagaimana kesalahan mempengaruhi penggunaan di dunia nyata.

Ke depan, metode evaluasi kemungkinan akan menyeimbangkan ketepatan kuantitatif WER dengan wawasan yang lebih bernuansa dan kontekstual. Evolusi ini akan menjadi penting seiring dengan meningkatnya pengakuan suara menjadi bagian yang lebih besar dari kehidupan pribadi dan alur kerja profesional kita.

Opsional: Perbandingan Layanan Pengakuan Suara

Memilih layanan pengakuan suara melibatkan melihat lebih dari sekedar Word Error Rate (WER) untuk mengevaluasi fitur tambahan dan bagaimana mereka sesuai dengan kebutuhan Anda. Berikut adalah perbandingan beberapa layanan populer untuk membantu Anda memutuskan:

Fitur LayananGoogle Speech-to-TextMicrosoft Azure SpeechDubSmartUpbe ASRWord Error Rate4.9%5.1%Tidak diungkapkan secara publikBervariasi berdasarkan kasus penggunaanDukungan Bahasa125+ bahasa100+ bahasa70+ bahasaBahasa TerbatasPengkloningan SuaraTerbatasIyaIyaTidakPenanganan Kebisingan LatarBelakangLanjutanLanjutanModeratLanjutanModel HargaBayar per penggunaanBayar per penggunaanPaket berjenjang mulai dari $19,9/bulanHarga khususFitur KhususKosakata kustom, Tanda baca otomatisModel pidato kustom, Transkripsi waktu nyataSubtitle dalam 70+ bahasaAturan tata bahasa dan konteks

Saat membandingkan layanan, ingatlah poin-poin penting berikut:

Penanganan Kualitas Audio: Beberapa layanan, seperti Upbe ASR, unggul dalam menangani audio dari lingkungan bising, menjadikannya ideal untuk dukungan pelanggan atau penggunaan di luar ruangan.
Aplikasi Khusus: DubSmart, misalnya, melayani pencipta konten dengan fitur seperti dubbing video dan pembangkitan subtitle, sementara yang lain mungkin fokus pada bidang seperti transkripsi medis atau layanan pelanggan.
Harga dan Skalabilitas: DubSmart menawarkan paket berjenjang yang cocok untuk berbagai tingkat penggunaan, sementara layanan seperti Google dan Microsoft menggunakan model bayar per penggunaan, yang mungkin lebih sesuai dengan kebutuhan skalabilitas yang bervariasi.
Opsi Integrasi: Beberapa platform memprioritaskan API yang ramah pengembang, sedangkan yang lain dirancang agar ramah pengguna untuk pengguna non-teknis, seperti pencipta konten.

Meskipun WER adalah metrik yang penting, fitur seperti dukungan bahasa, fleksibilitas harga, dan opsi integrasi memainkan peran penting dalam menentukan layanan yang tepat untuk kebutuhan Anda. Evaluasi yang seimbang dari semua faktor ini akan membantu Anda membuat pilihan terbaik.

Pertanyaan Umum

Berikut adalah beberapa pertanyaan umum tentang WER dan bagaimana penggunaannya.

Apa itu word error rate dalam pengakuan suara?

WER adalah metrik yang menunjukkan seberapa akurat transkripsi dengan menghitung persentase kesalahan dalam jumlah kata total. WER mempertimbangkan subsitusi, penghapusan, dan penyisipan untuk mengukur seberapa baik sistem pengenalan suara berkinerja.

Bagaimana cara menghitung word error rate?

WER dihitung dengan menambahkan jumlah subsitusi, penghapusan, dan penyisipan, kemudian membaginya dengan jumlah kata dalam teks asli. Untuk penjelasan lebih rinci, lihat bagian "WER Formula and Components".

Bagaimana cara mengurangi word error rate?

Berikut beberapa cara untuk menurunkan WER:

Tingkatkan Teknologi
Gunakan alat pengurangan kebisingan, praproses audio berkualitas tinggi, dan model ASR canggih yang memahami konteks.
Tingkatkan Kualitas Data
Latih model dengan konten spesifik industri, sertakan berbagai aksen dan pola bicara, dan secara teratur perbarui model dengan transkripsi yang telah dikoreksi.
Pilih Platform yang Tepat
Pilih layanan yang disesuaikan dengan kebutuhan Anda, seperti platform multibahasa seperti DubSmart, dan prioritaskan penyedia dengan tingkat WER rendah yang telah terbukti.

Apa itu tingkat kesalahan kata yang bagus?

Berikut adalah panduan singkat untuk tolok ukur WER:

5-10% WER: Berkualitas tinggi, cocok untuk produksi.
20% WER: Dapat digunakan namun masih bisa ditingkatkan.
Di atas 20%: Membutuhkan penyesuaian besar.

Alat pengenalan suara terbaik saat ini dapat mencapai tingkat WER serendah 4,9–5,1% dalam kondisi ideal, yang mendekati tingkat akurasi manusia.

Tolok ukur ini membantu dalam menilai kinerja di berbagai industri. Untuk evaluasi lebih rinci, jelajahi metrik yang disebutkan di bagian "Other Evaluation Metrics".