เผยแพร่ January 16, 2025•~3 อ่านใช้เวลา

การทำความเข้าใจอัตราการผิดพลาดของคำในแบบจำลองการพูด

อัตราความผิดพลาดของคำ (WER) เป็นตัววัดสำคัญในการประเมินความแม่นยำของระบบรู้จำเสียงพูด มันวัดข้อผิดพลาดในการถอดความโดยการวิเคราะห์ การแทนที่, การแทรก, และ การลบ ในผลลัพธ์เทียบกับข้อความต้นฉบับ คะแนน WER ที่ต่ำกว่าหมายถึงคุณภาพการถอดความที่ดีกว่า โดยมนุษย์ที่ถอดความมักจะทำได้ราว 4% WER

จุดสำคัญ:

สูตร:
WER = (การแทนที่ + การแทรก + การลบ) / จำนวนคำทั้งหมด × 100%
ตัวอย่าง:
ต้นฉบับ: "The weather is beautiful today"
ผลลัพธ์ ASR: "The whether is beautiful day"
WER = 40%
การประยุกต์ใช้งาน: ใช้ในผู้ช่วยเสียง, การถอดเสียงอัตโนมัติ, และคำบรรยายวิดีโอ
ความท้าทาย: ยากต่อการจัดการสำเนียง บริบท และคำศัพท์เฉพาะทาง

มาตรการทางเลือกจาก WER:

ตัวชี้วัดอื่น ๆ เช่น อัตราความผิดพลาดของโทเค็น (TER), อัตราความผิดพลาดของตัวอักษร (CER), และ คะแนน F1 ของการจัดรูปแบบ ชี้นำข้อจำกัดของ WER โดยเน้นที่บริบท การเว้นจังหวะ และความถูกต้องในระดับประโยค

การเปรียบเทียบบริการรู้จำเสียงอย่างรวดเร็ว:

บริการWERภาษาที่รองรับคุณสมบัติพิเศษGoogle Speech-to-Text4.9%125+คำศัพท์กำหนดเอง, การเว้นจังหวะอัตโนมัติMicrosoft Azure5.1%100+การถอดความเรียลไทม์DubSmartไม่เปิดเผย70+การพากย์วิดีโอ, คำบรรยายUpbe ASRแตกต่างกันภาษาแบบจำกัดกฎทางไวยากรณ์และบริบท

WER เป็นมาตรการพื้นฐาน แต่การรวมมันเข้ากับเครื่องมือประเมินอื่น ๆ ให้วิภาพที่สมบูรณ์ขึ้นของประสิทธิภาพ ASR

การคำนวณอัตราความผิดพลาดของคำ

สูตร WER และองค์ประกอบ

อัตราความผิดพลาดของคำ (WER) วัดความผิดพลาดในระบบรู้จำเสียงพูด โดยคำนวณจากการแทนที่ การแทรก และการลบ ข้อผิดพลาดในแต่ละประเภทมีน้ำหนักเท่ากันในสูตรคำนวณ แม้ว่าผลกระทบของแต่ละประเภทต่อความหมายอาจจะแตกต่างกัน

สูตรของ WER นั้นง่าย:

WER = (การแทนที่ + การแทรก + การลบ) / จำนวนคำทั้งหมด × 100%

มาทบทวนด้วยตัวอย่างหนึ่งกัน

ตัวอย่างของการคำนวณ WER

ข้อความต้นฉบับ: "The weather is beautiful today"
ผลลัพธ์ ASR: "The whether is beautiful day"

การแทนที่: 2 ("whether" แทน "weather" และ "day" แทน "today")
การแทรก: 0
การลบ: 0
จำนวนคำทั้งหมดในต้นฉบับ: 5

ตอนนี้ นำสูตรไปใช้งาน:

WER = (2 + 0 + 0) / 5 × 100% = 40%

ตัวอย่างนี้แสดงให้เห็นว่าความผิดพลาดแต่ละประเภทมีผลต่อคะแนน WER โดยรวมอย่างไร

ตัวอย่างเช่น บริการรู้จำเสียงพูด DubSmart ใช้อัลกอริทึมขั้นสูงเพื่อให้ได้ WER ที่ต่ำกว่าใน 70 ภาษา ระบบเหล่านี้จะเพิ่มความแม่นยำโดยอาศัยข้อมูลการฝึกคุณภาพสูงและเทคนิคที่ล้ำสมัย

การใช้งานและความท้าทายของ WER

การใช้ WER

อัตราความผิดพลาดของคำ (WER) มีบทบาทสำคัญในการวัดความแม่นยำของระบบรู้จำเสียงพูดในหลายกรณี เช่น การถอดความอัตโนมัติของการโทร และระบบที่รองรับหลายภาษา ธุรกิจมักพึ่งพา WER ในการประเมินระบบเหล่านี้ โดยเฉพาะในสถานที่ให้บริการลูกค้าที่ความถูกต้องเป็นสิ่งสำคัญ

ในระบบหลายภาษา WER ช่วยแก้ไขความยากลำบากในการรักษาความแม่นยำของการถอดความอย่างสม่ำเสมอในภาษาต่าง ๆ และระบบหน่วยเสียง นี่เป็นประโยชน์อย่างยิ่งเมื่อทำงานกับข้อมูลชุดใหญ่ เพราะ WER จะเปรียบเทียบว่าระบบรู้จำเสียงพูดอัตโนมัติ (ASR) ทำงานได้ดีเพียงใดในสภาพแวดล้อมภาษาต่าง ๆ

พิจารณาแพลตฟอร์มอย่าง DubSmart ที่ใช้ WER เพื่อปรับปรุงคุณภาพการถอดความและการแปลใน 70 ภาษา เพื่อให้ได้ผลลัพธ์ที่ดีกว่าสำหรับบริการอย่างการพากย์วิดีโอและแอปพลิเคชันรู้จำเสียงเป็นข้อความ โดยการวิเคราะห์ WER นักพัฒนาสามารถระบุพื้นที่ที่ต้องปรับปรุงและปรับปรุงแบบจำลอง ASR ให้เหมาะกับการใช้งานจริงในโลก

กล่าวได้ว่าแม้ WER จะมีประโยชน์ แต่ก็มีข้อเสียของมัน โดยเฉพาะเมื่อจัดการกับบริบทและความหลากหลายทางภาษา

ข้อจำกัดของ WER

WER ในฐานะที่เป็นเมตริกมีข้อขาดแคลนที่เด่นชัดบางประการที่จำกัดประสิทธิภาพเมื่อใช้งานเพียงลำพัง:

ขาดบริบท: WER ถือว่าข้อผิดพลาดทั้งหมดเท่ากัน แม้ว่าข้อผิดพลาดบางอย่างจะทำให้ความหมายของประโยคเปลี่ยนแปลงอย่างรุนแรง
ความท้าทายของสำเนียง: มีปัญหากับการแปรผันของสำเนียง เปิดเผยช่องว่างในรุ่น ASR ปัจจุบันในการจัดการกับรูปแบบการพูดแตกต่างกัน
มองข้ามความหมาย: โดยการเน้นที่ความแม่นยำระดับคำ WER มักจะพลาดภาพรวม เช่น ความตั้งใจหรือความหมายของเนื้อหาที่พูด

เพื่อแก้ไขปัญหาเหล่านี้ วิธีการใหม่เช่นการประเมิน WER แบบอิสระต่อระบบ (SIWE) ได้เกิดขึ้น วิธีการเหล่านี้ได้รับความก้าวหน้า ปรับปรุงความคลาดเคลื่อนเฉลี่ยรากที่สอง (RMSE) และสัมประสิทธิ์ความสัมพันธ์เพียร์สัน (PCC) ได้ 17.58% และ 18.21% ตามลำดับบนชุดข้อมูลมาตรฐาน

ในสาขาพิเศษ เช่น การถอดความทางการแพทย์ ข้อจำกัดของ WER ชี้ให้เห็นถึงความจำเป็นในการเพิ่มตัวชี้วัดเพิ่มเติมเพื่อให้ได้ผลลัพธ์ที่น่าเชื่อถือและแม่นยำ ความท้าทายเหล่านี้ทำให้เห็นชัดว่า WER ควรถูกเสริมด้วยเครื่องมือการประเมินอื่น ๆ เพื่อให้การประเมินประสิทธิภาพของ ASR สมบูรณ์ขึ้น

เมตริกการประเมินอื่น ๆ สำหรับการรู้จำเสียงพูด

เมตริกทางเลือก

แม้อัตราความผิดพลาดของคำ (WER) จะเป็นการวัดความแม่นยำที่ใช้กันแพร่หลาย แต่มันไม่ได้ควบคุมทุกอย่าง - บริบท การจัดรูปร่าง และรายละเอียดเฉพาะภาษายังสามารถถูกมองข้ามไปได้ นั่นคือที่ที่เมตริกเสริมเข้ามา

อัตราความผิดพลาดของโทเค็น (TER) ข้ามพ้นไปกว่าคำ มุ่งเน้นที่การจัดรูปแบบ การเว้นวรรค และคำศัพท์เฉพาะที่ทำให้มีประโยชน์ในงานที่ต้องการความแม่นยำในด้านเหล่านี้ อัตราความผิดพลาดของตัวอักษร (CER) ในทางตรงกันข้ามจะเปล่งประกายเมื่อจัดการกับระบบการเขียนที่ซับซ้อน ในขณะที่ อัตราความผิดพลาดของประโยค (SER) ประเมินความถูกต้องในระดับประโยค

อีกหนึ่งเมตริกที่มีประโยชน์คือ คะแนน F1 ของการจัดรูปแบบ ซึ่งประเมินว่าระบบสามารถรักษาองค์ประกอบเชิงโครงสร้าง เช่น การเว้นวรรคและการใช้ตัวพิมพ์ใหญ่ได้ดีแค่ไหน นี่เป็นสิ่งสำคัญในอุตสาหกรรม เช่น การถอดความทางกฎหมายหรือการแพทย์ ซึ่งรายละเอียดเหล่านี้มีความสำคัญ

ทำไมต้องใช้เมตริกหลายตัว?

การพึ่งพาแค่เมตริกเดียวสามารถทำให้ได้ภาพที่ไม่สมบูรณ์ของประสิทธิภาพของระบบ การรวมเมตริกต่าง ๆ เข้าด้วยกันช่วยสร้างกรอบการประเมินที่ละเอียดขึ้น ตัวอย่างเช่น ชุดข้อมูล Fleurs ของ Google ได้แสดงให้เห็นเรื่องนี้โดยเสนอข้อมูลการประเมินสำหรับ 120 ภาษาที่แบ่งออกเป็นความท้าทายทางภาษาที่หลากหลาย

นี่คือการแบ่งย่อยของเมตริกสำคัญและการใช้งานที่เหมาะสมที่สุด:

ประเภทเมตริกพื้นที่โฟกัสที่เหมาะสมที่สุดเหมาะสำหรับอัตราความผิดพลาดของคำความแม่นยำระดับคำการถอดความทั่วไปอัตราความผิดพลาดของโทเค็นการจัดรูปแบบและการเว้นวรรคเอกสารทางเทคนิคอัตราความผิดพลาดของตัวอักษรความแม่นยำระดับตัวอักษรระบบการเขียนที่ซับซ้อนอัตราการเสร็จสิ้นงานความสำเร็จเชิงฟังก์ชันระบบคำสั่งเสียงคะแนน F1 ของการจัดรูปแบบความแม่นยำเชิงโครงสร้างการถอดความมืออาชีพ

การใช้เมตริกหลายตัวช่วยให้มองเห็นจุดแข็งและจุดอ่อนในระบบ ตัวอย่างเช่น ระบบสามารถทำงานได้ดีในด้านความแม่นยำของคำแต่มีปัญหาเรื่องการจัดรูปแบบ การวิเคราะห์เมตริกที่หลากหลาย ช่วยให้ผู้พัฒนาหรือลูกค้าสามารถเลือกเครื่องมือที่เหมาะสมที่สุดสำหรับความต้องการเฉพาะของตน

แพลตฟอร์มการรู้จำเสียงพูดสมัยใหม่มักใช้แนวทางนี้ ใช้เมตริกหลายตัวเพื่อระบุพื้นที่ที่ต้องปรับปรุงโดยไม่ลดทอนประสิทธิภาพโดยรวม วิธีนี้ช่วยให้ระบบได้รับการปรับแต่งให้เหมาะสมสำหรับการใช้งานที่หลากหลาย ตั้งแต่การพากย์วิดีโอไปจนถึงการถอดความคุณภาพระดับมืออาชีพ

sbb-itb-f4517a0

บทสรุปและอนาคตของการประเมินการรู้จำเสียงพูด

การทบทวน WER ใหม่

อัตราความผิดพลาดของคำ (WER) เป็นเมตริกที่ถือว่าเป็นมาตรฐานในการประเมินความแม่นยำของระบบรู้จำเสียงพูด มันมอบวิธีการที่ชัดเจนในการวัดประสิทธิภาพ ช่วยให้ผู้พัฒนาและธุรกิจตัดสินใจอย่างมีข้อมูล ตัวอย่างเช่น ระบบชั้นนำเช่นของ Google และ Microsoft มีคะแนน WER ที่ 4.9% และ 5.1% ซึ่งใกล้เคียงกับความแม่นยำของการถอดความโดยมนุษย์ที่ 4%

อย่างไรก็ตาม WER ไม่ได้มีข้อบกพร่อง มันไม่ได้คำนึงถึงบริบทของคำ คุณภาพเสียงที่แตกต่างกัน หรือการใช้คำศัพท์เฉพาะทาง สิ่งนี้ทำให้เห็นได้ชัดว่า WER ควรเป็นส่วนหนึ่งของกรอบการประเมินที่กว้างขึ้นมากกว่าตัววัดเดียวที่ชี้วัดความสำเร็จ

แนวโน้มที่เปลี่ยนไปในการประเมิน

วิธีการประเมินระบบรู้จำเสียงพูดกำลังเปลี่ยนแปลง โดยให้ความสำคัญมากขึ้นกับการทำความเข้าใจบริบทและการจัดการสถานการณ์ที่หลากหลาย การเปลี่ยนแปลงเหล่านี้มุ่งเติมเต็มช่องว่างที่ WER ทิ้งไว้และสร้างกระบวนการประเมินให้รอบด้านมากขึ้น

แนวโน้มผลที่อาจเกิดขึ้นการทำความเข้าใจบริบทเสริมการวิเคราะห์เชิงความหมายเพื่อเข้าถึงความหมายเชิงลึกร่วมกันการประเมินแบบมัลติมีเดียเสนอทัศนียภาพที่กว้างขึ้นของประสิทธิภาพการวิเคราะห์ที่เสริมด้วย AIระบุและจัดการกับรูปแบบความผิดพลาดได้มีประสิทธิภาพมากขึ้นการใช้งานชุดข้อมูลขนาดใหญ่ช่วยเพิ่มการปรับตัวเข้ากับรูปแบบการพูดที่หลากหลาย

ชุดข้อมูลอย่าง Fleurs แสดงว่า ข้อมูลการฝึกที่หลากหลายสามารถเพิ่มประสิทธิภาพของระบบทั่วภาษาต่างๆ ได้อย่างไร วิธีการประเมินแบบใหม่เหล่านี้เน้นไปที่:

ปัญญาบริบท (Contextual Intelligence): วัดไม่เพียงแต่ความถูกต้องของการถอดความแต่ยังดูว่าระบบสามารถจับความหมายโดยรวมของการพูดได้ดีเพียงใด
ประสิทธิภาพในสภาพแวดล้อมที่หลากหลาย: ทดสอบว่าระบบจัดการกับการตั้งค่าเสียงต่างๆ ได้อย่างไร
ความถูกต้องเฉพาะอุตสาหกรรม: ประเมินว่าระบบทำงานได้ดีแค่ไหนในสาขาพิเศษเช่นการแพทย์หรือการเงิน

การอัปเดตเหล่านี้มีความสำคัญเป็นพิเศษสำหรับแอปพลิเคชันที่มีความต้องการเฉพาะ เครื่องมือที่ขับเคลื่อนโดย AI กำลังใช้ความก้าวหน้าเหล่านี้เพื่อให้มีความแม่นยำและความเชื่อถือได้ที่สูงขึ้นในการรู้จำเสียงพูดข้ามภาษาและอุตสาหกรรม การมุ่งเน้นไปที่การประเมินกำลังเปลี่ยนไปสู่การทำความเข้าใจว่า การผิดพลาดมีผลกระทบต่อการใช้ในโลกจริงอย่างไร

มองไปข้างหน้า วิธีการประเมินน่าจะสมดุลระหว่างความแม่นยำเชิงปริมาณของ WER กับข้อมูลเชิงลึกที่มีความละเอียดอ่อนและรับรู้บริบทมากขึ้น การวิวัฒนาการนี้จะมีความสำคัญเมื่อการรู้จำเสียงพูดเป็นส่วนสำคัญยิ่งขึ้นของชีวิตส่วนตัวและกระบวนการทำงานของมืออาชีพ

เลือกได้: เปรียบเทียบบริการรู้จำเสียงพูด

การเลือกบริการรู้จำเสียงพูดต้องคำนึงถึงมากกว่าแค่อัตราความผิดพลาดของคำ (WER) เพื่อประเมินคุณสมบัติเสริมและการที่มันสอดคล้องกับความต้องการของคุณ นี่คือการแบ่งย่อยของบริการยอดนิยมบางส่วนเพื่อช่วยคุณตัดสินใจ:

ลักษณะบริการGoogle Speech-to-TextMicrosoft Azure SpeechDubSmartUpbe ASRอัตราความผิดพลาดของคำ4.9%5.1%ไม่เปิดเผยต่อสาธารณะเปลี่ยนแปลงตามกรณีการใช้งานการสนับสนุนภาษามากกว่า 125 ภาษามากกว่า 100 ภาษามากกว่า 70 ภาษาภาษาแบบจำกัดการโคลนนิ่งเสียงจำกัดมีมีไม่มีการจัดการเสียงพื้นหลังขั้นสูงขั้นสูงระดับปานกลางเชี่ยวชาญโมเดลการตั้งราคาจ่ายตามการใช้งานจ่ายตามการใช้งานแผนแบบเป็นชั้นจาก $19.9/เดือนการกำหนดราคาที่กำหนดเองคุณลักษณะเฉพาะคำศัพท์กำหนดเอง, การเว้นจังหวะอัตโนมัติโมเดลการพูดกำหนดเอง, การถอดความเรียลไทม์คำบรรยายในกว่า 70 ภาษา กฎทางไวยากรณ์และบริบท

เมื่อเปรียบเทียบบริการ, ควรพิจารณาจุดสำคัญเหล่านี้:

การจัดการคุณภาพเสียง: บริการบางประเภท อย่างเช่น Upbe ASR โดดเด่นในการจัดการเสียงรบกวน ทำให้มันเหมาะสมสำหรับการสนับสนุนลูกค้าหรือการใช้งานกลางแจ้ง
การประยุกต์ใช้งานเฉพาะ: DubSmart, ตัวอย่างเช่น, มุ่งเน้นไปที่ผู้สร้างเนื้อหาด้วยคุณสมบัติเช่นการพากย์วิดีโอและการสร้างคำบรรยาย ในขณะที่คนอื่นๆ อาจมุ่งเน้นไปที่ด้านต่างๆ เช่น การถอดความทางการแพทย์หรือการให้บริการลูกค้า
การกำหนดราคาและความสามารถในการขยายขนาด: DubSmart มีแผนแบบเป็นชั้นที่เหมาะสมสำหรับระดับการใช้งานที่แตกต่างกัน ขณะที่บริการเช่น Google และ Microsoft ใช้โมเดลการจ่ายตามการใช้งาน ซึ่งอาจเหมาะสมกับความต้องการการขยายขนาดที่เปลี่ยนแปลงได้
ตัวเลือกการรวมระบบ: บางแพลตฟอร์มให้ความสำคัญกับ API ที่เป็นมิตรต่อผู้พัฒนา ในขณะที่แพลตฟอร์มอื่น ๆ ได้รับการออกแบบให้ใช้ง่ายสำหรับผู้ใช้งานที่ไม่ใช่เทคนิค เช่น ผู้สร้างเนื้อหา

ในขณะที่ WER เป็นเมตริกที่สำคัญ, คุณสมบัติ เช่น การสนับสนุนภาษา, ความยืดหยุ่นในการกำหนดราคา, และตัวเลือกการรวมระบบมีบทบาทสำคัญในการกำหนดบริการที่เหมาะสมกับความต้องการของคุณ การประเมินที่สมดุลของปัจจัยเหล่านี้ทั้งหมดจะช่วยให้คุณตัดสินใจได้ดีที่สุด

คำถามที่พบบ่อย

นี่คือสรุปคำถามที่พบบ่อยเกี่ยวกับ WER และวิธีการใช้งาน

อัตราความผิดพลาดของคำในระบบรู้จำเสียงพูดคืออะไร?

WER เป็นเมตริกที่แสดงความแม่นยำของการถอดความโดยการคำนวณเปอร์เซ็นต์ของความผิดพลาดในจำนวนคำทั้งหมด มันพิจารณาถึงการแทนที่, การลบ, และการแทรก เพื่อวัดว่าระบบรู้จำเสียงพูดทำงานได้ดีเพียงใด

อัตราความผิดพลาดของคำคำนวณอย่างไร?

WER คำนวณด้วยการรวมจำนวนการแทนที่ การลบ และการแทรก แล้วนำจำนวนรวมที่ได้หารด้วยจำนวนคำในข้อความต้นฉบับ สำหรับการอธิบายรายละเอียดเพิ่มเติม โปรดดูที่การคำนวณในส่วนย่อย "สูตร WER และองค์ประกอบ"

จะลดอัตราความผิดพลาดของคำได้อย่างไร?

นี่คือวิธีการบางอย่างที่จะทำให้ WER ต่ำลง:

ปรับปรุงเทคโนโลยี
ใช้เครื่องมือการลดเสียงรบกวน การประมวลผลเสียงก่อนขั้นสูง และรุ่น ASR ที่สามารถเข้าใจบริบทได้อย่างล้ำหน้า
เพิ่มคุณภาพของข้อมูล
ฝึกอบรมรุ่นด้วยเนื้อหาเฉพาะอุตสาหกรรม รวมสำเนียงและรูปแบบการพูดที่หลากหลาย และปรับปรุงรุ่นด้วยการถอดความที่แก้ไขแล้วอย่างสม่ำเสมอ
เลือกแพลตฟอร์มที่เหมาะสม
เลือกบริการที่ตอบโจทย์กับความจำเป็นของคุณ เช่น แพลตฟอร์มหลายภาษาอย่าง DubSmart และให้ความสำคัญกับผู้ให้บริการที่มีอัตรา WER ที่ต่ำพิสูจน์แล้ว

อัตราความผิดพลาดของคำที่ดีคืออะไร?

นี่คือคำแนะนำสั้น ๆ สำหรับมุมมองของ WER:

5-10% WER: คุณภาพสูง เหมาะกับการผลิต
20% WER: พอใช้แต่ควรปรับปรุง
สูงกว่า 20%: ต้องการการปรับเปลี่ยนครั้งใหญ่

เครื่องมือรู้จำเสียงพูดชั้นนำในปัจจุบันสามารถบรรลุอัตรา WER ต่ำสุดได้ที่ 4.9–5.1% ภายใต้สภาพการณ์ที่เหมาะสมที่สุด ซึ่งใกล้เคียงกับความแม่นยำของมนุษย์ .

มาตรฐานเหล่านี้เป็นประโยชน์ในการประเมินประสิทธิภาพข้ามอุตสาหกรรมต่างๆ สำหรับการประเมินรายละเอียดเพิ่มเติม สำรวจเมตริกที่ระบุในส่วน "เมตตริกการประเมินอื่น ๆ"