การทำความเข้าใจอัตราการผิดพลาดของคำในแบบจำลองการพูด
เผยแพร่ January 16, 2025~3 อ่านใช้เวลา

การทำความเข้าใจคำผิดในโมเดลการพูด

อัตราข้อผิดพลาดของคำ (WER) เป็นตัวชี้วัดสำคัญสำหรับการประเมินความแม่นยำของระบบการรู้จำคำพูด มันวัดข้อผิดพลาดในการถอดเสียงโดยการวิเคราะห์ การแทนที่, การแทรก, และ การลบ ในผลลัพธ์เปรียบเทียบกับข้อความต้นฉบับ คะแนน WER ที่ต่ำหมายถึงคุณภาพการถอดเสียงที่ดีขึ้น โดยนักถอดเสียงมนุษย์มักจะบรรลุ WER ประมาณ 4%

จุดสำคัญ:

  • สูตร:
    WER = (การแทนที่ + การแทรก + การลบ) / คำทั้งหมด × 100%
  • ตัวอย่าง:
    ต้นฉบับ: "The weather is beautiful today"
    ผลลัพธ์ ASR: "The whether is beautiful day"
    WER = 40%
  • แอปพลิเคชัน: ใช้ในผู้ช่วยเสียง, การถอดเสียงอัตโนมัติ และคำบรรยายวิดีโอ
  • ความท้าทาย: ยากต่อการใช้สำเนียง, บริบท, และคำศัพท์เฉพาะทาง

ทางเลือกแทน WER:

ตัวชี้วัดอื่นๆ เช่น อัตราข้อผิดพลาดของโทเค็น (TER), อัตราข้อผิดพลาดของตัวอักษร (CER), และ คะแนน F1 ของรูปแบบ แก้ไขข้อจำกัดของ WER โดยเน้นที่บริบท, เครื่องหมายวรรคตอน, และความแม่นยำระดับประโยค

การเปรียบเทียบอย่างรวดเร็วของบริการรู้จำเสียง:

บริการ WER ภาษาที่รองรับ คุณสมบัติพิเศษ
Google Speech-to-Text 4.9% 125+ คำศัพท์เฉพาะ, เครื่องหมายวรรคตอน
Microsoft Azure 5.1% 100+ การถอดเสียงเรียลไทม์
DubSmart ไม่เปิดเผย 70+ พากย์วิดีโอ, คำบรรยาย
Upbe ASR แปรผัน จำกัด กฎไวยากรณ์และบริบท

WER เป็นตัวชี้วัดพื้นฐาน แต่การรวมกับเครื่องมือการประเมินอื่น ๆ ให้ภาพที่เต็มรูปแบบของประสิทธิภาพ ASR

การคำนวณอัตราข้อผิดพลาดของคำ

สูตรและองค์ประกอบของ WER

อัตราข้อผิดพลาดของคำ (WER) วัดข้อผิดพลาดในการรู้จำเสียงโดยการคำนึงถึงการแทนที่, การแทรก, และการลบ ข้อผิดพลาดแต่ละประเภทมีน้ำหนักเท่ากันในการคำนวณ แม้ว่าอาจมีผลต่อความหมายของข้อความต่างกัน

สูตรของ WER นั้นง่าย:

WER = (การแทนที่ + การแทรก + การลบ) / คำทั้งหมด × 100%

มาทำลายสิ่งนี้ด้วยตัวอย่าง

ตัวอย่างการคำนวณ WER

ข้อความต้นฉบับ: "The weather is beautiful today"
ผลลัพธ์ ASR: "The whether is beautiful day"

  • การแทนที่: 2 ("whether" แทนที่ "weather" และ "day" แทนที่ "today")
  • การแทรก: 0
  • การลบ: 0
  • จำนวนคำในต้นฉบับ: 5

ตอนนี้ นำไปใช้ในสูตร:

WER = (2 + 0 + 0) / 5 × 100% = 40%

ตัวอย่างนี้แสดงให้เห็นว่าประเภทของข้อผิดพลาดแต่ละประเภทมีผลต่อ WER โดยรวมอย่างไร

ตัวอย่างเช่น บริการ การรู้จำคำพูด-เป็น-ข้อความ ของ DubSmart ใช้อัลกอริทึมขั้นสูงเพื่อให้ได้ WER ที่ต่ำกว่าใน 70 ภาษา ระบบเหล่านี้ปรับปรุงความแม่นยำด้วยการพึ่งพาข้อมูลการฝึกอบรมคุณภาพสูงและเทคนิคที่ล้ำสมัย

การใช้งานและความท้าทายของ WER

การใช้งานของ WER

อัตราข้อผิดพลาดของคำ (WER) มีบทบาทสำคัญในการวัดความแม่นยำของระบบการรู้จำคำพูดในหลายกรณีการใช้งาน เช่น การถอดเสียงอัตโนมัติของการโทรและระบบที่จัดการกับหลายภาษา ธุรกิจมักพึ่งพา WER ในการประเมินระบบเหล่านี้ โดยเฉพาะในสภาพแวดล้อมการให้บริการลูกค้าซึ่งความแม่นยำมีความสำคัญ

ในระบบหลายภาษา WER ช่วยจัดการกับงานที่ซับซ้อนในการรักษาความแม่นยำในการถอดเสียงให้สอดคล้องกันในภาษาต่างๆ และระบบเสียงพยัญชนะ ซึ่งเป็นประโยชน์อย่างยิ่งเมื่อทำงานกับชุดข้อมูลขนาดใหญ่ เนื่องจาก WER ใช้เป็นเกณฑ์วัดประสิทธิภาพของระบบรู้จำคำพูดอัตโนมัติ (ASR) ในสภาพแวดล้อมทางภาษาที่หลากหลาย

ตัวอย่างเช่น แพลตฟอร์มอย่าง DubSmart ใช้ WER เพื่อปรับปรุงคุณภาพการถอดและการแปลใน 70 ภาษา ซึ่งช่วยให้ได้ผลลัพธ์ที่ดีขึ้นสำหรับบริการต่าง ๆ เช่น การพากย์วิดีโอและแอปพลิเคชันรู้จำคำพูด-เป็น-ข้อความ โดยการวิเคราะห์ WER ผู้พัฒนาสามารถระบุพื้นที่ที่ต้องปรับปรุงและปรับแต่งโมเดล ASR สำหรับการใช้งานในโลกแห่งความจริง

กล่าวได้ว่า ในขณะที่ WER เป็นเครื่องมือที่มีค่า มันก็มีข้อจำกัดเมื่อจัดการกับบริบทและความหลากหลายทางภาษา

ข้อจำกัดของ WER

WER ในฐานะตัวชี้วัดมีข้อบกพร่องบางประการที่จำกัดประสิทธิผลเมื่อใช้เพียงลำพัง:

  • การขาดบริบท: WER ปฏิบัติต่อข้อผิดพลาดทั้งหมดเช่นเดียวกัน แม้ว่าข้อผิดพลาดบางอย่างจะเปลี่ยนความหมายของประโยคอย่างมาก
  • ความท้าทายของสำเนียง: มันมีปัญหาในการจัดการกับความหลากหลายของสำเนียง ซึ่งเผยช่องว่างในวิธีที่โมเดล ASR ปัจจุบันจัดการกับรูปแบบภาษา
  • การมองข้ามความหมาย: โดยมุ่งเน้นเฉพาะความถูกต้องระดับคำเท่านั้น WER มักพลาดภาพรวม เช่น วัตถุประสงค์หรือความหมายโดยรวมของเนื้อหาที่พูด

เพื่อตอบสนองต่อปัญหาเหล่านี้ วิธีการใหม่ๆ เช่น การประเมิน WER ที่ไม่ขึ้นกับระบบ (SIWE) ได้เกิดขึ้น วิธีการเหล่านี้แสดงให้เห็นถึงความก้าวหน้า โดยปรับปรุงความคลาดเคลื่อนกำลังสองรากและค่าสัมประสิทธิ์สหสัมพันธ์เพียร์สันได้ 17.58% และ 18.21% ตามลำดับในชุดข้อมูลมาตรฐาน

ในสาขาเฉพาะทางเช่น การถอดความทางการแพทย์ ข้อจำกัดของ WER ชี้ให้เห็นถึงความจำเป็นในตัวชี้วัดเพิ่มเติมเพื่อรับรองผลลัพธ์ที่เชื่อถือได้และแม่นยำ ความท้ายทายเหล่านี้แสดงให้เห็นว่า WER ควรถูกเรวมกับเครื่องมือตรวจสอบอื่นๆ เพื่อให้การประเมินประสิทธิภาพ ASR ครบถ้วนยิ่งขึ้น

ตัวชี้วัดการประเมินอื่นสำหรับการรู้จำเสียง

ตัวชี้วัดทางเลือก

ในขณะที่ อัตราข้อความผิดของคำ (WER) เป็นมาตรฐานที่ใช้กันอย่างกว้างขวางในการวัดความแม่นยำ มันไม่ได้จับทั้งหมด - บริบท, การจัดรูปแบบ, และรายละเอียดเฉพาะทางภาษาอาจถูกมองข้ามได้ นี่คือตัวชี้วัดเพิ่มเติมที่เข้ามาช่วย

อัตราข้อความผิดของโทเค็น (TER) ไปไกลกว่าคำ เพื่อลอการจัดรูปแบบ เครื่องหมายวรรคตอน และคำศัพท์เฉพาะ ซึ่งเป็นประโยชน์สำหรับงานที่ต้องการความแม่นยำในด้านเหล่านี้เป็นพิเศษ อัตราข้อผิดพลาดของตัวอักษร (CER) ในการจัดการกับระบบการเขียนที่ซับซ้อน ขณะที่ อัตราข้อผิดพลาดของประโยค (SER) วัดความแม่นยำในระดับประโยค

อีกตัวชี้วัดที่สำคัญคือ คะแนน F1 รูปแบบ ซึ่งประเมินว่าเครื่องมือรักษาโครงสร้างเช่น เครื่องหมายวรรคตอนและการเรียบเรียงอย่างไร นี่มีความสำคัญในอุตสาหกรรมอย่างการถอดความทางกฎหมายหรือการถอดปัญหาทางการแพทย์ ที่มีรายละเอียดเหล่านี้อย่างมาก

ทำไมต้องใช้หลายตัวชี้วัด?

การพึ่งพาเพียงตัวชี้วัดเดียวอาจให้มุมมองเกม ไม่ครอบคลุมถึงประสิทธิภาพของระบบ การผสมผสานตัวชี้วัดต่างๆ ช่วยสร้างกรอบการประเมินที่ครอบคลุมมากขึ้น ตัวอย่างเช่น ชุดข้อมูล Fleurs ของ Google เป็นตัวอย่างที่แสดงถึงการเสนอข้อมูลการประเมินสำหรับ 120 ภาษา เพื่อตอบสนองความท้าทายเชิงภาษา

นี่คือการชี้สำคัญของตัวชี้วัดหลักและการใช้งานที่เหมาะสม:

ประเภทตัวชี้วัด โฟกัส ดีที่สุดสำหรับ
อัตราข้อผิดพลาดของคำ ความถูกต้องระดับคำ การถอดความทั่วไป
อัตราข้อความผิดของโทเค็น การจัดรูปแบบและเครื่องหมายวรรคตอน การบันทึกเอกสารทางเทคนิค
อัตราข้อความผิดของตัวอักษร ความแม่นยำระดับตัวอักษร ระบบการเขียนที่ซับซ้อน
อัตราตามความสำเร็จ ความสำเร็จตามการทำหน้าที่ ระบบคำสั่งเสียง
คะแนน F1 รูปแบบ ความถูกต้องของโครงสร้าง การถอดความระดับมืออาชีพ

การใช้ตัวชี้วัดหลายตัวช่วยให้เห็นถึงความแข็งแกร่งและข้อบกพร่องในระบบ ตัวอย่างเช่น ระบบหนึ่งอาจทำงานได้ดีในความแม่นยำของคำ แต่ประสบปัญหาในการจัดรูปแบบ ด้วยการวิเคราะห์ตัวชี้วัดหลายประเภท นักพัฒนาและผู้ใช้สามารถเลือกเครื่องมือที่เหมาะสมกับความต้องการเฉพาะของพวกเขา

แพลตฟอร์มการรู้จำคำพูดสมัยใหม่ใช้วิธีนี้ โดยใช้ตัวชี้วัดหลายตัวเพื่อระบุพื้นที่ที่ต้องปรับปรุงโดยไม่เสียประสิทธิภาพโดยรวม ซึ่งมั่นใจได้ว่าระบบได้รับการปรับแต่งให้เหมาะสมสำหรับการใช้งานที่หลากหลาย ตั้งแต่การจัดทำเสียงวิดีโอจนถึงการถอดความระดับมืออาชีพ

sbb-itb-f4517a0

ข้อสรุปและอนาคตของการประเมินการรู้จำเสียง

การย้อนกลับ WER

อัตราข้อผิดพลาดของคำ (WER) นั้นทำหน้าที่เป็นตัวชี้วัดที่สำคัญสำหรับการประเมินความแม่นยำของระบบการรู้จำคำพูดมาอย่างยาวนาน มันให้วิธีที่ชัดเจนในการวัดประสิทธิภาพ ซึ่งช่วยให้นักพัฒนาและธุรกิจตัดสินใจได้อย่างมีข้อมูล ตัวอย่างเช่น ระบบชั้นแนวหน้าอย่าง Google และ Microsoft ปัจจุบันมีคะแนน WER อยู่ที่ 4.9% และ 5.1% ตามลำดับ ซึ่งใกล้เคียงกับความแม่นยำของการถอดความของมนุษย์ที่ 4%

อย่างไรก็ตาม WER ไม่ได้ไม่มีข้อบกพร่องของตัวเอง มันไม่ได้พิจารณาถึงบริบทของคำ, ความหลากหลายของคุณภาพเสียง, หรือการใช้คำศัพท์เฉพาะทาง ทำให้มีความชัดเจนว่า WER ควรเป็นส่วนหนึ่งของกรอบการประเมินที่กว้างขึ้น แทนที่จะเป็นตัวชี้วัดความสำเร็จเพียงอย่างเดียว

วิธีที่เราประเมินระบบการรู้จำคำพูดกำลังเปลี่ยนแปลง โดยให้ความสำคัญกับการเข้าใจบริบทและการจัดการสถานการณ์หลากหลาย ความเปลี่ยนแปลงเหล่านี้มุ่งหวังที่จะเติมเต็มช่องว่างที่เหลือจาก WER และสร้างกระบวนการประเมินที่รอบด้านมากขึ้น

แนวโน้ม ผลกระทบที่อาจเกิดขึ้น
ความเข้าใจด้านบริบท เพิ่มการวิเคราะห์เชิงความหมายเพื่อเข้าใจความหมายที่ลึกซึ้งมากขึ้น
การประเมินแบบหลายมิติ เสนอภาพรวมของประสิทธิภาพที่กว้างขึ้น
การวิเคราะห์ที่ได้รับการเสริมด้วย AI ระบุและจัดประเภทรูปแบบข้อผิดพลาดได้อย่างมีประสิทธิภาพมากขึ้น
การใช้ชุดข้อมูลขนาดใหญ่ ปรับปรุงความยืดหยุ่นในการปรับตัวกับรูปแบบการพูดที่หลากหลาย

ชุดข้อมูลอย่าง Fleurs แสดงให้เห็นถึงการเพิ่มประสิทธิภาพของระบบด้วยข้อมูลการฝึกอบรมที่หลากหลายในหลายภาษา วิธีการประเมินใหม่กำลังเน้นที่:

  • ความฉลาดเชิงบริบท: วัดไม่เพียงแค่ความแม่นยำในการถอดความ แต่รวมถึงการที่ระบบจับความหมายโดยรวมของคำพูดได้ดีเพียงใด
  • ประสิทธิภาพในสภาพแวดล้อมที่หลากหลาย: ทดสอบว่าระบบจัดการกับสภาพแวดล้อมเสียงต่างกันได้อย่างไร
  • ความแม่นยำเฉพาะทางอุตสาหกรรม: ประเมินว่าระบบทำงานได้ดีแค่ไหนในสาขาเฉพาะทางเช่น การแพทย์หรือการเงิน

การอัพเดทเหล่านี้มีความสำคัญอย่างยิ่งสำหรับการใช้งานที่กำหนดเอง เครื่องมือที่ใช้ AI กำลังใช้ความก้าวหน้าเหล่านี้สำหรับการรู้จำเสียงที่แม่นยำและน่าเชื่อถือมากขึ้นในหลายภาษาและอุตสาหกรรม โฟกัสในการประเมินกำลังเลื่อนเพื่อเข้าใจว่าอข้อมผิดทำให้เกิดผลกระทบต่อการใช้งานในชีวิตจริงอย่างไร

มองไปข้างหน้า วิธีการประเมินจะสมดุลความแม่นยำเชิงปริมาณของ WER กับข้อมูลเชิงลึกที่มีบริบทละเอียดอ่อนมากขึ้น วิวัฒนาการนี้จะเป็นสิ่งจำเป็นเมื่อการรู้จำเสียงกลายเป็นส่วนที่ใหญ่ขึ้นทั้งในงานส่วนบุคคลและงานอาชีพของเรา

ทางเลือก: การเปรียบเทียบบริการรู้จำเสียง

การเลือกใช้บริการรู้จำเสียงเกี่ยวข้องกับการดูมากกว่าอัตราข้อผิดพลาดของคำ (WER) เพื่อประเมินคุณสมบัติเพิ่มเติมและวิธีที่สอดคล้องกับความต้องการของคุณ นี่คือการแยกบริการยอดนิยมต่างๆ เพื่อช่วยคุณตัดสินใจ:

คุณสมบัติของบริการ Google Speech-to-Text Microsoft Azure Speech DubSmart Upbe ASR
อัตราข้อผิดพลาดของคำ 4.9% 5.1% ไม่เปิดเผยสาธารณะ แปรผันตามกรณีการใช้งาน
การสนับสนุนภาษา 125+ ภาษา 100+ ภาษา 70+ ภาษา ภาษาที่จำกัด
การโคลนนิ่งเสียง จำกัด มี มี ไม่มี
การจัดการเสียงพื้นหลัง ขั้นสูง ขั้นสูง ปานกลาง เฉพาะทาง
รูปแบบการกำหนดราคา ค่าธรรมเนียมตามการใช้งาน ค่าธรรมเนียมตามการใช้งาน แผนระดับจาก $19.9/เดือน การกำหนดราคาที่ปรับได้
คุณสมบัติพิเศษ คำศัพท์เฉพาะ, เครื่องหมายวรรคตอนอัตโนมัติ โมเดลการพูดที่ปรับแต่ง, การถอดเสียงเวลาเรียล คำบรรยายใน 70+ ภาษา กฎไวยากรณ์และบริบท

เมื่อเปรียบเทียบบริการต่างๆ ควรคำนึงถึงจุดสำคัญต่อไปนี้:

  • การจัดการคุณภาพเสียง: บริการบางประเภท เช่น Upbe ASR มีความยอดเยี่ยมในการจัดการเสียงจากสภาพแวดล้อมที่มีเสียงรบกวน ทำให้เหมาะกับการสนับสนุนลูกค้าหรือการใช้งานกลางแจ้ง
  • แอปพลิเคชั่นเฉพาะ: DubSmart ตัวอย่างเช่น มุ่งเน้นสำหรับเนื้อหาโดยใช้คุณสมบัติเช่นการพากย์วิดีโอและการสร้างคำบรรยาย ขณะที่คนอื่นอาจมุ่งเน้นที่ด้านเช่นการถอดข้อความทางการแพทย์หรือการให้บริการลูกค้า
  • การกำหนดราคาและความสามารถในการขยายตัว: DubSmart มีแผนระดับที่เหมาะสมกับระดับการใช้งานต่างๆ ขณะที่บริการอย่าง Google และ Microsoft ใช้รูปแบบการคิดค่าธรรมเนียมตามการใช้งาน ซึ่งอาจเหมาะกับความสามารถในการขยายตัวที่แปรผัน
  • ตัวเลือกการเชื่อมต่อ: บางแพลตฟอร์มให้ความสำคัญกับ API ที่เหมาะกับนักพัฒนา ขณะที่บางแพลตฟอร์มออกแบบมาให้ใช้งานง่ายสำหรับผู้ใช้ที่ไม่ใช่เทคนิค เช่น ผู้สร้างเนื้อหา

แม้ว่า WER จะเป็นตัวชี้วัดที่สำคัญ แต่ฟีเจอร์เช่นการรองรับภาษา, ความยืดหยุ่นของการกำหนดราคา, และตัวเลือกการเชื่อมต่อมีบทบาทสำคัญในการเลือกระบบบริการที่เหมาะกับความต้องการของคุณ การประเมินที่สมดุลทุกจุดนี้จะช่วยให้คุณทำการตัดสินใจที่ดีที่สุด

FAQs

นี่คือคำถามทั่วไปเกี่ยวกับ WER และการใช้งาน

อัตราข้อผิดพลาดของคำในการรู้จำคำพูดคืออะไร?

WER เป็นตัวชี้วัดที่แสดงความแม่นยำของการถอดเสียงโดยคำนวณเปอร์เซ็นต์ของข้อผิดพลาดในจำนวนคำทั้งหมด มันพิจารณาการแทนที่, การลบ, และการแทรกเพื่อลอการทำงานของระบบรู้จำการพูด

อัตราข้อผิดพลาดของคำคำนวณได้อย่างไร?

WER คำนวณโดยการบวกจำนวนการแทนที่, การลบ, และการแทรก จากนั้นแบ่งผลรวมตามจำนวนคำในข้อความต้นฉบับ สำหรับคำอธิบายอย่างละเอียด ตรวจสอบย่อหน้า "สูตรและองค์ประกอบของ WER"

วิธีการลดอัตราข้อผิดพลาดของคำ?

นี่คือวิธีลด WER:

  • ปรับปรุงเทคโนโลยี
    ใช้เครื่องมือลดเสียงรบกวน, การประมวลผลเสียงคุณภาพสูง, และโมเดล ASR ขั้นสูงที่เข้าใจบริบท
  • ปรับปรุงคุณภาพข้อมูล
    ฝึกอบรมโมเดลด้วยเนื้อหาที่เฉพาะเจาะจงกับอุตสาหกรรม, รวมสำเนียงและรูปแบบการพูดต่างๆ, และอัปเดตโมเดลด้วยการถอดความที่ถูกต้อง
  • เลือกแพลตฟอร์มที่เหมาะสม
    เลือกใช้บริการที่ตอบสนองความต้องการของคุณ เช่น แพลตฟอร์มหลายภาษาที่ DubSmart และให้ความสำคัญกับผู้ให้บริการที่มีอัตรา WER ต่ำน่าเชื่อถือ

อะไรคืlอัตราข้อผิดพลาดของคำที่ดี?

นี่คือคำแนะนำเกณฑ์มิติพื้นฐานของ WER:

  • 5-10% WER: คุณภาพสูง, เหมาะสำหรับการผลิต
  • 20% WER: ใช้ได้ แต่ควรปรับปรุง
  • กว่า 20%: ต้องการการปรับเปลี่ยนใหญ่

เครื่องมือรู้จำคำพูดที่ดีที่สุดในปัจจุบันสามารถทำอัตรา WER ต่ำสุดได้ถึง 4.9–5.1% ในสภาวะที่เหมาะสม ซึ่งใกล้เคียงกับความถูกต้องระดับมนุษย์

เกณฑ์นี้มีประโยชน์ในการประเมินประสิทธิภาพในหลายอุตสาหกรรม สำหรับการประเมินที่ละเอียดขึ้น สำรวจตัวชี้วัดที่กล่าวถึงในหมวด "ตัวชี้วัดการประเมินอื่น ๆ"