เผยแพร่ July 05, 2026•~4 อ่านใช้เวลา

วิธีสร้างแพ็กเสียง Waze แบบกำหนดเองด้วยเทคโนโลยี AI Voice Cloning

คุณได้ลองใช้ตัวเลือกดาราและตัวเลือกแปลกใหม่ทุกอย่างที่ Waze มีให้แล้ว — Boy George, เสียงตัวละครในหนัง, นักแสดงตลก — และตอนนี้คุณต้องการอะไรที่เป็นส่วนตัวมากขึ้น เสียงของคุณเองที่นำทางการเดินทางของคุณ หรือของคนในครอบครัว นั่นคือจุดที่ ชุดเสียง waze เริ่มน่าสนใจ และก็เป็นจุดที่ความพยายามแบบทำเองส่วนใหญ่ล้มเหลว เครื่องบันทึกเสียงกำหนดเองในตัวของ Waze ทำให้คุณต้องนั่งรอตัวจับเวลานับถอยหลังและอ่านคำสั่งนำทางทุกคำออกเสียงดังๆ ทีละคำ ตามคู่มือของ Popular Science ข้ามคำสั่งใดคำสั่งหนึ่งไป คุณก็จะได้ช่องว่างเงียบๆ ในตอนที่คุณต้องการคำแนะนำพอดี ชุดเสียงที่ทำเองส่วนใหญ่ตายไปแถวๆ ประโยคที่เก้าสิบเจ็ด เมื่อเสียงของผู้อ่านเริ่มแตกและความกระตือรือร้นหมดไป การโคลนเสียงด้วย AI พลิกภาระงานนี้: บันทึกตัวอย่างที่สะอาดเพียง 20 วินาที จากนั้นสร้างทุกวลีที่ Waze ต้องการแบบเป็นชุด — ไม่ต้องมาราธอน ไม่มีความเหนื่อยล้า เมื่อจบบทความนี้คุณจะมีทุกวลีนำทางที่สร้างขึ้นด้วยเสียงโคลนของคุณเอง พร้อมที่จะโหลด เราจะพูดตรงๆ เกี่ยวกับขั้นตอนการโหลดด้วย เพราะ Waze ไม่มีปุ่มนำเข้าอย่างเป็นทางการ และภาพความจริงเกี่ยวข้องกับข้อควรระวังจริงๆ

Overhead flat-lay on a wooden desk — a smartphone displaying a Waze turn-by-turn navigation screen, a USB condenser microphone on a small stand, a pop filter, and a handwritten notepad listing navigation phrases ("Turn left," "Recalcul

สารบัญ

ชุดเสียง Waze ต้องการอะไรจริงๆ (ก่อนที่คุณจะบันทึกอะไรก็ตาม)
การเลือกแหล่งเสียงของคุณ: บันทึกสดใน Waze vs. โคลนด้วย AI
การโคลนเสียงของคุณจากตัวอย่าง 20 วินาที
การสร้างทุกวลีนำทางที่ Waze ต้องการ
การโหลดชุดเสียงกำหนดเองของคุณเข้าสู่ Waze (และความจริงในระดับไฟล์)
ก้าวไปไกลกว่านั้น: ชุดเสียงหลายภาษาและการแบ่งปันเสียงโคลนเดียว
รายการตรวจสอบการสร้างชุดเสียง Waze กำหนดเองของคุณ
คำถามที่พบบ่อยเกี่ยวกับเสียงกำหนดเองของ Waze

ชุดเสียง Waze ต้องการอะไรจริงๆ (ก่อนที่คุณจะบันทึกอะไรก็ตาม)

ก่อนที่คุณจะแตะไมโครโฟน จงเข้าใจว่าคุณกำลังสร้างอะไรจริงๆ ชุดเสียง Waze ไม่ใช่ AI ที่พูดได้ — มันคือคลังคลิปที่บันทึกไว้ล่วงหน้าแบบตายตัวซึ่งใส่ลงในช่วงเวลานำทางเฉพาะ การเข้าใจแบบจำลองความคิดนี้ให้ถูกต้องช่วยให้คุณไม่คาดหวังสิ่งที่ Waze ทำไม่ได้

มันคือคลังวลีตายตัว ไม่ใช่ AI ที่พูดได้ ฟีเจอร์เสียงกำหนดเองของ Waze โดยพื้นฐานแล้วเป็นการแทนที่บันทึกเสียง แอปเล่นย้อนคลิปที่คุณจัดหาไว้สำหรับแต่ละช่องคำสั่งอย่างแม่นยำ มันไม่ได้รันโมเดลเพื่อออกเสียงชื่อถนนใดๆ ก็ตามด้วยเสียงของคุณ เสียงกำหนดเองครอบคลุมเฉพาะสัญญาณนำทางหลักเท่านั้น — การเลี้ยว ทางออก ระยะทาง การแจ้งเตือนพื้นฐาน และการมาถึง ชื่อถนนและข้อความแบบไดนามิกยังคงกลับไปใช้เสียงระบบเริ่มต้น ดังนั้นเสียงโคลนของคุณพูดว่า "อีก 500 ฟุต เลี้ยวซ้าย" และเสียงเริ่มต้นจัดการ "เข้าสู่ Biscayne Boulevard" การรู้เรื่องนี้ล่วงหน้าทำให้ความคาดหวังของคุณเป็นไปตามความเป็นจริง

รายการคำสั่งครบถ้วนและบังคับ ตามคู่มือของ Popular Science เกี่ยวกับขั้นตอนการบันทึกของ Waze รายการที่ต้องมีครอบคลุมคำทักทายอย่าง "เริ่มกันเลย — ขับขี่ปลอดภัยนะ!", คำสั่งบอกทิศทางเช่น "ออกทางออกที่สี่" และ "เลี้ยวซ้าย", สัญญาณคำนวณเส้นทางใหม่ และการประกาศการมาถึง บทเรียนต่างๆ เน้นว่าคุณต้องทำรายการที่ต้องมีทั้งหมดให้ครบถ้วน ปล่อยให้คำสั่งว่างเปล่า คุณจะได้ยินความเงียบในช่วงเวลานำทางที่แน่นอนเหล่านั้น

ทุกคลิปถูกจำกัดเวลา Waze แสดงตัวจับเวลานับถอยหลังระหว่างการบันทึกและบังคับใช้ขีดจำกัดเวลาต่อคำสั่ง แต่ละวลีต้องพอดีภายในเวลาไม่กี่วินาที ไม่อย่างนั้นมันจะถูกตัดกลางคำ นี่บังคับให้ส่งข้อความกระชับ ซึ่งสำคัญในภายหลังเมื่อคุณกำลังปรับแต่งเสียงที่สร้างขึ้นให้ตรงกับกรอบเวลาเหล่านั้น

Waze ไม่มีปุ่ม "นำเข้า MP3 ของฉัน" อย่างเป็นทางการ แอปเปิดเผยการบันทึกในแอปเท่านั้น เส้นทางใดๆ ที่ใช้เสียงที่สร้างจากภายนอก — รวมถึงคลิป TTS ที่โคลนด้วย AI — อาศัยวิธีแก้แบบชั่วคราวในระดับไฟล์ ไม่ใช่ฟีเจอร์ที่รองรับ เราจะพูดตรงไปตรงมาเกี่ยวกับเรื่องนี้ตลอด หากคุณต้องการเส้นทางที่รองรับอย่างเป็นทางการ คุณต้องบันทึกสด หากคุณต้องการเส้นทางที่สร้างด้วย AI จะมีขั้นตอนการฉีดขั้นสูงพร้อมข้อกำหนดเบื้องต้นจริงๆ

คุณสามารถแก้ไขคลิปแต่ละอันในภายหลังได้ คุณไม่ได้ถูกล็อกอยู่ในการสร้างแบบครั้งเดียวจบ กลับไปที่เสียงและระบบเสียง เลื่อนรายการเสียงกำหนดเองเพื่อเผยตัวเลือก และบันทึกคำสั่งเฉพาะใหม่โดยไม่ต้องสร้างชุดทั้งหมดใหม่ กระทู้สนับสนุนของ Waze Community ยืนยันขั้นตอนการแก้ไขต่อคลิปนี้ ซึ่งเป็นความโล่งใจในครั้งแรกที่วลีหนึ่งออกมาผิด

การเลือกแหล่งเสียงของคุณ: บันทึกสดใน Waze vs. โคลนด้วย AI

มีเส้นทางที่เป็นไปได้สองเส้นทางที่นำไปสู่ชุดเสียงที่เสร็จสมบูรณ์ คุณบันทึกทุกวลีสดภายใน Waze หรือคุณโคลนเสียงหนึ่งครั้งและสร้างทุกวลีเป็นชุดในรูปแบบข้อความเป็นเสียงพูด นี่คือการเปรียบเทียบในปัจจัยที่ตัดสินสุดสัปดาห์ของคุณจริงๆ

ปัจจัย	การบันทึกสดใน Waze	การโคลนเสียงด้วย AI + TTS
เวลาในการทำรายการทั้งหมดให้เสร็จ	นาน — อ่านทุกคำสั่งภายใต้ตัวจับเวลา	รวดเร็ว — โคลนครั้งเดียว สร้างเป็นชุด
ความสม่ำเสมอในทุกวลี	เสื่อมลงเมื่อคุณเหนื่อยกลางรายการ	โทนและจังหวะสม่ำเสมอตลอด
การแก้ไขข้อผิดพลาด	บันทึกคลิปนั้นใหม่ด้วยตนเอง	สร้างประโยคใหม่จากข้อความ
การใช้เสียงของคนอื่น	เฉพาะเมื่ออยู่ที่นั่นเพื่อบันทึกสด	เป็นไปได้จากตัวอย่าง — ต้องได้รับความยินยอม
การขยายเป็นหลายภาษา	ไม่สามารถทำได้จริง (บันทึกใหม่ต่อภาษา)	เสียงเดียวสร้างได้หลายภาษา
การโหลดเข้าสู่ Waze	รองรับเต็มที่ ในแอป	ต้องใช้วิธีแก้ในระดับไฟล์

การแลกเปลี่ยนที่ตรงไปตรงมาอยู่ในแถวสุดท้ายนั้น การบันทึกสดคือเส้นทางที่รองรับอย่างเป็นทางการเข้าสู่ Waze — สะอาด ไม่ต้องเข้าถึง root ทำงานได้บนโทรศัพท์เครื่องใดก็ได้ เสียงที่โคลนชนะเรื่องความสม่ำเสมอและปริมาณ แต่ต้องใช้ขั้นตอนการฉีดที่ไม่รองรับ เลือกตามความเจ็บปวดที่คุณอยากรับมากกว่า: มาราธอนการบันทึก หรือการยุ่งวุ่นวายในระดับไฟล์

สำหรับคนส่วนใหญ่ที่สร้างชุดเสียงเต็ม การโคลนเสียงด้วย AI เป็นการใช้เวลาที่ดีกว่า คุณไม่เคยเหนื่อยล้า ทุกคลิปเข้ากันในเรื่องโทนและจังหวะ และการแก้ประโยคที่ไม่ดีหมายถึงการแก้ไขข้อความแทนการบันทึกใหม่ภายใต้การนับถอยหลัง ความสม่ำเสมออย่างเดียวก็คุ้มค่าแล้ว — ชุดเสียงที่วลีที่สามและวลีที่เก้าสิบฟังเหมือนกันให้ความรู้สึกเป็นมืออาชีพในแบบที่เซสชันด้วยมือไม่ค่อยทำได้

มีเส้นแบ่งด้านจริยธรรมที่ควรระบุที่นี่ การโคลนเสียงของคุณเองเพื่อการปรับให้เป็นส่วนตัวชัดเจนว่าไม่มีปัญหา การโคลนของคนอื่นต้องได้รับความยินยอมอย่างชัดเจน หน่วยงานกำกับดูแลถือว่าเสียงเป็นส่วนหนึ่งของภาพลักษณ์ที่ได้รับการคุ้มครองของบุคคล — FTC อ้างถึงกฎหมาย ELVIS Act ของ Tennessee ในประเด็นนี้ — และตาม คำแนะนำของ FTC เกี่ยวกับการโคลนเสียงที่ขับเคลื่อนด้วย AI "ไม่มีข้อยกเว้นสำหรับ AI จากกฎหมายที่มีอยู่" จำสิ่งนี้ไว้หากคุณกำลังสร้างชุดเสียงด้วยเสียงของเพื่อนหรือสมาชิกในครอบครัว เราครอบคลุมมุมมองด้านจริยธรรมทั้งหมดในคำถามที่พบบ่อย

การบันทึกวลีนำทางร้อยวลีในการนั่งครั้งเดียวคือจุดที่ชุดเสียงทำเองส่วนใหญ่ตายไป — เสียงโคลนของ AI ไม่เคยเหนื่อยที่วลีเก้าสิบเจ็ด

การโคลนเสียงของคุณจากตัวอย่าง 20 วินาที

ขั้นตอนการโคลนเป็นส่วนที่ทำได้จริงในโปรเจกต์นี้ เครื่องมือโคลนทันทีสมัยใหม่ได้ยุบสิ่งที่เคยต้องใช้เซสชันในสตูดิโอให้เหลือเพียงการตั้งค่าไม่กี่นาที นี่คือลำดับ

บันทึกตัวอย่างที่สะอาด หาห้องที่เงียบและมีการลดเสียงสะท้อน — เฟอร์นิเจอร์นุ่ม หน้าต่างปิด ไม่มีเสียงฮัมของเครื่องปรับอากาศ ไม่มีเพลง ไม่มีเสียงพูดพื้นหลัง พูดในจังหวะที่เป็นธรรมชาติและสม่ำเสมอ แบบที่คุณจะให้ทิศทางจริงๆ มีช่องว่างความเป็นจริงที่ควรรู้: ผู้ให้บริการหลายราย รวมถึงคำแนะนำการฝึกของ LALAL.AI แนะนำเสียง 10–50 นาทีสำหรับโมเดลที่มีความเที่ยงตรงสูงสุด แต่เครื่องมือโคลนทันทีสมัยใหม่สร้างเสียงที่ใช้งานได้จากเพียง 20 วินาทีถึงหนึ่งนาที ซึ่งเป็นจุดที่บริการโคลนตัวอย่างสั้นอย่าง NoteGPT ระบุอย่างชัดเจน ตัวอย่างสั้นแลกความสม่ำเสมอเล็กน้อยกับการเพิ่มความเร็วมหาศาล — การตัดสินใจที่ถูกต้องสำหรับชุดเสียงนำทาง
อัปโหลดไปยังเครื่องมือโคลนเสียง วางไฟล์ตัวอย่างของคุณลงในอินเทอร์เฟซการโคลนและรอให้โมเดลประมวลผล นี่คือจุดที่ตัวเลือกที่รวดเร็วจาก 20 วินาทีให้ผลตอบแทน — โคลนเสียงของคุณ จากคลิปสั้นแทนที่จะกันเวลาหนึ่งชั่วโมงในการอ่าน นักพัฒนาที่ทำการสร้างหลายเสียงแบบอัตโนมัติสามารถขับเคลื่อนกระบวนการเดียวกันผ่าน Voice Cloning API แทนอินเทอร์เฟซ
ตรวจสอบคุณภาพ ก่อนที่คุณจะยอมสร้างคลิปร้อยอัน ให้สร้างวลีทดสอบหนึ่งวลี — "อีก 500 ฟุต เลี้ยวซ้าย" เหมาะที่สุดเพราะมีทั้งตัวเลข หน่วยระยะทาง และสัญญาณบอกทิศทาง ฟังหาความเป็นธรรมชาติ สำเนียงที่ถูกต้อง และการออกเสียงที่สะอาด เสียงที่คุณจะไว้ใจที่ความเร็วบนทางด่วนต้องรับมือได้ในสภาพจริง ดังนั้นทดสอบมันในแบบที่คุณจะได้ยินจริงๆ
ตั้งชื่อและบันทึกเสียง พร้อมกับข้อมูลเมตา ตั้งแท็กภาษาและสำเนียงเมื่อคุณบันทึก นี่สำคัญสำหรับขั้นตอนหลายภาษาในภายหลัง — เสียงที่ติดแท็กอย่างเหมาะสมนำกลับมาใช้ใหม่ได้อย่างสะอาดในหลายภาษาในไปป์ไลน์ TTS แพลตฟอร์มการโคลนให้คุณแนบข้อมูลเมตาเชิงบรรยายเพื่อให้บุคลิกภาพเดียวกันดึงกลับมาใช้ได้ง่ายสำหรับชุดเสียงถัดไป

เสียงที่คุณจะไว้ใจที่ความเร็วบนทางด่วนต้องฟังสงบและชัดเจนที่ความเร็วบนทางด่วน — ทดสอบหนึ่งวลีก่อนที่คุณจะสร้างร้อยวลี

Close-up of a laptop screen showing a voice-cloning upload interface with an audio waveform displayed and a "Clone Voice" button, hands resting near the trackpad, soft desk lighting.

นี่คือแก่นของการสร้าง เมื่อเสียงโคลนของคุณพร้อม คุณสร้างทุกวลีที่ Waze คาดหวังเป็นไฟล์เสียงของแต่ละอัน เริ่มด้วยการรู้ว่ารายการทั้งหมดหน้าตาเป็นอย่างไร จัดระเบียบตามหมวดหมู่

หมวดหมู่	ตัวอย่างวลี
คำทักทาย	"เริ่มกันเลย — ขับขี่ปลอดภัยนะ!"
การเลี้ยว	"เลี้ยวซ้าย" "เลี้ยวขวา" "ชิดขวา"
ทางออก & ระยะทาง	"ออกทางออกที่สี่" "อีก 500 ฟุต เลี้ยวซ้าย"
การคำนวณเส้นทางใหม่	"กำลังคำนวณใหม่" "อัปเดตเส้นทางแล้ว"
การแจ้งเตือน	สัญญาณยืนยันกล้อง / อันตราย
การมาถึง	"คุณมาถึงแล้ว"

เมื่อวางแผนหมวดหมู่แล้ว ให้ดำเนินกระบวนการสร้าง:

ดึงรายการคำสั่งที่ต้องมีทั้งหมดจากขั้นตอน Add-a-voice ของ Waze เริ่มเสียงกำหนดเองในแอปและบันทึกตัวยึดตำแหน่งทิ้งเพียงเพื่อเผยทุกช่อง จดแต่ละอันไว้ คุณต้องคำนึงถึงทุกวลี — คำสั่งที่หายไปหมายถึง Waze จะเงียบในสัญญาณนั้น ตามคู่มือของ Popular Science
วางแต่ละวลีลงใน Text to Speech โดยใช้เสียงโคลนของคุณ สร้างทุกประโยคเป็นชุดผ่าน Text to Speech แทนทีละอัน สำหรับใครก็ตามที่เขียนสคริปต์การสร้างที่ทำซ้ำได้ Text to Speech API เปลี่ยนรายการวลีทั้งหมดเป็นการประมวลผลอัตโนมัติเพียงครั้งเดียว
ปรับจังหวะและเครื่องหมายวรรคตอนเพื่อให้วลีระยะทางฟังเป็นธรรมชาติ เขียน "อีก 500 ฟุต… เลี้ยวซ้าย" ด้วยเครื่องหมายจุลภาคหรือจุดไข่ปลาเพื่อควบคุมจังหวะและการหยุด รักษาให้ทุกคลิปอยู่ภายในขีดจำกัดเวลาไม่กี่วินาทีของ Waze — วลีที่ยาวเกินไปจะถูกตัดกลางคำเมื่อโหลดแล้ว
ส่งออกแต่ละประโยคเป็นไฟล์เสียงแยกต่างหาก ตั้งชื่อให้ตรงกับช่องวลีที่ Waze คาดหวังพอดี การจับคู่ชื่อไฟล์นี้เป็นรายละเอียดที่ชี้ขาด การสนทนาในชุมชน GitHub ที่บันทึกวิธีการสลับไฟล์ยืนยันว่า Waze อ่านแต่ละคำสั่งจากชื่อไฟล์ที่แน่นอน ตั้งชื่อผิดอันหนึ่งและสัญญาณนั้นก็จะเงียบไป

ความลับไม่ใช่เสียง — มันคือการตั้งชื่อทุกคลิปให้ตรงกับที่ Waze คาดหวังจะได้ยินพอดี

Infographic: How AI Turns One Sample Into a Full Waze Pack

การโหลดชุดเสียงกำหนดเองของคุณเข้าสู่ Waze (และความจริงในระดับไฟล์)

นี่คือจุดที่ความซื่อสัตย์สำคัญที่สุด มีสองความจริงขึ้นอยู่กับว่าคุณบันทึกสดหรือสร้างเสียงจากภายนอก

เส้นทางที่รองรับ (ในแอป) หากคุณบันทึกสด เส้นทางสะอาดและทำงานได้บนโทรศัพท์เครื่องใดก็ได้: Waze → การตั้งค่า → เสียงและระบบเสียง → เลือกเสียงปัจจุบันของคุณ → "เพิ่มเสียง" → ยอมรับคำเตือนด้านความปลอดภัย → ตั้งชื่อเสียง → บันทึกแต่ละวลีด้วยปุ่มบันทึกสีแดงจนกว่ารายการจะเสร็จ ไม่ต้องเข้าถึง root ไม่ต้องยุ่งวุ่นวาย นี่คือวิธีที่รองรับอย่างเป็นทางการที่ ชุดเสียง waze กำหนดเองเข้าสู่แอป และเป็นเส้นทางที่คนส่วนใหญ่ควรใช้หากการสร้างด้วย AI ไม่ใช่ข้อกำหนดที่จำเป็น

เส้นทางขั้นสูง (เสียงโคลนจากภายนอก) เนื่องจาก Waze ไม่เปิดเผยปุ่มนำเข้าอย่างเป็นทางการ เวิร์กโฟลว์การสลับ MP3 ของชุมชนใช้เส้นทางอ้อม คุณสร้างเสียงกำหนดเองใหม่ บันทึกเสียงตัวยึดตำแหน่งสั้นๆ มากสำหรับทุกวลี บันทึกและตั้งชื่อชุดเสียง จากนั้นเปิดหน้าจอแก้ไขไว้ ในขณะที่ตัวแก้ไขยังทำงานอยู่ คุณใช้ตัวสำรวจไฟล์แบบ root เพื่อแทนที่แต่ละไฟล์ชั่วคราวในไดเรกทอรีคำสั่งกำหนดเองของ Waze — บน Android คือ /data/user/0/com.waze/waze/custom_prompts_temp — สลับไฟล์ MP3 ที่สร้างจากภายนอกเข้าไปในขณะที่รักษาชื่อไฟล์ที่แน่นอนที่ Waze คาดหวัง จงมองข้อกำหนดเบื้องต้นอย่างชัดเจน: สิ่งนี้ต้องการสภาพแวดล้อม Android ที่ root หรือจำลอง และตามการสนทนาในชุมชน GitHub ที่บันทึกวิธีการนี้ ถูกทำเครื่องหมายว่าอาจมีความเสี่ยงต่อบัญชีส่วนตัว มันไม่ใช่ขั้นตอนสำหรับผู้เริ่มต้น และไม่ใช่ขั้นตอนที่เป็นมิตรกับ iOS

การแก้ไขปัญหาข้อบกพร่องทั่วไป:

คำสั่งเงียบ หมายถึงไฟล์ที่หายไปหรือตั้งชื่อผิด ตรวจสอบว่าชื่อไฟล์ตรงกับช่องพอดี — นี่คือสาเหตุที่พบบ่อยที่สุดของชุดเสียงที่เสีย
คลิปที่ถูกตัด เกินขีดจำกัดเวลาต่อคำสั่งของ Waze สร้างประโยคนั้นให้สั้นลงและสลับกลับเข้าไป
ต้องการเปลี่ยนหนึ่งประโยค โดยไม่ต้องสร้างใหม่? เลื่อนรายการเสียงกำหนดเองในเสียงและระบบเสียงเพื่อเผยตัวเลือกการแก้ไขและเขียนทับคลิปเดียวนั้น ตามที่คำแนะนำของ Waze Community อธิบายไว้

A smartphone held in one hand showing the Waze "Voice and sound" settings screen with a voice-selection list visible, car interior softly blurred in the background.

ก้าวไปไกลกว่านั้น: ชุดเสียงหลายภาษาและการแบ่งปันเสียงโคลนเดียว

ชุดเสียงภาษาอังกฤษเดียวคือจุดเริ่มต้น ไม่ใช่เพดาน ผลตอบแทนที่แท้จริงของเส้นทางการโคลนปรากฏขึ้นเมื่อคุณเริ่มนำเสียงนั้นกลับมาใช้ใหม่

เสียงเดียว หลายภาษา เนื่องจากเสียงโคลนอยู่ภายในไปป์ไลน์ TTS คุณสามารถสร้างรายการวลีนำทางเดียวกันในภาษาเพิ่มเติมโดยใช้บุคลิกภาพโคลนเดียวกัน การบันทึกด้วยมือไม่เคยทำให้เรื่องนี้เป็นไปได้จริง — คุณจะต้องบันทึกทุกคำสั่งใหม่ ในทุกภาษา ด้วยเสียงที่ต้องคงความสม่ำเสมออย่างใดอย่างหนึ่งในทุกภาษา แพลตฟอร์มการโคลนให้คุณเลือกภาษาและสำเนียงเมื่อคุณนำเสียงกลับมาใช้ใหม่ ดังนั้นบุคลิกภาพจึงถ่ายทอดไปด้วย ด้วยการปรับให้เข้ากับท้องถิ่นเป็น 33 ภาษาเป้าหมายที่มีให้ผ่าน AI Dubbing บุคลิกภาพที่บันทึกไว้หนึ่งอันสามารถบรรยายการขับขี่เดียวกันในหลายตลาด สร้างชุดเสียงภาษาอังกฤษ จากนั้นรันรายการวลีเหมือนกันผ่านภาษาเพิ่มเติมและคุณได้สร้างชุดเสียงห้าชุดจากเซสชันการบันทึกเดียว

ชุดเสียงสำหรับครอบครัวและกองยานพาหนะ ความสามารถในการนำกลับมาใช้ใหม่เดียวกันเปิดโอกาสให้เสียงนอกเหนือจากของคุณเอง สร้างชุดเสียงด้วยเสียงของสมาชิกในครอบครัว — โดยแต่ละคนบันทึกตัวอย่าง 20 วินาทีของตัวเองและให้ความยินยอมอย่างชัดเจน — เพื่อให้เด็กๆ ได้ยินทิศทางของพ่อแม่ในการเดินทาง ธุรกิจสามารถไปได้ไกลกว่านั้น: เสียงนำทางที่มีแบรนด์สำหรับกองยานพาหนะจัดส่ง บริษัทสอนขับรถ หรือธุรกิจไรด์แชร์ สำหรับทีมที่สร้างสิ่งนี้ในขนาดใหญ่ AI Dubbing API ให้นักพัฒนาเชื่อมโยงกระบวนการสร้างและปรับให้เข้ากับท้องถิ่นทั้งหมดเข้ากับระบบที่มีอยู่แทนที่จะทำด้วยมือ

เก็บเทมเพลตรายการวลีที่นำกลับมาใช้ใหม่ได้ นี่คือสินทรัพย์ที่ทวีคูณ: เมื่อคุณรวบรวมรายการวลีหลักและแผนที่ชื่อไฟล์แล้ว คุณสามารถสร้างชุดเสียงทั้งหมดใหม่ได้ในไม่กี่นาทีสำหรับเสียงหรือภาษาใหม่ใดก็ตาม เทมเพลต — วลีที่แน่นอนบวกกับชื่อไฟล์ที่แน่นอนที่ Waze คาดหวัง — มีค่ามากกว่าชุดเสียงเดียวใดก็ตาม สร้างมันอย่างระมัดระวังครั้งเดียวและทุกชุดเสียงในอนาคตก็เป็นงานที่รวดเร็ว

วินัยเรื่องความยินยอมและการจัดเก็บ ปฏิบัติต่อเสียงโคลนเสมือนข้อมูลชีวมิติที่ละเอียดอ่อน ลายเสียงถูกใช้เพิ่มขึ้นสำหรับการยืนยันตัวตน ซึ่งเป็นเหตุผลที่ Daniel Kahn Gillmor นักเทคโนโลยีอาวุโสของ ACLU กระตุ้นให้นักออกแบบจำกัดวิธีการเก็บและแบ่งปันเสียงโคลน ความยินยอมและการติดฉลากที่ชัดเจนคือสิ่งที่แยกการปรับให้เป็นส่วนตัวอย่างมีจริยธรรมออกจากการใช้ผิด — Sam Gregory จาก WITNESS องค์กรไม่แสวงหากำไรด้านสิทธิมนุษยชนกำหนดความแตกต่างว่าเป็นเรื่องของความยินยอมและบริบท: เสียงโคลนของตัวคุณเองที่ติดฉลากอย่างชัดเจนอยู่ห่างไกลกันคนละโลกจากเครื่องมือที่สร้างขึ้นเพื่อปลอมตัวเป็นคนอื่นเพื่อผลประโยชน์ Hany Farid นักวิจัยดีปเฟกจาก UC Berkeley ได้เตือนว่าสื่อสังเคราะห์กำลังกลายเป็น "ราคาถูก รวดเร็ว และง่าย" ซึ่งเป็นเหตุผลว่าทำไมวินัยจึงสำคัญแม้แต่สำหรับโปรเจกต์นำทางที่ไม่เป็นอันตราย กฎในทางปฏิบัติยังคงเรียบง่าย: เสียงของคุณเองไม่มีปัญหา เสียงของคนอื่นต้องได้รับอนุญาตอย่างชัดเจน

ทำไมเวิร์กโฟลว์ที่รวมกันจึงสำคัญ ทางเลือกด้วยมือคือการจัดการเครื่องมือแยกกัน — หนึ่งสำหรับการโคลน อีกอันสำหรับ TTS อีกอันสำหรับการแปล — และเย็บผลลัพธ์เข้าด้วยกันด้วยมือ เวิร์กโฟลว์เดียวที่จับคู่ Voice Cloning กับ Text to Speech และการปรับให้เข้ากับท้องถิ่นคือเหตุผลที่คุณไม่ต้องรันเครื่องมือห้าอันพร้อมกัน เสียงเดียว โคลนครั้งเดียว นำกลับมาใช้ใหม่ได้ทุกที่

เสียงเดียว โคลนครั้งเดียว สามารถบรรยายการขับขี่เดียวกันในสามสิบสามภาษา — นั่นคือส่วนที่การบันทึกด้วยมือไม่เคยทำให้เป็นไปได้

Infographic: One Cloned Voice, Many Language Packs

รายการตรวจสอบการสร้างชุดเสียง Waze กำหนดเองของคุณ

ดำเนินลำดับนี้จากบนลงล่างและคุณจะมี ชุดเสียง waze ที่เสร็จสมบูรณ์โดยไม่ต้องผ่านมาราธอนการบันทึก แต่ละขั้นตอนเป็นการกระทำที่เป็นรูปธรรมและเดียว

บันทึกตัวอย่างที่สะอาด 20 วินาที — ห้องเงียบ จังหวะเป็นธรรมชาติ ไม่มีเพลงหรือเสียงพื้นหลัง
สร้างเสียงโคลน — อัปโหลดตัวอย่าง รอการประมวลผล จากนั้นสร้างวลีทดสอบเพื่อยืนยันคุณภาพก่อนที่คุณจะไปต่อ
ดึงรายการวลีหลักของ Waze — เริ่มเสียงกำหนดเองในแอป จดทุกช่องคำสั่งที่ต้องมี และอย่าปล่อยให้อะไรหลุดไป
สร้างทุกวลีเป็นชุดด้วย Text to Speech — ใช้เสียงโคลนของคุณ ปรับแต่งจังหวะและให้พอดีกับขีดจำกัดเวลาต่อคลิปของ Waze
ตั้งชื่อทุกไฟล์ตามข้อกำหนด — ให้ตรงกับชื่อไฟล์ที่แน่นอนของ Waze นี่คือจุดที่ชุดเสียงพัง ดังนั้นตรวจสอบซ้ำ
โหลดเข้าสู่ Waze — บันทึกสดในแอปสำหรับเส้นทางที่สะอาดและรองรับ หรือ (ขั้นสูง) สลับไฟล์ผ่านไดเรกทอรีคำสั่งกำหนดเองบนการตั้งค่า Android ที่ root
ทดสอบขับและสร้างประโยคที่ฟังแปลกๆ ใหม่ — ฟังที่ความเร็วการขับขี่จริงและเขียนทับคลิปใดๆ ที่ถูกตัด จับเวลาผิด หรือไม่เป็นธรรมชาติ
(ทางเลือก) ทำซ้ำในภาษาเพิ่มเติม — นำเสียงโคลนเดียวกันกลับมาใช้เพื่อสร้างชุดเสียงในภาษาเป้าหมายอื่นจากเทมเพลตวลีเหมือนกัน

ทั้งหมดเริ่มต้นด้วยการบันทึกครั้งเดียว วางโทรศัพท์ของคุณไว้ที่ไหนสักที่ที่เงียบและ บันทึกตัวอย่าง 20 วินาทีแรกนั้น ตอนนี้ — ทุกอย่างที่เหลือตามมาจากมัน

คำถามที่พบบ่อยเกี่ยวกับเสียงกำหนดเองของ Waze

การโคลนเสียงของใครสำหรับชุดเสียง Waze ของฉันถูกกฎหมายหรือไม่? การโคลนเสียงของคุณเองสำหรับการนำทางส่วนตัวไม่มีปัญหา การโคลนของคนอื่นต้องได้รับความยินยอมอย่างชัดเจน FTC เน้นว่า "ไม่มีข้อยกเว้นสำหรับ AI จากกฎหมายที่มีอยู่" และรัฐอย่าง Tennessee — ผ่าน ELVIS Act ที่ FTC ได้อ้างถ