Đã xuất bản July 05, 2026•~25 Thời gian đọc

Cách tạo gói giọng nói Waze tùy chỉnh bằng công nghệ nhân bản giọng nói AI

Bạn đã lướt qua tất cả các tùy chọn giọng nói người nổi tiếng và mới lạ mà Waze cung cấp — Boy George, các đoạn nhân vật phim, các danh hài — và giờ bạn muốn thứ gì đó cá nhân hơn. Chính giọng nói của bạn hướng dẫn hành trình đi làm. Hoặc giọng của một thành viên trong gia đình. Đó là lúc gói giọng nói waze trở nên thú vị, và cũng là nơi hầu hết các nỗ lực tự làm sụp đổ. Trình ghi âm giọng nói tùy chỉnh tích hợp sẵn của Waze buộc bạn phải ngồi chờ đồng hồ đếm ngược và đọc to từng lời nhắc điều hướng, từng cái một, theo hướng dẫn từng bước của Popular Science. Bỏ qua một lời nhắc và bạn sẽ nhận được một khoảng lặng ngay lúc bạn cần hướng dẫn. Hầu hết các gói tự chế đều "chết" đâu đó quanh câu thứ chín mươi bảy, khi giọng người đọc đã khản đặc và sự nhiệt tình đã cạn kiệt. Nhân bản giọng nói bằng AI đảo ngược khối lượng công việc: ghi lại một mẫu sạch dài 20 giây, sau đó tạo hàng loạt mọi cụm từ Waze cần — không có phiên marathon, không có mệt mỏi. Đến cuối bài này, bạn sẽ có mọi cụm từ điều hướng được tạo bằng chính giọng nói nhân bản của mình, sẵn sàng để tải. Chúng tôi cũng sẽ nói thẳng về bước tải này, vì Waze không có nút nhập chính thức và bức tranh trung thực bao gồm những lưu ý thực tế.

Overhead flat-lay on a wooden desk — a smartphone displaying a Waze turn-by-turn navigation screen, a USB condenser microphone on a small stand, a pop filter, and a handwritten notepad listing navigation phrases ("Turn left," "Recalcul

Mục Lục

Gói Giọng Nói Waze Thực Sự Yêu Cầu Những Gì (Trước Khi Bạn Ghi Âm Bất Cứ Điều Gì)
Chọn Nguồn Giọng Nói: Ghi Trực Tiếp Trong Waze so với Nhân Bản Bằng AI
Nhân Bản Giọng Nói Của Bạn Từ Mẫu 20 Giây
Tạo Mọi Cụm Từ Điều Hướng Mà Waze Cần
Tải Gói Tùy Chỉnh Của Bạn Vào Waze (và Thực Tế Cấp Độ Tập Tin)
Tiến Xa Hơn: Gói Đa Ngôn Ngữ và Chia Sẻ Một Giọng Nói Nhân Bản
Danh Sách Kiểm Tra Xây Dựng Gói Giọng Nói Waze Tùy Chỉnh Của Bạn
Câu Hỏi Thường Gặp Về Giọng Nói Tùy Chỉnh Của Waze

Gói Giọng Nói Waze Thực Sự Yêu Cầu Những Gì (Trước Khi Bạn Ghi Âm Bất Cứ Điều Gì)

Trước khi bạn chạm vào micro, hãy hiểu rõ bạn thực sự đang xây dựng cái gì. Gói giọng nói Waze không phải là một AI biết nói — mà là một thư viện cố định các đoạn clip được ghi sẵn, được gắn vào các thời điểm điều hướng cụ thể. Nắm đúng mô hình tư duy đó giúp bạn tránh kỳ vọng những điều mà Waze đơn giản là không làm được.

Đó là một thư viện cụm từ cố định, không phải AI biết nói. Tính năng giọng nói tùy chỉnh của Waze về cơ bản là sự thay thế bằng bản ghi âm giọng nói. Ứng dụng phát lại chính xác đoạn clip mà bạn đã cung cấp cho mỗi vị trí nhắc. Nó không chạy một mô hình để phát âm tên đường phố tùy ý bằng giọng của bạn. Giọng nói tùy chỉnh chỉ bao gồm các tín hiệu điều hướng cốt lõi — rẽ, lối ra, khoảng cách, cảnh báo cơ bản, và đến nơi. Tên đường và văn bản động vẫn quay về giọng hệ thống mặc định. Vì vậy, giọng nhân bản của bạn nói "Trong 500 feet, rẽ trái," và giọng mặc định xử lý "vào Đại lộ Biscayne." Biết điều này trước giúp giữ kỳ vọng của bạn thực tế.

Danh sách lời nhắc là toàn diện và bắt buộc. Theo hướng dẫn từng bước về quy trình ghi âm của Waze từ Popular Science, danh sách bắt buộc trải dài từ các lời chào như "Hãy bắt đầu nào — lái xe an toàn nhé!", các hướng dẫn định hướng như "Đi vào lối ra thứ tư" và "Rẽ trái," các tín hiệu tính toán lại, và các thông báo đến nơi. Các hướng dẫn nhấn mạnh rằng bạn phải hoàn thành toàn bộ danh sách bắt buộc. Để trống lời nhắc và bạn sẽ nghe thấy sự im lặng tại chính những thời điểm điều hướng đó.

Mỗi đoạn clip đều bị giới hạn thời gian. Waze hiển thị đồng hồ đếm ngược trong khi ghi âm và áp dụng giới hạn thời gian cho từng lời nhắc. Mỗi cụm từ phải gói gọn trong vài giây, nếu không nó sẽ bị cắt giữa chừng. Điều này buộc phải truyền đạt súc tích, điều quan trọng sau này khi bạn điều chỉnh âm thanh được tạo ra để khớp với những khung thời gian đó.

Waze không có nút "nhập MP3 của tôi" chính thức. Ứng dụng chỉ cho phép ghi âm trong ứng dụng. Bất kỳ cách nào sử dụng âm thanh được tạo ra từ bên ngoài — bao gồm các đoạn clip TTS nhân bản bằng AI — đều dựa vào các giải pháp thay thế ở cấp độ tập tin, chứ không phải một tính năng được hỗ trợ. Chúng tôi sẽ nói thẳng về điều này xuyên suốt. Nếu bạn muốn con đường được hỗ trợ chính thức, bạn ghi âm trực tiếp. Nếu bạn muốn con đường tạo bằng AI, có một bước chèn nâng cao với những điều kiện tiên quyết thực sự.

Bạn có thể chỉnh sửa từng đoạn clip riêng lẻ sau này. Bạn không bị khóa chặt vào một lần xây dựng duy nhất. Quay lại phần Giọng nói và âm thanh, trượt mục giọng nói tùy chỉnh để hiện các tùy chọn, và ghi lại các lời nhắc cụ thể mà không cần xây dựng lại toàn bộ gói. Các chủ đề hỗ trợ trên Waze Community xác nhận quy trình chỉnh sửa từng clip này, một điều nhẹ nhõm khi lần đầu tiên một cụm từ bị sai.

Chọn Nguồn Giọng Nói: Ghi Trực Tiếp Trong Waze so với Nhân Bản Bằng AI

Có hai con đường khả thi dẫn đến một gói hoàn chỉnh. Bạn ghi âm mọi cụm từ trực tiếp bên trong Waze, hoặc bạn nhân bản một giọng nói một lần và tạo hàng loạt mọi cụm từ dưới dạng chuyển văn bản thành giọng nói. Đây là cách chúng so sánh trên những yếu tố thực sự quyết định cuối tuần của bạn.

Yếu tố	Ghi Trực Tiếp Trong Waze	Nhân Bản Giọng Nói AI + TTS
Thời gian hoàn thành toàn bộ danh sách	Dài — đọc từng lời nhắc dưới đồng hồ đếm ngược	Nhanh — nhân bản một lần, tạo hàng loạt
Sự nhất quán giữa các cụm từ	Giảm dần khi bạn mệt giữa danh sách	Giọng điệu và nhịp độ đồng nhất xuyên suốt
Sửa lỗi	Ghi lại đoạn clip đó thủ công	Tạo lại dòng đó từ văn bản
Sử dụng giọng nói của người khác	Chỉ khi có mặt để ghi trực tiếp	Có thể từ một mẫu — cần sự đồng ý
Mở rộng ra nhiều ngôn ngữ	Không thực tế (ghi lại theo từng ngôn ngữ)	Một giọng tạo ra nhiều ngôn ngữ
Tải vào Waze	Được hỗ trợ đầy đủ, trong ứng dụng	Cần giải pháp thay thế ở cấp độ tập tin

Sự đánh đổi trung thực nằm ở hàng cuối cùng đó. Ghi âm trực tiếp là con đường được hỗ trợ chính thức vào Waze — sạch sẽ, không cần quyền root, hoạt động trên bất kỳ điện thoại nào. Âm thanh nhân bản thắng về sự nhất quán và khối lượng nhưng cần một bước chèn không được hỗ trợ. Hãy chọn dựa trên nỗi đau mà bạn muốn chấp nhận hơn: cuộc marathon ghi âm, hay việc mày mò ở cấp độ tập tin.

Đối với hầu hết mọi người xây dựng một gói đầy đủ, nhân bản giọng nói bằng AI là cách sử dụng thời gian tốt hơn. Bạn không bao giờ mệt mỏi, mọi đoạn clip đều khớp nhau về giọng điệu và nhịp độ, và sửa một dòng tệ có nghĩa là chỉnh sửa văn bản chứ không phải ghi lại dưới đồng hồ đếm ngược. Riêng sự nhất quán thôi cũng đã đáng giá — một gói mà cụm từ thứ ba và cụm từ thứ chín mươi nghe giống hệt nhau tạo cảm giác chuyên nghiệp theo cách mà một phiên thủ công hiếm khi đạt được.

Có một ranh giới đạo đức đáng gọi tên ở đây. Nhân bản giọng nói của chính bạn để cá nhân hóa rõ ràng là ổn. Nhân bản giọng của người khác cần sự đồng ý rõ ràng. Các cơ quan quản lý coi giọng nói là một phần diện mạo được bảo vệ của một người — FTC tham chiếu Đạo luật ELVIS của Tennessee về điểm này — và theo hướng dẫn của FTC về nhân bản giọng nói bằng AI, "không có ngoại lệ AI nào đối với các luật đã ban hành." Hãy ghi nhớ điều đó nếu bạn đang xây dựng một gói bằng giọng của bạn bè hoặc thành viên trong gia đình. Chúng tôi đề cập đầy đủ khía cạnh đạo đức trong phần Câu hỏi thường gặp.

Ghi âm một trăm cụm từ điều hướng trong một lần ngồi là nơi hầu hết các gói giọng nói tự làm "chết" — một bản nhân bản AI không bao giờ mệt ở cụm từ thứ chín mươi bảy.

Nhân Bản Giọng Nói Của Bạn Từ Mẫu 20 Giây

Bước nhân bản là phần thực sự khả thi của dự án này. Các công cụ nhân bản tức thì hiện đại đã thu gọn những gì từng cần một phiên phòng thu thành vài phút thiết lập. Đây là trình tự.

Thu một mẫu sạch. Tìm một căn phòng yên tĩnh, được giảm âm — đồ nội thất mềm, cửa sổ đóng, không có tiếng ù của điều hòa. Không nhạc, không tiếng ồn nền. Nói với nhịp độ tự nhiên, đều đặn, theo cách bạn thực sự chỉ đường. Có một khoảng cách thực tế đáng biết: nhiều nhà cung cấp, bao gồm cả hướng dẫn huấn luyện của LALAL.AI, khuyến nghị 10–50 phút âm thanh cho các mô hình độ trung thực cao nhất. Nhưng các công cụ nhân bản tức thì hiện đại tạo ra giọng nói dùng được từ chỉ 20 giây đến một phút, một điểm mà các dịch vụ nhân bản mẫu ngắn như NoteGPT nêu rõ. Mẫu ngắn đánh đổi một chút nhất quán để đạt được lợi ích tốc độ khổng lồ — lựa chọn đúng đắn cho một gói điều hướng.
Tải lên công cụ nhân bản giọng nói. Thả tập tin mẫu của bạn vào giao diện nhân bản và chờ mô hình xử lý nó. Đây là nơi tùy chọn nhanh-từ-20-giây có lợi — nhân bản giọng nói của bạn từ một đoạn clip ngắn thay vì dành cả một giờ để đọc. Các nhà phát triển tự động hóa việc xây dựng nhiều giọng có thể vận hành cùng một quy trình thông qua API Nhân Bản Giọng Nói thay vì giao diện.
Xác minh chất lượng. Trước khi cam kết tạo một trăm đoạn clip, hãy tạo một cụm từ thử nghiệm — "Trong 500 feet, rẽ trái" là lý tưởng vì nó chứa một con số, một đơn vị khoảng cách, và một tín hiệu định hướng. Lắng nghe tính tự nhiên, giọng chính xác, và cách phát âm rõ ràng. Một giọng nói mà bạn sẽ tin tưởng ở tốc độ cao tốc phải trụ vững trong điều kiện thực tế, vì vậy hãy nghe thử nó theo cách bạn thực sự sẽ nghe.
Đặt tên và lưu giọng nói, kèm siêu dữ liệu. Đặt các thẻ ngôn ngữ và giọng khi bạn lưu. Điều này quan trọng cho bước đa ngôn ngữ sau này — một giọng được gắn thẻ đúng cách tái sử dụng gọn gàng qua các ngôn ngữ trong một quy trình TTS. Các nền tảng nhân bản cho phép bạn đính kèm siêu dữ liệu mô tả để cùng một nhân dạng dễ dàng được gọi lại cho gói tiếp theo.

Một giọng nói mà bạn sẽ tin tưởng ở tốc độ cao tốc phải nghe bình tĩnh và rõ ràng ở tốc độ cao tốc — thử nghiệm một cụm từ trước khi bạn tạo một trăm.

Close-up of a laptop screen showing a voice-cloning upload interface with an audio waveform displayed and a "Clone Voice" button, hands resting near the trackpad, soft desk lighting.

Đây là phần cốt lõi của việc xây dựng. Khi bản nhân bản của bạn sẵn sàng, bạn tạo mọi cụm từ Waze mong đợi thành tập tin âm thanh riêng của nó. Hãy bắt đầu bằng cách biết toàn bộ danh sách trông như thế nào, được tổ chức theo danh mục.

Danh mục	Ví dụ cụm từ
Lời chào	"Hãy bắt đầu nào — lái xe an toàn nhé!"
Rẽ	"Rẽ trái," "Rẽ phải," "Giữ bên phải"
Lối ra & khoảng cách	"Đi vào lối ra thứ tư," "Trong 500 feet, rẽ trái"
Tính toán lại	"Đang tính toán lại," "Đã cập nhật lộ trình"
Cảnh báo	Tín hiệu xác nhận camera / nguy hiểm
Đến nơi	"Bạn đã đến nơi"

Với các danh mục đã được lập bản đồ, hãy chạy quy trình tạo:

Rút danh sách lời nhắc bắt buộc đầy đủ từ quy trình Thêm-một-giọng của Waze. Bắt đầu một giọng nói tùy chỉnh trong ứng dụng và ghi những đoạn tạm thời bỏ đi chỉ để hiển thị mọi vị trí. Ghi lại từng cái. Bạn phải tính đến mọi cụm từ — một lời nhắc bị thiếu có nghĩa là Waze sẽ im lặng ở tín hiệu đó, theo hướng dẫn từng bước của Popular Science.
Dán từng cụm từ vào Chuyển Văn Bản Thành Giọng Nói bằng giọng nhân bản của bạn. Tạo hàng loạt tất cả các dòng thông qua Chuyển Văn Bản Thành Giọng Nói thay vì từng cái một. Đối với bất kỳ ai viết kịch bản cho một quá trình xây dựng có thể lặp lại, API Chuyển Văn Bản Thành Giọng Nói biến toàn bộ danh sách cụm từ thành một lượt tự động duy nhất.
Điều chỉnh nhịp độ và dấu câu để các cụm từ khoảng cách nghe tự nhiên. Viết "Trong 500 feet… rẽ trái" với dấu phẩy hoặc dấu ba chấm để kiểm soát nhịp điệu và khoảng ngừng. Giữ mọi đoạn clip trong giới hạn vài giây của Waze — một cụm từ chạy dài sẽ bị cắt giữa chừng khi được tải lên.
Xuất mỗi dòng thành một tập tin âm thanh riêng, được đặt tên chính xác khớp với vị trí cụm từ mà Waze mong đợi. Việc khớp tên tập tin này là chi tiết quyết định thành bại. Thảo luận cộng đồng trên GitHub ghi lại cách tiếp cận hoán đổi tập tin xác nhận rằng Waze đọc mỗi lời nhắc bằng tên tập tin chính xác của nó. Sai một cái và tín hiệu đó sẽ im lặng.

Bí quyết không phải là giọng nói — mà là đặt tên mỗi đoạn clip chính xác theo cách Waze mong đợi được nghe.

Infographic: How AI Turns One Sample Into a Full Waze Pack

Tải Gói Tùy Chỉnh Của Bạn Vào Waze (và Thực Tế Cấp Độ Tập Tin)

Đây là nơi sự trung thực quan trọng nhất. Có hai thực tế tùy thuộc vào việc bạn đã ghi trực tiếp hay tạo âm thanh từ bên ngoài.

Con đường được hỗ trợ (trong ứng dụng). Nếu bạn ghi trực tiếp, lộ trình sạch sẽ và hoạt động trên bất kỳ điện thoại nào: Waze → Cài đặt → Giọng nói và âm thanh → chọn giọng nói hiện tại của bạn → "Thêm một giọng" → chấp nhận cảnh báo an toàn → đặt tên giọng nói → ghi âm từng cụm từ bằng nút ghi màu đỏ cho đến khi danh sách hoàn thành. Không cần quyền root, không mày mò. Đây là cách được hỗ trợ chính thức để các gói giọng nói waze tùy chỉnh vào ứng dụng, và đây là con đường mà hầu hết mọi người nên chọn nếu việc tạo bằng AI không phải là yêu cầu bắt buộc.

Con đường nâng cao (âm thanh nhân bản từ bên ngoài). Vì Waze không cung cấp nút nhập chính thức, các quy trình hoán đổi MP3 của cộng đồng đi theo một lộ trình vòng vèo. Bạn tạo một giọng nói tùy chỉnh mới, ghi âm thanh giữ chỗ rất ngắn cho mọi cụm từ, lưu và đặt tên gói, sau đó giữ màn hình chỉnh sửa mở. Với trình chỉnh sửa vẫn đang hoạt động, bạn sử dụng một trình khám phá tập tin root để thay thế từng tập tin tạm thời trong thư mục lời nhắc tùy chỉnh của Waze — trên Android, /data/user/0/com.waze/waze/custom_prompts_temp — hoán đổi vào các tập tin MP3 được tạo từ bên ngoài của bạn trong khi giữ chính xác các tên tập tin mà Waze mong đợi. Hãy nhìn rõ về các điều kiện tiên quyết: điều này cần một môi trường Android đã root hoặc mô phỏng và, theo thảo luận cộng đồng trên GitHub ghi lại phương pháp này, được đánh dấu là có khả năng rủi ro cho các tài khoản cá nhân. Đây không phải là bước dành cho người mới bắt đầu, và cũng không thân thiện với iOS.

Khắc phục các lỗi phổ biến:

Lời nhắc im lặng có nghĩa là một tập tin bị thiếu hoặc bị dán nhãn sai. Xác minh tên tập tin khớp chính xác với vị trí — đây là nguyên nhân thường gặp nhất của một gói bị hỏng.
Một đoạn clip bị cắt đã vượt quá giới hạn thời gian cho mỗi lời nhắc của Waze. Tạo lại dòng đó ngắn hơn và hoán đổi nó trở lại.
Muốn thay đổi một dòng mà không xây dựng lại? Trượt mục giọng nói tùy chỉnh trong Giọng nói và âm thanh để hiển thị các tùy chọn chỉnh sửa và ghi đè đoạn clip đơn lẻ đó, như hướng dẫn của Waze Community mô tả.

A smartphone held in one hand showing the Waze "Voice and sound" settings screen with a voice-selection list visible, car interior softly blurred in the background.

Tiến Xa Hơn: Gói Đa Ngôn Ngữ và Chia Sẻ Một Giọng Nói Nhân Bản

Một gói tiếng Anh duy nhất là điểm khởi đầu, không phải giới hạn. Phần thưởng thực sự của con đường nhân bản xuất hiện khi bạn bắt đầu tái sử dụng giọng nói đó.

Một giọng nói, nhiều ngôn ngữ. Vì một giọng nói nhân bản nằm bên trong một quy trình TTS, bạn có thể tạo cùng một danh sách cụm từ điều hướng bằng các ngôn ngữ bổ sung sử dụng cùng một nhân dạng nhân bản. Ghi âm thủ công không bao giờ khiến điều này trở nên thực tế — bạn sẽ phải ghi lại mọi lời nhắc, bằng mọi ngôn ngữ, bằng một giọng nói mà bằng cách nào đó phải giữ nhất quán trên tất cả chúng. Các nền tảng nhân bản cho phép bạn chọn ngôn ngữ và giọng khi bạn tái sử dụng một giọng nói, để nhân dạng được chuyển qua. Với khả năng bản địa hóa sang 33 ngôn ngữ đích thông qua Lồng Tiếng AI, một nhân dạng được ghi âm có thể thuyết minh cùng một hành trình trên nhiều thị trường. Tạo gói tiếng Anh, sau đó chạy cùng một danh sách cụm từ qua các ngôn ngữ bổ sung và bạn đã xây dựng năm gói từ một phiên ghi âm.

Gói cho gia đình và đội xe. Cùng khả năng tái sử dụng đó mở ra các giọng nói ngoài giọng của chính bạn. Xây dựng một gói bằng giọng của một thành viên trong gia đình — với mỗi người ghi mẫu 20 giây của riêng họ và đưa ra sự đồng ý rõ ràng — để bọn trẻ nghe được chỉ dẫn của cha mẹ trong một chuyến đi đường dài. Các doanh nghiệp có thể đi xa hơn: một giọng nói điều hướng có thương hiệu cho một đội xe giao hàng, một công ty dạy lái xe, hoặc một hoạt động chia sẻ xe. Đối với các nhóm xây dựng điều này ở quy mô lớn, một API Lồng Tiếng AI cho phép các nhà phát triển kết nối toàn bộ quy trình tạo-và-bản-địa-hóa vào một hệ thống hiện có thay vì làm thủ công.

Giữ một mẫu danh sách cụm từ có thể tái sử dụng. Đây là tài sản tích lũy giá trị: một khi bạn đã lắp ráp danh sách cụm từ chính và bản đồ tên tập tin, bạn có thể tạo lại toàn bộ một gói trong vài phút cho bất kỳ giọng nói hoặc ngôn ngữ mới nào. Mẫu — các cụm từ chính xác cộng với các tên tập tin chính xác mà Waze mong đợi — có giá trị hơn bất kỳ gói đơn lẻ nào. Xây dựng nó cẩn thận một lần và mọi gói trong tương lai là một công việc nhanh chóng.

Kỷ luật về sự đồng ý và lưu trữ. Hãy đối xử với các giọng nói nhân bản như dữ liệu sinh trắc học nhạy cảm. Dấu giọng nói ngày càng được sử dụng để xác thực, đó là lý do tại sao nhà công nghệ cấp cao của ACLU Daniel Kahn Gillmor kêu gọi các nhà thiết kế giới hạn cách các giọng nói nhân bản được lưu trữ và chia sẻ. Sự đồng ý và ghi nhãn rõ ràng là những gì phân biệt cá nhân hóa có đạo đức với lạm dụng — Sam Gregory của tổ chức phi lợi nhuận về nhân quyền WITNESS định hình sự khác biệt là một trong những vấn đề của sự đồng ý và bối cảnh: một bản nhân bản được ghi nhãn rõ ràng của chính giọng nói bạn khác xa với một công cụ được xây dựng để mạo danh ai đó nhằm trục lợi. Nhà nghiên cứu deepfake của UC Berkeley Hany Farid đã cảnh báo rằng phương tiện tổng hợp đang trở nên "rẻ, nhanh, và dễ dàng," đó chính xác là lý do tại sao kỷ luật vẫn quan trọng ngay cả đối với một dự án điều hướng vô hại. Quy tắc thực tế vẫn đơn giản: giọng nói của chính bạn là ổn, giọng của người khác cần sự cho phép rõ ràng.

Tại sao một quy trình làm việc hợp nhất lại quan trọng. Giải pháp thay thế thủ công là xoay xở với các công cụ riêng biệt — một để nhân bản, một khác cho TTS, một khác cho dịch thuật — và ghép các kết quả đầu ra của chúng lại với nhau bằng tay. Một quy trình làm việc duy nhất kết hợp Nhân Bản Giọng Nói với Chuyển Văn Bản Thành Giọng Nói và bản địa hóa là lý do tại sao bạn không chạy năm công cụ song song. Một giọng nói, được nhân bản một lần, được tái sử dụng ở mọi nơi.

Một giọng nói, được nhân bản một lần, có thể thuyết minh cùng một hành trình bằng ba mươi ba ngôn ngữ — đó là phần mà ghi âm thủ công không bao giờ khiến trở nên khả thi.

Infographic: One Cloned Voice, Many Language Packs

Danh Sách Kiểm Tra Xây Dựng Gói Giọng Nói Waze Tùy Chỉnh Của Bạn

Chạy trình tự này từ trên xuống dưới và bạn sẽ hoàn thành gói giọng nói waze mà không cần cuộc marathon ghi âm. Mỗi bước là một hành động đơn lẻ, cụ thể.

Ghi một mẫu sạch dài 20 giây — phòng yên tĩnh, nhịp độ tự nhiên, không nhạc hoặc tiếng ồn nền.
Tạo bản nhân bản — tải mẫu lên, chờ xử lý, rồi tạo một cụm từ thử nghiệm để xác nhận chất lượng trước khi đi xa hơn.
Rút danh sách cụm từ chính của Waze — bắt đầu một giọng nói tùy chỉnh trong ứng dụng, ghi chú mọi vị trí lời nhắc bắt buộc, và không bỏ sót cái nào.
Tạo hàng loạt tất cả cụm từ bằng Chuyển Văn Bản Thành Giọng Nói — sử dụng giọng nhân bản của bạn, được điều chỉnh về nhịp độ và để phù hợp với giới hạn thời gian cho mỗi clip của Waze.
Đặt tên mọi tập tin theo đúng quy cách — khớp chính xác với các tên tập tin của Waze. Đây là nơi các gói bị hỏng, vì vậy hãy kiểm tra kỹ.
Tải vào Waze — ghi trực tiếp trong ứng dụng cho con đường được hỗ trợ sạch sẽ, hoặc (nâng cao) hoán đổi các tập tin qua thư mục lời nhắc tùy chỉnh trên một thiết lập Android đã root.
Lái thử và tạo lại các dòng khó nghe — nghe ở tốc độ lái xe thực tế và ghi đè bất kỳ đoạn clip nào bị cắt, sai thời điểm, hoặc không tự nhiên.
(Tùy chọn) Nhân đôi bằng các ngôn ngữ bổ sung — tái sử dụng cùng một bản nhân bản để tạo các gói bằng các ngôn ngữ đích khác từ mẫu cụm từ giống hệt.

Tất cả bắt đầu với một bản ghi âm. Đặt điện thoại của bạn ở nơi yên tĩnh và ghi mẫu 20 giây đầu tiên đó ngay bây giờ — mọi thứ khác đều theo sau từ đó.

Câu Hỏi Thường Gặp Về Giọng Nói Tùy Chỉnh Của Waze

Việc nhân bản giọng nói của ai đó cho gói Waze của tôi có hợp pháp không? Nhân bản giọng nói của chính bạn cho điều hướng cá nhân là ổn. Nhân bản giọng của người khác cần sự đồng ý rõ ràng. FTC nhấn mạnh rằng "không có ngoại lệ AI nào đối với các luật đã ban hành," và các tiểu bang như Tennessee — thông qua Đạo luật ELVIS mà FTC đã trích dẫn — coi giọng nói là diện mạo được bảo vệ. Hơn 75.000 người tiêu dùng đã ký một bản kiến nghị năm 2025, do nhóm vận động của Consumer Reports tổ chức, kêu gọi FTC trấn áp gian lận nhân bản giọng nói, vì vậy việc lạm dụng được coi trọng. Đối với một gói cá nhân bằng giọng nói của chính bạn, không có điều nào trong số này là rào cản. Đối với giọng nói của bất kỳ ai khác, hãy xin phép rõ ràng trước.

Tôi vẫn có thể dùng trình ghi âm tích hợp của Waze để tạo giọng nói không? Có. Trình ghi âm "Thêm một giọng" trong ứng dụng dưới phần Giọng nói và âm thanh vẫn hoạt động chính xác như trước — bạn ghi từng lời nhắc trực tiếp trong đồng hồ đếm ngược. Con đường AI không thay thế tính năng đó; nó thay thế phiên ghi âm tẻ nhạt bằng các đoạn clip được tạo ra. Nếu bạn không muốn xử lý các giải pháp thay thế ở cấp độ tập tin, ghi âm trực tiếp vẫn là tùy chọn được hỗ trợ đầy đủ.

Tại sao giọng nói tùy chỉnh của tôi bỏ qua một số lời nhắc nhất định? Một lời nhắc bị bỏ qua có nghĩa là một tập tin âm thanh bị thiếu hoặc bị dán nhãn sai. Mỗi vị trí cụm từ cần một đoạn clip được đặt tên đúng, nếu không Waze sẽ im lặng ở tín hiệu đó. Thảo luận trên GitHub về phương pháp hoán đổi tập tin và hướng dẫn của Waze Community đều chỉ ra cùng một cách khắc phục: kiểm tra lại tên tập tin của bạn so với các vị trí chính xác mà Waze mong đợi, hoặc ghi lại lời nhắc cụ thể trong ứng dụng.

Các gói giọng nói tùy chỉnh có hoạt động trên cả iPhone và Android không? Ghi âm trong ứng dụng hoạt động trên các nền tảng — cả người dùng iPhone và Android đều có thể xây dựng một giọng nói được ghi trực tiếp. Giải pháp thay thế hoán đổi tập tin nâng cao để chèn các tập tin MP3 được tạo bằng AI được ghi lại trên thư mục tập tin của Android và cần một môi trường đã root hoặc mô phỏng. Theo thảo luận cộng đồng trên GitHub, đây không phải là con đường sạch sẽ cho iOS, vì vậy nếu bạn muốn con đường tạo bằng AI cụ thể, hãy lên kế hoạch xoay quanh Android.