Publié July 05, 2026•~20 min lire

Comment créer des packs vocaux Waze personnalisés grâce au clonage vocal par IA

Vous avez déjà fait le tour de toutes les options de célébrités et de nouveautés que Waze propose — Boy George, les personnages de films, les comédiens — et maintenant vous voulez quelque chose de plus personnel. Votre propre voix pour guider vos trajets. Ou celle d'un membre de votre famille. C'est là que les packs de voix Waze deviennent intéressants, et c'est aussi là que la plupart des tentatives faites maison s'effondrent. L'enregistreur de voix personnalisée intégré à Waze vous oblige à subir un compte à rebours et à lire chaque instruction de navigation à voix haute, une par une, selon un tutoriel de Popular Science. Sautez une instruction et vous obtenez un silence pile au moment où vous avez besoin d'indications. La plupart des packs faits maison meurent quelque part autour de la phrase quatre-vingt-dix-sept, quand la voix du lecteur se casse et que l'enthousiasme s'est évaporé. Le clonage vocal par IA renverse la charge de travail : enregistrez un seul échantillon propre de 20 secondes, puis générez en lot chaque phrase dont Waze a besoin — pas de séance marathon, pas de fatigue. À la fin de tout cela, vous aurez chaque phrase de navigation générée dans votre propre voix clonée, prête à être chargée. Nous serons aussi honnêtes sur l'étape de chargement, car Waze n'a pas de bouton d'import officiel et le tableau réel comporte de vraies réserves.

Overhead flat-lay on a wooden desk — a smartphone displaying a Waze turn-by-turn navigation screen, a USB condenser microphone on a small stand, a pop filter, and a handwritten notepad listing navigation phrases ("Turn left," "Recalcul

Table des matières

Ce qu'un pack de voix Waze exige réellement (avant même d'enregistrer quoi que ce soit)
Choisir votre source vocale : enregistrer en direct dans Waze ou cloner avec l'IA
Cloner votre voix à partir d'un échantillon de 20 secondes
Générer chaque phrase de navigation dont Waze a besoin
Charger votre pack personnalisé dans Waze (et la réalité au niveau des fichiers)
Aller plus loin : packs multilingues et partage d'une seule voix clonée
Votre liste de contrôle pour créer un pack de voix Waze personnalisé
FAQ sur la voix personnalisée Waze

Ce qu'un pack de voix Waze exige réellement (avant même d'enregistrer quoi que ce soit)

Avant de toucher un micro, comprenez ce que vous êtes réellement en train de construire. Un pack de voix Waze n'est pas une IA parlante — c'est une bibliothèque fixe de clips préenregistrés insérés dans des moments de navigation précis. Bien saisir ce modèle mental vous évite d'attendre des choses que Waze ne fera tout simplement pas.

C'est une bibliothèque de phrases fixes, pas une IA parlante. La fonction de voix personnalisée de Waze est essentiellement un remplacement de mémos vocaux. L'application rejoue exactement le clip que vous avez fourni pour chaque emplacement d'instruction. Elle n'exécute pas de modèle pour prononcer des noms de rue arbitraires dans votre voix. Les voix personnalisées ne couvrent que les indications de navigation essentielles — virages, sorties, distances, alertes de base et arrivée. Les noms de rue et le texte dynamique reviennent toujours à une voix système par défaut. Ainsi, votre voix clonée dit « Dans 500 mètres, tournez à gauche », et la voix par défaut gère « sur le boulevard Biscayne ». Le savoir dès le départ garde vos attentes réalistes.

La liste des instructions est exhaustive et obligatoire. Selon un tutoriel de Popular Science sur le flux d'enregistrement de Waze, la liste requise couvre des salutations comme « C'est parti — conduisez prudemment ! », des instructions directionnelles telles que « Prenez la quatrième sortie » et « Tournez à gauche », des indications de recalcul et des annonces d'arrivée. Les tutoriels insistent sur le fait que vous devez compléter l'intégralité de la liste requise. Laissez des instructions vides et vous entendrez le silence à ces moments de navigation précis.

Chaque clip est limité dans le temps. Waze affiche un compte à rebours pendant l'enregistrement et impose des limites de temps par instruction. Chaque phrase doit tenir en quelques secondes ou elle est coupée en plein mot. Cela impose une élocution concise, ce qui compte plus tard quand vous ajustez l'audio généré pour correspondre à ces fenêtres.

Waze n'a pas de bouton officiel « importer mes MP3 ». L'application n'expose l'enregistrement qu'au sein de l'app. Toute méthode utilisant de l'audio généré en externe — y compris les clips TTS clonés par IA — repose sur des contournements au niveau des fichiers, et non sur une fonction prise en charge. Nous serons francs à ce sujet tout du long. Si vous voulez la voie officiellement prise en charge, vous enregistrez en direct. Si vous voulez la voie générée par IA, il y a une étape d'injection avancée avec de vrais prérequis.

Vous pouvez modifier des clips individuels plus tard. Vous n'êtes pas enfermé dans une création en une seule fois. Retournez dans Voix et son, faites glisser l'entrée de voix personnalisée pour révéler les options, et réenregistrez des instructions précises sans reconstruire tout le pack. Les fils de support de la communauté Waze confirment ce flux de modification clip par clip, ce qui est un soulagement la première fois qu'une phrase sort de travers.

Choisir votre source vocale : enregistrer en direct dans Waze ou cloner avec l'IA

Deux voies viables mènent à un pack terminé. Vous enregistrez chaque phrase en direct dans Waze, ou vous clonez une voix une seule fois et générez en lot chaque phrase en synthèse vocale. Voici comment elles se comparent sur les facteurs qui décident vraiment de votre week-end.

Facteur	Enregistrement en direct dans Waze	Clonage vocal par IA + TTS
Temps pour compléter la liste complète	Long — lire chaque instruction sous un chronomètre	Rapide — cloner une fois, générer en lot
Cohérence entre les phrases	Se dégrade à mesure que vous fatiguez en cours de liste	Ton et rythme uniformes du début à la fin
Corriger une erreur	Réenregistrer ce clip manuellement	Régénérer la ligne à partir du texte
Utiliser la voix d'une autre personne	Seulement si elle est présente pour enregistrer en direct	Possible à partir d'un échantillon — consentement requis
Passer à l'échelle sur plus de langues	Pas pratique (réenregistrer par langue)	Une voix génère de nombreuses langues
Chargement dans Waze	Entièrement pris en charge, dans l'app	Nécessite un contournement au niveau des fichiers

Le compromis honnête se situe dans cette dernière ligne. L'enregistrement en direct est la voie officiellement prise en charge dans Waze — propre, sans accès root, fonctionne sur n'importe quel téléphone. L'audio cloné l'emporte sur la cohérence et le volume mais nécessite une étape d'injection non prise en charge. Choisissez selon la douleur que vous préférez encaisser : le marathon d'enregistrement, ou le bricolage au niveau des fichiers.

Pour la plupart des gens qui construisent un pack complet, le clonage vocal par IA est le meilleur usage du temps. Vous ne fatiguez jamais, chaque clip correspond en ton et en rythme, et corriger une mauvaise ligne signifie modifier du texte plutôt que réenregistrer sous un compte à rebours. La cohérence à elle seule en vaut la peine — un pack où la phrase trois et la phrase quatre-vingt-dix sonnent identiques a une allure professionnelle qu'une séance manuelle atteint rarement.

Il y a ici une ligne éthique qu'il vaut la peine de nommer. Cloner votre propre voix pour la personnalisation est clairement acceptable. Cloner celle de quelqu'un d'autre nécessite un consentement clair. Les régulateurs traitent une voix comme partie de l'image protégée d'une personne — la FTC fait référence à l'ELVIS Act du Tennessee sur ce point — et selon les recommandations de la FTC sur le clonage vocal activé par l'IA, « il n'existe aucune exemption IA aux lois en vigueur ». Gardez cela à l'esprit si vous construisez un pack dans la voix d'un ami ou d'un membre de votre famille. Nous couvrons l'ensemble de l'angle éthique dans la FAQ.

Enregistrer une centaine de phrases de navigation d'une seule traite, c'est là que meurent la plupart des packs de voix faits maison — un clone IA ne fatigue jamais à la phrase quatre-vingt-dix-sept.

Cloner votre voix à partir d'un échantillon de 20 secondes

L'étape de clonage est la partie réellement faisable de ce projet. Les outils modernes de clonage instantané ont réduit ce qui prenait autrefois une séance en studio à quelques minutes de configuration. Voici la séquence.

Capturez un échantillon propre. Trouvez une pièce calme et acoustiquement amortie — mobilier moelleux, fenêtres fermées, pas de ronronnement de ventilation. Pas de musique, pas de bavardage de fond. Parlez à un rythme naturel et régulier, comme vous donneriez réellement des indications. Il y a un écart avec la réalité qu'il vaut la peine de connaître : de nombreux fournisseurs, y compris les recommandations d'entraînement de LALAL.AI, préconisent 10 à 50 minutes d'audio pour les modèles à plus haute fidélité. Mais les outils modernes de clonage instantané produisent des voix utilisables à partir d'à peine 20 secondes à une minute, un point que les services de clonage à échantillon court comme NoteGPT rendent explicite. Les échantillons courts échangent un peu de cohérence contre un énorme gain de vitesse — le bon choix pour un pack de navigation.
Téléversez vers un outil de clonage vocal. Déposez votre fichier d'échantillon dans l'interface de clonage et attendez que le modèle le traite. C'est là qu'une option rapide-à-partir-de-20-secondes est rentable — clonez votre voix à partir d'un court extrait plutôt que de bloquer une heure de lecture. Les développeurs qui automatisent des créations multi-voix peuvent piloter le même processus via une API de clonage vocal plutôt que par l'interface.
Vérifiez la qualité. Avant de vous engager à générer une centaine de clips, générez une phrase de test — « Dans 500 mètres, tournez à gauche » est idéale car elle contient un nombre, une unité de distance et une indication directionnelle. Écoutez le naturel, l'accent correct et l'articulation nette. Une voix en laquelle vous ferez confiance à vitesse d'autoroute doit tenir dans des conditions réelles, alors auditionnez-la de la façon dont vous l'entendrez réellement.
Nommez et enregistrez la voix, avec des métadonnées. Définissez les balises de langue et d'accent lorsque vous l'enregistrez. Cela compte pour l'étape multilingue plus tard — une voix correctement balisée se réutilise proprement à travers les langues dans un pipeline TTS. Les plateformes de clonage vous permettent d'attacher des métadonnées descriptives afin que le même personnage soit facile à rappeler pour le prochain pack.

Une voix en laquelle vous ferez confiance à vitesse d'autoroute doit sonner calme et claire à vitesse d'autoroute — testez une phrase avant d'en générer une centaine.

Close-up of a laptop screen showing a voice-cloning upload interface with an audio waveform displayed and a "Clone Voice" button, hands resting near the trackpad, soft desk lighting.

C'est le cœur de la création. Une fois votre clone prêt, vous générez chaque phrase que Waze attend sous forme de fichier audio propre. Commencez par savoir à quoi ressemble la liste complète, organisée par catégorie.

Catégorie	Exemples de phrases
Salutations	« C'est parti — conduisez prudemment ! »
Virages	« Tournez à gauche », « Tournez à droite », « Serrez à droite »
Sorties et distances	« Prenez la quatrième sortie », « Dans 500 mètres, tournez à gauche »
Recalcul	« Recalcul en cours », « Itinéraire mis à jour »
Alertes	Indications de confirmation de radar / danger
Arrivée	« Vous êtes arrivé »

Une fois les catégories cartographiées, exécutez le processus de génération :

Récupérez la liste complète des instructions requises depuis le flux « Ajouter une voix » de Waze. Démarrez une voix personnalisée dans l'app et enregistrez des placeholders jetables juste pour révéler chaque emplacement. Notez-les chacun. Vous devez tenir compte de chaque phrase — une instruction manquante signifie que Waze devient silencieux à ce moment-là, selon le tutoriel de Popular Science.
Collez chaque phrase dans la synthèse vocale en utilisant votre voix clonée. Générez en lot toutes les lignes via la synthèse vocale (Text to Speech) plutôt qu'une à la fois. Pour quiconque scripte une création reproductible, l'API Text to Speech transforme toute la liste de phrases en un seul passage automatisé.
Ajustez le rythme et la ponctuation pour que les phrases de distance sonnent naturelles. Écrivez « Dans 500 mètres… tournez à gauche » avec une virgule ou des points de suspension pour contrôler le rythme et les pauses. Gardez chaque clip dans la limite de temps de quelques secondes de Waze — une phrase trop longue est coupée en plein mot une fois chargée.
Exportez chaque ligne sous forme de fichier audio séparé, nommé exactement pour correspondre à l'emplacement d'instruction attendu par Waze. Cette correspondance de noms de fichiers est le détail décisif. Les discussions de la communauté GitHub documentant l'approche d'échange de fichiers confirment que Waze lit chaque instruction par son nom de fichier exact. Trompez-vous d'un seul et cette indication devient muette.

Le secret, ce n'est pas la voix — c'est de nommer chaque clip exactement de la façon dont Waze s'attend à l'entendre.

Infographic: How AI Turns One Sample Into a Full Waze Pack

Charger votre pack personnalisé dans Waze (et la réalité au niveau des fichiers)

C'est là que l'honnêteté compte le plus. Il existe deux réalités selon que vous avez enregistré en direct ou généré l'audio en externe.

La voie prise en charge (dans l'app). Si vous avez enregistré en direct, l'itinéraire est propre et fonctionne sur n'importe quel téléphone : Waze → Paramètres → Voix et son → sélectionnez votre voix actuelle → « Ajouter une voix » → acceptez l'avertissement de sécurité → nommez la voix → enregistrez chaque phrase avec le bouton d'enregistrement rouge jusqu'à ce que la liste soit complète. Pas d'accès root, pas de bricolage. C'est la manière officiellement prise en charge d'intégrer des packs de voix Waze personnalisés dans l'app, et c'est la voie que la plupart des gens devraient emprunter si la génération par IA n'est pas une exigence stricte.

La voie avancée (audio cloné externe). Comme Waze n'expose aucun bouton d'import officiel, les flux communautaires d'échange de MP3 empruntent un chemin détourné. Vous créez une nouvelle voix personnalisée, enregistrez un audio placeholder très court pour chaque phrase, sauvegardez et nommez le pack, puis gardez l'écran d'édition ouvert. Avec l'éditeur toujours actif, vous utilisez un explorateur de fichiers root pour remplacer chaque fichier temporaire dans le répertoire des instructions personnalisées de Waze — sur Android, /data/user/0/com.waze/waze/custom_prompts_temp — en y insérant vos MP3 générés en externe tout en conservant les noms de fichiers exacts attendus par Waze. Soyez lucide sur les prérequis : cela nécessite un environnement Android rooté ou émulé et, selon les discussions de la communauté GitHub documentant la méthode, c'est signalé comme potentiellement risqué pour les comptes personnels. Ce n'est pas une étape pour débutant, et ce n'est pas non plus une étape compatible iOS.

Dépannage des échecs courants :

Les instructions silencieuses signifient un fichier manquant ou mal étiqueté. Vérifiez que le nom de fichier correspond exactement à l'emplacement — c'est la cause la plus fréquente d'un pack cassé.
Un clip coupé a dépassé la limite de temps par instruction de Waze. Régénérez cette ligne plus courte et remettez-la en place.
Vous voulez changer une ligne sans tout reconstruire ? Faites glisser l'entrée de voix personnalisée dans Voix et son pour révéler les options d'édition et écrasez ce seul clip, comme le décrit le guide de la communauté Waze.

A smartphone held in one hand showing the Waze "Voice and sound" settings screen with a voice-selection list visible, car interior softly blurred in the background.

Aller plus loin : packs multilingues et partage d'une seule voix clonée

Un seul pack en anglais est le point d'entrée, pas le plafond. Le véritable bénéfice de la voie du clonage apparaît quand vous commencez à réutiliser cette voix.

Une voix, de nombreuses langues. Comme une voix clonée vit à l'intérieur d'un pipeline TTS, vous pouvez générer la même liste de phrases de navigation dans des langues supplémentaires en utilisant le même personnage cloné. L'enregistrement manuel n'a jamais rendu cela pratique — il faudrait réenregistrer chaque instruction, dans chaque langue, dans une voix qui devrait rester cohérente de manière ou d'autre à travers toutes. Les plateformes de clonage vous permettent de sélectionner la langue et l'accent lorsque vous réutilisez une voix, afin que le personnage soit reporté. Avec une localisation dans 33 langues cibles disponible via le doublage IA, un seul personnage enregistré peut narrer le même trajet à travers de nombreux marchés. Générez le pack en anglais, puis passez la liste de phrases identique dans des langues supplémentaires et vous aurez créé cinq packs à partir d'une seule séance d'enregistrement.

Des packs pour la famille et les flottes. La même réutilisabilité ouvre la voie à des voix au-delà de la vôtre. Créez un pack dans la voix d'un membre de votre famille — chaque personne enregistrant son propre échantillon de 20 secondes et donnant un consentement explicite — pour que les enfants entendent les directions d'un parent lors d'un road trip. Les entreprises peuvent aller plus loin : une voix de navigation de marque pour une flotte de livraison, une auto-école ou une opération de VTC. Pour les équipes qui construisent cela à grande échelle, une API de doublage IA permet aux développeurs de brancher tout le flux de génération-et-localisation dans un système existant plutôt que de le faire à la main.

Conservez un modèle de liste de phrases réutilisable. Voici l'actif qui se cumule : une fois que vous avez assemblé la liste maîtresse des phrases et la carte des noms de fichiers, vous pouvez régénérer un pack entier en quelques minutes pour n'importe quelle nouvelle voix ou langue. Le modèle — les phrases exactes plus les noms de fichiers exacts attendus par Waze — vaut plus que n'importe quel pack unique. Construisez-le soigneusement une seule fois et chaque pack futur devient un travail rapide.

Discipline de consentement et de stockage. Traitez les voix clonées comme des données biométriques sensibles. Les empreintes vocales sont de plus en plus utilisées pour l'authentification, ce qui explique pourquoi Daniel Kahn Gillmor, technologue senior de l'ACLU, exhorte les concepteurs à limiter la façon dont les voix clonées sont stockées et partagées. Le consentement et un étiquetage clair sont ce qui sépare la personnalisation éthique de l'usage abusif — Sam Gregory de l'organisme à but non lucratif de défense des droits humains WITNESS présente la différence comme une question de consentement et de contexte : un clone clairement étiqueté de votre propre voix est à des lieues d'un outil conçu pour usurper l'identité de quelqu'un à des fins de profit. Hany Farid, chercheur en deepfakes à l'UC Berkeley, a averti que les médias synthétiques deviennent « bon marché, rapides et faciles », ce qui est précisément pourquoi la discipline compte même pour un projet de navigation inoffensif. La règle pratique reste simple : votre propre voix, c'est bien ; celle de quelqu'un d'autre nécessite une permission explicite.

Pourquoi un flux de travail consolidé compte. L'alternative manuelle consiste à jongler avec des outils séparés — un pour le clonage, un autre pour le TTS, un autre pour la traduction — et à assembler leurs sorties à la main. Un flux de travail unique qui associe le clonage vocal à la synthèse vocale et à la localisation est la raison pour laquelle vous ne faites pas tourner cinq outils en parallèle. Une voix, clonée une fois, réutilisée partout.

Une voix, clonée une fois, peut narrer le même trajet en trente-trois langues — c'est la partie que l'enregistrement manuel n'a jamais rendue possible.

Infographic: One Cloned Voice, Many Language Packs

Votre liste de contrôle pour créer un pack de voix Waze personnalisé

Suivez cette séquence de haut en bas et vous aurez des packs de voix Waze terminés sans le marathon d'enregistrement. Chaque étape est une action unique et concrète.

Enregistrez un échantillon propre de 20 secondes — pièce calme, rythme naturel, pas de musique ni de bruit de fond.
Créez le clone — téléversez l'échantillon, attendez le traitement, puis générez une phrase de test pour confirmer la qualité avant d'aller plus loin.
Récupérez la liste maîtresse des phrases de Waze — démarrez une voix personnalisée dans l'app, notez chaque emplacement d'instruction requis, et ne laissez rien de côté.
Générez toutes les phrases en lot avec la synthèse vocale — en utilisant votre voix clonée, ajustée pour le rythme et pour respecter les limites de temps par clip de Waze.
Nommez chaque fichier selon les spécifications — faites correspondre les noms de fichiers exacts de Waze. C'est là que les packs cassent, alors revérifiez.
Chargez dans Waze — enregistrez en direct dans l'app pour la voie propre et prise en charge, ou (avancé) échangez les fichiers via le répertoire des instructions personnalisées sur une configuration Android rootée.
Faites un essai routier et régénérez les lignes maladroites — écoutez à vitesse de conduite réelle et écrasez tout clip coupé, mal synchronisé ou peu naturel.
(Facultatif) Dupliquez dans des langues supplémentaires — réutilisez le même clone pour générer des packs dans d'autres langues cibles à partir du modèle de phrases identique.

Tout commence par un seul enregistrement. Posez votre téléphone quelque part au calme et enregistrez ce premier échantillon de 20 secondes maintenant — tout le reste en découle.

FAQ sur la voix personnalisée Waze

Est-il légal de cloner la voix de quelqu'un pour mon pack Waze ? Cloner votre propre voix pour la navigation personnelle est acceptable. Cloner celle de quelqu'un d'autre nécessite un consentement clair. La FTC souligne qu'« il n'existe aucune exemption IA aux lois en vigueur », et des États comme le Tennessee — à travers l'ELVIS Act que la FTC a cité — traitent une voix comme une image protégée. Plus de 75 000 consommateurs ont signé une pétition de 2025, organisée par l'équipe de plaidoyer de Consumer Reports, exhortant la FTC à sévir contre la fraude au clonage vocal, l'usage abusif est donc pris au sérieux. Pour un pack personnel dans votre propre voix, rien de tout cela n'est un obstacle. Pour la voix de quelqu'un d'autre, obtenez d'abord une permission explicite.

Puis-je encore utiliser l'enregistreur intégré de Waze pour créer une voix ? Oui. L'enregistreur « Ajouter une voix » dans l'app sous Voix et son fonctionne toujours exactement comme avant — vous enregistrez chaque instruction en direct dans un compte à rebours. La voie IA ne remplace pas cette fonction ; elle remplace la fastidieuse séance d'enregistrement par des clips générés. Si vous préférez ne pas vous occuper de contournements au niveau des fichiers, l'enregistrement en direct reste l'option entièrement prise en charge.

Pourquoi ma voix personnalisée saute-t-elle certaines instructions ? Une instruction sautée signifie un fichier audio manquant ou mal étiqueté. Chaque emplacement de phrase a besoin d'un clip correctement nommé, sinon Waze devient silencieux à cette indication. Les discussions GitHub sur la méthode d'échange de fichiers et le guide de la communauté Waze pointent tous deux vers la même solution : revérifiez vos noms de fichiers par rapport aux emplacements exacts attendus par Waze, ou réenregistrez l'instruction spécifique dans l'app.

Les packs de voix personnalisés fonctionnent-ils à la fois sur iPhone et Android ? L'enregistrement dans l'app fonctionne sur toutes les plateformes — les utilisateurs d'iPhone et d'Android peuvent tous deux créer une voix enregistrée en direct. Le contournement avancé d'échange de fichiers pour injecter des MP3 générés par IA est documenté sur le répertoire de fichiers d'Android et nécessite un environnement rooté ou émulé. Selon les discussions de la communauté GitHub, ce n'est pas une voie propre sous iOS, donc si vous voulez spécifiquement la voie générée par IA, prévoyez de travailler sous Android.