AI音声クローン技術を使ったWazeのカスタム音声パックの作成方法
出版 July 05, 2026~2 min read

AI音声クローン技術を使ったWazeのカスタム音声パックの作成方法

Wazeが提供するあらゆる有名人やノベルティのオプション、たとえばボーイ・ジョージ、映画のキャラクター、コメディアンなどをすでに一通り試してみて、今はもっと個人的なものが欲しくなっているのではないでしょうか。あなた自身の声が通勤を案内してくれる。あるいは家族の声で。そこでWazeボイスパックが面白くなってくるのですが、同時にほとんどのDIYの試みが挫折する場面でもあります。Wazeの内蔵カスタムボイス録音機能は、Popular Scienceのウォークスルーによると、カウントダウンタイマーに従って、すべてのナビゲーションプロンプトを一つずつ声に出して読み上げなければなりません。プロンプトを飛ばすと、まさに案内が必要なときに無音の空白が生じてしまいます。自作のパックのほとんどは、読み手の声がかすれ、熱意も失せた97番目のフレーズあたりで力尽きます。AIボイスクローニングはこの作業負担を一変させます。きれいな20秒のサンプルを一度録音するだけで、Wazeが必要とするすべてのフレーズをまとめて生成できます。マラソンのようなセッションも、疲労もありません。これを終える頃には、あなた自身のクローンボイスで生成されたすべてのナビゲーションフレーズが揃い、読み込む準備が整っているでしょう。読み込みの手順についても正直にお伝えします。というのも、Wazeには公式のインポートボタンがなく、正直なところ実際にはいくつかの注意点が伴うからです。

Overhead flat-lay on a wooden desk — a smartphone displaying a Waze turn-by-turn navigation screen, a USB condenser microphone on a small stand, a pop filter, and a handwritten notepad listing navigation phrases ("Turn left," "Recalcul

目次

Wazeボイスパックに実際に必要なもの(録音を始める前に)

マイクに触れる前に、自分が実際に何を作っているのかを理解しましょう。Wazeボイスパックは話すAIではなく、特定のナビゲーションの瞬間に組み込まれた、事前録音されたクリップの固定ライブラリです。この心構えを正しく持つことで、Wazeが決して行わないことを期待せずに済みます。

これは話すAIではなく、固定されたフレーズライブラリです。 Wazeのカスタムボイス機能は、本質的にボイスメモの置き換えです。アプリは、各プロンプトスロットに対してあなたが提供したクリップを正確に再生します。あなたの声で任意の通り名を発音するためのモデルを実行するわけではありません。カスタムボイスはコアなナビゲーションキュー、つまり曲がる、出口、距離、基本的なアラート、到着のみをカバーします。通り名や動的なテキストは、デフォルトのシステムボイスにフォールバックします。つまり、あなたのクローンボイスは「500フィート先、左折です」と言い、デフォルトボイスが「ビスケイン・ブルバードへ」を担当するのです。これを事前に知っておくことで、期待を現実的に保てます。

プロンプトリストは包括的で必須です。 Wazeの録音フローに関するPopular Scienceのウォークスルーによると、必須リストは「さあ始めましょう — 安全運転を!」といった挨拶、「4番目の出口を出てください」や「左折です」といった方向指示、再計算のキュー、到着のアナウンスにまで及びます。チュートリアルでは、必須リスト全体を完了しなければならないと強調されています。プロンプトを空のままにすると、まさにそのナビゲーションの瞬間に無音になってしまいます。

すべてのクリップには時間制限があります。 Wazeは録音中にカウントダウンタイマーを表示し、プロンプトごとの時間制限を課します。各フレーズは数秒以内に収める必要があり、そうでないと言葉の途中で切れてしまいます。これは簡潔な発話を強いるもので、後で生成した音声をその時間枠に合わせて調整する際に重要になります。

Wazeには公式の「MP3をインポート」ボタンがありません。 アプリはアプリ内での録音のみを公開しています。外部で生成された音声(AIでクローンされたTTSクリップを含む)を使用するあらゆる方法は、サポートされている機能ではなく、ファイルレベルの回避策に依存します。この点については全体を通して率直にお伝えします。公式にサポートされたルートが欲しければ、ライブで録音します。AI生成のルートが欲しければ、実際の前提条件を伴う高度な注入ステップがあります。

後から個々のクリップを編集できます。 一発勝負のビルドに縛られるわけではありません。「音声とサウンド」に戻り、カスタムボイスのエントリをスライドしてオプションを表示させ、パック全体を再構築することなく特定のプロンプトを再録音できます。Wazeコミュニティのサポートスレッドがこのクリップごとの編集フローを確認しており、1つのフレーズが間違って出てきたときにこれは初めて安心できるポイントです。

ボイスソースの選択:Wazeでライブ録音 vs. AIでクローン

完成したパックへは、2つの実行可能なルートがあります。Waze内ですべてのフレーズをライブで録音するか、声を一度クローンしてすべてのフレーズをテキスト読み上げとしてまとめて生成するかです。あなたの週末を実際に左右する要素で、両者を比較してみましょう。

要素 Wazeでのライブ録音 AIボイスクローニング + TTS
全リスト完了までの時間 長い — タイマー下ですべてのプロンプトを読む 速い — 一度クローンし、まとめて生成
フレーズ間の一貫性 リスト途中で疲れると劣化する 全体を通して均一なトーンとペース
ミスの修正 そのクリップを手動で再録音 テキストから該当行を再生成
他人の声を使う ライブ録音のためにその場にいる場合のみ サンプルから可能 — 同意が必要
より多くの言語への拡張 実用的でない(言語ごとに再録音) 1つの声で多くの言語を生成
Wazeへの読み込み 完全にサポート、アプリ内 ファイルレベルの回避策が必要

正直なトレードオフはその最後の行にあります。ライブ録音は公式にサポートされたWazeへのルートで、クリーンで、ルートアクセス不要、どんなスマートフォンでも動作します。クローン音声は一貫性とボリュームで勝りますが、サポートされていない注入ステップが必要です。どちらの苦労を受け入れたいかで選んでください。録音マラソンか、それともファイルレベルのいじりか。

フルパックを作るほとんどの人にとって、AIボイスクローニングの方が時間の使い方として優れています。決して疲れることがなく、すべてのクリップがトーンとペースで一致し、悪い行の修正はカウントダウン下での再録音ではなくテキストの編集で済みます。一貫性だけでもその価値はあります。3番目のフレーズと90番目のフレーズが同じように聞こえるパックは、手動セッションではめったに達成できないプロフェッショナルな印象を与えます。

ここで名前を挙げておくべき倫理的な一線があります。自分自身の声をパーソナライズのためにクローンするのは明らかに問題ありません。他人の声をクローンするには明確な同意が必要です。規制当局は声を人の保護された肖像の一部として扱い(FTCはこの点でテネシー州のELVIS法に言及しています)、AI対応ボイスクローニングに関するFTCのガイダンスによれば、「既存の法律にAIの例外はない」とされています。友人や家族の声でパックを作る場合は、この点を念頭に置いてください。倫理の側面については、FAQで詳しく取り上げます。

一度に100のナビゲーションフレーズを録音することが、ほとんどのDIYボイスパックが力尽きる場面です。AIクローンは97番目のフレーズで疲れることは決してありません。

20秒のサンプルから自分の声をクローンする

クローニングのステップは、このプロジェクトの中で本当に実行可能な部分です。現代のインスタントクローンツールは、かつてスタジオセッションを要したものを、数分のセットアップに凝縮しました。手順は以下の通りです。

  1. きれいなサンプルを取得する。 静かで音響的に減衰した部屋を見つけましょう。柔らかい家具、閉じた窓、空調のうなりがないこと。音楽もなし、背景のおしゃべりもなし。実際に道案内をするように、自然で一定のペースで話してください。知っておくべき現実のギャップがあります。LALAL.AIのトレーニングガイダンスを含む多くのベンダーは、最高忠実度のモデルには10〜50分の音声を推奨しています。しかし現代のインスタントクローンツールは、わずか20秒から1分程度の音声から使用可能な声を生成でき、NoteGPTのような短サンプルクローニングサービスがこの点を明確に示しています。短いサンプルは、わずかな一貫性を犠牲にして大きなスピードの向上を得ます。ナビゲーションパックにはこれが正解です。
  2. ボイスクローニングツールにアップロードする。 サンプルファイルをクローニングインターフェースにドロップし、モデルが処理するのを待ちます。ここで20秒からの高速オプションが真価を発揮します。1時間の読み上げをブロックするのではなく、短いクリップからあなたの声をクローンできます。マルチボイスビルドを自動化する開発者は、インターフェースではなくVoice Cloning APIを通じて同じプロセスを駆動できます。
  3. 品質を検証する。 100個のクリップの生成に取り掛かる前に、テストフレーズを1つ生成しましょう。「500フィート先、左折です」は、数字、距離の単位、方向のキューを含んでいるため理想的です。自然さ、正しいアクセント、クリアな発音を聞き取ってください。高速道路のスピードで信頼できる声は、実際の状況でも持ちこたえなければならないので、実際に聞くのと同じように試聴してください。
  4. メタデータとともに声に名前を付けて保存する。 保存時に言語とアクセントのタグを設定します。これは後の多言語ステップで重要になります。適切にタグ付けされた声は、TTSパイプライン全体で言語をまたいでクリーンに再利用できます。クローニングプラットフォームでは記述的なメタデータを添付できるので、同じペルソナを次のパックのために簡単に呼び戻せます。
高速道路のスピードで信頼できる声は、高速道路のスピードで落ち着いてクリアに聞こえなければなりません。100個を生成する前に1つのフレーズをテストしましょう。
Close-up of a laptop screen showing a voice-cloning upload interface with an audio waveform displayed and a "Clone Voice" button, hands resting near the trackpad, soft desk lighting.

Wazeが必要とするすべてのナビゲーションフレーズを生成する

これがビルドの核心です。クローンが準備できたら、Wazeが期待するすべてのフレーズを、それぞれ独立した音声ファイルとして生成します。まず、フルリストがどのようなものか、カテゴリ別に整理して把握することから始めましょう。

カテゴリ フレーズ例
挨拶 「さあ始めましょう — 安全運転を!」
曲がる 「左折です」「右折です」「右側を保ってください」
出口 & 距離 「4番目の出口を出てください」「500フィート先、左折です」
再計算 「再計算中」「ルートを更新しました」
アラート カメラ / 危険の確認キュー
到着 「目的地に到着しました」

カテゴリをマッピングしたら、生成プロセスを実行します:

  1. Wazeの音声追加フローから完全な必須プロンプトリストを取り出す。 アプリ内でカスタムボイスを開始し、すべてのスロットを表示させるためだけに使い捨てのプレースホルダーを録音します。それぞれを書き留めてください。すべてのフレーズを網羅する必要があります。プロンプトが1つ欠けると、Popular Scienceのウォークスルーによれば、Wazeはそのキューで無音になります。
  2. 各フレーズをクローンボイスを使ってText to Speechに貼り付ける。 すべての行を1つずつではなく、Text to Speechを通じてまとめて生成します。繰り返し可能なビルドをスクリプト化したい人には、Text to Speech APIが、フレーズリスト全体を単一の自動化されたパスに変えてくれます。
  3. 距離フレーズが自然に聞こえるようにペースと句読点を調整する。 「500フィート先で… 左折です」とカンマや省略記号を使って書き、リズムと間を制御します。すべてのクリップをWazeの数秒の時間制限内に収めてください。長くなりすぎたフレーズは、読み込まれると言葉の途中で切れてしまいます。
  4. 各行を個別の音声ファイルとしてエクスポートし、Wazeが期待するフレーズスロットに正確に一致する名前を付ける。 このファイル名の一致が成否を分ける重要な詳細です。ファイル交換アプローチを記録したGitHubコミュニティの議論は、Wazeが各プロンプトを正確なファイル名で読み込むことを確認しています。1つ間違えると、そのキューは無音になります。
秘訣は声ではなく、Wazeが聞くことを期待している通りに、すべてのクリップに正確に名前を付けることです。

カスタムパックをWazeに読み込む(そしてファイルレベルの現実)

ここが最も正直さが重要な場面です。ライブで録音したか、外部で音声を生成したかによって、2つの現実があります。

サポートされたパス(アプリ内)。 ライブで録音した場合、ルートはクリーンでどんなスマートフォンでも動作します:Waze → 設定 → 音声とサウンド → 現在の音声を選択 → 「音声を追加」 → 安全警告を承認 → 音声に名前を付ける → 赤い録音ボタンでリストが完了するまで各フレーズを録音。ルートアクセスも不要、いじりも不要。これはカスタムWazeボイスパックをアプリに入れる公式にサポートされた方法であり、AI生成が絶対条件でなければほとんどの人が取るべきルートです。

高度なパス(外部クローン音声)。 Wazeは公式のインポートボタンを公開していないため、コミュニティのMP3交換ワークフローは回りくどいルートを取ります。新しいカスタムボイスを作成し、すべてのフレーズに非常に短いプレースホルダー音声を録音し、パックを保存して名前を付け、編集画面を開いたままにします。エディタがまだアクティブな状態で、ルートファイルエクスプローラーを使用して、Wazeのカスタムプロンプトディレクトリ内の各一時ファイルを置き換えます。Androidでは/data/user/0/com.waze/waze/custom_prompts_tempで、Wazeが期待する正確なファイル名を保ちながら、外部で生成したMP3を差し込みます。前提条件について冷静に理解してください。これにはルート化またはエミュレートされたAndroid環境が必要で、この方法を記録したGitHubコミュニティの議論によれば、個人アカウントにとって潜在的にリスクがあると指摘されています。これは初心者向けのステップではなく、iOSにやさしいものでもありません。

よくある失敗のトラブルシューティング:

  • 無音のプロンプトは、ファイルの欠落または誤ったラベル付けを意味します。ファイル名がスロットと正確に一致しているか確認してください。これは壊れたパックの単一で最も頻繁な原因です。
  • クリップが切れたのは、Wazeのプロンプトごとの時間制限を超えたためです。その行をより短く再生成して差し込み直してください。
  • 1つの行を変更したいが、再構築はしたくない? Wazeコミュニティのガイダンスが説明するように、「音声とサウンド」でカスタムボイスのエントリをスライドして編集オプションを表示させ、その単一のクリップを上書きします。
A smartphone held in one hand showing the Waze "Voice and sound" settings screen with a voice-selection list visible, car interior softly blurred in the background.

さらに一歩先へ:多言語パックと1つのクローンボイスの共有

1つの英語パックは入口であり、天井ではありません。クローニングルートの真の見返りは、その声を再利用し始めたときに現れます。

1つの声で、多くの言語を。 クローンされた声はTTSパイプラインの中に存在するため、同じクローンペルソナを使って、同じナビゲーションフレーズリストを追加の言語で生成できます。手動録音では決してこれが実用的になりませんでした。すべてのプロンプトを、すべての言語で、それらすべてにわたって何らかの形で一貫性を保たなければならない声で、再録音しなければならなかったからです。クローニングプラットフォームでは、声を再利用する際に言語とアクセントを選択できるので、ペルソナが引き継がれます。AI Dubbingを通じて33のターゲット言語へのローカライズが利用可能なので、1つの録音されたペルソナが多くの市場にわたって同じドライブをナレーションできます。英語パックを生成し、次に同一のフレーズリストを追加の言語で実行すれば、1回の録音セッションから5つのパックを作成できます。

家族や車両用のパック。 同じ再利用性が、あなた自身以外の声への道を開きます。家族の声でパックを作りましょう。各人が自分の20秒のサンプルを録音し、明確な同意を与えることで、子どもたちがロードトリップで親の道案内を聞けるようにできます。企業はさらに一歩進めることができます。配送車両、自動車教習所の会社、ライドシェア事業のためのブランド化されたナビゲーション音声です。これを大規模に構築するチームには、AI Dubbing APIが、生成とローカライズのフロー全体を手作業ではなく既存のシステムに配線することを開発者に可能にします。

再利用可能なフレーズリストのテンプレートを保管する。 ここに複利で効いてくる資産があります。マスターフレーズリストとファイル名マップを一度組み立てれば、あらゆる新しい声や言語のパック全体を数分で再生成できます。テンプレート(正確なフレーズとWazeが期待する正確なファイル名)は、単一のパックよりも価値があります。一度慎重に作れば、将来のすべてのパックは素早い仕事になります。

同意と保管の規律。 クローンされた声を機密性の高いバイオメトリックデータとして扱ってください。声紋は認証にますます使われており、だからこそACLUのシニアスタッフテクノロジストであるダニエル・カーン・ギルモアは、クローンされた声がどのように保管・共有されるかを制限するよう設計者に促しています。同意と明確なラベル付けこそが、倫理的なパーソナライゼーションと悪用を分けるものです。人権NPOのWITNESSのサム・グレゴリーは、その違いを同意とコンテキストの問題として捉えています。あなた自身の声の明確にラベル付けされたクローンは、利益のために誰かになりすますために作られたツールとはまったく別世界のものです。UCバークレーのディープフェイク研究者ハニー・ファリドは、合成メディアが「安く、速く、簡単に」なりつつあると警告しており、まさにこれが、無害なナビゲーションプロジェクトであっても規律が重要である理由です。実用的なルールはシンプルなままです。あなた自身の声は問題なく、他人の声には明示的な許可が必要です。

統合されたワークフローが重要な理由。 手動の代替手段は、別々のツールをやりくりすることです。クローニング用に1つ、TTS用にもう1つ、翻訳用にさらにもう1つ、そしてそれらの出力を手作業で縫い合わせるのです。Voice CloningをText to Speechとローカライゼーションと組み合わせる単一のワークフローがあれば、5つのツールを並行して実行する必要はありません。1つの声、一度クローンし、どこでも再利用する。

1つの声、一度クローンすれば、同じドライブを33の言語でナレーションできます。それが手動録音では決して可能にならなかった部分です。

カスタムWazeボイスパック作成チェックリスト

この手順を上から下まで実行すれば、録音マラソンなしでWazeボイスパックを完成できます。各ステップは単一で具体的なアクションです。

  1. きれいな20秒のサンプルを録音する — 静かな部屋、自然なペース、音楽や背景ノイズなし。
  2. クローンを作成する — サンプルをアップロードし、処理を待ち、さらに進む前にテストフレーズを生成して品質を確認する。
  3. Wazeのマスターフレーズリストを取り出す — アプリ内でカスタムボイスを開始し、すべての必須プロンプトスロットを書き留め、取り逃しがないようにする。
  4. Text to Speechですべてのフレーズをまとめて生成する — クローンボイスを使い、ペースを調整し、Wazeのクリップごとの時間制限に収める。
  5. すべてのファイルを仕様通りに命名する — Wazeの正確なファイル名に一致させる。ここがパックが壊れる場所なので、二重にチェックすること。
  6. Wazeに読み込む — クリーンでサポートされたルートのためにアプリ内でライブ録音するか、(高度)ルート化されたAndroidセットアップでカスタムプロンプトディレクトリを介してファイルを交換する。
  7. テストドライブして、ぎこちない行を再生成する — 実際の運転速度で聞き、切れた、タイミングが合わない、または不自然なクリップを上書きする。
  8. (オプション)追加の言語で複製する — 同じクローンを再利用して、同一のフレーズテンプレートから他のターゲット言語でパックを生成する。

すべては1つの録音から始まります。静かな場所にスマートフォンを置いて、今すぐ最初の20秒のサンプルを録音しましょう。他のすべてはそこから続いていきます。

Wazeカスタムボイスに関するよくある質問

自分のWazeパックのために誰かの声をクローンするのは合法ですか? 個人的なナビゲーションのために自分自身の声をクローンするのは問題ありません。他人の声をクローンするには明確な同意が必要です。FTCは「既存の法律にAIの例外はない」と強調しており、テネシー州のような州は、FTCが引用してきたELVIS法を通じて、声を保護された肖像として扱っています。2025年には、Consumer Reportsのアドボカシーチームが組織した請願に7万5千人以上の消費者が署名し、FTCにボイスクローニング詐欺の取り締まりを求めたので、悪用は真剣に受け止められています。あなた自身の声での個人的なパックについては、これらのどれも障壁になりません。他人の声については、まず明示的な許可を得てください。

Wazeの内蔵レコーダーを使って音声を作ることはまだできますか? はい。「音声とサウンド」の下のアプリ内「音声を追加」レコーダーは、以前とまったく同じように動作します。カウントダウンタイマー内で各プロンプトをライブで録音します。AIルートはその機能を置き換えるものではなく、退屈な録音セッションを生成されたクリップに置き換えるものです。ファイルレベルの回避策を扱いたくない場合は、ライブ録音が完全にサポートされたオプションのままです。

なぜカスタムボイスが特定のプロンプトを飛ばすのですか? 飛ばされたプロンプトは、音声ファイルの欠落または誤ったラベル付けを意味します。すべてのフレーズスロットには正しく命名されたクリップが必要で、そうでないとWazeはそのキューで無音になります。ファイル交換方法に関するGitHubの議論とWazeコミュニティのガイダンスは、どちらも同じ修正を指し示しています。Wazeが期待する正確なスロットに対してファイル名を再確認するか、その特定のプロンプトをアプリ内で再録音してください。

カスタムボイスパックはiPhoneとAndroidの両方で動作しますか? アプリ内録音はプラットフォームをまたいで動作します。iPhoneとAndroidの両ユーザーが、ライブ録音の音声を構築できます。AI生成のMP3を注入するための高度なファイル交換回避策は、Androidのファイルディレクトリで記録されており、ルート化またはエミュレートされた環境が必要です。GitHubコミュニティの議論によれば、これはクリーンなiOSパスではないので、特にAI生成ルートが欲しい場合は、Androidを中心に計画してください。