中国アリババグループにより先週オープンソース公開されたQwen3TTSは、テキストから自然で人間らしい音声を生成するだけでなく、説明文から新しい声を作るボイスデザインや、手元の短い音声から話者の声質を複製するボイスクローンまで行えるAIモデルファミリー。Pinokioで簡単にインストールできるようになっていたので、RTX5070Ti PCで試してみました。

スクリーンショット 2026-01-25 212635
[original]

Pinokioのリストに上がっており、選択してOne Clickで簡単にインストールできます。

スクリーンショット 2026-01-26 074500
[original]

Modelsタブで、各AIモデルは別途ダウンロードします。

スクリーンショット 2026-01-25 235614
[original]

Voice Designタブでは好きな声で、好きな文章の音声を生成することができます。Voice Descriptionに声の説明を書いて、Text to Synthesizeに話させたい内容を記載して、Languageを選んで、Generateボタンを押すだけ。
文の長さにもよりますが、10秒程度で音声が生成できました。声の説明はうまく反映してくれますが、Seedを固定しても同じ声になるわけではないです。
10言語に対応で、日本語にも対応しており、Text to Synthesizeは日本語表記も可能。たまに読み間違えたり、イントネーションが変だったりしますが、正直想像以上でした。

ニュース風原稿を読んでもらった生成サンプル

スクリーンショット 2026-01-26 000311
[original]

淡々としたセリフだけでなく、感情表現があるようなセリフにも対応可能。

アニメ風のセリフの生成サンプル

スクリーンショット 2026-01-26 072737
[original]

Custom Voiceタブでは、あらかじめ設定されたいくつかの声でセリフを話させることができます。同じ声で音声を作成したい場合に使えます。

スクリーンショット 2026-01-25 235705
[original]

Voice Cloneタブでは、音声ファイルをインプットとして同じ声質で、音声を生成することが可能です。入力する音声は3秒以上でOK。ちょっと前までは、多くの文章を読んで学習しないとその人の声っぽくならなかったのですが、これは短い入力音声を読み込ませて、Target Textにセリフを書くだけで、音声を生成することができます。
Voice Designで作成した声もこれを使えば、音声の一貫性が増しますね。
リアルな声を入力することもできます。ちょっと自分や有名人の声とかは公開できないので、下記の駅のアナウンス音声を入力にしてみました。

https://commons.nicovideo.jp/works/nc456287

駅のアナウンス音声風生成サンプル

この他にも色々試してみましたが、結構似た声で話します。

スクリーンショット 2026-01-26 070935
[original]

そしてこの生成した音声を入力して、Wan2.2 S2Vで、リップシンク動画を生成すると・・・

フェイク動画が簡単に生成できてしまいます。(この元画像はZ Image Turboで生成したものですが、実写真で生成することもできます)

この技術はかなり危険で、電話をかけて声を聞き取ってクローンした声でおれおれ詐欺を行ったり、有名人の音声と写真からフェイク動画を作成して詐欺に利用したりといったことが、今後ますます手軽になり多発する恐れがあります。注意を怠らないようにしてください。

他人の音声や写真でイタズラやバズにつかうなども止めましょう