00022-527986880

Microsoftわずか3秒の音声データからそっくりな声の音声合成が可能な技術「VALL-E」 を発表しています。

https://www.microsoft.com/en-us/research/project/vall-e-x/

今まで音声合成に個人の声の特徴を学習させようとするとかなり長い音声データが必要でしたが、たった3秒ほどの音声でモデルを作れるのは驚きですし、ディープフェイクにもつながる技術で危険性もあります。(ドラマCODEでもAIがユーザの声を真似て電話するシーンがありましたね)
ということでMicrosoft自身はソース公開をしていないのですが、その論文から研究者がオープンソース実装したのが「VALL-E X」です。英語・日本語・中国語に対応していて、入力した音声の言語と違う言語での音声合成も可能です。

https://github.com/Plachtaa/VALL-E-X

Windows+NVIDIA GPUでの動作を想定しているようですが、GPUがなくても動くようなので、M1 MacBook Proにインストールしてみました。

すでにgit, pyrhon, ffmpegなどインストール済みだったので、ターミナルで下記を実行するだけで簡単にweb UIが立ち上がりました。
初回起動時にモデルデータもダウンロードしてくれます。

git clone https://github.com/Plachtaa/VALL-E-X.git
cd VALL-E-X
pip install -r requirements.txt
python3 launch-ui.py
screencapture-127-0-0-1-7860-2023-09-18-22_29_41

Infer from audioタブでは、音声データからオーディオプロンプトを生成したり、音声合成したりすることができます。
upload audio promptに音声ファイルをドラック&ドロップするかクリックしてファイル選択でアップロードします。
またはrecorded audio promptのRecord from microphoneを押して、音声を録音することも可能です。(ブラウザでのマイクの使用を許可します)
Textに音声合成したい文字を入力して、Generate!を押すと音声合成したファイルが生成されます。

音声データからオーディオプロンプト生成作業は、テキストが変わっても同じなので、オーディオプロンプトとしてファイル保存して利用することが可能です。音声データが入った状態でPrompt nameに好きな名前を指定してMake prompt!を押すと、オーディオプロンプトファイルが生成されるのでダウンロードします。

Exampleがあるので簡単に試すこともできますね。

screencapture-127-0-0-1-7860-2023-09-18-22_15_02

Make promptタブでもオーディオプロンプト生成作業が、Infer from promptタブでは、オーディオプロンプトファイルを指定して、音声合成することができます。

10コアCPU動作で、プロンプト生成に約十数秒、音声合成に数分かかりました。(音声の長さやテキストの長さで変わります)

screencapture-127-0-0-1-7860-2023-09-18-22_12_00

Infer long textタブでは、長文テキストの音声合成ができます。その分、時間がかかり、10分以上生成にかかったりしました。

肝心の音声は、入力する音声の品質(雑音がないかとかちゃんと発声するかとか)によるみたいですが、確かにその人の声に似た声で音声合成してくれますね。やはり音声合成感があるのと、生成するのに時間がかかるので用途は限られますが、ローカルで色々遊んでみたい人は試してみては?

友達の声や声優のボイスサンプルなどで遊んでも、無断公開や悪用は絶対しないようにね。

(冒頭のアイキャッチの絵はAIがキーワードから描いた絵です)