Apple M1/M2 Mac に VALL-E X をインストールわずか3秒の音声からの声まね音声合成を試す

Microsoftはわずか3秒の音声データからそっくりな声の音声合成が可能な技術「VALL-E」を発表しています。

https://www.microsoft.com/en-us/research/project/vall-e-x/

今まで音声合成に個人の声の特徴を学習させようとするとかなり長い音声データが必要でしたが、たった3秒ほどの音声でモデルを作れるのは驚きですし、ディープフェイクにもつながる技術で危険性もあります。（ドラマCODEでもAIがユーザの声を真似て電話するシーンがありましたね）
ということでMicrosoft自身はソース公開をしていないのですが、その論文から研究者がオープンソース実装したのが「VALL-E X」です。英語・日本語・中国語に対応していて、入力した音声の言語と違う言語での音声合成も可能です。

https://github.com/Plachtaa/VALL-E-X

Windows＋NVIDIA GPUでの動作を想定しているようですが、GPUがなくても動くようなので、M1 MacBook Proにインストールしてみました。

すでにgit, pyrhon, ffmpegなどインストール済みだったので、ターミナルで下記を実行するだけで簡単にweb UIが立ち上がりました。
初回起動時にモデルデータもダウンロードしてくれます。

git clone https://github.com/Plachtaa/VALL-E-X.git
cd VALL-E-X
pip install -r requirements.txt
python3 launch-ui.py

screencapture-127-0-0-1-7860-2023-09-18-22_29_41

Infer from audioタブでは、音声データからオーディオプロンプトを生成したり、音声合成したりすることができます。
upload audio promptに音声ファイルをドラック＆ドロップするかクリックしてファイル選択でアップロードします。
またはrecorded audio promptのRecord from microphoneを押して、音声を録音することも可能です。（ブラウザでのマイクの使用を許可します）
Textに音声合成したい文字を入力して、Generate!を押すと音声合成したファイルが生成されます。

音声データからオーディオプロンプト生成作業は、テキストが変わっても同じなので、オーディオプロンプトとしてファイル保存して利用することが可能です。音声データが入った状態でPrompt nameに好きな名前を指定してMake prompt!を押すと、オーディオプロンプトファイルが生成されるのでダウンロードします。

Exampleがあるので簡単に試すこともできますね。