
下記、記事が面白そうだったので、紹介されている Rinon Voice Lab をRTX5070Ti PCにインストールして動かしてみました。
ASCII: 寝不足になるほど面白い ローカルAIと音声合成をつないだら、キャラが普通にしゃべり始めた

LM Studio で (せっかくなので)公開されたばかりの Gemma 4 12B QAT をダウンロードして、サーバ動作させます。Thinkingはオフにしないと上手く動きませんでした。Googleが公開したGemma 4シリーズのQuantization-Aware Trainingモデルで、省メモリで高品質なモデルです。
Rinon Voice Labは、Codexにより実装されたものだそうで、下記で公開されています。
https://github.com/sakugetu/rinon-voice-lab
リポジトリをクローンして、start_chat_uv.batを実行。ブラウザで、http://127.0.0.1:7862/を開くだけで動きます。
Irodori-TTSも自動的にインストールしてくれます。

メッセージを入力しSendを押すと、ローカル動作とは思えないほど早くレスポンスが帰ってきます。(最初はモデルのロードに時間がかかりますが)
Irodori-TTSによる音声も、キャラクターが話しているような感情がこもった声で良いです。

キャラクターをカスタマイズしたり、リファレンスとなる音声を登録したりすることも可能。

2PキャラモードではAutoボタンで、延々とキャラクター同士で話し続けさせることができるのが、とても面白いですね。
(最初、画面を小さく表示していたので、Autoボタンが表示されず、どうしたら二人で話させることができるのか悩みました)
ちょっと変な部分(自分の名前を読んでしまうなど)もありますが、回答・音声生成時間が早いのでスムーズに会話しているように聞こえますね。別途しりとりなどもやらせてみましたが、しりとりになってない部分もありました。



