Gemma 4 12B QAT と Irodori-TTS v3 でスムーズな会話が続くローカルAIチャット Rinon Voice Lab

下記、記事が面白そうだったので、紹介されている Rinon Voice Lab をRTX5070Ti PCにインストールして動かしてみました。

ASCII: 寝不足になるほど面白い　ローカルAIと音声合成をつないだら、キャラが普通にしゃべり始めた

LM Studio で（せっかくなので）公開されたばかりの Gemma 4 12B QAT をダウンロードして、サーバ動作させます。Thinkingはオフにしないと上手く動きませんでした。Googleが公開したGemma 4シリーズのQuantization-Aware Trainingモデルで、省メモリで高品質なモデルです。

Rinon Voice Labは、Codexにより実装されたものだそうで、下記で公開されています。

https://github.com/sakugetu/rinon-voice-lab

リポジトリをクローンして、start_chat_uv.batを実行。ブラウザで、http://127.0.0.1:7862/を開くだけで動きます。
Irodori-TTSも自動的にインストールしてくれます。

メッセージを入力しSendを押すと、ローカル動作とは思えないほど早くレスポンスが帰ってきます。（最初はモデルのロードに時間がかかりますが）
Irodori-TTSによる音声も、キャラクターが話しているような感情がこもった声で良いです。

キャラクターをカスタマイズしたり、リファレンスとなる音声を登録したりすることも可能。

2PキャラモードではAutoボタンで、延々とキャラクター同士で話し続けさせることができるのが、とても面白いですね。
（最初、画面を小さく表示していたので、Autoボタンが表示されず、どうしたら二人で話させることができるのか悩みました）

ちょっと変な部分（自分の名前を読んでしまうなど）もありますが、回答・音声生成時間が早いのでスムーズに会話しているように聞こえますね。別途しりとりなどもやらせてみましたが、しりとりになってない部分もありました。

月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

関連投稿: