
OpenAIがテキストから最長1分の動画を作成できる生成AIモデル「Sora」を発表して話題になっていますね。
このクオリティには驚きましたが、悪用等色々問題を生む可能性があるので、しばらくはその検討のためにリリースされないようです。
今、簡単にAI動画を楽しむ方法としては、Runway gen-2、Pika、Stable Video Diffusionなど色々ありますが、ローカルで無料で楽しめるStable Video DiffusionをComfyUIで使ってみました。

ComfyUIはStable Diffusionを使うUIとして、Stable Diffusion web UIとともに人気のUIです。ワークフローベースなのでとっつきにくいですが、ある程度理解できるとカスタマイズ性等優れていて便利ですね。
今となってはかなり貧弱ですが、NVIDIA RTX2060搭載のWindowsノートパソコンにインストールしてみました。
詳しいインストール方法は色々記事があるので、ポイントだけ書いておきます。
・ComfyUIのInstallingのWindowsの欄に書いてある方法でとりあえず簡単に動く
・モデルやVAEなどを配置(またはStable Diffusion web UIと共有)
・NVIDIAのドライバーやCUDAなどは最新化しておく(エラーの原因の一つがこれでした)
・ComfyUI Managerを入れると拡張機能の導入が簡単に(これをはじめ知らずに拡張してました…)
・Stable Video Diffusion(SVD)をインストール
・SVDのモデルをダウンロードして配置
(1.1のモデルが出ているのですがメモリ不足で動かなかったので、1.0のfp16のモデルをとりあえず使用しました)
・ComfyUI VideoHelperSuite(様々なビデオ形式に対応), Frame Interpolation(フレーム補間), Workspace Manager – Comfyspace(ワークフロー管理)もインストール

まずは、Stable DiffusionでテキストからAI画像が生成できるようにしました。LCM-LoRAを使って高速化したり、LoRAを適用したりする方法もなんとなく分かりました。(上のワークフロー)

次はStable Video Diffusionで、入力画像から短い動画を作成するワークフロー。フレーム補間したりしています。
SVD-xtモデルだとフレーム数は25までできるみたいですが、メモリー不足のエラーが出てしまいました。

ちょっと色合いが変わるのと、顔など崩れてしまうことが結構ありましたが、姿勢や髪の毛、波、視点などが同時に動いて面白いですね。

ワークフローを結合して、自動的にテキストから動画作成することもできます。
まだ少ししか試していないですが、工夫すれば色々作れそうですね。


他にも試行錯誤中に生成したAIポートレートとさらにその画像から生成したAI動画を載せておきます。






強いGPUが載ったパソコンが欲しいなぁ