
6GBのVRAMでも動作可能なローカル動画生成AIとして注目されている「FramePack」。1秒あたり1分くらいで、120秒の動画まで作成できるとか試してみたいなと思いつつ、NVIDIA GPUが必須な感じ。RTX2060搭載機は子どもたちに占有されているので…
https://github.com/lllyasviel/FramePack
と思っていたら、何とApple SiliconのmacOSで動くようにされた方がいたので、M1Max搭載のMacBook Proで試してました。
https://github.com/brandon929/FramePack
基本的にはREADMEにかかれている通り、下記でOK。
(私の場合は、既存の環境とバッティングしてエラーが出たのでエラーを解消しましたが)
git clone https://github.com/brandon929/FramePack.git
cd FramePack
brew install python@3.10
pip3.10 install --pre torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/nightly/cpu
pip3.10 install -r requirements.txt
python3.10 demo_gradio.py

起動するとモデルなどは自動でダウンロードされます。ワーニングも沢山出ますが、NVIDIAでなくmps(Metal Perfomance Shaders)で動かす場合は特に問題のないものでした。–fp32オプションも不要でした。

サンプルの画像とプロンプトで動作させてみたところ、問題なく5分の動画が生成されました。
ただ、5分の動画生成に60分ほどかかりましたね。GPUはしっかり使っていたので、まあ妥当な速度だとは思いますが。

サンプルでない画像やプロンプトでも少ない破綻で動画を生成できました。

生成AIで作成したこちらの画像を入力にして、サンプルの「The girl dances gracefully, with clear movements, full of charm.」のプロンプトで30秒動画の生成にチャレンジしてみました。
生成された動画がこちらですが、途中でおかしな部分はあるものの、長い動画生成にありがちなエラーが蓄積されて、顔などが崩れていくようなことは起こらず、比較的一貫性を保っていますね。想像以上に動いて驚きました。
30秒動画の生成に7時間くらいかかりましたが、途中でエラーになったりはしませんでした。これは面白いですね。

さらに、以前撮った写真を動かしてみました。

ChatGPTで作ったキャラクターを動かしてみました。

FramePackを中心として、マルチキーフレーム対応など色々な実験的な機能追加も行われており、急速に進化しています。とても期待しています。
ピンバック: [PR] Nero AI Video Upscaler AIの力 で 動画を簡単高解像度化 | Digital Life Innovator