話題のローカル動画生成AI #FramePack を M1 MacBook Proで動かしてみました

6GBのVRAMでも動作可能なローカル動画生成AIとして注目されている「FramePack」。1秒あたり1分くらいで、120秒の動画まで作成できるとか試してみたいなと思いつつ、NVIDIA GPUが必須な感じ。RTX2060搭載機は子どもたちに占有されているので…

https://github.com/lllyasviel/FramePack

と思っていたら、何とApple SiliconのmacOSで動くようにされた方がいたので、M1Max搭載のMacBook Proで試してました。

https://github.com/brandon929/FramePack

基本的にはREADMEにかかれている通り、下記でOK。
（私の場合は、既存の環境とバッティングしてエラーが出たのでエラーを解消しましたが）

git clone https://github.com/brandon929/FramePack.git
cd FramePack

brew install python@3.10
pip3.10 install --pre torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/nightly/cpu
pip3.10 install -r requirements.txt

python3.10 demo_gradio.py

起動するとモデルなどは自動でダウンロードされます。ワーニングも沢山出ますが、NVIDIAでなくmps(Metal Perfomance Shaders)で動かす場合は特に問題のないものでした。–fp32オプションも不要でした。

screencapture-0-0-0-0-7860-2025-04-26-23_18_38

サンプルの画像とプロンプトで動作させてみたところ、問題なく5分の動画が生成されました。
ただ、5分の動画生成に60分ほどかかりましたね。GPUはしっかり使っていたので、まあ妥当な速度だとは思いますが。

screencapture-0-0-0-0-7860-2025-04-27-10_44_19

サンプルでない画像やプロンプトでも少ない破綻で動画を生成できました。

生成AIで作成したこちらの画像を入力にして、サンプルの「The girl dances gracefully, with clear movements, full of charm.」のプロンプトで30秒動画の生成にチャレンジしてみました。

生成された動画がこちらですが、途中でおかしな部分はあるものの、長い動画生成にありがちなエラーが蓄積されて、顔などが崩れていくようなことは起こらず、比較的一貫性を保っていますね。想像以上に動いて驚きました。
30秒動画の生成に7時間くらいかかりましたが、途中でエラーになったりはしませんでした。これは面白いですね。