画像生成AIを使って動画を作成する取り組みは色々行われているようですが、私もStable Diffusion web AI(AUTOMATIC1111)を使って、簡単なアニメ作成を試してみました。
やってみたはAIキャラクターが動画で実況・解説するような口パクアニメーションの作成と連続写真からのモーション模写です。

screencapture-127-0-0-1-7860-2022-10-21-18_46_56

まずは、Stable Diffusionを使って、txt2imgでキャラクターを生成し、Inpaintでその目と口だけ書き換えます。
キャラクター生成時は背景を描かないようにしたり(promptにgreen backgroundと書いてます)、頭が切れないようにする(これはpromptではなかなか難しかったので多く生成して良いのを選ぶ)のがポイント。
Inpaint時は、open/close eyes/mouthなどのpromptを追加していくつか生成して良さげなのを選んでます。

02284-222557486-((masterpiece)), (((best quality))), ((ultra-detailed)), ((illustration)), ((short blue hair)), (1 girl), (solo), beautiful deta

目を開いて口を閉じたもの

01048-2607569691-((masterpiece)), (((best quality))), ((ultra-detailed)), ((illustration)), ((short blue hair)), (1 girl), (solo), beautiful deta

目を開いて口も開いたもの

01056-150463587-((masterpiece)), (((best quality))), ((ultra-detailed)), ((illustration)), ((short blue hair)), (1 girl), (solo), beautiful deta

目を閉じて口も閉じたもの

この3枚があれば口パクアニメが作れます。

作り方は2分の動画でまとめました。作ったキャラに解説してもらってます。とりあえず試しただけなのでクオリティの低さはご容赦を。
Photoshopで背景を削除して、動画編集ソフトFilmoraで自動合成音声に合わせて口パクさせています。
(Filmoraでのキャラ実況動画の作り方はこちらを参考にしました)

次は連続写真からのモーション模写です。Stable DiffusionのBatch img2imgで、写真から画像を生成しました。(写真はトキさん@亀山温泉ホテルです)
色々試したところDenoising Strengthは0.5~0.6あたりが良く、それ以下だと姿勢に忠実ですが絵が崩れるし、それ以上だと姿勢をかなり無視して描画される感じがしました。

P1231928
P1231928
P1231929
P1231929
P1231930
P1231930
P1231931
P1231931
P1231932
P1231932
P1231933
P1231933
P1231934
P1231934
P1231935
P1231935

予想通り背景はもちろんキャラや服装の一貫性もないですね。手足もいまいち模写できていないです。