AIでアニメ作成をやってみた実況用口パク動画と連続写真からのモーション模写 #StableDiffusion #NovelAI #Flimora

画像生成AIを使って動画を作成する取り組みは色々行われているようですが、私もStable Diffusion web AI(AUTOMATIC1111)を使って、簡単なアニメ作成を試してみました。
やってみたはAIキャラクターが動画で実況・解説するような口パクアニメーションの作成と連続写真からのモーション模写です。

screencapture-127-0-0-1-7860-2022-10-21-18_46_56

まずは、Stable Diffusionを使って、txt2imgでキャラクターを生成し、Inpaintでその目と口だけ書き換えます。
キャラクター生成時は背景を描かないようにしたり（promptにgreen backgroundと書いてます）、頭が切れないようにする（これはpromptではなかなか難しかったので多く生成して良いのを選ぶ）のがポイント。
Inpaint時は、open/close eyes/mouthなどのpromptを追加していくつか生成して良さげなのを選んでます。

02284-222557486-((masterpiece)), (((best quality))), ((ultra-detailed)), ((illustration)), ((short blue hair)), (1 girl), (solo), beautiful deta

目を開いて口を閉じたもの

01048-2607569691-((masterpiece)), (((best quality))), ((ultra-detailed)), ((illustration)), ((short blue hair)), (1 girl), (solo), beautiful deta

目を開いて口も開いたもの

01056-150463587-((masterpiece)), (((best quality))), ((ultra-detailed)), ((illustration)), ((short blue hair)), (1 girl), (solo), beautiful deta

目を閉じて口も閉じたもの

この３枚があれば口パクアニメが作れます。

作り方は2分の動画でまとめました。作ったキャラに解説してもらってます。とりあえず試しただけなのでクオリティの低さはご容赦を。
Photoshopで背景を削除して、動画編集ソフトFilmoraで自動合成音声に合わせて口パクさせています。
（Filmoraでのキャラ実況動画の作り方はこちらを参考にしました）

次は連続写真からのモーション模写です。Stable DiffusionのBatch img2imgで、写真から画像を生成しました。（写真はトキさん＠亀山温泉ホテルです）
色々試したところDenoising Strengthは0.5~0.6あたりが良く、それ以下だと姿勢に忠実ですが絵が崩れるし、それ以上だと姿勢をかなり無視して描画される感じがしました。