HP OMEN 35LでのNVIDIA GeForce RTX5070Tiを使った画像編集・動画生成のテストとして、アニメ画像から実写風のコスプレ写真を生成したり、顔を指定のものにすり替えたり、生成した写真から声付きの動画を生成したりというのをやってみました。
Flux.2 [Klein] 9B 蒸留:画像編集
まずは、ComfyUIのテンプレートから、Flux.2 [Klein] 9B 蒸留:画像編集を選択。プロンプトに下記を入れて、flux-2-klein-9b-fp8モデルでアニメ画像から画像を生成してみました。1枚の生成にかかる時間は10秒弱。MacBook Proで生成していた時間に比べると圧倒的に速いですね。
A photorealistic live-action portrait photo of real human subjects recreating
the characters from image1. A cinematic photo.
Faithful reproduction of the original character designs
(hairstyle, hair color, eye color, outfit, accessories, and pose),
but translated naturally into real-world human proportions.
Real human model, not mannequins or figures.
Natural human facial anatomy with realistic eye size, face structure,
and subtle asymmetry typical of real people.
Wearing real clothing adapted from the original outfits,
with natural fabric behavior, folds, gravity, and wear.
No plastic shine, no rigid costume look.
Shot as a real photograph, documentary-style realism.
Soft natural lighting, realistic shadows, imperfect lighting balance.
Shallow depth of field from a real camera,
DSLR photograph, 85mm lens, f/1.8.
Captured in a real-world environment (studio or on-location),
with natural background depth and atmospheric perspective.
Pure live-action realism.
No anime, no illustration, no CGI, no text, no toy-like appearance.
長いですが、キャラクターの特徴は引き継ぎ、服装やポーズなどもそのままで、実写の人物コスプレ風になるように(フィギュアやCG風にならないように)ChatGPTなどを使いつつ生成したプロンプトです。
なかなかそれっぽくて良いですね。
アーニャはCG風になってしまいました。
1枚に大勢の人が入っていても、かなりそれっぽくなりますね。
やはりこれは難しかったか
同じプロンプトで名画も変換できます。
次は、もう一枚の画像の顔に差し替えることで、自分がコスプレになれるようにしてみました。プロンプトは上のものに下記の1行を追加しただけです。
Replace the face to the real face of image2.
差し替える顔はこちらの顔(生成AIで生成したもの)にしています。
わかりにくいかもですが、最初の画像の顔が参照した顔に変わっていると思います。
外国人風になりがちな顔を日本人に変えるためにも良いかも。
アクアが変わるのか。一人増えてる。
ITX-2 画像からビデオ (蒸留版)
次は、ITX-2を使って、上記で生成したコスプレ画像からビデオを生成します。ITX-2は音や声も生成してくれるのが面白いですね。
1280×720の5秒の動画を生成するのに、ltx-2-19b-distilled-fp8モデルで10分弱でした。これもかなり速いですね。
こちらの画像から動画を生成。
英語はかなり話せますし、口の動きも自然ですね。
プロンプトに日本語を入れたら、日本語も話せました(たまたまかも)。なぜか中国語字幕っぽいのが入りますね。プロンプトで消せるとは思いますが。
やはり日本語は難しいみたい。
歌っぽいものを歌うこともできます。