#StableDiffusion VRAM4GBのGPUでも動作顔補正アップスケールプロンプト比較一部補正などなど便利機能満載の Stable Diffusion web UI (AUTOMATIC1111)

先日、NVIDIA RTX搭載Windows PCにかんたんにインストールできるNMKD Stable Diffusion GUIをインストールしたばかりですが、さらに便利な機能を満載した「AUTOMATIC1111/stable-diffusion-webui」が登場しました。

下記のような機能はじめ、多くの改良が施されています。
・VRAM 4GBのNVIDIA GPUでも動作可能
・崩れがちな顔をGFPGANで自動補正
・RealESRGANによる自然な解像度拡大（アップスケール）
・プロンプト、パラメータの影響などを確認できるツール群
・画像の一部だけ描き変えることができる（Inpaint）
・生成したときのプロンプト・パラメータを確認できる
・もちろんGUIで簡単操作
・その他いろいろ

https://github.com/AUTOMATIC1111/stable-diffusion-webui

これは試すしかないですね。
まずは、Python, Git, CUDAのインストールが必要ですが、NMKD Stable Diffusion GUIをインストールしていたのでここは省略できました。

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui

で、ダウンロード。(Webページからzipダウンロードして回答するのでも可)

StableDiffusion-Gui-v1.2.0¥Data¥modelckpt をstable-diffusion-webuiフォルダ直下にコピー。

さらに下記よりGFPGANv1.3のモデルをダウンロードして、stable-diffusion-webuiフォルダ直下に配置。

https://github.com/TencentARC/GFPGAN/releases/download/v1.3.0/GFPGANv1.3.pth

web-user.bat を必要に応じて編集して実行すると、インストールとWEBサーバの起動が自動で行われます。

表示された http://127.0.0.1:7860/ にブラウザでアクセスすると、Stable Diffusion web UIが起動。とても簡単ですね。

Gradio - Google Chrome 2022_09_12 18_28_48

上にあるPromptのところに、生成したい画像の説明文章（プロンプト）を英語で入れて、「Generate」ボタンを押すと、画像が生成されます。
「Roll」ボタンは、プロンプトに作家名をランダムに挿入できるようです。ジャンルは「Settings」タブの中の設定で指定可能。

Gradio - Google Chrome 2022_09_12 19_06_56

「Restore faces」にチェックを入れると顔の補正機能が働きます。

Gradio - Google Chrome 2022_09_12 19_06_25

同じSeedとプロンプトで、同じ絵を生成するようで、「Restore faces」のオンオフでその効果も確認できます。

Gradio - Google Chrome 2022_09_12 19_11_35

「Batch count」に指定した枚数の画像が一度に生成されます。
動作はかなり速くて、1枚の生成に10秒もかかりませんでした。

Gradio - Google Chrome 2022_09_12 19_13_14

確かに変な顔が生成される確率が減った感じがします。

Gradio - Google Chrome 2022_09_12 19_02_15

Scriptの欄ではPrompt matrixやX/Y plotを選ぶことができ、プロンプトやパラメータを変化させて、その効果を確認することができます。

prompt_matrix-0005-2461411877-a_portrait_of_a_young_beautiful_model,_detailed_painting____anime_character,_by__Ume_Aoki__photographic,_canon_eos__game_charact

プロンプトに|で区切って候補を羅列すると、それを組み合わせ変化させた画像が生成されます。

Gradio - Google Chrome 2022_09_12 19_28_49

ちなみに生成した画像は、outputsフォルダ内に生成されますが、ファイル名にプロンプトやパラメータの情報を持っており、「PNG Info」タブに画像をドラッグ＆ドロップして「送信」を押すと、プロンプトとパラメータが確認できます。

screencapture-127-0-0-1-7860-2022-09-12-19_20_29

元画像から新画像を生成する「img2img」のタブもあります。画像をドラッグ＆ドロップするか、「txt2img」タブで「Send to img2img」を押して元画像とすることもできます。「Denoising strength」で元画像の変化量を設定して、プロンプトを入力して「Generate」ボタンを押すと、新画像が表示されます。

00001-3185277027-a_portrait_of_a_young_beautiful_model,_detailed_painting_,_Tokyo_night_view_,_game_character,_by__Tetsuya_Nomura

Denoising strength 0.3

00000-2087395114-a_portrait_of_a_young_beautiful_model,_detailed_painting_,_tokyo_night_,_game_character,_by__Tetsuya_Nomura

Denoising strength 0.7

screencapture-127-0-0-1-7860-2022-09-12-20_20_37

「Send to inpaint」を押して、「img2img」タブの「Inpaint a part of image」で変更したいところを塗って、「Generate」を押すと、そこだけ変更した画像を生成することができます。

screencapture-127-0-0-1-7860-2022-09-12-19_23_03

「Send to extras」を押して、「Extras」タブに移動すると、画像のアップスケールができます。

解像感を向上させたとてもきれいなアップスケールができますね。

screencapture-127-0-0-1-7860-2022-09-12-18_37_27

「Settings」タブにはいろいろな設定があったり、この他にも様々な機能があったりしますね。色々試してみたいと思います。

これはStable Diffusionの決定版ですね！

と言いたいところですが、まさに日々新しいのが出てきている状況ですね。日本語対応で追加学習されたモデル搭載の「rinnakk/japanese-stable-diffusion」も気になりますし、そのうち動画生成までAIでとか思っていたら、もう「andreasjansson/stable-diffusion-animation」とか「deforum/deforum_stable_diffusion」とか出てきてますし。

被写体を簡単に写し撮るカメラの発明みたいなもので、どんどん使いやすい道具になって、これから表現が大きく変わる予感がします。