yasuです。
先日、自宅WindowsPCに導入したStable Diffusionですが、よく使うであろう基本的な設定値の意味がわからなかったので調べてみました。

1.SD VAE
Viriational Auto Encoderの略だそうで、画像を鮮明にする効果があるとのことです。
2.Prompt
作成したい画像を指示するためのキーワードを入力します。
3.Negative Prompt
生成したくない画像を指示するためのキーワードを入力します。
4.Sampling Method
Stable Diffusionは画像を生成する際、ノイズまみれの状態から徐々にノイズを除去して仕上げていきます。
そのノイズを除去するサンプリング方法をSampling Methodといいます。
種類が沢山あり、どれを選択するのがいいか迷いますよね。
結論、使用するCheckpointが推奨しているものを選択してください。
例えば先日ご紹介したAnimagine XL 4.0であれば、推奨Sampling Methodは「Euler a」です。
5.Sampling Steps
Sampling Methodはノイズ除去のサンプリング方法を指定しましたが
こちらはサンプリングの回数を指定します。
ステップ数が少なければ早く画像ができますが、画像の品質は低いです。
逆にステップ数が多ければ画像の品質は高いですが、生成まで時間がかかります。
こちらも使用するCheckpointが推奨している場合は、それに従うのがオススメです。
Animagine XL 4.0であれば、推奨Sampling Stepsは「25~28(28を推奨)」です。
6.Width/Height
生成する画像の幅と高さです。
これも使用するCheckpointが推奨している場合は、それに従うのがオススメです。
Animagine XL 4.0であれば、以下サイズが推奨されています。
向き | 寸法 | アスペクト比 |
---|---|---|
四角 | 1024×1024 | 1:1 |
横長 | 1152×896 | 9:7 |
1216×832 | 3:2 | |
1344×768 | 7:4 | |
1536×640 | 12:5 | |
縦長 | 896×1152 | 7:9 |
832×1216 | 2:3 | |
768×1344 | 4:7 | |
640×1536 | 5:12 |
7.Batch Count
1度に何枚画像を生成するか指定できます。
Stable Diffusion WebUI forge classicは最大128枚まで指定可能です。
8.Batch Size
「Batch Count」で指定した枚数に対して「Batch Size」で指定した倍数分の画像を生成可能です。
Stable Diffusion WebUI forge classicは最大16倍まで指定可能です。
Batch Count 128、Batch Size 16を指定すると1度に2048枚の画像が生成できます。
9.CFG Scale
入力したプロンプトや画像にどれだけ忠実に画像を作るかの設定値です。
値を高くすると入力したプロンプトや画像により忠実に画像が生成されやすくなります。
こちらも使用するCheckpointが推奨している場合は、それに従うのがオススメです。
Animagine XL 4.0であれば、推奨CFG Scaleは「4~7(5を推奨)」です。
10.Seed
画像生成のランダム性を制御する為の数値です。
同じ数値を指定すると、同じプロンプトであればまったく同じ画像を再生成可能です。
Seed値を同じにしてプロンプトを変えれば、同じ人物で服装を変えたり背景を変えたりすることができます。
-1を指定すると毎回ランダムな数値が割り当てられ、違う画像が生成されます。
主にテキストから画像を生成する基本設定について、簡単に調べてみました。
写真から画像を生成する方の設定値も調べてみたいと思います。