今回は好みのイラストが量産できてとても楽しかった。
イラスト生成にはConoHa AI Canvasで起動したStable Diffusion XLを使用しています。解説記事を書いていますので、興味がある方は以下のリンクからぜひお読みください。

生成結果とプロンプト
Xで一番反応の良かったものを紹介。

[prompt]
1girl, (cyborg, best quality, full body:0.5),
(white background, looking at viewer:0.5),
(green hair, slender, printed number:0.5),
<lora:bold-16oa:-1>, <lora:r17329_illu:0.5>, <lora:LightColor1llust:0.5>, <lora:1990-2:0.5>
[negative prompt]
worst quality, (comic:0.5),
[setting]
Steps: 20
Sampler: DPM++ 2M Karras
CFG scale: 7
Size: 960×1536
他の生成結果








考察
前回に引き続き、モデルの自由度を尊重するイメージでプロンプトを作った。
具体的には、係数であえて単語を弱化することによって、モデルが本来得意としている領域を阻害しないようにした。(なおこれは自分が勝手に言っているイメージ的な話なので、技術的な根拠は不十分です。生成結果からみると上手くいったように思えるけれども)。
AIイラストで遊んできて思うのが、結局はモデルの得意とする領域があって、そこを潰すようなプロンプトにしてしまうと結果としてクオリティが下がるのではないかということだ。潰すようなプロンプトというのは、長かったり、係数ですごく強化されていたり、ネガティブプロンプトが過剰だったりするものだ。
要素を限定すればするほど、活用できる潜在領域が狭まり、表現できる領域が狭まり、結果として高品質な領域が十分に活用できなくなるのではないか。
極端な話、1girlだけでもイラストは作れるのだ。プロンプトをいくら長くしても、一枚のイラストが生成されるという結果は変わらない。
そして潜在空間内で、1girlの周辺にはschool uniformとかskirtとかdressとかの要素が近しい位置に存在しているはずだ。だから弱化をかけてもイラストには十分反映されるし、逆に強化するとそちらに引っ張られすぎて表現の幅を失う。
だから現時点では、自分はあまりプロンプトを長くしない方が良いし、係数で弱化をかけてモデルの自由度を担保するというアプローチが良いのではないかと思っている。
試しているうちにまた意見が変わるかもしれないけど。
