【プロンプトメモ】ConoHa AI CanvasでAIイラストを生成する #12|モデルの自由度に乗る

のが良いのかもしれないという仮説。

イラスト生成にはConoHa AI Canvasで起動したStable Diffusion XLを使用しています。解説記事を書いていますので、興味がある方は以下のリンクからぜひお読みください。

ConoHa AI Canvas アフィリエイトバナー

生成結果とプロンプト

[prompt]
1girl, full body,
angel, (highleg, floating, ribbon, barefoot, thigh strap:0.5),
(white background, looking at viewer:0.5)
<lora:bold-16oa:-1>, <lora:r17329_illu:0.5>, <lora:LightColor1llust:0.5>, <lora:1990-2:0.5>

[negative prompt]
worst quality, (monochrome, empty eyes:0.5)

[setting]
Steps: 20
Sampler: DPM++ 2M Karras
CFG scale: 7
Size: 960×1536

考察

イラストを生成するにあたりプロンプトを入力するわけだけれど、あるプロンプトを入力するということはそれ以外の要素を抑制するということだよなということに最近思い至った。

プロンプトの単語数を増やせば増やすほど潜在空間はどんどん限定されていって、モデル側での解釈の余地がなくなっていく。

これはネガティブプロンプトも同様で、ネガティブプロンプトを長くしすぎると何もかもが不適な扱いになって描画のクオリティが下がるという現象が起こる。

要するにプロンプトもネガティブプロンプトもできる限り単語数を減らして、モデル側の解釈の余地を残した方が上手くいくんじゃないかという風に思い始めている。

あと単語数を増やすときも、係数で弱化することでモデル側に解釈の余地を残している。実際に生成しているときの感触も良いので、この方向性で少し探ってみたい。

ConoHa AI Canvas アフィリエイトバナー