【プロンプトメモ】ConoHa AI CanvasでAIイラストを生成する #15|cat ear:0.1

モデルをコントロールするのではなく、モデルに描いてもらう気持ち。

イラスト生成にはConoHa AI Canvasで起動したStable Diffusion XLを使用しています。解説記事を書いていますので、興味がある方は以下のリンクからぜひお読みください。

ConoHa AI Canvas アフィリエイトバナー

生成結果とプロンプト(1)

[prompt]
(1girl, cat ear:0.1),
(full body, white background:0.1),
(highleg, thigh strap:0.1),
(dutch angle, skinny:0.1),
<lora:r17329_illuu:0.6>, <lora:1990-2:0.6>,
(best quality:2),

[negative prompt]
(worst quality:2), (empty eyes, monochrome:0.1),

[setting]
Steps: 20
Sampler: DPM++ 2M Karras
CFG scale: 7
Size: 960×1536

他の生成結果(1)

生成結果とプロンプト(2)

同じ時期にやったマイナーチェンジなのでこちらで紹介。(kimono:0.5)の場合。

[prompt]
(1girl kimono:0.5),
(full body, white background:0.3),
(highleg, thigh strap:0.1),
(dutch angle, skinny:0.1),
<lora:r17329_illuu:0.5>, <lora:1990-2:0.5>,
(best quality:1),

[negative prompt]
(worst quality:2), (empty eyes, monochrome:0.1),

[setting]
Steps: 20
Sampler: DPM++ 2M Karras
CFG scale: 7
Size: 960×1536

他の生成結果(2)

Xにあげたものは多少編集しています(自白

謹賀新年の文字が克明に生成されているのは、kimonoの近くに謹賀新年の重みづけがあったということなのだろうか。AIイラストの仕組み上、学習元のデータを復元することは不可能なはずなので。

[User]
AIイラストで、学習元の固有のイラストが偶発的にそのまま再現されるといった現象は現実的にあり得ますか?

[Claude3.7]
AIイラストの学習元となるイラストが偶発的に全く同じ形で再現されることは、理論的には可能ですが、実際にはかなり稀なケースです。

現代の画像生成AIモデル(Stable Diffusion、Midjourney、DALL-Eなど)は、数百万〜数十億の画像から学習されています。これらのモデルは元の画像を丸ごと保存しているわけではなく、画像の特徴や統計的なパターンを抽象化して学習します。

実際に起こり得る状況としては:

  1. 非常に特徴的で独特なスタイルや構図の場合、類似した結果が出る可能性が高まります
  2. 学習データに頻繁に含まれていた有名なイラストは、その特徴が強く学習される傾向があります
  3. 特定のプロンプトが元のイラストの説明と非常に近い場合、結果も近くなりやすいです

しかし、ピクセル単位で完全に同一のイラストが偶然生成されることは、確率的に極めて低いと言えます。部分的な類似や、スタイルの模倣、構図の類似などが起こることの方が一般的です。

この問題は「メモライゼーション」(学習データの暗記)と呼ばれることもあり、AIモデルの設計者にとって重要な課題となっています。

考察

ここ最近で一番の発見だったのだけれど、係数で弱化すると自由度が高まる。

係数を付けないで入力すると強すぎるのではないかという仮定を持っている。例えばcat earと普通に入力したとき、これは(cat ear:1)と同じ意味合いだ。そしてたぶん係数1だと強すぎる。

ただし生成されたイラストを見てもらうと分かる通り、今回の場合(cat ear:0.1)で厳密に猫耳が生成されているわけではない。おそらく、潜在空間内でcat earに近しい要素を持つ諸々がイラストに反映されている。

今まで自分はプロンプトの単語を強める方向で、モデルをコントロールしようとしてきたけれど、AIイラストの本質はそこにはないのかもしれない。

AIイラストとは「学習データ→モザイク」のデータを単語に対応させて重みづけをして、それを「モザイク→イラスト」へと逆再生することであり、本質的にランダム性を含んでいる。そこを否定して、プロンプトをガチガチに固めてもあまり良い結果は得られないのではないか。

現段階では色々試している途中なので断定的には言えないけれども、係数で弱化させることによって、イラストの質感が向上したことは事実のような気がしている。

ConoHa AI Canvas アフィリエイトバナー