Stable Diffusion 試す - あおたくメモワール

VRできるくらいのスペックのマシンを、ということでこのマシンを組んだときは GTX2070 を積んだんだけど、このスペックなら普通に Stable Diffusion が動く。

Midjourney は Discord でプロンプトを入力するのがだるすぎてお試しの段階でもっと手元で試行回数ぶんまわして感覚を掴みたいのですが？となったので、ローカルで Stable Diffusion が動くならこれでできるじゃん。ただ導入が億劫だったり他にやりたいことやることあったりだったのでこのタイミングになった。逆に情報が集積されて参入しやすくなった感じはある。

実際試した所感。基本はガチャ。とにかく試行回数重ねていい感じのものを引き当てる。ただこれは人間が描いててもわりとそうで、いい線が引けるまで線を引きまくるみたいなのはプロの漫画家でもやってたりする。人間が手で描くよりは確かに速い。しかし AI は今のところ知っているものの組み合わせでしか描けない。自分の絵に似た絵を量産したいと思ったら自分の絵を学習させる必要があり、学習には生成よりも高スペックのマシンが必要になる。ちょっとむずかしい。というわけで、どこかで見た絵柄の絵を大量に作るのは得意、という感じなので、どこかで見た絵柄ではない、その人固有の絵の価値は今後むしろ高まると思う。流行の消費が過熱するので個人的にはもっとのんびり楽しもうよ～という気持ちになったりするが、おそらくニッチなものについては今後もしばらくゆるやかな時間の流れが維持されるような気はしている。

ちょっとした素材を作るのには向いている。ただし出力されたものがそのまま使えるかというとそんなことはないし、望む出力を得るためにはそこそこガチャを回す労力がかかる。労力もそうだし単純にマシンを動かす時間がかかる。ものによっては描いたほうが早いものもあると思う。もし素材集で足りるなら基本は素材集のほうが早いし使い勝手もいい。作風やフォーマットを統一して AI に出力させるのは結構厳しそう、という事前の予想どおり、やはり厳しいと思う。出力が安定するプロンプトを生み出せればいいんだろうけど。

手で直せば使える、とか、描いたものベースに image2image するとか、そういう使い方をしたほうがいいツールに思う。プロンプト一発で予想外のものが出てくるのは楽しいが、完成品を出したいのではなくてなにかに使うためのものを作りたいときは、再現性のある手法でないと困る。よくこんなんで同じキャラが出演するCG集作ったな……という感想。
一回出てきたもので完成ではなくて、段階的に途中経過を出力しながらその都度舵取りしてゴールを目指すというのが望む出力を得るためには必要そう。

あと AI は手は下手くそだけど手の3Dモデル使えばそのへんは回避できる。AI が描くの下手な部分はいまのところ人間が描いたものを貼り付けて補助してやるのがよさそう。でも実際のところ手みたいなだるい部分を AI に描いてもらいたいのに、って感じだけど、人間が苦手なものは AI も学習が足りない、ということですわな。

学習モデルの個性で出力の個性が変わるのは面白かった。Waifu と Trinn でかなり違う。

キャラ読み込んでアングル差分とか表情差分とか、ポーズ絵読み込んでキャラ絵と合成したらそのキャラのポーズ絵が出力されるとか、そういうツールが今後出てくるやろな、と思っていて、そうなったら真面目に作画ツールとして現場で使えるようになっていくと思う。そのためにはプロが描いた絵でそういう学習モデルを作る必要があると思うし、そういう仕事が今後発生するだろうなあと思っている。

今のところは、がんばったら使えそう、もうちょっとがんばらなくてもよくなると便利そう、ただそうなってもより AI を活用できるのはやっぱり絵が描ける人だろうなあという感想。それでも我々のような眼高手低勢には余りあるほどに福音だと思う。

こちらからは以上です。