ATLAS AI concept art

AIの使い方

前置き

ここからは実際にAIをツールとして使っていく方法を紹介する。まず、WebサイトのAIは簡単に使う事が出来る分、自身で設定できる項目が少ない為、ツールとして使うAIには適していない場合が多い。私の場合は自身のデスクトップPCでstable diffusionというAIを使用している。こちらのAIはWebのバージョンも存在するが自分のPC内に構築する事が可能であり、その場合はPCスペックによって動作は異なるが無料である。ここではAIを完全に自分のツールとして使う方法をメインとしている為、PC内での構築方法など実際に使うまでの準備は省き、AIを使うこうとができる環境が整っていることを前提に話を進めていく。

モデルを決定する

モデルとは画像を生成するための学習済みファイルを指す。モデルを変更することで、事前学習されたデータに応じてアニメ風や写真風など、様々な画像を生成することができる。その為、まずは自身の表現したいものに合わせたものを選ぶことが重要である。AIとはいえ得意不得意があり、例を挙げると人を出力する事が得意なAIでは建物や風景を出力することには適していない場合がある。モデルはHugging FaceやCivitaiというサイトからダウンロードできる。

mode

プロンプトを工夫する

AIをツールとして使う上で必ず必要になってくる項目がプロンプトと呼ばれるAIに対する指示である。自分の表現したいものをより詳細に書く必要があり、プロンプトの強さは後ろに行くにつれて弱くなっていくので、強調したい単語やメインのモチーフを先頭に持ってくると良い。また、プロンプトは全て英語なので、日本語では同じ意味でもミュアンスが少し異なるものもある。その中からどの単語が良いプロンプトになるか吟味する必要がある。
(下記プロンプトの例) 左はpeople:人々、右はcrowd:群衆、右のプロンプトの先頭に背景イラストやコンセプトアートであることを明記。ネオンサインを前に移動。

left1 right1

Idyllic medieval European-style village, overview, people, Plains, Many holographic billboards, morning, like cyberpunk 2077, Machines with many cords connected, Advertising billboards with various contents, Dystopian near future, Neon signs, Electric wires on poles, Large computers installed outside houses

background illustration, Concept art, Idyllic medieval European-style village, overview, (crowd), Plains, Neon signs, Many holographic billboards, morning, like cyberpunk 2077, Machines with many cords connected, Advertising billboards with various contents, Dystopian near future, Electric wires on poles, Large computers installed outside houses

通常のプロンプトの他にネガティブプロンプトというものを使い、出力してはいけないものや変に出力されないように設定することもできる。
(例) 低クオリティのものを禁止し精度を上げている。
easy negative, drone, worst quality, low quality,worst quality,out of focus,ugly,error,JPEG artifacts,low resolution,blurry,bokeh,nsfw 

文字から生成する方法

一般的にtext to imageと呼ばれている出力方法でプロンプトのみで画像を出力する。

これは実際の出力画面である。今回注目して欲しいのはサンプリング方法、その右のスケージュルタイプ、サンプリングステップ数、CFGスケールの4つの項目である。
 
・サンプリング方法
まず、Stable Diffusionで絵を描く場合、人間が真っ白なキャンパスに線を描くのとは違い、ノイズまみれのキャンパスからノイズを取り除いて絵を描いていく。サンプリング方法とはその際のノイズの除去の手順の手順を決めるアルゴリズムのことである。自分の表現したいものに合わせて、品質と細かいディテール、生成速度、PCのスペック等を考えて決めていくものである。私の場合は風景の出力のため高精度で安定し、ディテールや微細な表現が可能なDPM++3M SDEを使用。
 
・スケジュールタイプ
こちらは生成過程においてノイズ強度の増減のペースを決めるパラメータである。リアリティに特化したものやディテールが滑らかに表現されるもの、品質でなく速度を重視するものなどが存在する。私はコンセプトアートに説得力を出すために複雑な画像生成に向いているKL Optimalを使用。
 
・サンプリングステップ数
ノイズを取り除く工程の回数を決める項目。こちらの値を増やすごとに生成される画像の品質は向上するが、その分生成速度は遅くなっていく。表現するものの複雑さやサンプリング方法とのバランス、PCのスペックによって適した回数があるため、生成を重ねて定ていく必要がある。品質がとても良く、生成速度に問題がなかった為150という値で行った。
 
・CFGスケール
この値はプロンプトもしくは後述する画像からの生成にあたって、それらを忠実に反映させるかどうかを決める値である。値を高くすればプロンプトに忠実になっていくが高すぎるあまり破綻してしまうこともある。逆に低すぎればプロンプトからは掛け離れたものが生成されるが、AIが補うため破綻は少ない。AIをツールとして扱うためにAIに頼り過ぎず且つ破綻の少ないラインを探った結果、20という値を使用するに至った。
 
上記の要素を組み合わせ出力する事で2回に1回程度は希望通りの画像が生成されるようになった。

画像から生成する方法

こちらでは私が最後に辿り着いた生成方法について紹介する。基本的にはこの方法が最も完璧に近い形でAIをツールとして使用することが出来た。

この方法ではまず、私自身がラフを手描きするところから始まる。完成したラフをAIに読み込ませ、プロンプトと前述の4つの設定を使い完成に近づける。

left1 right1

その後、出来上がった画像の気になる箇所をstable diffusion上で直接書き込んで修正することが出来、その他にも新しい要素の付け足しをすることもできる。左の画像から必要のない奥の城を消し、城をより未来的なビル群に変更。ビル群の立つ地面や左の山に遺跡を描き足す事で完成した。