話題のAI画像生成Stable Diffusion
備忘も含めて記しておきます。
環境構築
RTX 2070を使いますので、Windows 10で実行します。
- Python(3.10.6)
- pip(22.2.1)
- Anaconda(4.12.0)
- CUDA Toolkit(11.3)
をセットアップします。
続いて本体のダウンロードです。
git clone https://github.com/CompVis/stable-diffusion
次に学習データのダウンロードを行います。
https://huggingface.co/ にてユーザー登録を済ませて、利用規約に同意します。その後クローンを行います。(クローン時にログインが必要です)
git clone https://huggingface.co/CompVis/stable-diffusion-v-1-4-original
その後、stable-diffusion-v-1-4-originalフォルダをstable-diffusion-v1に変更します。sd-v1-4.ckptをmodel.ckptに変更。
stable-diffusion/models/ldm/ にstable-diffusion-v1を移動させます。
今回のRTX 2070はVRAMが8GBなのでこのままではメモリ不足エラーが出るとのことなので、フォークされたバージョンをさらに適用します
git clone https://github.com/basujindal/stable-diffusion.git
フォーク版のフォルダoptimizedSDをライブラリのルートであるstable-diffusionフォルダにコピーします。
これで実行準備完了です。
とりあえず生成してみる。
python optimizedSD/optimized_txt2img.py --prompt "ぱらめーた" --H 512 --W 512 --seed 27 --n_iter 2 --n_samples 10 --ddim_steps 50
とすれば生成が開始されます。手始めに並木道を生成してみます!
python optimizedSD/optimized_txt2img.py --prompt "road, tree-lined street,bicycle, morning,wide angle," --H 512 --W 512 --seed 27 --n_iter 2 --n_samples 10 --ddim_steps 50
パラメータは
- road,
- tree-lined street,
- bicycle,
- morning,
- wide angle,
としてみましたが、ほぼほぼ指定したキーワード通りの画像が出ています。wide angleが理解されているのにびっくり。広角と言えばローアングル撮影が多いのか、指定していないローアングルでの画像も生成されていますね。
ビビッドすぎる写真ではありますが、おそらく色味や雰囲気もパラメータ次第で調整できるかもしれません。
生成された画像に対する著作権や、類似画像となった場合の法的な懸念事項もいろいろと話題になっています。そういう話題になってしまうくらいの可能性を秘めたツールということですね。
What's your reaction?
Excited
0
Happy
0
In Love
0
Not Sure
0
Silly
0