2,3年の間に変化していく画像生成AIの発展の予想

画像生成AIのStable Diffusionが公開されて約3ヵ月が経過した。たった3ヵ月でもの凄い世界の変化を感じた気がするが、まだまだ序章であることも確か。今後、どんどんこのジェネレーティブAIの進化は加速していくはずである。

そこで、今後2,3年で画像生成AI関係がどのように変化するかを予想してみた。

クリエーターのファインチューニングの活用

一部の画像生成AIに肯定的なクリエーターは、画像生成AIを用いた作業効率をはかるための研究を行うだろう。現在はまだ実際にどう活用するかが試行段階であるが、しばらくすると効率的な利用方法が普及するだろう。

その1つを提案を提示しておく。

クリエーターは、完成形の画像ファイル以外に、作業用ファイルを所持している。作業用ファイルはレイヤーごとに分かれている。例えば人間なら目、鼻、口などのパーツを分離して。このレイヤーごとにファインチューニングする。すると自分の絵柄で様々な目・鼻・口などを出力するパーツジェネレータのような画像生成モデルを作ることができる。

Kritaなど画像編集ソフトのStable Diffusionプラグインを用い、このモデルを利用すれば圧倒的に面倒な下作業を全てAIにやってもらえるようになる。クリエーターは自分の絵柄なので、そのパーツがどのような描画技術で作られたか熟知している。そのため、最終的な修正も自分の絵柄なので行いやすいはずだ。

Adobe

今、私はAdobe税を回避するためにAffinityを利用して画像編集をしている。本格的に利用するでもない私にはそれで充分だ。しかし、将来Adobeが本格的に画像生成系のAIを自社ツールに取り込むと、私はAdobe税を利用することになるだろう。

AdobeはGoogleにもOpenAIにも、それこそStabilityAIにもないユーザーデータを合法的に大量に入手している。この項目をAIに利用されると知らずに何気なく許可しているユーザーは多いだろう。

ここで集められるAI用に集めるデータはおそらくレイヤーごとに分離した画像データだ。通常の完成形画像ならインターネット上に転がっているが、レイヤーごとに分離した画像データが大量に存在するのは、それこそ画像編集ソフト会社しか存在しない。

つまり、上記を個人でやっていた作業が必要なくなる。Adobeのツールがあるだけでレイヤーごとの画像生成が可能になる。

例えば人間の場合、人間の目だけを出力、眉毛だけを出力、口だけを出力……みたいなことだ。個人でファインチューニングするには手間でできない部分も用意しているだろう。また、背景を背後に、背景の前に人を、さらに人の前にオブジェクトを出力することも可能だろう。各オブジェクトを分離することもできる。リンゴを2つ用意する場合も2つレイヤーを作って一つ一つ配置が可能だろう。
また、レイヤーごとの位置関係もおそらく学んでいるため、他のレイヤーに合わせて自然に配置されるようになるかも。

モデルもAdobeのAPI経由なので、おそらく生成は早い。

Adobeが導入する画像生成AIについては以下のインタビュー記事からも読み取れる。

引用:基本的なジェネレーティブAIは、テキストプロンプトからJPEGを作成するというもの。そのJPEGは低解像度で、編集はできません。レイヤーもマスクもない。破壊的です。~~中略~~ジェネレーティブAIで1つのレイヤーを生成し、さらにそれを編集するオプションをユーザーに提供するとしましょう。

個人的にはファインチューニングできるかが気になっている。ここでクリエーター個人のパーツを学習できなければ、万人ツールにはよくてもクリエーターツールには不完全なので。たぶん、1回数千円の有料かな。

プロンプトの進化

現在、画像生成AIは狙った画像を出力するのが不可能だ。魔導書を見て呪文を構成して100枚出力したら本当に良いのが2,3枚あり、それを元にi2iでさらに加工みたいなことをしてベストな1枚を作る。

ただ、こちらも発展は早い。

言語生成AIが仕事してしまい、さらに簡単に画像を生成できるようになった。

このように抽象的に述べるだけで良い感じのプロンプトを作ってくれる。さらに指示すると、そのプロンプトに改良も施してくれる。今後、言語生成AIと画像生成AIは密接に結びついていくと思われる。

Stable Diffusionの公開から約3ヵ月でプロンプトの常識が覆された。

今後、画像への命令精度が上がっていく。例えば「両手を広げて角度は60度」、「足はあと30cm広げて」みたいな要求に従うようになってくる。

ただし、このフェーズで必要な学習は、新たなプロンプト用の呪文(単語)の開発とその学習だ。ここをひたすら人力にするのか、それともうまいこと探すようなプログラムを作るのかは分からないが、ひたすらパワー作業になる。単純作業が嫌いそうなオープンソース界隈ではきっと発展しないだろうし、資本を持つどこかの企業がモデルを作ってWebサービスで公開するだろう。

あと1,2年もすれば相当に詳細にキャラのポーズや恰好を自由に決められる状況になっていくはずだ。

ジェネレーティブAIがゲームに採用されはじめる

最初は立ち絵やドットキャラ、音楽、3Dモデルなど各ジェネレーティブAIによる生成物が実験的に取り入れられはじめる。ゲーム素材が手軽に入手できるようになるとゲーム開発者が増えていく。

ゲームの自動生成はまだ先の話だが、既存のゲーム開発者も、インディーズ業界が競争過多になる観点で言えば画像生成AIによるイラストレーター達と同じ境遇となる。大量のゲーム数を前に、新しい技術とアイデアを常に示せなければ、業界から淘汰される。反対に新しいアイデアを見せていけば生き残る。

今後のインディーズゲーム業界は、ソシャゲブームで乱立して撤退していったソシャゲ会社もいる一方、高品質なモバイルゲームを提供して生き残ってきた韓国・中国を中心とした新たなソシャゲ業界のような再編成を見ることになるだろう。

また、ジェネレーティブAIをゲームに取り入れる取り組みが本格的になる。以下のサイトでは、敵、NPC、アイテムのグラフィックを自動生成AIで描くローグライク「Sketch Crawler」やプレイヤーキャラ、敵、NPC、風景全てをその場で生成し、ストーリーも言語生成AIを利用したゲーム「AIローグライト」他数本の研究をを紹介している。

Unity、Unreal EngineはジェネレーティブAI系AI機能の強化がはじまる。いつもの流れを考えるとUnreal Engineは6の発表と共に「すげーーー」としか言いようのないぐらいにAIとゲームエンジンが融合した新しい技術が発表される。マテリアルもエディタのマテリアルから簡単にテクスチャを変化させ、3Dモデルもエディタ内から簡単に作れる。ゲーム内はジェネレーティブAIを利用するAPIが完備される。

UnityはいつもUnreal Engineが機能を提供してから3,4年後に追いつくので、たぶん機能提供はサードパーティー製アセットからが先かな。

そもそも論、既存のゲームエンジン含む様々な開発アプリが言語生成AI+コンパイル済みファイル出力の組み合わせに敗北する未来も予想できる。

PS6やSwitch Proに強力なGPUが必要になる

ジェネレーティブAIを使ったゲームが普及するには、ジェネレーティブAIに耐えうるGPUが必要になる。数秒で画像を生成し、言語を生成する必要がある。今のローゲーミングパソコンのGPUでは全く太刀打ちできないため、パワフルなGPUが必要になる。

そこで、次世代コンシューマーゲーム機の着眼点はジェネレーティブAI製ゲームの快適度が一つの競争になってくると思う。少なくともソニーとマイクロソフトはその方向で攻めるだろう。ただし、任天堂は、毎回スペックを落として安価に販売する方針をつらぬいている。次世代コンシューマーゲーム機はおそらくジェネレーティブAI製ゲームを快適にプレイできるスペックにはならないと思う。

この点をどう対策するかが重要な勝負となる。グラフィックはPS5に追いつくけど、ジェネレーティブAI関連で言えば、任天堂ゲーム機は「スペックが足りませんでした」で未発売やクラウド化、ロード時間肥大化の罠が待ってそうな気がする。

もう一つ、このGPUの制限は価格に跳ね上がるのでPS6でも導入できない可能性がある。そのため、Google Stadiaは失敗したがクラウドゲーミングに再びスポットが当たる可能性も十分にありえる。クラウド環境ならGPUをふんだんに使うゲームでもコンシューマー側の性能には依存しないので。

海外ゲームの輸入が制限される国が出てくる

今後、各国AI規制の法律議論が活発になり、法改正が進む。その中でもし「公認された以外のモデルのダウンロード、及び使用の禁止」みたいな法律ができた国があるとする。AnytihingやNovelAIは公認されない可能性が高い。

するとどうなるか。

それ以外の国ではNovelAIで立ち絵を作って制作したインディーズゲームが発売されるようになる。ところが、そのゲームはNovelAIを利用しているため、この法律が適用された国で発売することはできない。Steamでは普通に購入できるかもしれないが、日本で販売するパブリッシャーが現れないため、Switchなどで発売する可能性は0になる。他の要素が全て面白いのに、特定のイラストがあるだけで、その国で発売されることはなくなる。

日本は山田太郎議員や赤松健議員が法制定に関わることになるため、ここまでヒドい状況にはならないと思う。だが、日本から海外には、販売禁止で売れないゲームが出てきそうな感じはする。

ゲームを例に書いたが、映画やYoutube動画なども含む。

学習元イラストのアーティストへの還元

現在、NovelAI等のサービスは、学習元のアーティストへの報酬が0だ。本来、アイデアに著作権はないが、学習元の画像がないかぎり生成モデルは作れない。今後、画像生成AI含むジェネレーティブAIはWebを検索して自己改善するようになる。

結果、アーティストが新たなアイデアを公開しても一瞬でパクられるようになる。するとアーティストが新しい表現をしなくなる。

そして画像生成AIの成長が止まる。

このことに対して画像生成AIが生成する画像を取り込めばよい案も出ている。ただ、それには絶対に限界がある。新しい表現は、少なくとも数年はプロンプターなりアーティストがいないと作り出せない。

この悪循環をたださないと画像生成AIの発展が止まる。そのため、おそらくサブスクリプション形式でなんらかアーティストにお金を払う仕組みが出てくるのではないかと思う。

また、アーティスト名でそのアーティストのアイデアを利用できること、及び二次創作キャラを容易に生み出せる状況は日本において法律違反の可能性が高い。関係者から許諾を得て、これらのプロンプトを認めてもらうような流れはできていくと思う。

おそらく、現在の音楽のサブスクリプションと同様にこの仕組みでまともに生活できるほど稼げるのは一部だけかと。アーティストが自分の作品を取り込んでもらうよう競争する時代になる。

同様の現象はWeb記事でも起こる。

言語生成AIで懸念していることがある。皆がGoogle検索の代わりに言語生成AIを利用するようになると、Webの更新が止まる。そのため、言語生成AIは新情報を入手できなくなる。そのため、言語生成AIサービスを展開している企業は、記事にお金を払うようになる。私たちはそのAIを有料で利用する。将来的にWebで最新情報を無料で入手する時代は終わるかもしれない。

軍事利用

画像生成AIを含む全てのジェネレーティブAIが今後、リアルの場での活用に使われることは間違いない。いくつか簡単に思い浮かぶがセキュリティ的にはあまり書きたくない。なので1つだけ例を挙げると、その場の色や雰囲気に合わせて服の色や模様が自動変化するデジタル迷彩服など。

今レベルのジェネレーティブAIならオープンソースとして公開してもよいと思うが、一定以上のノウハウがたまってきたら軍事目的利用を制限するため、オープンソースは禁止することも含めて考えなければいけないかもしれない。

禁止すると大企業独占になるから、個人的にすごい嫌だけど。

さいごに

画像生成AIが今後、どう影響を与えていくのか予測してみた。正直、2,3年の変化でも大きいが、まだ序の口だ。特に言語生成AIと連携しだすと、何もかもがらりと一変する。

それが楽しみであり、怖くもある、まさしく時代が変化する2,3年になりそうだ。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA