生成AIの勝敗は決したようだ

どうやらデータセンターを使用するAIの競争は勝敗が決したらしい。

生成AIの学習はインターネットで膨大なデータを集めることで行われているが、既にAI企業が学習に使われてきたウェブサイトから締め出されてきており、先行していた大手のIT企業は最も有利な条件で学習させることができたが、遅れて始めた企業にはそれができなくなってしまっている。

生成AIの開発には学習が必要なのだから、それができなくされたのであれば、遅れて始めた企業がいくら高い費用を掛けてデータセンターを構築してもしょうがないように思える。

【参考】2024年7月23日の記事

AIの開発にはインターネットからかき集めたテキスト、画像、動画などのデータが大量に用いられています。しかし、クローリングの禁止やサービス利用規約の変更によりAI企業がウェブサイトから閉め出されたことで、高性能なAIのトレーニングに使えるデータの総量が1年で約5％、高品質なデータの約25％が使えなくなったことがわかりました。

制限の増加によりAIのトレーニングに使えないデータも急増しました。具体的には、コーパス全体におけるトークンの制限は2023年中旬の約1％から2024年4月には5～7％に、最も重要なデータ「HEAD」の制限は3％未満から20～33％に増加し、C4とRefinedWebにおけるコーパス全体の相対的な制限の増加量は500％、HEADでは1000％以上に達しているとのこと。特にC4では、サービス利用規約によりトークンの45％が制限されました。

生成AIはデータを基本的な構成要素としており、OpenAIのChatGPT、GoogleのGemini、AnthropicのClaudeなどのAIはすべて大量のデータセットを使ってトレーニングされたものです。

長年にわたり、AI開発者は容易にデータを集めることができましたが、生成AIが流行したことでAI開発者とデータの所有者との対立が表面化するようになりました。その結果、データの所有者らはデータをトレーニングに使うことを禁止したり、有料化してデータの使用に対価を求めたりするようになりました。

AI業界や関係者はこうした変化に警戒感を強めています。また、中には「既に多くのデータを所有している大手テクノロジー企業と後進の小規模な企業や研究者との間のデータ格差が拡大するだけではないか」と指摘する人も居ます。

また、非営利のAI研究機関・EleutherAIのエグゼクティブディレクターであるステラ・ビーダーマン氏は「大手テクノロジー企業は既に大量のデータを持っており、データのライセンスを変更してもさかのぼって許可を取り消すことはできません。ですから、影響を受けるのは主に後からやってきた小規模なスタートアップや研究者になるでしょう」と話しました。

AIを開発するために必要なデータが急速に枯渇、たった1年で高品質データの4分の1が使用不可にAIの開発にはインターネットからかき集めたテキスト、画像、動画などのデータが大量に用いられています。しかし、クローリングの禁止やサービス利用規約の変更によりAI企業がウェブサイトから閉め出されたことで、高性能なAIのトレーニングに使えるデータの総量が1年で約5％、高品質なデータの約25％が使えなくなったことがわかりました。

gigazine.net