ついにAI学習のためのデータが枯渇へ、データセットが不足しているAI企業は大規模で汎用的なLLMから小規模で専門性の高いモデルへの移行を余儀なくされる可能性大

 

「ついにAI学習のためのデータが枯渇へ、データセットが不足しているAI企業は大規模で汎用的なLLMから小規模で専門性の高いモデルへの移行を余儀なくされる可能性大」がちょっと面白い。

 

「AIモデルの開発には学習資料となるデータセットが必要不可欠ですが、すでに大規模なモデルはアクセスできるデータのほとんどを食い尽くしており、2028年までにデータを使い果たしてしまう可能性が指摘されています。AIとデータセットの現状について、学術雑誌のNatureがまとめています。

The AI revolution is running out of data. What can researchers do?

https://www.nature.com/articles/d41586-024-03990-2

Synthetic data has its limits — why human-sourced data can help prevent AI model collapse | VentureBeat

https://venturebeat.com/ai/synthetic-data-has-its-limits-why-human-sourced-data-can-help-prevent-ai-model-collapse/

OpenAI cofounder Ilya Sutskever predicts the end of AI pre-training - The Verge

https://www.theverge.com/2024/12/13/24320811/what-ilya-sutskever-sees-openai-model-data-training 」

「Natureは「いろいろな回避策が模索されていますが、それでも、データの不足はAIモデルに変化を迫るかもしれません。おそらく、大規模で万能なLLMから、小規模でより専門的なモデルへと状況がシフトする可能性があります」と指摘しました。

 Natureは「一部のモデルはラベル付けされていない動画や画像である程度のトレーニングをすることがすでに可能です。こうしたデータで学習する機能を拡張・改善することで、より豊富なデータへの門戸が開かれる可能性はあります」と述べました。」

 

 

小松 仁