AI考（ver 1.00.1）：生成AIはどのあたりに限界があるかって話

ちょっと備忘録的に雑な話をします。

どうも、生成AI先頭集団を走る企業群は、
簡単に手に入る基本的なデータセットについては、粗方学習し尽くしてしまった模様。
わざわざ動画の音声を「文字おこし」してまで、新規の学習用データを集めているような

状況らしい。まあ、ここまでは2026年問題と言われていたことは、既に書いた。

また、これも以前に触れたことだが、
既にに学習データのなかに相当数「生成AI」によるデータが紛れ込んでいる模様。

さらに問題なのは、学習モデルの巨大化競争が激化したあおりで、
結構質の悪いデータセットが学習されているのではないかという疑惑。
「質の悪い」というか、いろんな観点から「それを学習しても大丈夫？」って感じのデータ。

ちゃんと基準（これも問題だが）に沿って、ある程度品質が保たれたデータとして、
正しく「評価」がされていないと、色々まずい事が起こりうると思うのだが、
最早中身がどのようにキュレートされているか、誰にも分からなくなっている節がある。

データセットの作成者がデータセットをキュレーションするために選択する方法は、
言語モデルの作成者に任されている、というと聞こえはいいが、いわば作成者が勝手に決める。
つまり、キュレーション用のモデルやトレーニングセットには、
仕組み上どうしても「偏り」が存在するわけだ。
学習用データは超巨大になってしまったので、人間が個別にタグ付けするのは困難な状態。
なので、アルゴリズムによるキュレーションを行うことになるのだが、
まずいことに、この判断を「AI」にもやらせているらしい。

そうなると、データセットに採用された画像やテキストについて、
何が基準となってキュレートされているか、全く人間には把握できないことになる。
また、過去に既に偏っていたデータセットで学習した「AI」で新しいモデルの判断するとなると、次のモデルにも「偏り」は継承され続けるわけだ。

以前の「AI考」でも述べたが、不正確は承知で説明すると、
例えば、
「美しい湖面の画像」に「美しい湖面の画像」というテキストをタグとしてつけるとして、
「美しい」って「何（誰）」が「どういう基準」で判断するの？
或いは、
「爆発物の製造方法」ってコンテンツは、
学習を回避するか「危険」コンテンツとしてタグ付けをしないといけないが、
莫大なデータの中にあって、
このような「美醜」や「善悪」の判断とタグ付けをどうやってするのか。

問題になりそうな「出力」は、人間が個別にAIに確認して修正していくことになろうが、
もう、人間には全貌は把握できないということであれば、
「潜在的に」どんな意図していない学習がされているかは、出たとこ勝負。
当然、世界中の「テスター」さんが「粗」を探しまくっていて、
「不適切な穴」とか「変なデータ」とかが見つかりまくっている状況だったりする。

かねてから、莫大な情報を学習するのはいいけど、
そもそも「学習」って、結構怪しいプロセスじゃないの？
っていう疑問があったのだが、表面化し始めているのではないか。

現在の方法論、
つまり、データの「物量作戦」ではAIの進化は頭打ちになって、
むしろ問題の方が噴出するのではないか？　という気がする。
ある程度、大規模なデータセットが一通り揃った段階で、
「現在の方法論」でのAIの進化は、停滞するのではないか。
一旦、量から質への転換が必要とされる気がしてならない。

ちょっと示唆的な事案があって、
あの囲碁AI「Alpha Go」には穴があって、それをアマチュア囲碁プレイヤーが発見した。

という記事があった。
それは、「Alpha Go」がある時点で進化を止めたため、

人間に穴を探されてしまったともいえるが、
囲碁における「強解決」はされていないというか、
現在のコンピュータのリソースでは、囲碁ゲームの完全解析は全然無理筋なので、
100％勝つ手順がコンピュータ側にない以上、
何らかの方法で「Alpha Go」に誤った判断をさせる事が出来れば、

人間でも勝つことが出来るというわけだ。
ちなみに、その「Alpha Go」に効果絶大な戦法は人間には通用しないらしい。

「知」をパラメータに沿って学習するだけでなく、
「推論」の方の研究も同時に進めないと、
おいそれと超知能は誕生しないと思うのだがどうだろう。

なにか見落としがないか今後もウォッチは続けるつもり。

と、ここまで書いておいてなんだが、
全世界でやりとりされているデータ総量は、
2025年までに年間180「ゼタ」バイトに達すると推測されている、との事らしいが、

人一人の「知」はそれに比べて遙かに小さいわけだから、

「十分に機能するAIはたくさん出来そう」

同時に、人間がやりとりする180ゼタバイトの情報は、
そのほとんどが、たいした内容ではない可能性が大いにあるｗ、という事を考慮して、
大規模LLMが「たいした内容ではない」ものを大量に学習した結果、
「人間と同じくらいアホにしかならない」

なんて事がある気がする。