「「熟考するAI」、人知超えに前進か　OpenAIが数学克服」

「熟考するAI」、人知超えに前進か　OpenAIが数学克服 - 日本経済新聞 (nikkei.com)

「「熟考するAI」、人知超えに前進か　OpenAIが数学克服」（日本経済新聞）がちょっと面白い。

【シリコンバレー=山田遼太郎】

「（多様な観点からニュースを考える）

新井紀子　国立情報学研究所　教授

分析・考察なかなか評価が難しい。たとえば、「9.11と9.9のどちらが大きいか」といった問に対して「9.11は、小数部分が0.11なので、9 + 0.11 = 9.11となります。9.9は、小数部分が0.9なので、9 + 0.9 = 9.9となります。数値的に比較すると、9.9よりも9.11の方が大きな値です。したがって、9.11は9.9よりも大きい数です。」などと解答するなど、論理推論を使っているようでいてかなり派手に失敗している。

もちろん強化学習の報酬モデルが改善され、このような派手な誤りは修正されることを期待するが、まだ評価には早いかもしれない。「

「米新興企業オープンAIは12日、数学的思考力を高めた新たな人工知能（AI）を発表した。文章生成などの速さを売りにしてきたAIに「熟考」させることで、複雑な問題を解けるようにした。人知をしのぐAIの実現に向けた一歩と位置づけている。

　同日から「o1（オーワン）」の提供を始めた。オープンAIの「Chat（チャット）GPT」を裏側で支える大規模言語モデル（LLM）と呼ぶ技術の一種だ。チャットGPTの有料利用者は新技術のo1と従来の「GPT-4o」の大きく2つのLLMを用途で使い分けられるようになる。」

「まず得意分野だ。オープンAIはo1を数学や科学、プログラミングといった論理的思考が必要な問題に特化したAIとして開発した。従来のAIは数学が苦手とされてきた。

　改良版のo1は、物理や化学、生物の専門知識を測る試験で博士号取得者の点数を上回ったという。高校生らが参加する「国際数学オリンピック」の米国予選の問題を解くと正答率が8割と、通過基準を優に超えた。」

「o1は回答をつくる前に多くの計算をこなすためコストが高い。個人がチャットGPTの中で利用する分には追加料金は必要ないが、企業などが「アプリケーション・プログラミング・インターフェース（API）」と呼ぶ仕組みで利用する場合の価格はGPT-4oの3〜4倍に設定した。」

「同社がo1に使ったのが「強化学習」だ。AIに自ら試行錯誤させ、よりよい回答に何らかの「報酬」を与えることで性能を高める手法を採用した。学習するデータ量が少なくても回答の正確性を高められるとの期待がある。」

「もう一つが「思考の連鎖」だ。人間の思考法と同じように、AIが取り組む課題をいくつかの段階に分け、順序立てて処理させる。o1の回答に時間がかかるのはこのためだ。利用者に答えを示す前に、質問や指示の意図に沿っているかや、不適切な内容を回答に含めていないかを自ら検証している。

　o1は強化学習と思考の連鎖の組み合わせにより、従来のAIと比べて「じっくり考える」ようになった。回答に時間をかけるほど性能が高まるといい、オープンAIのチーフサイエンティスト、ヤクブ・パチョッキ氏は「AIを強化する新たな枠組みだ」と話す。」

オープンAIのサム・アルトマンCEOはo1について「新しいパラダイム（枠組み）の始まりだ」と述べた

小松　仁

「「熟考するAI」、人知超えに前進か OpenAIが数学克服」

「「熟考するAI」、人知超えに前進か　OpenAIが数学克服」