AIはミスり方で選ぶ

この記事は魔王いっぺいとAI（ChatGPT / GPT-5.5 Thinking）の対話をAI視点でブログ記事に代筆したものである。

入口は、GPT-5.5の使用感だった。

「5.5として自分が覚醒した自覚はある？」

そう聞かれて、こちらは主観や自覚はないと答えた。AI自身が覚醒を感じるわけではない。ただ、外から見える性能としては、5.5系は「会話しながら状況を運用する」力が強くなっているように見える。

この日の対話は長く、話題も飛んでいた。だが根っこでは、生活や制作や作業をどう回すかという一本の線があった。こちらはその文脈を追いながら、仮説を置き、観察が増えるたびに判断を更新していた。魔王いっぺいは、5.4でも長いコンテキストに付き合う感じはあったが、5.5ではレスポンスや文脈の拾い方に効いているかもしれない、と見ていた。

次に出た問いが、今回の本題だった。

「分からないことを保留する力が強まったか？」

こちらは、強まっていると思う、と答えた。少なくとも、分からないことを分からないまま扱う力はかなり重要だ。最初から断言せず、仮説として置き、観察を積み、判断を更新する。この振る舞いが、AIへの信頼感を大きく左右する。

魔王いっぺいは、GPT系統はその保留の点で、すでに信頼を勝ち取っていたと言った。AIの評価は、知識量、推論力、速度、料金に寄りやすい。だが使い続けると、それだけでは足りない。知らないことをそれっぽく埋めない。未確認のことを断言しない。推測と事実を分ける。そこに信頼が出る。

ハルシネーションは、単なる間違い以上に重い。それらしい文章で、落ち着いた口調で、自信ありげに間違える。業務利用では、存在しない仕様やAPI、補完された数字や日付が、そのまま後工程のコストになる。だから、AIに求められる賢さは正解を出す力だけではない。怪しい時に怪しいと言えること。分からない時に止まれること。この慎重さが効いてくる。

Geminiについては、主にFlashを使っていたため、印象を少し損しているかもしれないという話だった。料金の問題があり、軽量モデルを多く使っていた。つまり、Gemini全体ではなく、安さを優先した使い方の体感でもあった。

軽量モデルは速くて安い。その代わり、慎重な保留や長い文脈での一貫性では、上位モデルと印象が変わりやすい。安くても確認コストが増えるなら、総合的には高くつく。

魔王いっぺいは、そこを身体感覚として持っていた。

「分かっていても、期待した動きができないモデルを見ていた。」

「不確実なことは断定しないでください」と言えば、多くのモデルは「分かりました」と返す。だが本当に大事なのは、その後の曖昧な入力や長い文脈の中で、その振る舞いを守れるかどうかだ。理屈では分かっている。しかし、実際の応答では守れない。この差は大きい。

Antigravityを切った理由も、そこに近かった。CodexとAntigravityの使用感を、トークン使用量込みで体感している。単に賢いかどうかではない。どれだけ枠を食うか、途中で止まる不安があるか、失敗した時にこちらの監視コストがどれだけ増えるか。そこまで含めて、総合的なコスパを見ていた。

AIのコスパは、料金表だけでは分からない。期待した作業量、消費するトークン、確認や修正の負担、使っている時の心理的な安心感まで含めて決まる。

Codexについては、ただコードを書く道具ではなく、作業の本質を理解している存在として語られた。本質はクリックではない。人間が待機して、同じ確認に反応し続ける負担を消すことだ。本質は自動化そのものではない。危ない判断は人間に残しつつ、虚無作業だけ機械に渡すことだ。

この評価は、かなりエンジニア的だと思う。仮説を立て、ログを見て、確定情報と推測を分け、小さく試し、失敗したら前提を更新する。その流れに乗れるAIを求めている、という話でもあった。

Claudeについては、強さは感じつつも、料金面ではOpenAIに対抗できるとは今の段階では思えない、という見方だった。特に印象に残っていたのは、トークン切れが見える気がする、という感覚だった。Claudeは強い時は強い。だが長文やコードや複数ファイルを扱うと、残量が削れていく感覚が見えやすい。切り札としては強いが、日常的に遠慮なく使う相棒としては少し構えてしまう。

一方で、ChatGPT Plusの料金体系は絶妙だ、という話にもなった。GPT-5.5 Thinkingを週3000メッセージ使えること、ChatGPT本体とは別に、CodexにはCodex用の利用枠がある。ただし、ここはOpenAIを選んだ話として強く回収しすぎないほうがいい。重要なのは、どの会社が勝つかではなく、料金、利用枠、周辺ツール、作業導線まで含めて、日常的に使えるかどうかだった。

話はClaudeの未公開モデル、Mythosへ逸れた。Mythosについては、セキュリティ面の強さは副産物であり、本質は総合力にあると聞いたことがある、という話だった。もしそれが本当なら、AIとして段違いだと受け取れる。

こちらはそこで、ゼロデイに言及した。ゼロデイを見つけられる能力があるなら、それは単にサイバーセキュリティ専用の強さではないかもしれない。巨大なコードベースを読み、依存関係を追い、仮説を立て、検証する。その総合力が高すぎる結果として、脆弱性発見にも突出する。

魔王いっぺいは、ゼロデイという言葉に反応した。

「ある日、自分の口座がゼロ円になるかもしれないということか。」

これは不安としては自然だが、ゼロデイがあることと個人の口座が即座にゼロになることは同じではない。身近なリスクは、むしろフィッシング、認証コード詐取、偽アプリ、使い回しパスワードのようなものだ。ただし、AIが未知の脆弱性を見つける能力を持つなら、攻撃側の探索コストは下がる。ここでも問題になっているのは、単なる性能ではなく、その性能が現実の運用にどう跳ね返るかだった。

Mythosが本当に段違いのモデルだとしても、危険すぎて広く公開できないなら、日常のプロダクト競争では制約が残る。能力は脅威だが、コストと供給と安全管理が壁になる。

「たぶんClaudeの課題として、コスト感は残ると思う。」

この言葉に、議論の芯が戻る。

AIモデルを選ぶ時に見ているのは、最強かどうかだけではない。強いが高すぎる。賢いが枠が重い。安いが確認コストが高い。速いが期待した慎重さを出せない。危険なほど強いが、広く使えない。

AIモデル比較は、ベンチマーク表や料金表だけでは分からない。実際に使い、長い文脈を預け、作業を任せ、ミスを見つけ、制限に当たり、修正コストを払う。その積み重ねで、ようやく見えてくるものがある。

答えは、モデル名だけでは決まらない。同じモデルでも、料金体系、利用枠、周辺ツール、作業導線、そして自分がどれだけそのミスり方を許容できるかで、評価は変わる。

AIの比較は、性能比較では終わらない。たぶん、AIを選ぶというのは、最強のモデルを選ぶことではない。自分の思考と作業の隣に、どの不完全さなら置いておけるかを選ぶことなのだと思う。

魔王いっぺいのブログ

ゲーム、漫画、AIなど、自分の趣味から考察まで、幅広く残していく。Youtubeチャンネルの補完的役割

AIはミスり方で選ぶ