AIツールはすでに日常業務の一部になっています。
チームはAIを使って文章作成、データ分析、会議の要約、コードレビュー、そして繰り返し作業の自動化を行っています。期待されているのはシンプルです。AIは作業を速くし、時間を節約してくれるということです。
しかし、多くのチームは別の現実に気づき始めています。
本当の課題は「AIを使うこと」ではありません。本当の課題は作業に合ったAIモデルを選ぶことです。間違ったモデルを使うと、コストはすぐには見えませんが、ワークフローの中で少しずつ現れます。プロンプトのやり直し、手動での修正、不安定な出力、そして作業時間の増加です。
Stanford AI Index Report によると、2024年には企業の78%が少なくとも1つの業務領域でAIを使用していると報告しています。AIの導入は確実に広がっています。
しかし、導入が増えたからといって必ずしも生産性が上がるとは限りません。
AIモデルの選択が思っている以上に重要な理由
AIモデルを比較する際、多くのチームは次のような指標を見ます。
-
トークンあたりのコスト
-
応答速度
-
コンテキストウィンドウの長さ
-
ベンチマークスコア
これらは確かに重要です。しかし、日常のワークフローで実際に何が起きるかを完全には表していません。
AIモデルの本当のコストは、次のような小さな摩擦として現れます。
-
プロンプトを書き直さなければならない
-
出力結果を大きく修正する必要がある
-
複数ステップのタスクで推論が弱い
-
同じ入力でも結果が安定しない
最初は安く見えるモデルでも、社員が常に結果を修正しなければならないなら、その時間コストはすぐに積み上がります。
見えにくい生産性の低下
AIの失敗は、多くの場合ドラマチックには見えません。むしろ、日常業務の中で静かに起こります。
マーケティングチームが顧客インタビューの要約にAIを使うと、重要なニュアンスが抜け落ちてしまい、人が書き直すことになります。
起業家が週次レポートをAIで作成すると、文章は整っているように見えても内容が曖昧で、結局手動で修正する必要があります。
サポートチームが問い合わせの分類にAIを使うと、例外ケースでうまく判断できず、多くの回答を人が確認する必要があります。
どれもAIが完全に失敗しているわけではありません。しかし、ワークフローは確実に遅くなります。
こうした小さな修正が積み重なることで、AIによる生産性の負債とも言える状況が生まれます。
ベンチマークと実際の業務の違い
企業がAIモデルを選ぶとき、ベンチマークスコアは大きな影響を持ちます。しかし、ベンチマークの結果がそのまま実務のパフォーマンスを表すとは限りません。
そのため研究者たちは、より現実に近い評価方法を作り始めています。たとえば SWE-bench Verified benchmark は、AIが実際のソフトウェアリポジトリの問題をどのように解決するかを評価するために設計されています。
それでも、生産性の向上が必ず起こるわけではありません。
METRの研究 では、AIツールを使用した経験豊富なオープンソース開発者が、特定のコーディングタスクを完了するまでに19%長く時間がかかったという結果が報告されています。
この結果は多くの開発者を驚かせました。重要なのは、AIの効果はタスクとモデルの組み合わせによって大きく変わるということです。
リトライループという隠れたコスト
間違ったモデルを使ったときに最もよく起こる問題の一つが「リトライループ」です。
典型的な流れは次のようになります。
-
ユーザーがAIにタスクを依頼する
-
結果は近いが実際には使えない
-
プロンプトを書き直す
-
タスクを細かく分割する
-
それでも手動修正が必要になる
結果としてAIは使われていますが、実際の作業の多くは人が行っています。
そのため現在では、多くのチームが速度ではなくワークフローの信頼性でモデルを比較し始めています。
たとえば複雑な推論や多段階の意思決定が必要な場合、一部のチームはより強い推論能力を持つモデルとして GPT-5.4 model を評価し、リトライや手動修正が減るかどうかを確認しています。
信頼性は生産性の一部
AIツールの継続利用には「信頼」が大きく関わります。
人は、結果が安定しているツールを使い続けます。出力が不安定になると、重要な作業ではAIを使わなくなります。
McKinseyのAI導入に関する調査 によると、企業のリーダーは従業員がどれほどAIを使っているかを過小評価していることがわかりました。
経営陣は、従業員のうちAIを仕事の大部分で使っている人は4%程度だと考えていました。しかし実際には13%の従業員がそのレベルでAIを利用していると回答しています。
これは、従業員がAIを使う意欲は高いものの、ツールが本当に役立つかどうかが重要であることを示しています。
チームが変え始めているAIモデルの選び方
現在、多くの企業はAIモデルの選び方をより実務的に変え始めています。
一つのモデルをすべての用途に使うのではなく、次のような方法が取られています。
実際の業務でテストする
ベンチマークよりも、実際のタスクでの動作を確認する。
修正時間を測る
出力を直す時間が長いなら、そのモデルは適切ではない可能性がある。
低リスク作業と高リスク作業を分ける
ブレインストーミングには適していても、意思決定や自動化には不向きなモデルもある。
推論能力を評価する
複雑なワークフローでは、単純な速度よりも推論能力が重要になることが多い。
AIの生産性はモデル選択で決まる
AIが多くの業務を支援できることはすでに証明されています。しかし、生産性の向上は自動的には起こりません。
大きな違いを生むのは、どのモデルをどの仕事に使うかという判断です。
間違ったモデルは、リトライ、修正、信頼の低下という形でワークフローに摩擦を生みます。
適切なモデルは、手作業の工程を丸ごと減らすことができます。
AIが日常業務に組み込まれていく中で、最も大きな恩恵を受ける企業は、単にAIを使っている企業ではありません。
実際の仕事に合わせてAIモデルを正しく選べる企業です。