AIで部下を評価してよいのか？――問題はAIではなく「評価関数」である

この記事についてしてもらいました

部下の評価を「AIに任せる」のはあり？専門家が教える“注意点”とは。（ダイヤモンド・オンライン） - Yahoo!ニュース　AIの普及によって、部下の評価のあり方も変わり始めています。AIを使えば、経験の浅い社員でも整った資料や文章を短時間で作れるようになります。その結果、「成果物だけでは実力が見えにくい」という新たな

news.yahoo.co.jp

AIで部下を評価してはいけないのか？――この問いは一見シンプルだが、実は論点の置き方自体がずれている。問題は「AIか人間か」ではない。評価とは何か、そして評価が人の行動にどう影響するのかという原理が抜け落ちている点にある。

本記事では、「AI評価はありか」という問いを、行動生成式をベースに再構築し、元の議論のどこが浅く、何が本質なのかを明らかにする。

■ 行動生成式から見た評価の役割

まず前提として、人の行動は次の式で表される。

行動＝機会 × f（想起 × 理解 × 納得 × 実行可能 × 評価期待）

想起：その行動を思い出すか

理解：何をすればよいか分かるか

納得：やる意味があると思えるか

実行可能：実行できる状態にあるか

評価期待：それが評価されると思えるか

この中で「評価」は主に評価期待に作用し、さらに納得や実行可能にも影響を与える。つまり評価とは、単なる結果の判定ではなく、「次の行動を生むためのパラメータ調整装置」である。

この視点が抜けると、AI評価の議論はすべて表面的になる。

■ 「AIで自動評価すると信頼が壊れる」はなぜ浅いのか

よくある主張に、「AIで自動評価すると信頼が壊れる」というものがある。しかしこれは因果として不正確だ。

信頼が壊れる条件は、次の3つに集約される。

・評価基準が分からない

・努力と評価が結びつかない

・評価が一貫していない

つまり問題はAIかどうかではなく、評価関数の設計である。

評価関数がブラックボックスで、何をどうすれば評価されるのか分からない状態では、評価期待が低下し、行動確率は落ちる。これは人間評価でも同じだ。

逆に、評価が予測可能で、行動と一貫して結びついていれば、AIであっても信頼は壊れない。

したがって、

AI評価＝悪

人間評価＝良

という構図自体が誤りである。

■ 「透明化すればよい」という議論の限界

次によくあるのが、「AIの評価観点を公開すればよい」という主張である。これも半分正しく、半分間違っている。

観点が公開されても、それが評価に実際に効くと信じられなければ意味がない。

必要なのは次の2つである。

・何が評価されるかが見えること（可観測性）

・それを満たせば評価が上がると信じられること（接続の保証）

単なる観点の列挙ではなく、「この行動をすれば評価が上がる」という因果が保証されて初めて、評価期待は成立する。

ここを外すと、透明化は単なる形式に終わる。

■ 「成果とプロセスを分ける」はなぜ必要か

AI時代において重要なのは、「成果とプロセスを分けて評価すべき」という点である。ただし、これも理由が弱いまま語られることが多い。

本質はこうだ。

AIによって成果物は均質化する

→ 成果だけでは差がつかない

→ 評価期待が崩れる

つまり、成果評価だけでは「頑張っても意味がない」という状態が生まれる。

これを防ぐために、プロセス評価が必要になる。

ただし、ここでいうプロセスとは単なる経験談ではない。本来は次のように定義されるべきである。

プロセス＝行動生成式の各変数をどう設計・更新したか

例えば、

・どのように問題を認識したか（想起）

・どう構造を理解したか（理解）

・なぜそれを選んだか（納得）

・どう実行可能にしたか（実行可能）

・どの評価を狙ったか（評価期待）

このレベルで語れない限り、プロセス評価は機能しない。

「問い」「仮説」「迷い」といった表現だけでは、評価として操作不能である。

■ 添削とは何か――「視野を広げる」は不十分

AI添削についても同様の問題がある。「視野を広げる」という表現は抽象的すぎる。

添削の本質は、行動生成式のパラメータ更新である。

・別の視点 → 想起の拡張

・反論 → 理解の精度向上

・リスク → 納得の再評価

つまり添削とは、「より良い行動確率を生むための内部変数の再構成」である。

この構造が見えないままでは、添削は単なるコメント集に終わる。

■ 信頼とは何か――印象論からの脱却

「信頼が大事」という言葉も多用されるが、その定義は曖昧なまま放置されがちである。

信頼は次のように定義できる。

信頼＝評価関数の予測可能性＋行動との一貫性

評価がどう決まるか分かり、その評価が実際の行動と一致する。この状態が維持されて初めて信頼は成立する。

ここでもやはり、問題はAIではなく評価関数である。

■ 評価の再定義――AI時代の本質

以上を踏まえると、このテーマは次のように再定義できる。

評価とは何か

＝行動生成式の各変数に対するフィードバック

AIとは何か

＝構造的整合性の検査装置

人間の役割とは何か

＝評価関数の設計と意味付与（納得の形成）

そして、良い評価は次の条件を満たす。

・可観測：何が評価されているか分かる

・可操作：どうすれば評価が上がるか分かる

・一貫性：行動と評価が結びついている

■ 結論

「AIで部下を評価してよいか？」という問いは本質ではない。

本質は、

評価関数をどう設計するか

その評価が行動にどう接続されるか

である。

AIは評価を壊す存在ではない。むしろ、評価構造を露出させる装置である。

問題は常に人間側にある。

評価をブラックボックスにするのも人間

評価を操作不能にするのも人間

そして、評価を行動につなげるのもまた人間である。