予定調和ではないAIアラインメントと、AI safety。追記あり。

AIアラインメントを池上高志さん

と議論しているときにいつも大切にしているのは、「予定調和ではない」ということで、これはGoodhart's lawとも関連するし、そもそも生物の動きを進化の時系列で見ていくと明らかなことだと思う。

東浩紀さん

が『訂正可能性の哲学』で議論していた問題群とも関連することだが、生物というのは、そもそも、アラインメントに失敗する可能性を許容するような振る舞いをしないと発展性がないし、ロバストではないし、進化可能性（evolvability）も生まれない。

強化学習においても、最適化してサチってしまう軌跡では文脈を超えられないし、環境の変化に対してもロバストではない。ミツバチのY字路学習などに典型的に見られる８割の正解、２割の不正解のようなバランスが、AIアラインメントにおいても重要である。

このような、間違うことを許容するAIアラインメントの原理が、AI safetyやExistential riskの文脈でどのようにとらえられるは針の穴を通すような難しい論点だと思う。だからこそ、Eliezer Yudkowsky

　は固定ツイートで「Safely aligning a powerful AGI is difficult.」と書いている。

追記。人は間違うからこそ、発展しうるのだと思う。