数学的言語に比べれば自然言語があいまいだ、みたいな話は比較的よく耳にするし、みんな気楽にお話すけれども、ChatGPTのようなLLMが出てきて驚いたことは、自然言語の文字列におけるnext token predictionをやるだけで、この世界に関する常識みたいなものをある程度扱える(ように見える)こと。
パーソナリティの研究や、哲学などで言われる「lexical hypothesis」は、人格や世界認知における重要な因子を私たちは日常言語の中で単一の言葉として獲得し、運用しているということ。自然言語は何らかの意味で最適化されているはずで、そこには普遍的な構造や法則があるはずだ。
一見、曖昧で適当に見える自然言語でも、それは進化の過程での淘汰圧にさらされているはずで、その証拠に新語はなかなか生まれないし生まれても定着しない。ある時点におけるボキャブラリは精緻かつ経済的に最適化されている。
おそらく、数学的言語に比較して自然言語は質が低いということでは必ずしもなく、まだ私たちが十分に形式化できていないかたちで構造化され、最適化されている。LLMなどの人工知能のmechanistic interpretabilityの研究を通してなんらかの光が当たるかもしれない。
追記。自然言語は、結局、そんなに馬鹿にしたものではなく、深遠な力を秘めているように思う。