慶応大学図書館の著作権きれ 12万冊を、Google ブック検索で提供するというニュースが飛び込んできた。
Googleとしても、古い活字のOCR化に、自信をみせている。
黒澤のみるところ、あまり、簡単にいくだろう。
だいたい、100年程度古い図書は、新活字により復刻、解説がでているので、先にそちらを読み取ってから、
原本の漢字にあわせていけばいいので、原本からOCR化しなければならない理由は見当たらない。
同時に、原本活字の確定も簡単に学習できることになるので、特に問題は無いだろう。
簡単に、作業は済むだろう。
日本語の複雑さは、漢字や日本語の表記など、めまぐるしい変化の多さだろう。
しかし、Googleが、そのことに格闘する(膨大な資金をかけて)格闘することが、
日本語表記、日本語のあり方の分析に貴重な資料、情報になるだろう。
そして、日本語にもっとも詳しい業者になる可能性がある。

しかし、ちょっと心配でもある。
あのGoogleでさえ、日本語への格闘はたいへんだろうなぁ。
あたらしい日本語分析、検索の提案ができるといいなぁ。
もしかすると、日本語の解析技術は、もっと、よい翻訳技術が向上するかもしれない。
世の中には、日本語から英語、英語から日本語に翻訳された本がたくさんあるので、
それらを全部分析してみたいと企んでいる Google社員もいるだろう。
20%ルールを活用して。

また、楽しみが増えたが、一人ですべてを追跡することはできないので、
まぁ。その辺は、楽しみにとっておこう。


漢字系(旧漢字、新漢字、異体字 JISの変遷など)
漢字とひらがな問題(破綻、破たんなどの分析)
異体字(新撰組、新選組などの問題)
旧かな、旧送り仮名問題
印刷活字おけるフリガナ処理など

Googleブック検索上で、一つの日本語体系として統合されたデータベースが登場すると
すごいことだと思う。
現代日本語を超えた、スーパー日本語が、Googleブック検索上で登場するのかもしれない。
とんでもなくすごい事だと思うが、期待しておこう。