Googleが、明治の活字に挑戦している。
現在の状況をみるとかなり苦戦しているようだ。
ところで、学問のすすめ は、どこにある?
どうりで、検索できないわけだ。
ほんとうは、學問すゝめ: 自第一篇至第十七篇
というらしい。
一瞬、慶応義塾大学が、とんでもないミスをしたと
喜んだ、私が馬鹿だった。
明治に出版された表紙をみると、読めない。うーん。
Googleが正しいようだ。
ちなみに、青空文庫では、
となっている。
どうやって検索したらいいんだぁ?
|
さて、Googleは、明治の活字をどのように攻略するのか。
福翁自傳で考えてみよう。
すでに、デジタルデータがある。
すくなくとも、青空文庫にはある。
これを、ルビなどのない、OCRに対応するデータに加工して、
Googleが読んだOCRデータと付き合わせる。
すると、OCR読み取りパターンとテキストと対応することになるので、
そのまま、OCRの認識を強制的に修正、活字パターンと一致させる。
すると、明治大正のデジタルを、新漢字、新かな変換すみOCRデータができる。(これはすごい裏技)
しかし、一挙にそこまでいかなくても、旧漢字、旧かな使いのデータに
当てはめれば、OCR化データ収集に大きく貢献するだろう。
旧漢字、旧かな使いから、新漢字、新かな使いに変換するのは、
そう難しいことではないだろう。その逆も、難しくないだろう。
(新漢字から旧漢字異体字の特定が難しいか?)
Googleとしては、一字一字OCRパターン登録は好まないだろう。
ラフでも、一挙に解決する方法を考えるに違いない。
GoogleのSE魂は、プログラム技術で解決する方向を選ぶはずだ。
プログラムを駆使することで、その挑戦をしたきたのだから。
さて、明治の図書は、
旧漢字旧かな検索でとどまるのか
新漢字、新かな 索引をつくるのか
それとも、旧漢字、新漢字、旧かな、新かな 両方から検索できるように
するのか?
学問なのか、學問といれるのかが、問題だ。
この學問をマイクロソフト IMEで入力しようとすると、なかなか難しい。
學問すゝめ: 自第一篇至第十七篇
を眺める限り、簡単ではなさそうである。
しかし、外国人とって、とても、本とは思えない、和書縦書きも
克服したGoogleに、困難という文字はないだろう。