Googleの明治の活字　OCR化の次なる　一手（まったくの推測です。） | 黒澤公人のドキュメンテーションシステムの100年(1960年-2060年)

ホームピグアメブロ

芸能人ブログ人気ブログ

Googleの明治の活字　OCR化の次なる　一手（まったくの推測です。）

Googleが、明治の活字に挑戦している。

現在の状況をみるとかなり苦戦しているようだ。

ところで、学問のすすめ　は、どこにある？

どうりで、検索できないわけだ。

ほんとうは、學問すゝめ: 自第一篇至第十七篇

というらしい。

一瞬、慶応義塾大学が、とんでもないミスをしたと

喜んだ、私が馬鹿だった。

明治に出版された表紙をみると、読めない。うーん。

Googleが正しいようだ。

ちなみに、青空文庫では、

【学問ノスゝメ】

となっている。

どうやって検索したらいいんだぁ？

さて、Googleは、明治の活字をどのように攻略するのか。

福翁自傳で考えてみよう。

すでに、デジタルデータがある。

すくなくとも、青空文庫にはある。

これを、ルビなどのない、OCRに対応するデータに加工して、

Googleが読んだOCRデータと付き合わせる。

すると、OCR読み取りパターンとテキストと対応することになるので、

そのまま、OCRの認識を強制的に修正、活字パターンと一致させる。

すると、明治大正のデジタルを、新漢字、新かな変換すみOCRデータができる。（これはすごい裏技）

しかし、一挙にそこまでいかなくても、旧漢字、旧かな使いのデータに

当てはめれば、OCR化データ収集に大きく貢献するだろう。

旧漢字、旧かな使いから、新漢字、新かな使いに変換するのは、

そう難しいことではないだろう。その逆も、難しくないだろう。

（新漢字から旧漢字異体字の特定が難しいか？）

Googleとしては、一字一字OCRパターン登録は好まないだろう。

ラフでも、一挙に解決する方法を考えるに違いない。

GoogleのSE魂は、プログラム技術で解決する方向を選ぶはずだ。

プログラムを駆使することで、その挑戦をしたきたのだから。

さて、明治の図書は、

旧漢字旧かな検索でとどまるのか

新漢字、新かな　索引をつくるのか

それとも、旧漢字、新漢字、旧かな、新かな　両方から検索できるように

するのか？

学問なのか、學問といれるのかが、問題だ。

この學問をマイクロソフト　IMEで入力しようとすると、なかなか難しい。

學問すゝめ: 自第一篇至第十七篇

を眺める限り、簡単ではなさそうである。

しかし、外国人とって、とても、本とは思えない、和書縦書きも

克服したGoogleに、困難という文字はないだろう。