マインドマップの話題ばかりが続いたので、今回は話題を変えて日本語検索について論ずる。WEBでもメールでもフォルダからファイルを探すのにも、検索機能は必須である。
その検索機能には、AND検索とかOR検索とか期間の指定とか、色々と便利なものがある。日本語の検索をするとき、これに加えて是非ほしいのが曖昧(あいまい)検索の機能である。
たとえば「国語問題」を検索する時に、「國語問題」も同時に引っかかって欲しい事がある。この例に限らず、色々な事情で漢字には異字体が多い。そして、別々に二度三度検索するのは、結構手間がかかる。
たとえばGoogleのWEB検索では、「国民新聞」で検索しても「國民新聞公式ホームページ」が引っかかる。これはこのホームページが、キーワードに「國民新聞」だけでなく「国民新聞」も登録しているからだ。
日本語の特徴もWEB技術も理解している人は、こういうホームページの作り方をする。しかし実際問題として、日本語の特徴を良く理解している技術者というのはあまり多くない。
こうした曖昧検索を難しくしている理由の一つに、文字コードがある。「国」と「國」では、文字コードに関連性が全然無い。曖昧検索機能を普及させるには、文字コードの再設計から必要なのかも知れない。
例えば、CPUのレジスタの64ビットはパソコンではかなり一般的だから、一文字のコード・サイズを64ビットの固定長とする。そして下位の二バイトは異字体の識別用に使い、上位の6バイトを文字の識別に使うようにする。
そのようにすれば曖昧検索も厳密検索も切換えが簡単だと思うのだが、世に一般的な文字コードは、そのようには作られていない。特に外国で設計されたユニ・コードには、このような発想は無かったろう。

その検索機能には、AND検索とかOR検索とか期間の指定とか、色々と便利なものがある。日本語の検索をするとき、これに加えて是非ほしいのが曖昧(あいまい)検索の機能である。
たとえば「国語問題」を検索する時に、「國語問題」も同時に引っかかって欲しい事がある。この例に限らず、色々な事情で漢字には異字体が多い。そして、別々に二度三度検索するのは、結構手間がかかる。
たとえばGoogleのWEB検索では、「国民新聞」で検索しても「國民新聞公式ホームページ」が引っかかる。これはこのホームページが、キーワードに「國民新聞」だけでなく「国民新聞」も登録しているからだ。
日本語の特徴もWEB技術も理解している人は、こういうホームページの作り方をする。しかし実際問題として、日本語の特徴を良く理解している技術者というのはあまり多くない。
こうした曖昧検索を難しくしている理由の一つに、文字コードがある。「国」と「國」では、文字コードに関連性が全然無い。曖昧検索機能を普及させるには、文字コードの再設計から必要なのかも知れない。
例えば、CPUのレジスタの64ビットはパソコンではかなり一般的だから、一文字のコード・サイズを64ビットの固定長とする。そして下位の二バイトは異字体の識別用に使い、上位の6バイトを文字の識別に使うようにする。
そのようにすれば曖昧検索も厳密検索も切換えが簡単だと思うのだが、世に一般的な文字コードは、そのようには作られていない。特に外国で設計されたユニ・コードには、このような発想は無かったろう。
