検索エンジンは、ヒット数を知るための道具ではない | 特許翻訳 A to Z

特許翻訳 A to Z

1992年5月から、フリーランスで特許翻訳者をしています。

翻訳者が特定の表現の使用頻度を調べたり、言語学の研究者が特定の言葉の使用例を確認したり。
この類の判断で根拠になることが多いものとして、Googleのヒット数があります。

もちろん、1ページ目に出てくるヒット数が全然あてにならないことは、わりと知られています。


Googleなら検索結果のページを1ページずつ繰るか、次の手順で最終ページまでダイレクトジャンプすることで、そこそこ実数を把握できました。


  1.検索結果の下にあるGooooooooogleというところで、2ページ目に進みます。
  2.ブラウザに表示されたURLの末尾を見てください。最後に、
   &start=10
  と書かれていると思います。
  3.この10を990に直して、Enterキーを押します。

ところが最近は、こうした方法も、ほとんど機能しなくなってきています。

どう考えても検索結果の表示最大件数である990件より多そうな語でも、そこまでいく前にカットされたり、あるいは「ストップワード」が導入されたのではないかと思うようなヒット数になったり。
おそらく、データベースに蓄積されたコンテンツの量が、かなり増えてきているのでしょう。

Googleがそうだと断言するわけではないのですが、検索エンジンの開発・運営側では、「ヒット数は二の次」にしていることが多いと思います。
 

私もかつて「英日対訳 物質名データベース」や「国際特許分類の対訳検索」など、自宅のサーバー上でいくつかの全文検索エンジンを運営していたので、そうしたくなる気持ちは何となくわかります。

開発側として最も優先するのは、「いかに最適な結果を返すか」。


これが、最優先です。Googleでいえば、中身ですね。

いくらコンピューターの性能があがったからといって、膨大なインデックスを正確にカウントしようとすると、どうしても速度が犠牲になります。
瞬時に結果を返すには、どうしたところで、ある程度は概算値にせざるを得ないということです。

そしてそれは、たとえ巨人Googleといえども、同じではないかなと。
蓄積されるデータの量が多くなればなるほど、ヒット数を適当な「概算」にせざるを得ないとしても、少しも不思議はありません。
ヒット数のカウントも、きちんとしようとするとサーバーの負荷にもなりますし、しないですむならしたくないのが本音でしょう。たぶん。

・・・でも、よいと思うのです。それで。

検索エンジンは本来、最適なコンテンツを返すためのものであって、正確なヒット数を教えるものではないですし。

人々の検索の仕方を調査した結果によると、最初の1ページ目だけしか見ない人が相当数でいるらしく、いってせいぜい4~5ページ目まで。
ということは、検索エンジン側からしてみれば、10ページ以降なんて「どうでもいい(笑)」ようなもの。

ユーザーの私たちが勝手に、「数を知るための道具」として「も」使ってきただけ、なんですよね。

おそらく、Googleを表現の使用頻度の調査に使える時代は、そろそろ終わり。
以前からときどきコーパスを紹介していますが、少なくとも私たち翻訳者はそろそろ本格的にコーパスに移行してもよい頃なのかもしれません。

 ・小学館コーパスネットワーク (有料/無料)

 

 ・The Open American National Corpus

 

 ・The Corpus of Contemporary American English (COCA)

 

 ・The British National Corpus (BNC) ※COCAとインタフェースはそっくりですが別コーパス。


 ・コーパス開発センター (国立国語研究所など)


 


 


インデックスへ