官公庁サイト等の「過去ログ」全文検索 | 特許翻訳 A to Z

特許翻訳 A to Z

1992年5月から、フリーランスで特許翻訳者をしています。

国会図書館が運営するシステムの1つに、インターネット資料収集保存事業のデータベースがあります。

 


国の機関、自治体(都道府県、政令指定都市、市町村、市町村合併の法定合併協議会)、法人・機構(独立行政法人、特殊法人など)、大学などのウェブサイトや電子雑誌等を「まるごと」保存して、検索できるようにしたものです。
(詳細→国立国会図書館法によるインターネット資料の収集について

 

そこには当然、日本特許庁の過去のウェブサイトも。

トップページの検索窓に「特許庁」と入力して検索すると、現時点でメタデータが1件と、本文データ1,431,700件がヒットします。
1か月ほど前に同じことを試したときには1,408,300件でしたので、かなりのペースで増えているのだと思います。



メタデータを確認すると、いつのデータから収録されているのか、わかります。
特許庁の場合は、2004年12月14日以降のデータが収集・保存されていますね。
昔は間隔があいていますが、2010年以降は、1か月に1回の頻度です。

一方、本文データのほうは、読んで字の如く本文です。
収集された膨大な量のコンテンツのうち、「特許庁」という文字を含むページがヒットしています。
ようするにWARPは、収集対象サイトの過去ログ全文検索を可能にしているわけです。

「特許庁」というキーワードを含むコンテンツは特許庁のウェブサイト内だけではなく、経済産業省をはじめとする他の組織にもありますから、他の収集対象サイトを含めて、「横断」全文検索になります。

もちろん、特定サイトだけに限定することも可能で、その場合詳細検索で指定します。
特許庁の場合は「http://www.jpo.go.jp/indexj.htm」ですので、これをページURLのところに入れて、本文にキーワードを入れます。
これで、特許庁サイトだけの過去ログ全文検索になります。

URLを特許庁に指定して、本文のキーワードを「審査基準」にして、なおかつ日付の範囲も限定すれば、ある時期の審査基準に関する情報を参照するとかいったことが、簡単にできます。

ウェブサイト全体を「まるごと」バックナンバー化しているようなものですから、当然のこと内部リンクも有効に機能します。



とにかくデータ量が多く、Googleとは違う使い道が多くあります。
たとえば一昨日「単純温泉は、なぜ「単純」なのか」で取り上げた、「単純温泉」。
こんなキーワードでも、11万件以上ヒットします。
炭酸水素塩塩」になるとだいぶ減りますが、それでも5万4千件以上あります。

この炭酸水素塩泉には「炭酸水素泉」という誤称があるのですが、こちらを検索すると2,300件程度。
5万4千との比較で、誤りまたはあまり使われていない表現の「可能性」が、すぐにわかりますね。

過去の審査基準を参照するとかいった例だけでなく、翻訳者が行政における用語の使用を確認して、訳語判断の一助にすることも、できるということです。

特許庁提供の英訳文が「いい加減」すぎて使えないという例と同様、日本の官公庁の英訳文はあてにならない可能性がありますが、少なくとも、和訳の際に参考資料とする使い方は、「あり」だろうと思います。

もちろん、過去ログ全文検索ですから、Googleと違って重複が相当数でありますが、それが問題になるときは、時期を限定するなり何なり使い方の工夫で対処すればよいでしょう。

ノイズでしかない玉石混交のデータが混じることがないだけでも、本当にありがたいシステムです。

 


インデックスへ