[各国] ”OCR処理済み公報” 使い道と入手方法 | 情報検索、プロの視点/酒井美里ブログ

[各国] ”OCR処理済み公報” 使い道と入手方法

「公報のPDFファイル」 って
皆さん、どこで入手されてますかー?


商用データベースなら、今は大抵「PDF出力機能」がついてますし・・・
IPDLもEsp@cenetでも、1件単位で公報PDFファイルの入手は可能。



昔は、公報って「複写業者さん」にコピーして送って頂くもの、だったので、
#突然昔話ですが、許してくださーい。

社内で必要部数、コピーを取って増殖ひよこひよこひよこさせる事も多く、
取り寄せた公報に 「原本」 と付箋を貼ったり・・・
孫コピーがきれいに取れるよう、「線を引く時は、黄色の蛍光ペン」と言われたものですが・・・

PDFファイルとプリンタさえあれば、
常に、きれいな公報を出力できるんですもんねぇ。
進化したものです (ぽわーん)
#昔話終了っ(笑)



ところで、
ほとんどの方が、ご存知だとは思うんですが・・・


PDFファイルにも、2種類あるじゃないですか。


単に、画像っぽく (?) 公報が入っているPDFと、
テキスト情報が埋め込まれたPDF。

後者は、PDFファイル内部を、テキスト検索できるので
サーチャブルPDF (Searchable PDF) と呼ばれます。



テキスト検索できる、というのは、結構便利です。
たとえば、キーワード検索でヒットした、1件の公報。

キーワード検索でヒットしたからには、
「その語」が、公報のどこかに含まれるのは、99.9%確か。


でも・・・
141ページですって!


ヒットした箇所、ど~こ~な~の~よ~!! ガビーン(うさ)
該当箇所に線を引きたいのに、なかなか見つからないし!


こんなの、10件もあった日には、
公報を放り投げたくなる、っていうものです・・・(←注:実際には投げません。)


・・・こんな時、あると嬉しいのが、サーチャブルPDF。
PDFファイル内をテキスト検索できるので、

目指す記述が、「公報何ページ目の、何行目」か、
素早く、バッチリ特定できます。


とはいえ、
サーチャブルPDF、
入手方法は、比較的限られていまして、
商用データベースが中心ですが・・・



先日、Patent Integrationの方から、

Patent Library β版リリースの案内を頂きました。

無料の特許公報照会と固定リンクサービスで、
OCR処理のなされたテキスト検索可能なpdf形式の原文献を取得できる、とのこと。

また、公報の固定URLが出力(表示)されるので、
メール等で公報番号を連絡する際にも使える、というものです。


収録国は、現在30カ国
そのうち、サーチャブルPDFの取得可能な国は・・・

アメリカ、EP、PCT は取得可能。
ドイツ、フランス、イギリスなども OKです。

他に、あまり見かけないところでは、
イタリアやスイス、スペイン、
北欧や東欧・ロシアも概ねOK。
メキシコやアルゼンチンなどもあります。


※詳細はベータ版ページで、ご覧くださいね!




以下は、ヘルプページを見ながら、検索した「個人的レポート」です。
※現時点で、わからない箇所などもあります・・・(陳謝)
  今度、中の人に質問してみよう、と思ってます。



・ 複数番号の入力は?

→ 対応してました。
改行区切りで、複数の番号を入力できます。
カンマやスペースで区切ると、エラーになります。


・ テキストデータの中身は?

→ サイトにも「OCR」と書いてあるので、
   電子出願テキストなどではなくて、
  公報をOCR処理されているはず・・・です。

  ※なので、誤認識が発生する可能性、否定できないかも・・・


・ OCR処理は?事前に処理した公報がサーバーに入ってるの?

→ どうやら、検索した際、その都度処理してるっぽいです。
  ※ここは想像。中の人に質問しようかと。

  「その都度っぽい」 と思ったのは、
  ヘルプに「OCR処理には、通常の2倍時間がかかります」とあるのと、
  150ページ前後の米国公報で、OCRを要求したところ、
  途中で処理が止まった状態で、ページの少ない公報が戻ってきたから、です。
           ↑
  ベータ版リリースされたばかりなので、今後に期待!!


・ ローカル保存ができない!? (←注:保存できます!)

→ 保存できなくて、一瞬「ええっ!?」ってなりました。 
  これは、サーバー側でなく、「閲覧環境側」の問題。

  Window XPの環境で、ブラウザがGoogle Chromeだと、
  PDF保存ボタンが出ない・・・です。たぶん。
  (私が引っかかったのは、これ。)

  同じWindow XPでは、
  IEとFirefoxと、Operaも問題なし。
    保存ボタンが出て、ローカル保存も普通にできました。


・ 収録年(Coverage)は?

→ これが・・・わからないんですよぉ。orz
  勝手に「Espacenetと同じなのかなぁ?」なんて想像してますが。
  これも 「中の人に教えていただく宿題」 ってことで。
  (調べてから記事にすれば良いものを・・・皆様すみません!)



・・・ってな感じで、


現時点で
「ページ数の多い公報をOCR処理させるとちょっと辛そう」
な印象を持ったのですが、

早朝、夜間なら、大丈夫、って事もあるかもしれません。
(今度チャレンジしてみます。)
あと、アップデートにも期待。クローバー


無料で、マイナー国の公報もかなり揃っていて、
面白いサービスだと思います!!