『[各国] ”OCR処理済み公報” 使い道と入手方法』

「公報のPDFファイル」　って
皆さん、どこで入手されてますかー？

商用データベースなら、今は大抵「PDF出力機能」がついてますし・・・
IPDLもEsp@cenetでも、１件単位で公報PDFファイルの入手は可能。

昔は、公報って「複写業者さん」にコピーして送って頂くもの、だったので、
＃突然昔話ですが、許してくださーい。

社内で必要部数、コピーを取って増殖

させる事も多く、
取り寄せた公報に　「原本」　と付箋を貼ったり・・・
孫コピーがきれいに取れるよう、「線を引く時は、黄色の蛍光ペン」と言われたものですが・・・

PDFファイルとプリンタさえあれば、
常に、きれいな公報を出力できるんですもんねぇ。
進化したものです　(ぽわーん）
#昔話終了っ（笑)

ところで、
ほとんどの方が、ご存知だとは思うんですが・・・

PDFファイルにも、２種類あるじゃないですか。

単に、画像っぽく　(？)　公報が入っているＰＤＦと、
テキスト情報が埋め込まれたＰＤＦ。

後者は、ＰＤＦファイル内部を、テキスト検索できるので
サーチャブルＰＤＦ　(Ｓｅａｒｃｈａｂｌｅ PDF) と呼ばれます。

テキスト検索できる、というのは、結構便利です。
たとえば、キーワード検索でヒットした、１件の公報。

キーワード検索でヒットしたからには、
「その語」が、公報のどこかに含まれるのは、９９．９％確か。

でも・・・
１４１ページですって！

ヒットした箇所、ど～こ～な～の～よ～!!　

該当箇所に線を引きたいのに、なかなか見つからないし！

こんなの、10件もあった日には、
公報を放り投げたくなる、っていうものです・・・（←注：実際には投げません。)

・・・こんな時、あると嬉しいのが、サーチャブルＰＤＦ。
ＰＤＦファイル内をテキスト検索できるので、

目指す記述が、「公報何ページ目の、何行目」か、
素早く、バッチリ特定できます。

とはいえ、
サーチャブルＰＤＦ、
入手方法は、比較的限られていまして、
商用データベースが中心ですが・・・

先日、Patent Integrationの方から、

Patent Library β版リリースの案内を頂きました。

無料の特許公報照会と固定リンクサービスで、

OCR処理のなされたテキスト検索可能なpdf形式の原文献を取得できる、とのこと。

また、公報の固定URLが出力（表示）されるので、
メール等で公報番号を連絡する際にも使える、というものです。

Patent Library Beta

収録国は、現在３０カ国
そのうち、サーチャブルPDFの取得可能な国は・・・

アメリカ、EP、PCT　は取得可能。
ドイツ、フランス、イギリスなども　OKです。

他に、あまり見かけないところでは、
イタリアやスイス、スペイン、
北欧や東欧・ロシアも概ねOK。
メキシコやアルゼンチンなどもあります。

※詳細はベータ版ページで、ご覧くださいね！

以下は、ヘルプページを見ながら、検索した「個人的レポート」です。
※現時点で、わからない箇所などもあります・・・(陳謝)
　　今度、中の人に質問してみよう、と思ってます。

・　複数番号の入力は？

→　対応してました。
改行区切りで、複数の番号を入力できます。
カンマやスペースで区切ると、エラーになります。

・　テキストデータの中身は？

→　サイトにも「OCR」と書いてあるので、
　　電子出願テキストなどではなくて、
　　公報をOCR処理されているはず･･･です。

　　※なので、誤認識が発生する可能性、否定できないかも･･･

・　OCR処理は？事前に処理した公報がサーバーに入ってるの？

→　どうやら、検索した際、その都度処理してるっぽいです。
　　※ここは想像。中の人に質問しようかと。

　　「その都度っぽい」　と思ったのは、
　　ヘルプに「OCR処理には、通常の２倍時間がかかります」とあるのと、
　　150ページ前後の米国公報で、OCRを要求したところ、
　　途中で処理が止まった状態で、ページの少ない公報が戻ってきたから、です。
　　　　　　　　　　　↑
　　ベータ版リリースされたばかりなので、今後に期待！！

・　ローカル保存ができない！？　(←注：保存できます！）

→　保存できなくて、一瞬「ええっ！？」ってなりました。　
　　これは、サーバー側でなく、「閲覧環境側」の問題。

　　Window XPの環境で、ブラウザがGoogle Chromeだと、
　　PDF保存ボタンが出ない・・・です。たぶん。
　　(私が引っかかったのは、これ。)

　　同じWindow XPでは、
　　IEとFirefoxと、Operaも問題なし。
保存ボタンが出て、ローカル保存も普通にできました。

・　収録年（Coverage）は？

→　これが・・・わからないんですよぉ。orz
　　勝手に「Espacenetと同じなのかなぁ？」なんて想像してますが。
　　これも　「中の人に教えていただく宿題」　ってことで。
　　（調べてから記事にすれば良いものを・・・皆様すみません！）

・・・ってな感じで、

現時点で
「ページ数の多い公報をOCR処理させるとちょっと辛そう」
な印象を持ったのですが、

早朝、夜間なら、大丈夫、って事もあるかもしれません。
（今度チャレンジしてみます。）
あと、アップデートにも期待。

無料で、マイナー国の公報もかなり揃っていて、
面白いサービスだと思います！！

ブログ画像一覧を見る

このブログをフォローする

情報検索、プロの視点／酒井美里ブログ

2007年特許検索競技大会優勝・酒井美里のブログです。特許＆文献検索、ビジネス系検索の「視点」を記録しています。

[各国] ”OCR処理済み公報”　使い道と入手方法

情報検索、プロの視点／酒井美里ブログ

2007年特許検索競技大会優勝・酒井美里のブログです。 特許＆文献検索、ビジネス系検索の「視点」を記録しています。

[各国] ”OCR処理済み公報” 使い道と入手方法

2007年特許検索競技大会優勝・酒井美里のブログです。特許＆文献検索、ビジネス系検索の「視点」を記録しています。

[各国] ”OCR処理済み公報”　使い道と入手方法