便利なソフトウェアたち
Amebaでブログを始めよう!

Excelへの変換

普段は、スキャナで出力されたJPEG、TIFF、PDFをそのままMicrosoft Wordに変換して使用しています。しかし、文書の一部分だけOCRをかけたいということも、まれにあります。特に、ある文書内の表だけをMicrosoft Excel に変換したいということもあります。

例えば、次のようなファイルがあるとします。
op15sample
当然、OCRの設定を”Automatic”にしておけば、上の文の所は文字として認識され、表の部分は表として認識されます。ただ、表のところだけを抜き出してそれをExcelで編集するときは、以下のような手順で抽出します。
1. Image PanelのDraw Text Zone  Draw_Text_Area  ボタンを押し、 Draw_Spread_Area  をクリックします。
2. "Perform OCR" ボタンの下のプルダウンメニューより”Spreadsheet”を選択します。
OP_Sample3
3. "Perform OCR"ボタンを押します。
4. "Export results" ボタンを押し、出力形式をExcelにして保存します。

すると、このような感じでExcelで表示されます。

OP_Sample


ってなわけで、1ページ全てOCRをかけるのではなく、1部だけかけることができるので用途も結構広がります。











OmniPageの画像処理④

今日は、OmniPageの画像処理というか画像修正の機能で最もよく使う機能の2つを説明します。

まずは、Despeckleです。日本語でなんて言うのか分かりませんが、ノイズ除去なのかもしれません。スキャナで読み込んだ画像には、細かい斑点が表示されていることが良くあります。それがひどいと、認識結果に少なからず影響があります。
"Tools --> Despeckle" または、despeckle_btn   ボタンを押すと、Despeckleが可能になります。表示されているスライダーバー  despeckle  を動かして調整します。
その調節により画像がきれいになりますが、やりすぎると文字が薄くなりすぎて逆効果の場合があります。


次は、Deskewです。これもどのように日本語訳されるのか分かりませんが、傾きの補正とでも言うのかもしれません。スキャナで文書を読み取ると、傾いてしまう場合があります。少しぐらいの傾きであれば、OmniPageで認識するのに問題ないですが、やはりまっすぐになっているほうが、認識率がよいみたいです。
"Tools --> Deskew" または、deskew_btn  ボタンを押すと、矢印つきの入力ボックスdeskew  が表示されるので、その矢印をクリックして、傾かせたい角度を入力します。

これらの修正や変更を行った後、arrow  ボタンを押すと実際にOmniPageに取り込んだ画像に変更が反映されます。

今まで紹介した機能のほかにも、"OCR brightness"、 "Drop-out Color"、 "Resolution"などの機能がImage Enhancement のツールの中にあるようですが、まったく使ったことがないのでどのように使用するのか分かりません。まぁ今まで使用しないでも、まったく不自由なくできてたので。

というわけで、OmniPageの画像処理はこのぐらいです。











OmniPageの画像処理③

前回の画像処理機能のほかにもいくつかの機能があります。

個人的には、あまり使いませんが色相・彩度・明度も細かく調整できます。"Tools" --> "Hue/Saturation/Lightness" または


color_btn ボタンを押すと color  がウインドウ下部に表示されるので、スライダーバーを動かして、色合いを調整できます。


また、"Tools --> Rotate/Flip" または rotate  ボタンを押すと、rotate_fuc が表示され、0度、90度、180度、270度、Flip、Flip and 90度、Flip and 180度、Flip and 270度から選択できます。選択した角度だけ、文書が回転されます。後日説明する、Deskewはたまに使用しますが、Rotate/Flipは個人的にあまり使うことはありません。まぁこれぐらいなら、いろいろなソフトでできますしね。


他の機能はまた後日。。。



OmniPageの画像処理②

"Tools" --> "Enhanse Image..." もしくは Image Pane の button  ボタンを押すと、SET Tools が起動します。すると以下のようなウインドウが立ち上がります。


SET Tools


このウインドウの左側にオリジナルの画像が表示され、右側に修正中の画像が表示されます。

"Tools" --> "Brightness / Contrast" 又は、b2  ボタンを押すと、画像の明るさとコントラストを調整できます。

SET Tools のウインドウの下部にスライダーバーが表示されるので、そのバーを動かして調整します。


B/C


SET Toolには、他にもまだ機能があリますが、他の機能の紹介は、次回で。


OmniPageの画像処理①

昔に比べてOCRの認識率が向上したとはいえ、完璧ではありません。今のOmniPageは、きれいな画像はほぼ100%近く文字やレイアウトを認識してくれますが、特に既に印刷されたものをスキャナで読みとって、その画像(PDFファイルやJpegファイル)をそのまま認識させようとすると認識率が落ちる場合があります。そんなときは、一旦画像をきれいにしてからOCRをかけると認識率が上がります。OmniPageには、SET Tools と呼ばれるも簡単な画像処理機能があるので、それを使って画像処理するとご認識が減る場合があります。


SET Tools では、画像の明るさや色の調整やDespeckle(日本語ではなんていうのかは分かりません)、Deskew(角度調整)などが可能です。その他にもできることがあるみたいですが、あまり使わないので分かりません。また、分かったらお知らせします。それでは、次回はSET Tools の使い方をお知らせします。

OmniPage②

ファイルをロードした後に、「Automatic]と表示されているプルダウンメニューの上のボタンをクリックすると (または、"Process" --> "Perform OCR" --> "Start") OCRの処理が行われます。
すると、下図のようにOCR前の画像とOCR後の結果が表示されます。





また、次の図のようにOCRの結果がOmniPage のText Editor に表示されるので、簡単な修正であればこのウインドウ上で
編集することが可能です。(ちなみに、私の場合は、通常 MS Word に保存してから、編集しています。)



op3


次にOCRをかけた結果を、編集可能な形式に保存します。「Save to File」と表示されているプルダウンメニューの上のボタンをクリックすると(または、"Process" --> "Export Results" --> "Start")下図のような
ファイルを保存する形式を指定するダイアログが表示されます。かなりいろいろな形式で保存できますが、あまり使ったことはありません。Word、Excel、PDFを主に使用しています。
(明日に続く)


op4

OmniPageの使用方法①

まず、OmniPageを立ち上げると、下図のような画面が表示されま
す。左側の「Image Panel」ウインドウにOmniPageに読み込まれた画
像のサムネイルと画像が表示され、右側の「Text Editor」ウ
インドウにはOCRをかけた結果が表示されます。

OmniPageの最も基本的な使用方法は、画像ファイルを読み込み
、OCRをかけて、修正可能なファイル形式に変換することです
。(それ以外にもいろいろな使用方法がありますが、おそらく
8割方がこの作業です。)それでは、早速、画像ファイルをMS
Word に変換してみましょう。


File --> Get Page --> Load Files もしくはLoad Filesと書
いてあるプルダウンメニューの上のボタンを押し、ファイルを
ロードします。(続きはまた明日)



OmniPageについて

かれこれ10年近く前、アメリカに住んでいたときに買ったスキャナにソフトがついてきました。そのソフトがOmniPageというものでした。どんなソフトかというと、簡単に言えばOCRソフトです。以前は、学校などでもらった配布資料をスキャナでスキャンし、それにOCRをかけてMS Word (昔はCorel WordPerfect だったかも)のファイルに変換して使ってました。今でも英語の文書などを多く扱うので、結構重宝しています。


これからは、少しずつOmniPageの魅力や機能について少し書いていきたいと思います。

便利なソフトウェア情報

これから、自分が使っていて便利だと思うソフトを少しずつ紹介していきます。