はじめに

  • 本記事では、オフラインで利用可能なOCRを扱います。
  • 記事の内容は、個人の見解または確認結果であり、UiPath の公式見解ではありません。
  • 製品仕様や参考画像は 23.10 バージョンのもので構成しています。
 

オフラインで利用できるOCR

 OCR            備考
  • Tesseract OCR     日本語 〇(言語データを取得し、所定のパスに配置する必要あり) / 参考:https://forum.uipath.com/t/tessdateocr-jpn/421517
  • OmniPage OCR     日本語 〇 / UiPath.OmniPage.Bundle.Extended のインストールが必要
  • UiPath Document OCR 日本語 ×(半角英数字 〇) / UiPath.DocumentUnderstanding.OCR.LocalServer のインストールが必要
 
本記事では次の画像(JPEG)をもとに精度の参考情報を記載します。
 
  • 動作確認に利用するパッケージバージョンはこちら↓↓
    "UiPath.DocumentUnderstanding.Activities": "[2.4.1]",
    "UiPath.DocumentUnderstanding.OCR.LocalServer": "[1.5.1]",
    "UiPath.IntelligentOCR.Activities": "[6.14.1]",
    "UiPath.OmniPage.Activities": "[1.13.0]",
    "UiPath.OmniPage.Bundle.Extended": "[1.3.1]",
    "UiPath.System.Activities": "[23.10.5]",
    "UiPath.UIAutomation.Activities": "[23.10.7]"
 

Tesseract OCR

 

■利用方法

  1. 次のリンクより言語ファイル(jpn.traineddata)を取得
    https://github.com/tesseract-ocr/tessdata/raw/4.00/jpn.traineddata
  2. C:\Users{ご自身のアカウント}\AppData\Local\Programs\UiPath\Studio\tessdata 以下に上で取得した言語ファイルを配置
  3. 「ドキュメントをデジタル化」アクティビティに「Tesseract OCR」を配置し、プロパティに次を指定します。画像用のプロファイル:「Scan」 単語抽出:ON 言語:jpn
 

OmniPage OCR

 

■利用方法

  1. パッケージを管理より UiPath.OmniPage.Bundle.Extended をインストール
  2. 「ドキュメントをデジタル化」アクティビティに「OmniPage OCR」を配置し、プロパティに次を指定します。画像用のプロファイル:「Scan」 単語抽出:ON 手書きテキストを抽出:ON 言語:jpn
 

UiPath Document OCR

 

■利用方法

  1. パッケージを管理より UiPath.DocumentUnderstanding.OCR.LocalServer をインストール
  2. 「ドキュメントをデジタル化」アクティビティに「UiPath ドキュメント OCR」を配置し、プロパティに次を指定します。ローカルサーバーを使用:True
 

おまけ(オンライン×有償のCJK-OCRの例)

 

さいごに

いかがでしたでしょうか。簡単なサンプルの紹介のみなので、どれが優れているといった結論等は書きません。
OCRは文字のサイズや太さ、周辺の罫線の影響を敏感に受けます。
筆者の少ない経験値からであてにはなりませんが、10~20pt 程度で細い字、周辺に罫線がないケースであれば有償OCRはほぼ読めます。
今回紹介したオフライン(無償)の OmniPage や Tesseract OCR でもある程度は読めます。
読み取れたときだけでも何かのチェックで役に立つならオフラインのOCRも役に立ちます。
身近な業務で目視チェックが発生しているものがあれば利用を検討してみてはいかがでしょう。
最後までお読みいただきありがとうございます(・ω・)ノ

 

以上 オフラインで利用可能なOCRでしたー