はじめに
- 本記事では、Extended Languages OCR の読み取り結果を従来のOCR(CJK-OCR)と比較・分析した内容を扱います。
- 記事の内容は、個人の見解または確認結果であり、UiPath の公式見解ではありません。
- 製品仕様や参考画像は 2024年8月22日時点のもので構成しています。
前提補足
本検証では Studio のアクティビティではなく、Document Understanding のデジタル化用の WebAPI をもちいて従来のOCRとの読み取り結果の違いを確認していきます。
外部アプリケーションの登録やSwaggerの使い方などは Jun様(UiPath Friends のMVPの方)の次の記事が参考になります。
比較結果(CJK-OCR vs Extended Languages OCR)
比較検証にもちいた画像データ
差分参考
文字
左:CJK-OCR 右:EL-OCR
外税の「外」と税率の数字で、「外8」または「外10」という文字列がレシートの明細行の一番左に並ぶのですが、この『外』という字を従来のOCRでは「タ」or「ト」or「91」と認識してしまう様です。
Extended Languages OCR は目視確認した限りではほとんど正確に読み取っていました!(最後の「E5」だけ何を読んだのか不明。CJK-OCRだと「FŐ-+」と読んでいる。。。)
「(」左括弧もCJK-OCRでは認識できていない箇所が複数あるのに対して、ELOはすべて認識できています!
OCR信頼度
抽出文字の数は10個しか差はないものの、OCR信頼度の合計では20の差がある=EL-OCRの方が全体的に識字精度が高いと考えられます。(文字1つの信頼度の最高点が1のため、CJK-OCRの信頼度が1に近いものばかりだった場合は10点しか差は開かない)
座標
『食』
EL-OCR の "polygon": [423,107,440,107,441,136,423,136]
CJK-OCR の "polygon": [420,106,442,106,441,138,419,137]
→ 若干 CJK-OCR の方が広く認識している
『活』
EL-OCR の "polygon": [485,107,508,107,506,137,484,138]
CJK-OCR の "polygon": [489,107,507,107,507,137,490,137]
→ 「活」で認識できているものの、CJK-OCRの方はもう少しで完全に”さんずい”が切れてしまう位置で領域を認識している。
『外』 ※CJKでは「タ」「ト」で認識した箇所
EL-OCR の "polygon": [679,529,700,529,700,564,679,564]
CJK-OCR の "polygon": [674,529,691,530,688,565,672,565]
→ CJK-OCRの方がEL-OCRより左側に領域認識している結果、「タ」「ト」に分かれてしまった?可能性あり
さいごに
いかがでしたでしょうか。
CJK-OCRでも結構精度は高いとおもっていましたが、
Extended Languages OCR はさらによいですねb
これから DU で自動化する人は迷わず Extended Languages OCR をお使いください!!
最後までお読みいただきありがとうございます(・ω・)ノ