先日触れたOCRの続きみたいなものですが、最近のVLMも精度が上がってきているので、
Qwen3-VL:8BくらいならOCRできるんじゃね?と思いやってみました。
元のデータはこんなの用意しました。
copilotoに作らせたダミーの住所録、表計算ソフトから印刷して、スキャナで600DPIで取り込みました。300DPIでは文字として認識してくれませんでした。
Nexa CLIでQwen3-VL-8B-Instruct-GGUFを使用してみました。結果。
いい感じに見えますが、よく見ると、元データと違う名前だったり件数が増えていたりします。
データ勝手に作っちゃうんですね。これはダメです。VLMはOCRには向かないようです。
ちゃんとOCRのモデル使ってみます。
Nexa CLIでDeepSeek-OCR-GGUFを使ってみました。リファレンスにないコマンドで実行しました。結果。
htmlで吐き出してくれました。メモ帳にコピペしてブラウザで開くと、
間違いなしで取り込んでいます。さすがOCRモデルといったところでしょうか。
リファレンス通りに実行してみます。
ちゃんと表で出力してくれました。コピペで表計算ソフトにcsvで貼り付けます。
きれいに収まりました。実用レベルですね。
さて、tesseract-OCRはというと、スキャナから直接読み込むと、
横印刷の書類を縦画像で読み込んだため、そのままでは、認識してくれませんでした。
画像回転して保存しコマンドラインからtesseract-OCRを実行します。
tesseract /path/to/out.tiff out -l jpn
うーん、おしいですね。大体あってますが、所々間違いがあります。区切りも一定でないので表計算ソフトに読み込ませるのも難しそうです。手直しで結構手数かかりそうです。
オンラインで無料でOCRしてくれるサービスはたくさんありますが、住所録や、健康診断データ、仕事の書類などは、さすがに読み込ませるの怖いです。
かといって、OCRソフトは結構お高いので、使用頻度を考えると購入もためらわれます。
HuggingFaceにはフリーのAI-OCRモデルはたくさんありますが、FLUSH-ATTENTIONが必要なサーバー向けばかりでした。
Nexa CLIはまだ開発途上な感じですが、手軽にAI-OCRやLLM,VLM試せる環境かと思います。
NPUに対応していたり、OpenAI API接続でOpen-WebUIでも使えるので、これからに期待しています。








