複合機だからスキャンもしたい | Count Zeroの備忘録

Count Zeroの備忘録

日頃の困ったを解消した時の方法をメモしてます。
PC、Linuxネタが多めです。

前回からの続きで、プリンタ関係調べていたら一緒に見つけたスキャナ関係の話です。

スキャナのほうは、Canon純正Linuxドライバでネットワーク上のTS-3330見つけてくれました。

しかし、スキャンできる形式がjpgとpdfしかない。他にも設定がほぼ固定なので使い勝手が悪い。

そこで、見つかったのが「xsane」です。開発は数年前で止まっているようですが、TS-3330では、ばっちり動きます。

 

sudo apt install xsane

 

でインストールです。

 

xsane は単独で使うことも、イメージ操作プログラムである GIMP 経由で使うことも 可能です。単独で使う場合、xsane はイメージを各種フォーマットの イメージファイルにセーブしたり、ファックスプログラムのフロントエンドとして 使ったり、イメージをプリンタに送ることができます。

SANE とは "Scanner Access Now Easy" の略で、あらゆる ラスターイメージスキャナ (フラットベッドスキャナ、ハンドヘルドスキャナ、 ビデオ/スチルカメラ、フレームグラバーなど) への標準化されたアクセス手段を 提供するアプリケーションプログラミングインターフェース (API) です。SANE 規格はフリーで、その議論と開発はすべての人々に公開されています。現在の ソースコードは GNU/Linux、OS/2、Win32 やさまざまな Unix をサポートできるように 書かれており、GNU General Public License の下で利用できます (しかしながら、商用のアプリケーションやバックエンドとしての利用も歓迎です)

 

との説明がありました。

GIMPとの連携も2.10までは出来た様ですが、3.0には対応していません。

取り込み画像形式はTIFFとPNGにも対応しているので便利です。

OCRにも対応しているようです。gocrで英語は取り込めました。日本語で対応してるのあるのかしら?

と思って調べてみると、tesseractというOCRソフトが日本語に対応しているのを発見。

xsaneにも対応してるのかというと、スクリプト作れば使えるみたいなのでやってみました。

といってもスクリプト作ったわけではなく、ネットで探してきてちょっと修正しただけです。

 

設定にスクリプト(wrapperって言うみたい)登録する欄があって

 

xsane-tesseract -i %i -o %o -l jpn

 

で登録しろとWindowsのcopilotが言うので設定しますが、うまくいきません。

スクリプトいじったり散々やりましたが

登録は

 

xsane-tesseract -l jpn

 

オプションのインプットに

 

-i

 

アウトプットに

 

-o

 

と入れればよいだけでした。やりやがったなcopilotめ。

精度はまぁまぁといったところでしょうか。やっぱり、DeepSeekOCRとかには、かなわないですね。

FineTuningとか追加学習もできるようですが、資料作成の仕事してるわけでもないので、そこまではやりません。

ちょっと、OCR触ってみたかったという話でした。