文字コードが特殊なのかわからないけど、とある日本語のPDFがどうしてもAIで読み込んでもらえない。仕方ないので、OCRを使って画像から文字を抽出することにした。
そのPDFは表形式になっていて、1列目と4列目をエクセルなどに落とし込みたい。先日公開された国立国会図書館 (NDL) のNDLOCRの軽量版を使用した。これは日本語テキストの認識が読み込み精度がとても良くて感動したけれど、起動に時間がかかるのと手順が多いので、読み取り箇所が多い画像だとちょっと手間だった。
https://chromewebstore.google.com/detail/offline-ocr/cfppiicaeemimcbodibggnnolckcpmpd
そんなとき見つけたのは「オフラインOCR」というNDLOCRの軽量版を使ったChromeの拡張機能だった。これは拡張機能の虫眼鏡アイコンを押すか、ショートカットで範囲を指定するだけで、読み取った画像を自動でテキストに変換して、クリップボードに設定してくれる。デフォルトの設定だとクリップボードに登録した時点でアラートが出るが、設定で取り外すことができる。
自動でやってくれる範囲が広いので、読み取り箇所が多い場合に手間を減らすことができる。しかも読み取った情報がネットワークに流れることなく自分の端末の中で完結されている。
PDFの1列目全体をすべてコピーして、エクセルに貼り付けして、4列目全体を同じくコピーして、エクセルに貼り付けすることができる。必要ない行がちょくちょくあるので自分で削除する。かなり簡単にテキスト化することができる。
これでやりたいことが簡単にできるようになったが、そもそもインターネットに公開されているPDFなので読み取りできるのが一番良いのだけれども。
