電子書籍の自炊 for iPad (3) | Archive Redo Blog

Archive Redo Blog

DBエンジニアのあれこれ備忘録

3.スキャン
本を解体したらスキャナで読み取ります。

scansnapの場合はあらかじめ画質などを設定しておけば、あとは原稿をセットしてScanボタンを押すだけでどんどん読みとってくれます。

Archive Redo Blog

画質は高画質にするほど、カラーモードは白黒やグレースケールよりもカラーの方が、出来上がりのPDFのサイズも大きくなります。

PDFのサイズが大きくなると、デバイスの記憶領域を圧迫しますし、PDFリーダーの動作が重くなったり不安定になったりすることもありますので、必要十分なレベルに抑えておいた方がいいと思います。

IT系の専門書は二色刷り程度のものが多いので、私は以下の設定を中心にスキャンしています。

画質:スーパーファイン(カラー/グレー:300dpi、白黒:600dpi相当)
カラーモード:グレー

この設定で200~300ページくらいの書籍が大体50MBから100MB程度になります。


スキャンはかなり高速で快適です。

私のPCでは、スキャンそのものよりもPC側の処理がボトルネックになりますが、それでも200~300ページくらいの書籍が10分弱でスキャンできてしまいます。

重なりや紙詰まりも自動検出してくれますし、そこで原因となった原稿から再セットすればそのままスキャンを継続することができます。

FUJITSU ScanSnap S1500 FI-S1500/富士通
¥価格不明
Amazon.co.jp


4.PDFのチェック・加工
スキャンができたら、念のため出来上がったPDFのチェックと加工を行います。

Archive Redo Blog


まず、本の中身は”グレー”でスキャンしましたが、それでは出来上がりがあまりにも味気ないので、表紙と裏表紙だけ”カラー”でスキャンし、Acrobatを使ってページを挿入します。

また、scansnapは原稿の向きを自動認識してくれるのですが、時々誤認識することがありますので、そういったページを回転させて正します。

あとはページの抜けなどをざっくりと確認すれば、一応電子書籍の完成です。


本の解体からPDFの完成まで、200~300ページの本で1冊約30分といったところです。



5.その他追加作業
上記1~4の工程を経て出来上がったPDFはあくまでもイメージ画像に過ぎません。

テキストを検索可能なPDFにするためには、OCR処理が必要になります。

この作業はすべて自動で処理してくれますが、これまでのどの作業工程よりも時間がかかります。

私のPCでは、200~300ページ程度の専門書で15分~20分くらいといったところです。

テキストの読み取り精度は本の内容次第で、決して完璧ではありませんが、ないよりはあった方が重宝するかと思います。

その他、しおりなどを付ければより使いやすいPDFに仕上げることもできますが、こういった作業はあとからいくらでもできるので、気が向いたらやればいいと思います。


あとはバックアップですね。

せっかく電子化した書籍も、うっかりPCから削除してしまったり、HDDが壊れてしまったりして失ってしまっては元も子もありません。

できれば二重、三重のバックアップ体制がほしいところです。