数千冊の本を自炊で電子化するために、出来るだけ短TAT かつ省力化をするための スキャンから圧縮処理までをバッチ的に行うプログラムを作成する。
目標 : 300ページの文庫本を一冊処理(裁断は除き、スキャンから圧縮まで)するのに 5分、閲覧用のファイルサイズを 20Mbyte とする。
名称 | 説明 |
---|---|
git | - |
ruby | - |
xsane | Scanner Access Now Easy |
epsonscan2 | EPSON DS-570W 用ドライバー (*1) |
imagemagick | 画像処理いろいろ |
libjpeg-turbo-progs | mozjpeg 画像圧縮用 |
gimv | gimageview (*2) スキャン後に、テキストと画像に分類する |
pinta | カバーの加工用 |
zbar-tools | カバーの ISBN バーコード読み取り |
tesseract-ocr-jpn | カバーの ISBN 番号の OCR |
w3m | ISBN番号から書誌情報の検索 |
% sudo apt install git ruby xsane imagemagick libjpeg-turbo-progs pinta zbar-tools tesseract-ocr-jpn w3m
% scanimage -d "epsonscan2:DS-571W:003:026:esci2:usb:ES0238:392" --help
メモ
epsonscan2-bundle-6.6.40.0.x86_64.deb では、期待通りに動作するが、
epsonscan2-bundle-6.7.61.0.x86_64.deb だと、
--scan-area=Auto Detect
が動作しない。
% mkdir /tmp/gimv
% cd /tmp/gimv
% git clone https://github.com/ashie/gimageview.git .
% sh autogen.sh
% ./configure
% make
% sudo make install
インストールするディレクトリに移動して下記のコマンドを実行する。
% git clone https://github.com/kaikoma-soft/bookScan.git .
上記のディレクトリを PATH に追加する。
% book_scan.rb
左とじの書籍の場合に指定する。カバー全体から表紙を切り出す際に右側を切り出すようにする。デフォルトは左側。
黄ばみ対策として、グレイスケールのスキャン時に --dropout=Red
を付加する。
OS | Ubuntu 22.04.2 LTS (Jammy Jellyfish) |
スキャナー | EPSON DS-571W |
epsonscan2 | epsonscan2-bundle-6.6.40.0.x86_64.deb.tar.gz |
ruby | ruby 3.0.2p107 |
scanimage (sane-backends) | 1.1.1-debian; backend version 1.1.1 |
ImageMagick | 6.9.11-60 |
不具合報告などは、 GitHub issuse の方にお願いします。
このソフトウェアは、Apache License Version 2.0 ライセンスのも とで公開します。詳しくは LICENSE を見て下さい。