電子書籍の自炊に挑戦

2011年9月4日

ガジェット

DC-210N PDF ScanSnap 自炊電子書籍

前々から本の処分にウンザリしていたので一念奮起して電子書籍化へ踏みきることにした。

なんらかの電子書籍系サービスを利用することも考えたのだが本が増える度に配送するのはいかにも面倒である。数冊で送るのもためらわれるし十冊ぐらい貯まるのを待つとしたらその間は本が邪魔になる。

そんなわけで、いわゆる自炊に挑戦する。

道具をそろえる

自炊にあたって必要な道具は裁断機とスキャナである。まず裁断機は「カール事務器ディスクカッター DC-210N」を購入。

カール事務器裁断機ペーパーカッター A4対応 40枚裁断 DC-210N

選択にあたり以下のレビュー記事が参考になった。

600冊自炊した私が、それでもCarlの裁断機をオススメする理由

ここで紹介されているとおり小さく軽く扱いやすい。そのうえ消耗品がとても安いので継続利用しても懐に優しい。デザインもかっこよくて気に入った。

黒いプラスチック部分がつや消しで盤面は梨地っぽくレールのサイドにはヘアライン加工を入れるなど素材ごとに落ち着いた質感を目指している。ここのところ光沢・鏡面加工された製品ばかり見ていたので新鮮。事務用品かくあるべしといったストイックさを感じる。

それと購入後に備品確認していて気づいたのだが替刃とマットが本体左下のスペースに付属している。サービスとして気が利いているし消耗品も本体へ収納できることをユーザーに知らせる効果もある。実によい。

スキャナは定番の ScanSnap S1500 を選んだ。

FUJITSU ScanSnap S1500 FI-S1500 | 富士通

この製品、かつては Win/Mac で製品が別れていたらしいのだが現在はどちらもサポートしている。Adobe Acrobat 9 Standard がバンドルされているのも嬉しい。独自の専用ソフトを付けるよりこういうスタンダードなものを選んでくれたほうが使い方を調べやすくて助かる。

いま価格.com で調べたら Acrobar を単体購入すると 3 万ぐらいするようだ。どのような契約でバンドルしているのかは不明だが ScanSnap 本体の価格が 3 万台なのを考えるとかなりお得感がある。購入時は ScanSnap が鉄板だと思っていたのだけど以下の記事を見るに Canon の DR-C125 というスキャナもなかなか良さそうだ。

裁断

道具がそろったので自炊に着手してみる。ただし貴重な本をいきなり裁断するのは恐ろしいので、先に雑誌などで練習しておくとよいだろう。

練習台としては中綴じと無線綴じの両方ほしい。ちょうど手元に週刊アスキー ( 中綴じ ) と Mac Fan ( 無線綴じ ) が数冊あったので、私はこれらで練習した。

慣れてきたのでいよいよ本番に挑戦。対象とする本は以下。

Open GL ES 2.0 プログラミングガイド | Aaftab Munshi, Dan Ginsburg, Dave Shreiner, アフタブ・ムンシ, ダン・ギンズバーグ, デーブ・シュライナー, 松田晃一

本をばらしてゆく。表紙カバーを外して表紙側を押さえながら内側を 20 ページぐらいの単位で背表紙から引き剥がす。私は右利きなので左手に表紙を持ち右手でページの束を引くのがやりやすかった。

この方法だと背表紙がボロボロになるため、ここを生かしたいならカッターで切ったほうがよい。漫画だとカバー裏にオマケがあったりするため、そういう場合はカッターを選ぶ。今回の本はカバーと内側の内容が一緒なので気にせずに手でおこなう。つまりカバー裏は捨てるつもりで作業している。

ひととおりバラすとこんな感じになる。

本をバラした状態

ページ束のボロボロになっているところが背表紙にのり付けされていた部分。ここをきれいに裁断してゆく。切りたいページの束を裁断機にセット。のり付けされた本はここ部分が残るとページ間が貼りつきやすくスキャン時にジャムる原因となる。分厚い本なら背表紙側 (「のど」と呼ぶ) の余白を多めにとっているため裁断する幅も大きめにしておくとよい。

裁断位置が決まったら他のページも揃えやすくするためガイドをセットする。

ページ束をセットする

上記写真でページ束の左にある黒い棒がガイド。マグネットで盤面に吸いついく。磁力はそれなりに強いためページ束を置いたぐらいではズレない。

裁断機をロックしたらカッターをスライドさせて裁断する。厚さによっては数回のスライドが必要。力はほとんど要らない。

同じ要領で残りのページも裁断してゆく。すべて終わったら表示カバーも裁断。

今回は表紙をそのままに裏表紙は背表紙をくっつけて折り返し部分を独立させるようにしてみた。PDF にしたとき、はじめのページを表紙の一枚絵にしておくと Explorer や Finder 上で PDF サムネイルを表示した時に見やすくなる。

裁断完了

スキャン設定

ScanSnap 関連のソフトウェアをセットアップすると ScanSnap Manager の設定というアプリがインストールされる。スキャンに関する設定はこれで行う。

ScanSnap Manager の設定

原稿とファイルサイズはデフォルトのまま。ひととおりスキャン設定したら OK または適用ボタンを押して保存する。クイックメニューを有効にすると自分で設定した内容が上書きされてしまうので注意する。

ScanSnap のセットアップが済んでいるなら PC に接続してから蓋を展開することで、自動的に PC 側へ認識される。私はクイックメニューを使用せず各タブで以下のように設定している。

アプリ選択

設定項目	内容
アプリケーションの選択	ファイル保存のみ。どんどん保存して、編集は後でまとめて実行する方が好み。

保存先

設定項目	内容
イメージの保存先	自分用の作業フォルダ。
ファイル名の設定	連番のみ。最終的に本のタイトルを付けるので、重複さえしなければ、それで十分。

読み取りモード

設定項目	内容
画質の選択	スーパーファイン。これ以下は粗すぎて、エクセレントはスキャンに時間がかかる。
カラーモード	自動。いまのところ、正常に判別できてる。
読み取り面の選択	両面読み取り。あと、継続読み取りを有効にする。これを無効にすると、スキャンが途切れるごとに PDF が作られて非常に面倒。有効にした場合、スキャンが終わったとき、継続と終了を選べるようになる。
オプション	すべてデフォルトのまま。白紙ページを自動的に削除するようにしておくと、真っ白なページのスキャンがスキップされる。総ページ数が変わる可能性もあるので、いやならチェックを外す。

ファイル形式

設定項目	内容
ファイル形式の選択	PDF。「選択」とあるのに、他の形式がない。
テキスト認識の選択	「マーカー部分～」は未チェック。「検索可能な PDF にします」はチェック。
テキスト認識オプション	対象言語は日本語、対象ページは全ページを選択。

スキャン

スキャンしてみる。用紙をセットする時は開始ページが下側、用紙の向きは上が下になる。セットしたら ScanSnap 側で青く光るボタンを押してスキャンを開始。

スキャン中

スキャン中は PC 側に進捗状況をあらわすダイアログが表示される。

スキャンの進捗

スキャンが完了した時、継続読み取りの設定を有効にしていると PC 側にダイアログが表示されて継続か終了を選べる。

スキャン終了、または継続の確認

今回のように厚い本をスキャンしているなら何度も用紙をセットすることになるため、継続読み取りは有効にしておいた方がいい。継続すると次にセットした用紙がこれまでの続きとして読み取られる。

あと用紙がジャムった時なども似たようなダイアログが表示されて継続の可否を選べる。きれいに裁断できていても紙質によってはスキャンに失敗することもあるのでエラーになりやすいページは 1 枚ずつ読ませるとよい。すべてのページをスキャンし終了するとテキスト認識が実行される。

テキスト認識

これは取り込んだページ内から文字を検出して透明なテキストとして PDF に埋め込む処理。

透明というところが重要。見た目はスキャンしたページそのままながら文字にあたる部分のうえに透明なテキストが被さる。そのため Adobe Reader や Mac の PDF プレビューなどでその部分をテキストとして選択したり検索対象にできる。

今回、電子書籍化に踏み切ったのもこの機能によるところが大きい。

PDF でテキスト選択したところ

しかしテキスト認識も完ぺきではなく誤字・脱字が発生することもある。下地に絵が入っている箇所がまるごと抜けたりもする。これについてはテキスト認識の設定でマーカ部分も対象に含めると改善される可能性あり。とはいえ現状でも精度としては十分に実用的。もしミスを見つけたらその時点で直せばよいのだ。少なくとも視覚上は元の本と同じ体裁を保っているので何も問題はない。

作業時間

今回の作業にかかった時間を記録しておく。

作業	時間	備考
本の分解	12 分	400 ページ超の本だが、引き剥がす単位を 20 枚ぐらいにしていたので、けっこう時間がかかった。倍ぐらいのサイズでもいけた気がする。大まかに裂いて、それを小分けに分割するほうが早いかも。
裁断	7 分	はじめにガイドを設置したら機械的な作業になるので、そんなに時間はかからない。裁断の単位は 20 ページぐらい。
スキャン	41 分	ScanSnap の性能的には 20枚/分とのこと。取り込みは両面対応なのでページ数に換算するなら 40 ページ。つまり 400 ページぐらいなら理想的には 10 分前後になる。4 倍ぐらい掛っているのは、40 枚ぐらいで用紙をセットし、途切れてから入れ直していたためだろう。連続的に給紙できてれば、相当に短縮できたはず。
テキスト認識	26 分	この処理は元々、かなり時間がかかるので、ページ数や文章量を考えたら、こんなものではなかろうか。
カバーのスキャン	6 分	カバー、裏表紙、折り返しはサイズが異なるので、ScanSnap のルーラーを変えながらスキャンした。その手間と、有効にしたままだったテキスト認識の時間を含めて、この時間。こんなものではなかろうか。
PDF 編集	7 分	本体の PDF に表紙の PDF からページ挿入して、ひとつの PDF に。タイトルや著者などのメタデータも入れておく。
計	1 時間 39 分	長いです。

給紙が非効率すぎたのと長いテキスト認識のせいか相当に時間がかかってる。前者を改善して 10 分、後者は自動処理なので省くとすると 400 ページ超の本ならだいたい 30 ～ 40 分ぐらいといったところか。同程度の本を数冊とりこむとしてスキャンやテキスト認識の待ち時間を他の裁断にあてれば 2 ～ 3 時間で 4 冊ぐらいはゆけそうだ。

2011/9/11 : 追記・修正
- 取り込みが両面対応であることを忘れていたので数値などを修正
- 計測時間はそのまま
- 改めて読み直すと、この時の手順がいかに非効率だったかが分かる
- 改めて 570 ページぐらいの本を取り込んでみたのだが慣れにより間断なく給紙できて、このページ数でも 40 分ぐらい ( テキスト認識は含まず ) で終えられた

まとめ

思ったより時間がかかったが効率化の余地はある。スキャンやテキスト認識の待ち時間を考えると一冊より数冊同時に進めたほうが無駄は少ないだろう。

あとは負担に感じないような工夫が必要。一気に何十冊もスキャンすると疲れるので、ちょっとした空き時間に裁断だけしてみるとか作業単位を分散する方法を検討してみる。

スキャンされた PDF の品質は読書に十分だし、何よりそれらがテキスト化されたという事実がうれしい。眺めるだけだった文章を再利用できるようになったのだ。これまで積まれていただけの本も検索によって生き返るかもしれない。PC で音楽を聴くようになった時もそうだった。検索性の向上にともない埋もれていた名曲をいくつも再発見したものだ。

PDF なら Mac の標準プレビュー機能でマーカーや注釈も編集できる。物理的な本の場合、筆を入れるのはためらわれるがプレビューなら取り消しも可能だしこれからは積極的に利用してゆきたい。本を片付けるというより本の価値を高めるつもりで臨むのがよさそうだ。その方がずっと生産的でモチベーションも維持しやすい。