電子書籍の自炊に挑戦

前々から本の処分にウンザリしていたので、一念奮起し、電子書籍化へ踏みきることにした。

当初、何らかの電子書籍系サービスを利用することも考えたのだが、本が増える度に配送するのは、いかにも面倒である。数冊で送るのもためらわれるし、十冊ぐらい貯まるのを待つとしたら、その間、本が邪魔になる。

そんなわけで、いわゆる自炊に挑戦する。

道具をそろえる

自炊にあたって必要な道具は、裁断機とスキャナである。

まず裁断機は「カール事務器 ディスクカッター DC-210N」を購入。

カール事務器 ディスクカッター DC-210N

選択にあたり、以下のレビュー記事が参考になった。

ここで紹介されているとおり、小さく、軽く、扱いやすい。そのうえ、消耗品がとても安いので継続利用しても懐に優しい。

デザインもかっこよくて、気に入っている。

黒いプラスチック部分がつや消し、盤面は梨地っぽく、レールのサイドにはヘアライン加工を入れるなど、素材ごとに落ち着いた質感を目指している。ここのところ、光沢・鏡面加工された製品ばかり見ていたので、かなり新鮮に映った。

事務用品かくあるべし、といったストイックさを感じる。

それと、購入後に備品確認していて気付いたのだが、替刃とマットが本体左下のスペースに付属している。これはサービスとして気が利いているし、消耗品も本体へ集約できることをユーザーに知らせる効果もある。実によい仕組みだ。

スキャナは定番の ScanSnap S1500 を選んだ。

FUJITSU ScanSnap S1500 FI-S1500

かつては Win/Mac で製品が別れていたらしいのだが、現在はどちらもサポートしている。

また、Adobe Acrobat 9 Standard がバンドルされているのも嬉しい。独自の専用ソフトを付けるより、こういうスタンダードなものを選んでくれたほうが、使い方を調べやすくて助かる。

いま価格.com で調べたら、これを単体購入した場合、3 万ぐらいするようだ。どのような契約でバンドルしているのかは不明だが、ScanSnap 本体の価格が 3 万台なのを考えると、かなりお得感がある。

なお、購入時は ScanSnap が鉄板だと思っていたのだけど、以下の記事を見るに、Canon の DR-C125 というスキャナもなかなか良さそうだ。

裁断

道具がそろったので、自炊に着手してみる。

とはいえ、貴重な本をいきなり裁断するのは恐ろしいので、先に雑誌などで練習しておくとよいだろう。

練習台としては、中綴じ無線綴じの両方ほしい。ちょうど手元に週刊アスキー ( 中綴じ ) と Mac Fan ( 無線綴じ ) が数冊あったので、私はこれらで練習した。

慣れてきたので、いよいよ本番に挑戦。対象とする本は以下。

Open GL ES 2.0 プログラミングガイド

まず、本をばらす。

表紙カバーを外し、表紙側を押さえながら、内側を 20 ページぐらいの単位で、背表紙から引き剥がしてゆく。私は右利きなので、左手に表紙を持ち、右手でページの束を引くのがやりやすかった。

この方法だと、背表紙がボロボロになるため、この部分を生かしたいならカッターで切ったほうがよい。マンガとかでは、たまにカバーと内側が異なる内容だったりするので、その場合はカッターを選ぶと思う。

今回の本はカバーと内側の内容が一緒なので、気にせずに手でおこなう。つまり内側の表紙は捨てるつもりで作業している。

ひととおりバラすと、こんな感じになる。

本をバラした状態

本をバラした状態

ページ束のボロボロになっているところが、背表紙にのり付けされていた部分となる。ここをきれいに裁断してゆく。

切りたいページの束を裁断機にセットする。

のり付けされた本の場合、その部分が残るとページ間が貼り付きやすくなり、スキャン時にジャムる原因となる。また、分厚い本なら背表紙側 ( 「のど」と呼ぶ ) の余白を多めにとっているため、裁断する幅も大きめにしておくとよいだろう。

裁断位置が決まったら、他のページも揃えやすくするため、ガイドも付けておく。

ページ束をセットする

ページ束をセットする

上記写真で、ページ束の左にある黒い棒がそれ。マグネットで盤面に吸いついく。磁力はそれなりに強いので、ページ束を置いたぐらいではズレない。

裁断機をロックしたら、カッターをスライドさせて裁断する。厚さによっては数回のスライドが必要。力はほとんど要らない。

裁断

裁断

同じ要領で残りのページも裁断してゆく。

すべて終わったら、表示カバーも裁断。

今回は表紙をそのまま、裏表紙には背表紙をくっつけ、折り返し部分を独立させるようにしてみた。PDF にしたとき、はじめのページを表紙の一枚絵にしておくと、Explorer や Finder 上で PDF サムネイルを表示した時に見やすいので。

裁断完了

裁断完了

スキャン

ScanSnap 関連のソフトウェアをセットアップすると、ScanSnap Manager の設定というアプリがインストールされる。スキャンに関する設定は、これで行う。

ScanSnap Manager の設定

ScanSnap Manager の設定

私の場合、クイックメニューは使用せず、それぞれのタブで以下のように設定している。

オプションすべてデフォルトのまま。

タブ 設定項目 内容
アプリ選択 アプリケーションの選択 ファイル保存のみ。どんどん保存して、編集は後でまとめて実行する方が好み。
保存先 イメージの保存先 自分用の作業フォルダ。
ファイル名の設定 連番のみ。最終的に本のタイトルを付けるので、重複さえしなければ、それで十分。
読み取りモード 画質の選択 スーパーファイン。これ以下は粗すぎて、エクセレントはスキャンに時間がかかる。
カラーモード 自動。いまのところ、正常に判別できてる。
読み取り面の選択 両面読み取り。あと、継続読み取りを有効にする。これを無効にすると、スキャンが途切れるごとに PDF が作られて非常に面倒。有効にした場合、スキャンが終わったとき、継続と終了を選べるようになる。
オプション すべてデフォルトのまま。白紙ページを自動的に削除するようにしておくと、真っ白なページのスキャンがスキップされる。総ページ数が変わる可能性もあるので、いやならチェックを外す。
ファイル形式 ファイル形式の選択 PDF。「選択」とあるのに、他の形式がない。
テキスト認識の選択 「マーカー部分~」は未チェック。「検索可能な PDF にします」はチェック。
テキスト認識オプション 対象言語は日本語、対象ページは全ページを選択。
原稿 すべてデフォルトのまま。
ファイルサイズ すべてデフォルトのまま。

ひととおり設定したら、OK または適用ボタンを押して保存する。クイックメニューを有効にすると、自分で設定した内容が上書きされてしまうので注意する。

ScanSnap のセットアップが済んでいるなら、PC に接続してから蓋を展開することで、自動的に PC 側へ認識される。

用紙をセットする時は、はじまりのページが下側に、用紙の向きは上が下になる。セットしたら、ScanSnap 側で青く光るボタンを押して、スキャンを開始する。

スキャン中

スキャン中

スキャン中は PC 側に、進捗状況をあらわすダイアログが表示される。

スキャンの進捗

スキャンの進捗

スキャンが完了した時、継続読み取りの設定を有効にしていると PC 側にダイアログが表示され、継続か終了を選べる。

スキャン終了、または継続の確認

スキャン終了、または継続の確認

今回のように厚い本をスキャンしているなら、何度も用紙をセットすることになるため、継続読み取りは有効にしておいた方がいい。継続すると、次にセットした用紙が、これまでスキャンしたものの続きとして読み取られる。

あと、用紙がジャムった時なども、似たようなダイアログが表示され、継続の可否を選べる。きれいに裁断できていても、紙質によってはスキャンに失敗することもあるので、エラーになりやすいページは 1 枚単位で読ませるとよいだろう。

すべてのページをスキャンし、終了するとテキスト認識が実行される。

テキスト認識

テキスト認識

これは、取り込んだページ内から文字を検出し、透明なテキストとして PDF に埋め込む処理である。

透明、というところが重要で、見た目はスキャンしたページそのままながら、文字にあたる部分のうえに、透明なテキストが被さる。そのため、Adobe Reader や Mac の PDF プレビューなどで、その部分をテキストとして選択したり、検索対象にできる。

今回、電子書籍化に踏み切ったのも、この機能によるところが大きい。

PDF でテキスト選択したところ

PDF でテキスト選択したところ

ただ、テキスト認識も完ぺきではなく、たまに誤字・脱字が発生する。下地に絵が入っていると、その部分がまるごと抜けることもある ( テキスト認識の設定で、マーカ部分も対象に含めると改善される場合がある )。

とはいえ、現状でも精度としては十分に実用的だと思う。もしミスを見つけたら、その時点で直せばよいのだ。少なくとも、読むだけなら元の本と同じ体裁を保っているので、何も問題はない。

作業時間

今回の作業にかかった時間を記録しておく。

作業 時間 備考
本の分解 12 分 400 ページ超の本だが、引き剥がす単位を 20 枚ぐらいにしていたので、けっこう時間がかかった。倍ぐらいのサイズでもいけた気がする。大まかに裂いて、それを小分けに分割するほうが早いかも。
裁断 7 分 はじめにガイドを設置したら機械的な作業になるので、そんなに時間はかからない。裁断の単位は 20 ページぐらい。
スキャン 41 分 ScanSnap の性能的には 20枚/分とのこと。取り込みは両面対応なのでページ数に換算するなら 40 ページ。つまり 400 ページぐらいなら理想的には 10 分前後になる。4 倍ぐらい掛っているのは、40 枚ぐらいで用紙をセットし、途切れてから入れ直していたためだろう。連続的に給紙できてれば、相当に短縮できたはず。
テキスト認識 26 分 この処理は元々、かなり時間がかかるので、ページ数や文章量を考えたら、こんなものではなかろうか。
カバーのスキャン 6 分 カバー、裏表紙、折り返しはサイズが異なるので、ScanSnap のルーラーを変えながらスキャンした。その手間と、有効にしたままだったテキスト認識の時間を含めて、この時間。こんなものではなかろうか。
PDF 編集 7 分 本体の PDF に表紙の PDF からページ挿入して、ひとつの PDF に。タイトルや著者などのメタデータも入れておく。
1 時間 39 分

給紙が非効率すぎたのと、長いテキスト認識のせいか、相当、時間がかかってる。前者を改善して 10 分、後者は自動処理なので省くとすると、400 ページ超の本なら、だいたい 30 ~ 40 分ぐらいといったところか。

同程度の本を数冊とりこむとして、スキャンやテキスト認識の待ち時間を他の裁断にあてれば、2 ~ 3 時間で 4 冊ぐらいはゆけそうだ。

2011/9/11 : 追記・修正
取り込みが両面対応であることを忘れていたので、数値などを修正。計測時間はそのまま。
改めて読み直すと、この時の取り込みがいかに非効率だったかが分かる。
今日、570 ページぐらいの本を取り込んでみたのだが、慣れにより間断なく給紙できたので、このページ数でも 40 分ぐらい ( テキスト認識は含まず ) で終えられた。

まとめ

思ったより時間がかかったが、効率化の余地はある。スキャンやテキスト認識の待ち時間を考えると、一冊より数冊同時に進めたほうが、無駄は少ないだろう。

あとは負担に感じないような工夫が必要。

一気に何十冊もスキャンすると疲れるので、ちょっとした空き時間に裁断だけしてみるとか、作業単位を分散する方法を検討してみる。

とはいえ、スキャンされた PDF の品質は読書に十分だし、何よりそれらがテキスト化されたという事実がうれしい。眺めるだけだった文章を、再利用できるようになったのだ。これまで積まれていただけの本も、検索によって生き返るかもしれない。

PC で音楽を聴くようになった時もそうだった。検索性の向上にともない、埋もれていた名曲をいくつも再発見したものだ。

また、PDF なら Mac の標準プレビュー機能で、マーカーや注釈を編集できる。物理的な本の場合、筆を入れるのはためらわれるが、プレビューなら取り消しも可能だし、これからは積極的に利用してゆきたい。

本を片付けるというより、本の価値を高めるつもりで臨むのがよさそうだ。その方がずっと生産的なので、モチベーションも維持しやい気がする。

せいかつ, ガジェット, , , , ,

電子書籍の自炊に挑戦” への3件のコメント

  1. ピンバック: ときめく片づけの魔法 実践その6 まさかの自炊 « kwLog

  2. ピンバック: ときめく片づけの魔法 実践その6 まさかの電子書籍の自炊 « kwLog

  3. ピンバック: DigitalToken » 秋葉原の自炊の森に行ってきた

コメントを残す

メールアドレスが公開されることはありません。

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>