前々から本の処分にウンザリしていたので、一念奮起し、電子書籍化へ踏みきることにした。
当初、何らかの電子書籍系サービスを利用することも考えたのだが、本が増える度に配送するのは、いかにも面倒である。数冊で送るのもためらわれるし、十冊ぐらい貯まるのを待つとしたら、その間、本が邪魔になる。
そんなわけで、いわゆる自炊に挑戦する。
道具をそろえる
自炊にあたって必要な道具は、裁断機とスキャナである。
まず裁断機は「カール事務器 ディスクカッター DC-210N」を購入。
カール事務器 ディスクカッター DC-210N選択にあたり、以下のレビュー記事が参考になった。
ここで紹介されているとおり、小さく、軽く、扱いやすい。そのうえ、消耗品がとても安いので継続利用しても懐に優しい。
デザインもかっこよくて、気に入っている。
黒いプラスチック部分がつや消し、盤面は梨地っぽく、レールのサイドにはヘアライン加工を入れるなど、素材ごとに落ち着いた質感を目指している。ここのところ、光沢・鏡面加工された製品ばかり見ていたので、かなり新鮮に映った。
事務用品かくあるべし、といったストイックさを感じる。
それと、購入後に備品確認していて気付いたのだが、替刃とマットが本体左下のスペースに付属している。これはサービスとして気が利いているし、消耗品も本体へ集約できることをユーザーに知らせる効果もある。実によい仕組みだ。
スキャナは定番の ScanSnap S1500 を選んだ。
FUJITSU ScanSnap S1500 FI-S1500かつては Win/Mac で製品が別れていたらしいのだが、現在はどちらもサポートしている。
また、Adobe Acrobat 9 Standard がバンドルされているのも嬉しい。独自の専用ソフトを付けるより、こういうスタンダードなものを選んでくれたほうが、使い方を調べやすくて助かる。
いま価格.com で調べたら、これを単体購入した場合、3 万ぐらいするようだ。どのような契約でバンドルしているのかは不明だが、ScanSnap 本体の価格が 3 万台なのを考えると、かなりお得感がある。
なお、購入時は ScanSnap が鉄板だと思っていたのだけど、以下の記事を見るに、Canon の DR-C125 というスキャナもなかなか良さそうだ。
裁断
道具がそろったので、自炊に着手してみる。
とはいえ、貴重な本をいきなり裁断するのは恐ろしいので、先に雑誌などで練習しておくとよいだろう。
練習台としては、中綴じと無線綴じの両方ほしい。ちょうど手元に週刊アスキー ( 中綴じ ) と Mac Fan ( 無線綴じ ) が数冊あったので、私はこれらで練習した。
慣れてきたので、いよいよ本番に挑戦。対象とする本は以下。
Open GL ES 2.0 プログラミングガイドまず、本をばらす。
表紙カバーを外し、表紙側を押さえながら、内側を 20 ページぐらいの単位で、背表紙から引き剥がしてゆく。私は右利きなので、左手に表紙を持ち、右手でページの束を引くのがやりやすかった。
この方法だと、背表紙がボロボロになるため、この部分を生かしたいならカッターで切ったほうがよい。マンガとかでは、たまにカバーと内側が異なる内容だったりするので、その場合はカッターを選ぶと思う。
今回の本はカバーと内側の内容が一緒なので、気にせずに手でおこなう。つまり内側の表紙は捨てるつもりで作業している。
ひととおりバラすと、こんな感じになる。
ページ束のボロボロになっているところが、背表紙にのり付けされていた部分となる。ここをきれいに裁断してゆく。
切りたいページの束を裁断機にセットする。
のり付けされた本の場合、その部分が残るとページ間が貼り付きやすくなり、スキャン時にジャムる原因となる。また、分厚い本なら背表紙側 ( 「のど」と呼ぶ ) の余白を多めにとっているため、裁断する幅も大きめにしておくとよいだろう。
裁断位置が決まったら、他のページも揃えやすくするため、ガイドも付けておく。
上記写真で、ページ束の左にある黒い棒がそれ。マグネットで盤面に吸いついく。磁力はそれなりに強いので、ページ束を置いたぐらいではズレない。
裁断機をロックしたら、カッターをスライドさせて裁断する。厚さによっては数回のスライドが必要。力はほとんど要らない。
同じ要領で残りのページも裁断してゆく。
すべて終わったら、表示カバーも裁断。
今回は表紙をそのまま、裏表紙には背表紙をくっつけ、折り返し部分を独立させるようにしてみた。PDF にしたとき、はじめのページを表紙の一枚絵にしておくと、Explorer や Finder 上で PDF サムネイルを表示した時に見やすいので。
スキャン
ScanSnap 関連のソフトウェアをセットアップすると、ScanSnap Manager の設定というアプリがインストールされる。スキャンに関する設定は、これで行う。
私の場合、クイックメニューは使用せず、それぞれのタブで以下のように設定している。
オプションすべてデフォルトのまま。
| タブ | 設定項目 | 内容 |
|---|---|---|
| アプリ選択 | アプリケーションの選択 | ファイル保存のみ。どんどん保存して、編集は後でまとめて実行する方が好み。 |
| 保存先 | イメージの保存先 | 自分用の作業フォルダ。 |
| ファイル名の設定 | 連番のみ。最終的に本のタイトルを付けるので、重複さえしなければ、それで十分。 | |
| 読み取りモード | 画質の選択 | スーパーファイン。これ以下は粗すぎて、エクセレントはスキャンに時間がかかる。 |
| カラーモード | 自動。いまのところ、正常に判別できてる。 | |
| 読み取り面の選択 | 両面読み取り。あと、継続読み取りを有効にする。これを無効にすると、スキャンが途切れるごとに PDF が作られて非常に面倒。有効にした場合、スキャンが終わったとき、継続と終了を選べるようになる。 | |
| オプション | すべてデフォルトのまま。白紙ページを自動的に削除するようにしておくと、真っ白なページのスキャンがスキップされる。総ページ数が変わる可能性もあるので、いやならチェックを外す。 | |
| ファイル形式 | ファイル形式の選択 | PDF。「選択」とあるのに、他の形式がない。 |
| テキスト認識の選択 | 「マーカー部分~」は未チェック。「検索可能な PDF にします」はチェック。 | |
| テキスト認識オプション | 対象言語は日本語、対象ページは全ページを選択。 | |
| 原稿 | すべてデフォルトのまま。 | |
| ファイルサイズ | すべてデフォルトのまま。 | |
ひととおり設定したら、OK または適用ボタンを押して保存する。クイックメニューを有効にすると、自分で設定した内容が上書きされてしまうので注意する。
ScanSnap のセットアップが済んでいるなら、PC に接続してから蓋を展開することで、自動的に PC 側へ認識される。
用紙をセットする時は、はじまりのページが下側に、用紙の向きは上が下になる。セットしたら、ScanSnap 側で青く光るボタンを押して、スキャンを開始する。
スキャン中は PC 側に、進捗状況をあらわすダイアログが表示される。
スキャンが完了した時、継続読み取りの設定を有効にしていると PC 側にダイアログが表示され、継続か終了を選べる。
今回のように厚い本をスキャンしているなら、何度も用紙をセットすることになるため、継続読み取りは有効にしておいた方がいい。継続すると、次にセットした用紙が、これまでスキャンしたものの続きとして読み取られる。
あと、用紙がジャムった時なども、似たようなダイアログが表示され、継続の可否を選べる。きれいに裁断できていても、紙質によってはスキャンに失敗することもあるので、エラーになりやすいページは 1 枚単位で読ませるとよいだろう。
すべてのページをスキャンし、終了するとテキスト認識が実行される。
これは、取り込んだページ内から文字を検出し、透明なテキストとして PDF に埋め込む処理である。
透明、というところが重要で、見た目はスキャンしたページそのままながら、文字にあたる部分のうえに、透明なテキストが被さる。そのため、Adobe Reader や Mac の PDF プレビューなどで、その部分をテキストとして選択したり、検索対象にできる。
今回、電子書籍化に踏み切ったのも、この機能によるところが大きい。
ただ、テキスト認識も完ぺきではなく、たまに誤字・脱字が発生する。下地に絵が入っていると、その部分がまるごと抜けることもある ( テキスト認識の設定で、マーカ部分も対象に含めると改善される場合がある )。
とはいえ、現状でも精度としては十分に実用的だと思う。もしミスを見つけたら、その時点で直せばよいのだ。少なくとも、読むだけなら元の本と同じ体裁を保っているので、何も問題はない。
作業時間
今回の作業にかかった時間を記録しておく。
| 作業 | 時間 | 備考 |
|---|---|---|
| 本の分解 | 12 分 | 400 ページ超の本だが、引き剥がす単位を 20 枚ぐらいにしていたので、けっこう時間がかかった。倍ぐらいのサイズでもいけた気がする。大まかに裂いて、それを小分けに分割するほうが早いかも。 |
| 裁断 | 7 分 | はじめにガイドを設置したら機械的な作業になるので、そんなに時間はかからない。裁断の単位は 20 ページぐらい。 |
| スキャン | 41 分 | ScanSnap の性能的には 20枚/分とのこと。取り込みは両面対応なのでページ数に換算するなら 40 ページ。つまり 400 ページぐらいなら理想的には 10 分前後になる。4 倍ぐらい掛っているのは、40 枚ぐらいで用紙をセットし、途切れてから入れ直していたためだろう。連続的に給紙できてれば、相当に短縮できたはず。 |
| テキスト認識 | 26 分 | この処理は元々、かなり時間がかかるので、ページ数や文章量を考えたら、こんなものではなかろうか。 |
| カバーのスキャン | 6 分 | カバー、裏表紙、折り返しはサイズが異なるので、ScanSnap のルーラーを変えながらスキャンした。その手間と、有効にしたままだったテキスト認識の時間を含めて、この時間。こんなものではなかろうか。 |
| PDF 編集 | 7 分 | 本体の PDF に表紙の PDF からページ挿入して、ひとつの PDF に。タイトルや著者などのメタデータも入れておく。 |
| 計 | 1 時間 39 分 | |
給紙が非効率すぎたのと、長いテキスト認識のせいか、相当、時間がかかってる。前者を改善して 10 分、後者は自動処理なので省くとすると、400 ページ超の本なら、だいたい 30 ~ 40 分ぐらいといったところか。
同程度の本を数冊とりこむとして、スキャンやテキスト認識の待ち時間を他の裁断にあてれば、2 ~ 3 時間で 4 冊ぐらいはゆけそうだ。
取り込みが両面対応であることを忘れていたので、数値などを修正。計測時間はそのまま。
改めて読み直すと、この時の取り込みがいかに非効率だったかが分かる。
今日、570 ページぐらいの本を取り込んでみたのだが、慣れにより間断なく給紙できたので、このページ数でも 40 分ぐらい ( テキスト認識は含まず ) で終えられた。
まとめ
思ったより時間がかかったが、効率化の余地はある。スキャンやテキスト認識の待ち時間を考えると、一冊より数冊同時に進めたほうが、無駄は少ないだろう。
あとは負担に感じないような工夫が必要。
一気に何十冊もスキャンすると疲れるので、ちょっとした空き時間に裁断だけしてみるとか、作業単位を分散する方法を検討してみる。
とはいえ、スキャンされた PDF の品質は読書に十分だし、何よりそれらがテキスト化されたという事実がうれしい。眺めるだけだった文章を、再利用できるようになったのだ。これまで積まれていただけの本も、検索によって生き返るかもしれない。
PC で音楽を聴くようになった時もそうだった。検索性の向上にともない、埋もれていた名曲をいくつも再発見したものだ。
また、PDF なら Mac の標準プレビュー機能で、マーカーや注釈を編集できる。物理的な本の場合、筆を入れるのはためらわれるが、プレビューなら取り消しも可能だし、これからは積極的に利用してゆきたい。
本を片付けるというより、本の価値を高めるつもりで臨むのがよさそうだ。その方がずっと生産的なので、モチベーションも維持しやい気がする。










ピンバック: ときめく片づけの魔法 実践その6 まさかの自炊 « kwLog
ピンバック: ときめく片づけの魔法 実践その6 まさかの電子書籍の自炊 « kwLog
ピンバック: DigitalToken » 秋葉原の自炊の森に行ってきた