StatModeling Memorandum

StatModeling Memorandum

StanとRとPythonでベイズ統計モデリングします. たまに書評.

ブック40とScanSnap(S1500)で自炊

購入したのはScanSnap S1500 FI-S1500-Aとブック40という裁断機です。
もうネット上に色々な方がレビューしていますが、なおあまり見ない情報というのを参考までにまとめました。以下は処理の順番で書いています。


裁断編

購入動機


ブック40を選んだ動機は価格と性能です。すぐ慣れて1冊40秒の領域になります。替え歯も安い。はじめにセットで買うとさらに割安です。歯の寿命は公式では「10万枚でもまだ大丈夫」とあります。600冊ぐらいは行けると思います。また、ガイドスケールを測って設定するのは面倒そうですが、慣れると4mmぐらい出してハンドル回すのは目測だけでできるようになります。油が気になるという情報もありますが、キッチンペーパーで2枚ぐらい拭けば僕は気になりませんでした。

サポートも手厚いです。250冊ぐらい裁断した後に、ガイドスケールの黒い取手のネジとそれを受けるネジ穴が削れたためか、ネジが締まらなくなりました。しかし(携帯から)フリーダイヤルで相談したところ、無料でその二つの部品だけ送ってもらうことになりました。とても少人数の会社とは思えません。修理で平然と本体より高い金額を要求する大企業も見習って欲しいものです。

実家用にも追加で一台購入しました。しかしながら、こちらは上部のガイドに本を密着させると、微妙にネジの傷が本の天についてしまいます。なのでちょっとだけ上部のガイドからは隙間をあけて対応しています。機器の個体差というものがそこそこあるようですね。

厚い本対策

厚さが4cmぐらいになると裁断がつらい時があります。この時は以下の方法でやっています。

  • まず2分割(3分割)でページをmax広げて背をへし折ります。そうすると各々は一発でいける幅になりますので、右側から入れて裁断します。
  • それがやりにくい本はあらかじめ手(+はさみ)で2分割(3分割)し、各々裁断します。

基本的にレバーに力を入れるとひっくり返りそうになったり、壊れたりするようで危険です。たまには机に足をのせて力入れてやるときもありますが。


スキャン編

まずはスキャン時の設定について。ScanSnapの設定やその後のpdfの処理は本の種類に依存します。下の方にまとめの表をのせました。僕は小説や実用書をkindle3で読むことが多いので、kindle上の見た目も重視しています。

オプション


オプションは結論から言いますと、

  • なるべく「白黒」
  • 「スーパーファイン」
  • 「白紙ページを自動的に削除します」ON、漫画だけOFF
  • 「文字をくっきりします」OCRかけるならOFF、かけないならON
  • 残りはOFF

理由:

  • 「白黒」:サイズがダントツで小さいです。2カラーや3カラーの英単語の本なども基本「白黒」です。グレースケールやカラーが重要な本はあきらめます。あと漫画の表紙を残したい場合は、表紙だけまとめてカラーで読み込みます。例として僕が持っている本では以下の通りです。
    • グレースケール:漫画全般、「ggplot2入門」「山の気象学」(雲の写真が…)「SUPERテーピングテクニック」
    • カラー:「はじめてのPixia」など
  • 「スーパーファイン」:画質と速度を兼ね備えている唯一の選択肢です。
  • 「白紙ページを自動的に削除します」ON:ページ数のチェックのためここをOFFにする方もいるようですが、ちゃんとスキャン枚数も表示されるので、それを2倍すれば白紙を含めたページ数になるので不要です。それよりも白紙があると白黒でスキャンしたときに相対的に2値化されるようでまだらな醜いページになります。これは次の余白を切り取るプロセスで邪魔になりますので、ぜひ自動で取り除いてもらった方がよいです。漫画の時は見開きでページをあわせておくことが閲覧するときに重要ですのでOFFにしておきます。そのため漫画ではスキャン後にAcrobat Xで先頭に空白ページを挿入したり、表紙を後で挿入して枚数をあわすこともよくあります。
  • 「文字をくっきりします」:kindleで表示させた場合にいくつかの本(特に古い本)ではONの方がわずかに読みやすく感じました。しかしAcrobatのテキスト認識の効率はわずかにOFFの方が上回ると感じました。このオプションは個人の感性が重要ですので、個人が試してみるべきでしょう。そのうちにONにしておいても文字認識の正答率があがるのでは大丈夫では?という意見もありますが、いつか文字認識の技術が発達したとしても研究者はくっきりする前の文字を使って取り組んでますので、OCRはこれからもOFFの方が有利と思います。

一度にセットする枚数

文庫のような紙が薄い本なら1度に80~90枚、紙が厚い本は1度に40~50枚載せています。結局合計の厚さが制限となっていて、約7.2mmの厚さを一度に載せることができます。この枚数をなるべく大きくすることはセットしてクリックするという無駄な作業を減らして高速化するためにも重要です。試してみてください。

セットの仕方

一枚一枚取り込みやすいように、裁断した本をなじませてスライドさせます。先生がプリント配るときにやっていたやつです。下の写真の通りです。その後セットして軽くそろえます。これをやらないと少し重なり検出の割合が増えますし、1ページ目をスルーして2ページ目から読み込むこともあるためです。2ページ目から読み込んでしまった場合の対処法は後述します。
  

スキャナのエラー対策

重なり検知の時はプレビューのページ(表面)を「残さない」を選んでその紙からやり直します。重なったときは裏面がNGなことが多いからです。紙詰まりの時はプレビューのページ(裏面)はうまくいっていますので、その次の紙からやり直します。

スキャナのメンテナンス


だいたい3000枚ごとに紙ごみを除いています。紙ごみの量が結構あるので、はじめにガラス面以外(プラスチック面やゴムのローラーなど)を固く絞ったメガネ拭きなどで拭き、最後に別のメガネ拭き+クリーナーでガラス面を拭きます。前半は濡らしたキムワイプも有力のようです。後半は下記商品を使っています。綿棒、ウェットティッシュ、クイックルワイパーでは微妙に繊維がひっかかって残って気になります。またパッドユニットは50000枚で交換時期とのこと。およそ300冊になります。実際は500冊ぐらいはいくと思いますが。早めに買っておいてよいかと思います。

S1500は、カバーを開いた状態で「Scan」ボタンを3秒間押すと清掃状態になる。この状態でScanボタンを押すとフィードローラーと排出ローラーが6分の1回転する。ペーパーを押し当てて回転させれば、手軽にクリーニングできるので活用しよう、とのこと。パッドユニットはおよそ70000枚ぐらいが限度ですね。ピックローラーは20万枚ですがまだまだいけます。

スキャンに適さない文庫

ページ数の多い新潮文庫と古めの岩波新書では紙がぺらぺらだったり、2枚ずつぴったりくっついているようなことが起こり、重なり検出が多発しました。1冊あたり5~10回ぐらいでしょうか。何回やっても重なるページがあるので、早々にあきらめてその部分だけは1枚ずつやるのがよいかと思います。

その他のトラブル対策

  • 1ページ抜けた…:後からその1ページだけ読み込んでpdfにして、メインのpdfをAcrobat X Standardで開いて左のサムネイル表示のところで[右クリック][ページを挿入][ファイル]。
  • 100ページぐらい順番が逆順に…:Acrobat X Standardで開いて左のサムネイル表示のところでその100ページだけ選択して、[右クリック][ページを抽出][ページを個別のファイルとして抽出]で1ファイルごとにします。そのファイル名をプログラミング言語で逆順に番号付けしてから、Acrobat X Standardのサムネイルのところで100ページ選択して[右クリック][ページを置換]。


余白削除編

PDF scissorsを使います。このプロセスはkindleスマホで読む場合は必須ですが、PCで読む場合も余白ない方がディスプレイを有効利用できると感じました。僕は表紙の文字が切れようと中身の余白を切る派、ページ番号は残す派です。私の場合100冊に1冊ぐらいの割合で人的ミスでスキャナに紙束の置く向きを間違えて、ページが逆順でスキャンしたのに気付かないままの場合があります。そういう事態を後から修正しやすくするためです。


OCR(テキスト認識)編

ScanSnapについてきたAcrobat X Standardを使用します。 - テキスト認識:Standardでもフォルダ内全ファイルのテキスト認識がメニューバーの[ツール][テキスト認識]から可能です。たまにエラーが出ますが気にしない。これこそそのうち技術が解決してくれるはず。


最適化編

ScanSnapについてきたAcrobat X Standardを使用します。余白削除、テキスト認識のあとにやるのが重要です。 - 最適化(ファイルサイズ縮小):「白黒」の時だけ効果があります。1ファイルずつしかできませんが、メニューバーの[ツール][文書処理][スキャンされたPDFを最適化]から可能です。僕はAutoItのスクリプトを書いて自動でフォルダ内全ファイルに対して最適化しています。このスクリプトに関しては別の記事で書きます。 - [サイズが縮小された PDF]:メニューバーの[ファイル][名前を付けて保存][サイズが縮小された PDF]のところにある選択肢です。Acrobatの互換性を最新バージョンのみに変更するとやたらとサイズが縮小されて嬉しいのですが、ここにあるように解像度に制限があり勝手に下げられてしまいます。よって使えません。 - Acrobat X Proのメリットは、最適化の際にAcrobatの互換性を最新バージョンのみを指定できるです。でも高いですよね…。3千円なら買いますが。


まとめ

まとめますと、以下のような流れになります。

処理の流れ 1冊あたりの所要時間 グレースケール or カラーの実用書/プログラミングの本 実用書/プログラミングの本 小説 漫画
スキャン 5分 グレースケール or カラー

スーパーファイン

白紙ページを自動的に削除しますON
白黒

スーパーファイン

白紙ページを自動的に削除しますON
白黒

スーパーファイン

白紙ページを自動的に削除しますON

文字をくっきりしますON
グレー、表紙だけカラー

スーパーファイン

白紙ページを自動的に削除しますOFF
余白切り取り 2分 PDF scissors offline
テキスト認識 10分 Acrobat X Standard Acrobat X Standard しない しない
最適化 5分 しない Acrobat X Standard Acrobat X Standard しない
バックアップするファイル - 余白を切った直後のファイル

テキスト認識後のファイル
余白を切った直後のファイル

最適化後のファイル
最適化後のファイル 余白を切った直後のファイル