てことでバージョンアップしてみました。
この記事は最初の投稿日から19年経過しています。内容が古い可能性があります。
150MB以上のファイルをさくっとダウンロードして買うことができるようになったとはいい時代になったものです。
さっそくテキスト認識をやってみました。
驚きました。予想以上にきちんと認識します。
やはり、背景が白で黒字のものが認識率が高いですね。白い紙に文字を印刷しただけのものだったりすると、かなり認識率があがります。
さすがに背景に模様が入るとつらいようですが、これはまぁいたしかたないかと。
検索するためのインデックス付けであれば、これだけ認識してくれれば使えます。
ScanSnap Organizer で、既にファイルになっている PDF ファイルのテキスト認識ができるので、過去にスキャンした分の PDF ファイルのテキスト認識をせねば。