【解決】画面にOCRをかけて文字を抽出したい!(1)

  • このエントリーをはてなブックマークに追加
  • Pocket
  • LINEで送る
スクリーンショットOCR アイキャッチ図版

図版や組版の仕事をしていると,画像化された文字を見ながらテキストを打ち込んだり,アウトライン化された文字を再入力することがよくあります。

例えばこんな状況には覚えがあるのではないでしょうか。

  • 明らかにデジタルデータとして文字を打ち込んであるのに,印刷した紙のスキャンPDFを渡される
  • 図版原稿に出典(他社本や統計資料,入試問題など)のスキャン画像が貼ってあり,文言は変えずに使う
  • 支給されたIllustratorデータの文章に修正指示が入ったが,テキストはアウトライン化されている

よくあることですが「どうして1度テキストデータになったものを繰り返し入力しなければならないのか」と思ってしまいますよね。

そこで今回は,スクリーンショットにOCRにかけて文字を抽出し,クリップボードに収めるAutomatorサービスを紹介します。

それってどんなもの?

以下のような流れで文字を復元するAppleScriptです。

  1. サービス実行でスクリーンショット(command+shift+4に相当)を起動,ドラッグで対象の範囲を指定する
  2. 撮った画像をOCRで解析,テキストデータを生成する
  3. テキストデータをクリップボードにコピーする

肝心のOCR機能は,PDFpenProという初期設定では入っていないアプリを使います。なので別途インストールする必要があります。

PDFpenProって?

PDFpenProはTextExpanderで有名なSmile社が開発している,PDFを編集するためのアプリです。スキャンした画像にOCRをかける機能がついていて,それをAppleScriptから呼び出せます。

以前は英語など限られた言語のみ認識可能でしたが,Mac OS 10.11以降で使えるバージョン9から日本語にも対応しました。

インストールが簡単で,OCRを使うのにインターネット接続がいらず,おまけに機能制限つきの試用版なら無料で使えます。制限というのも,作ったPDFに透かし(ウォーターマーク)が入るのみです。気軽に試せますね。

使う気になってきましたか?ではPDFpenProのサイトからアプリをダウンロード・インストールしてください。

サービスのインストール

Automatorサービスのダウンロードはこちらです。

ダウンロードしたファイルを開くと,インストールするか訊かれます。インストールを選んでください。基本的にはそれだけで使えるようになります。

Automatorサービス インストール画像

メニューバーの [アプリケーション]:サービス:shotOCR_PDFpenPro を選べば実行です。[アプリケーション]の部分は,Finderなど前面に出ているアプリの名前が入ります。

使えるようにならない,ショートカットを設定したい,など詳しい情報がほしい場合は以前の記事【解決】クリックポストの半角全角変換を簡単にしたい!を参照してください。似たようなことをしています。

使いかた

サービスを実行するとスクリーンショットが起動するので,撮る領域を指定してください。数秒待つと文字認識が終わり,クリップボードに文字が入ります。非常にシンプル。

うまく復元できたでしょうか。実は私はいまだにOS 10.10を使っていて,日本語認識を試せていません。英数字だと十分精度が高いのですが……試してみた方はぜひ結果を教えてください。

2017.09.07 追記
日本語OCRの結果をいただきました。ありがとうございます。個人的には,数秒で生成できるならこの品質でも十分役に立つ印象でした。

これでまた少し仕事が速くなりました。今日もさっさと仕事を切り上げて好きなことをしましょう!

シリーズ記事:

コードはこちら

このサイトで配布しているスクリプトやその他のファイルを,無断で転載・配布・販売することを禁じます。
それらの使用により生じたあらゆる損害について,私どもは責任を負いません。
スクリプトやファイルのダウンロードを行った時点で,上記の規定に同意したとみなします。

  • このエントリーをはてなブックマークに追加
  • Pocket
  • LINEで送る

SNSでもご購読できます。

広告

コメントを残す