しかし,実はこの話はGoogle Cloud Vision APIのOCR認識精度がもの凄く高くて便利だなーというところから始まっています。
せっかくなのでそのすごいAPIを呼び出すものも紹介します。ただし,今回はAPI Key(利用者アカウントみたいなもの)を自力で取れる方が対象です。我こそはという方は続きをどうぞ。
Google Cloud Vision APIとは
今回はテキスト検出(Text Detection)を利用して文字データを取り出します。
また,使うためにはAPI Keyという利用者アカウントのようなものを発行し,クレジットカードやデビットカードを登録する必要があります。私はVプリカというプリペイドカードで登録しようとして弾かれてしまいました。信用情報も重要ということですね。
まずはAPI Keyを取得して有効化する必要がありますが,この記事で細かい手順は解説しません。以下のサイトがわかりやすかったので,参考にしながら手続きをしてください。
Cloud Vision APIの使い方まとめ (サンプルコード付き)
shotOCR_Googleのほうを開いてインストールしてください。インストールができたら「Automator で開く」を選びます。
shotOCR_Googleは,中でdo_OCR.scptを呼び出す仕組みです(※前回の記事のようにワークフローで直接AppleScriptを実行したらエラーになりました)。なのでdo_OCR.scptファイルのパスを入力します。API Keyもここで書いて指定します。下のコメントに従って入力してください。
1 2 3 4 5 6 7 8 |
-- (例)set script_path to "/Users/sttk3/Desktop/do_OCR.scpt" as text set script_path to "文字を消して,ここにscptファイルをドロップ" as text -- 取得したAPI Keyを下の""の間に入れる。(例)set api_key to "my-api-key" as text set api_key to "" as text set script_file to (script_path as POSIX file) as alias run script script_file with parameters api_key |

(* スクリーンショットを撮り,Google Cloud Vision APIでOCRをかけるAppleScript version 1.0.3 ここにAPI Keyを入力してもよい。 そのままにしておいても,実行時ダイアログで入力できる。 scpt・appなどファイルとして保存している場合なら入力した内容は記憶される。 記憶されたAPI Keyを変えたい場合,このscptファイルを上書き保存すれば記憶は消える。 *) property api_key : "" as text on run argv set cancel_btn_name to "キャンセル" as text -- インターネット接続の簡易確認 if (not (my is_internet_active())) then display dialog "インターネットに接続してください。" buttons {cancel_btn_name} default button 1 end if -- 引数つきで実行した場合はそれをapi_keyとみなす(引数がないときargvにはscriptが入る) if (class of argv is not script) then set api_key to argv as text end if -- api_keyがカラの場合ダイアログにてセットする if (api_key is "") then set do_repeat to true else set do_repeat to false end if repeat while (do_repeat) set api_key to text returned of (display dialog "Google Cloud Vision APIのAPIキーを入力してください。" default answer "") if (api_key is not "") then set do_repeat to false end repeat -- temporary itemsフォルダにスクリーンショットを保存する。通信容量節約のためグレースケール化も実行 set temp_folder to POSIX path of (path to temporary items) set capture_path to temp_folder & "sttk3_ocr.png" set quoted_path to quoted form of capture_path set capture_com to "screencapture -srx -t png " & quoted_path & " ; sips -m '/System/Library/ColorSync/Profiles/Generic Gray Profile.icc' " & quoted_path try do shell script capture_com on error return end try set captured_file to (capture_path as POSIX file) as alias -- 画像の容量が4MBを越える場合止める。4MBはAPIの制限 tell application "System Events" to set file_size to size of captured_file if (file_size > 4000000) then my delete_file(captured_file) display dialog "画像の容量が4MBを越えています。軽くしてください。" buttons {cancel_btn_name} default button 1 end if -- OCRにかけて文字を取得し,スクリーンショットは捨てる try set str to my recognize_text_google_api(capture_path, api_key) my delete_file(captured_file) on error error_message number error_number my delete_file(captured_file) display dialog "Error: " & error_number & ". " & error_message buttons {cancel_btn_name} default button 1 end try -- クリップボードに収める set the clipboard to str -- 報告する display notification "結果をクリップボードに入れました。" with title "shotOCR_Google" return str end run (* インターネットに繋げるか簡易チェック。繋げればtrue。 多分ローカルネットワークだけの接続でもtrueを返すので,必ず外部に接続しているかどうかはわからない。 pingは続けて実行すると弾かれるので面倒だった *) on is_internet_active() set res to true set addr to IPv4 address of (system info) --は自身を表すIPアドレス if (addr is "") then set res to false end if return res end is_internet_active -- RubyでAPIにOCRのリクエストを投げ,認識したテキストを返す。テキストがないときはエラーを返す on recognize_text_google_api(target_path, api_key) set res to "" set post_com to "ruby -Ku -r 'base64' -r 'json' -r 'net/https' -e \"API_URL = 'https://vision.googleapis.com/v1/images:annotate?key=' << " & quoted form of api_key & " # リクエスト用JSONパラメータを生成 body = { requests: [{ image: { content: Base64.strict_encode64(File.new(" & quoted form of target_path & ", 'rb').read) }, features: [ { type: 'DOCUMENT_TEXT_DETECTION', maxResults: 1 } ], imageContext: { languageHints: ['ja'] } }] }.to_json # Google Cloud Vision APIにリクエストを投げる begin uri = URI.parse(API_URL) https = Net::HTTP.new(uri.host, uri.port) https.use_ssl = true https.open_timeout = 5 https.read_timeout = 20 request = Net::HTTP::Post.new(uri.request_uri) request['Content-Type'] = 'application/json' response = https.request(request, body) rescue => e str = '接続に失敗しました。' raise str end # 結果をHashにする data = JSON.load(response.body) # エラー:おもにAPI Key間違いを想定 if data['responses'].nil? then str = data['error']['message'] raise str end # エラー:文字がない画像を想定 if data['responses'][0].empty? then str = '認識可能な文字がありませんでした。' raise str end # 認識したテキストを出力 str = data['responses'][0]['fullTextAnnotation']['text'].rstrip puts str \"" with timeout of 30 seconds set res to do shell script post_com end timeout return res end recognize_text_google_api -- ファイルをゴミ箱に入れる。即時消したいときはrmでも使うといい on delete_file(target_file) --do shell script ("rm " & quoted form of (POSIX path of target_file)) tell application "Finder" to delete target_file end delete_file |