Google Keep使い方ガイド【メモ操作編 – 画像テキストを抽出】~パッケージの写真も読み込める光学文字認識エンジン~

テキスト抽出機能を使うと画像からテキストを抽出できる。例えば本の撮影しテキスト抽出すると本の内容をテキストの文書として取り扱うことができる。テキストにすれば編集や引用なども可能となり利用シーンが広がる。このような機能は光学文字認識(OCR)と呼ばれ専用のアプリもある。Google Keepを使えば手軽にOCR機能を使えるので別アプリよりもおすすめ。ただし重要な数値などセンシティブな内容を取り扱う場合は注意していただきたい。

注意事項

画面や仕様などは2020年11月に確認したもので最新の情報と異なる可能性があります。ご了承ください。

留意事項

スマホ版のGoogle Keepでは機能の呼び出し方法がPC版と一部異なります。本記事ではPC版を使用しているため、スマホ版を確認したい方はスマホ版の画面構成を参考にしてください。スマホ版も基本的に同じ機能を有しているので呼び出し方法さえわかれば本記事の説明でも問題なく使えると思います。

Google Keep使い方ガイド【基本編 – スマホ版画面構成】~いつでもどこでもメモできるスマホ版~

Google公式のヘルプはこちら。

参考 ヘルプGoogle Keep

GoogleKeepの概要と基本的な使い方についてはこちら。

Google Keep使い方ガイド【基本編 – 概要】~スマホとパソコンでメモを共有できる便利でシンプルなのメモ帳アプリ~

画面構成についてはこちら。

Google Keep使い方ガイド【基本編 – PC版画面構成】~広い作業エリアでメモを整理できるパソコン版~ Google Keep使い方ガイド【基本編 – スマホ版画面構成】~いつでもどこでもメモできるスマホ版~

画像テキストを抽出

メモに含まれる画像や手書きメモからテキストを抽出できる。

画像テキスト抽出とは

画像テキスト抽出とは光学文字認識(OCR)のことである。例えば本のページを撮影し画像データをOCR処理するとテキスデータとして書籍内の文字が抽出される。認識率の高いエンジン(画像をテキスト解析する処理プログラム)では歪んだ文字や手書き文字なども認識可能。筆者は以前OCR開発にかかわっていたことがあるので熱く語りたいが身バレするのでやめておく。

光学文字認識(こうがくもじにんしき、Optical character recognition)は、活字の文書の画像(通常イメージスキャナーで取り込まれる)を文字コードの列に変換するソフトウェアである。一般にOCRと略記される。OCRは、人工知能やマシンビジョンの研究分野として始まった。研究は続けられているが、OCRの中心はその実装と応用に移っている。紙に印刷された文書をデジタイズし、よりコンパクトな形で記録するのに必要とされる。さらに、文字コードに変換することで機械翻訳や音声合成の入力にも使えるようになり、テキストマイニングも可能となる。研究分野としては、パターン認識、人工知能、コンピュータビジョンが対応する。

引用:光学文字認識 – Wikipedia

テキストの抽出

テキスト抽出するメモのケバブメニューにある「画像のテキスト抽出」をクリック。

メモ編集画面で同様。

画像内にある文字や数字がメモの本文にテキストとして入力される。例では画像と手書きメモが抽出の対象となっている。「元に戻す」でテキスト抽出をキャンセルできる。

Tips

メモに含まれる複数の画像を同時にテキスト抽出する。

抽出したテキストの全文がこちら。画像と手書きメモから抽出した文字が本文に入っている。

認識精度

実際にどの程度の文字を認識しているのか確認する。

まずはカベ紙用のりの写真から。平面でない袋、斜め、白抜き文字など認識を困難にする要素盛りだくさん。

ポイント
  • 被写体が斜めになっている
  • 白抜きの文字がある
  • 袋なので文字の一部が歪んでいる

かなり見にくい文字も認識している。無料のアプリでここまで認識できれば及第点。目立つ認識ミスは「せんい壁⇒きんい壁」、「400g⇒1400g」の二か所。光の反射があり認識精度が落ちているようだ。ORC処理を目的とする場合は光の反射に気を付けたい。

テキスト抽出結果

強力な接着効果
古いカベ紙の上から
カベ紙が貼れる
きんい壁・砂壁などの凹凸面、
化粧合板などにも使える
強力タイプ
(スーパー)
(カベ紙用のり
カビドメ剤入り
ホルマリンは使用していません。
凹凸面/約1.6m
平滑面/約2.6m
されてからご使用ください。
1400g

こちらは手書きメモ。マウスで書いたので全体的に文字が歪んでいる。

以下が抽出結果。すべて正確に認識している。手書きでここまで認識できるもの上出来。数字はかなりガタガタだがよく認識できたと思う。

手書きメモの抽出結果

ABCDEFG01234567
あいうえお
画像

抽出できない場合

画像や手書き文字に認識できる文字が無い場合は以下のように抽出できない旨のメッセージが表示される。

画像か手書きメモがない場合はメニューに「画像のテキストを抽出」は表示されない。

まとめ

無料のアプリでここまで認識できれば十分。OCR処理を目的で撮影する場合は光の反射と歪みに気を付けたい。手軽に使えるアプリなのでOCRが必要な機会があれば使ってみてもいいだろう。

ポイント
  • 写真と手書きの画像からテキストを抽出できる
  • 手書きや歪んだ文字でも認識できる
  • テキスト抽出が表示されるのは画像がある時だけ

無料アプリでこの認識率は良いと思います。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です