GoogleドライブのOCR(光学式文字認識)機能がうまく動作しない場合の対処法

Googleドライブ OCR

Googleが提供するオンラインストレージのGoogle ドライブではアップロードした画像やPDFファイルの文字を認識してテキストに変換してくれるOCR機能があります。

今までOCR機能を使っても何故かうまくテキストに変換できなかったのですが、ようやく原因と対処法がわかったのでメモします。

Google ドライブのOCR(光学式文字認識)機能

Google ドライブでは画像(.jpg、.png、.gif ファイル)やPDFファイルをアップロードするとGoogleドキュメント形式に変換し、ファイルの中の文字を自動で認識してテキストに変換してくれる機能があります。無料です。

Google ドライブ公式ヘルプにおけるOCR機能の説明によると、精度の高いテキスト変換を行うためには以下の点に注意する必要があります。

  • 解像度: 高解像度が高いほど精度の高い結果が得られます。ドキュメントのテキストの 1 行の高さを少なくとも 10 ピクセルにすることをおすすめします。
  • 向き: テキストが左から右に表記されているドキュメントのみが認識されます。ドキュメントを間違った向きでスキャン、キャプチャしてしまった場合は、画像をレタッチ/編集するプログラムを使用して画像を回転させてから、Google ドライブにアップロードしてください。
  • 言語、フォント、文字: Google の OCR エンジンは多種類の文字に対応していますが、ラテン文字以外の文字については現在も試験を行っています。ドキュメントの言語をプルダウン メニューから選択できます。Arial や Times New Roman などの一般的なフォントがファイルに含まれていると、より精度の高い結果が得られます。
  • 画質: 光度が均一でコントラストのはっきりした画像を使うと、精度の高い結果が得られます。画像がブレている場合や、焦点が合っていない場合は、検出されるテキストの品質が低くなります。

しかし上記の条件を満たしていても、変換結果がなぜか英数字やスペースのみになってしまうケースがありました。

Google ドライブのOCR機能がうまく動作しなかった例

以下はOCR機能がうまく動作しなかった時の詳細です。

Googleドライブの設定(歯車アイコン)では以下の2つにチェックを入れ、テキスト変換はされるはずの状態でした。

  • アップロードしたファイルを Google ドキュメント形式に変換
  • アップロードしたPDFや画像ファイルからテキストに変換

Googleドライブ OCR 設定

その後アップロードボタンから「ファイル」を選択し、テキストに変換したいファイルをアップロードします。今回は情報処理技術者試験の過去問PDFをアップロードしました。
Googleドライブ OCR アップロード

アップロード後、自動的にGoogleドキュメント形式に変換されます。変換されたドキュメントを右クリックし、「アプリで開く」から「Google ドキュメント」で開きます。
Googleドライブ OCR アプリで開く

Googleドキュメントでファイルを開くと、本来なら元となるPDFファイルのページごとにOCRで変換されたテキストが表示されるはずです。しかし何も表示されなかったり英数字だけが表示されます。
Googleドライブ OCR テキスト変換されない

Google ドライブのOCR機能を正しく使う方法

原因はGoogle ドライブで言語設定をしていないことにありました。解決方法を以下に記載します。

Googleドライブの設定(歯車アイコン)で以下の3つにチェックを入れます。3つ目が特に重要です。

  • アップロードしたファイルを Google ドキュメント形式に変換
  • アップロードしたPDFや画像ファイルからテキストに変換
  • アップロード毎に、毎回設定を確認する

Googleドライブ OCR アップロード時に毎回確認

アップロードボタンから「ファイル」を選択し、テキストに変換したいファイルをアップロードします。このときアップロード設定を聞かれるため、ドキュメントの言語で「日本語」を選択し、「アップロードを開始」ボタンを押します。
Googleドライブ OCR 言語設定を日本語に

アップロードしたファイルがGoogleドキュメントに変換された後、変換されたドキュメントを右クリックし、「アプリで開く」から「Google ドキュメント」で開きます。
Googleドライブ OCR アプリで開く

ドキュメントの言語を設定する前はOCRで読み取れていなかった文章が正しくテキストに変換されています。
Googleドライブ OCR テキスト変換された

オリジナルのPDF(左)とOCRテキスト変換結果(右)です。表示のズレは若干ありますが変換の精度はかなり高いです。
Googleドライブ OCR テキスト変換結果の比較

ちなみに一度言語を設定してしまえば次回以降はデフォルトの言語設定が日本語になるため、「アップロード毎に、毎回設定を確認する」はチェックを外してもOKです。

OCRで読み取りたい文書の言語が変わる場合は適宜変更すると良さそうです。

おわりに

初期設定の言語が英語だったのが盲点でした。Google ドライブのOCR機能では資格試験の過去問を効率・精度よくテキストに変換できるので、試験勉強の際に有効活用できそうです。