TesseractとPyOCRで文字認識する(2021.7.3)

Summary

tesseractをPythonから呼び出してキャプチャ画像から文字認識する

Tesseractコマンドライン版の動作確認

Macへのインストール

下記でインストールできるが、teseractそのものはすでにインストールされていた(いつやったんだ?>俺)

brew install tesseract

言語辞書もインストール

brew install tesseract-lang

以下のコマンドラインオプションで言語の一覧を表示できる

tessearact --list-langs
ls /usr/local/Cellar/tesseract/4.1.1/share/tessdata

いちおう精度重視のデータをダウンロードしておく

【testdata_best/jpn.traineddata】
https://github.com/tesseract-ocr/tessdata_best/blob/master/jpn.traineddataからデータをダウンロードし、“/usr/local/Cellar/tesseract/4.1.1/share/tessdata”にコピーする

【testdata_best/jpn_vert.traineddata】
https://github.com/tesseract-ocr/tessdata_best/blob/master/jpn_vert.traineddataから同じ場所にコピー

コマンドライン版の動作確認

実行

tesseract input.png out -l jpn+eng

なんだかoutと指定するとout.txtというファイル名で出力される。 末尾に勝手に“.txt”が付与されるようだ。

書きかけのMarkdownファイルをキャプチャして認識してみた。