Tesseractとpytesseractで文字認識する(2021.7.6)

Summary

tesseractをPythonから呼び出してキャプチャ画像から文字認識する

今回はjupyter notebook版も作成しました
test_pytesseract.ipynb

Tesseractコマンドライン版の動作確認

詳細はTesseractとPyOCRで文字認識する(2021.7.3)を参照

brew install tesseract
brew install tesseract-lang

tessearact --list-langs
ls /usr/local/Cellar/tesseract/4.1.1/share/tessdata

実行はoutと指定するとout.txtというファイル名で出力される。
末尾に勝手に“.txt”が付与される。

tesseract input.png out -l jpn+eng

今回はPyOCRではなくPytesseractを使って呼び出す

pytesseractをインストールしておく

pip install pytesseract

TesseractとPyOCRで文字認識する(2021.7.3)と同様に、 次のような書きかけのMarkdownファイルをキャプチャして認識してみた。