Summary
tesseractをPythonから呼び出してキャプチャ画像から文字認識する
今回はjupyter notebook版も作成しました
test_pytesseract.ipynb
詳細はTesseractとPyOCRで文字認識する(2021.7.3)を参照
brew install tesseract
brew install tesseract-lang
tessearact --list-langs
ls /usr/local/Cellar/tesseract/4.1.1/share/tessdata
実行はoutと指定するとout.txtというファイル名で出力される。
末尾に勝手に“.txt”が付与される。
tesseract input.png out -l jpn+eng
pytesseractをインストールしておく
pip install pytesseract
TesseractとPyOCRで文字認識する(2021.7.3)と同様に、 次のような書きかけのMarkdownファイルをキャプチャして認識してみた。