Summary
tesseractをPythonから呼び出してキャプチャ画像から文字認識する
下記でインストールできるが、teseractそのものはすでにインストールされていた(いつやったんだ?>俺)
brew install tesseract
言語辞書もインストール
brew install tesseract-lang
以下のコマンドラインオプションで言語の一覧を表示できる
tessearact --list-langs
ls /usr/local/Cellar/tesseract/4.1.1/share/tessdata
いちおう精度重視のデータをダウンロードしておく
【testdata_best/jpn.traineddata】
https://github.com/tesseract-ocr/tessdata_best/blob/master/jpn.traineddataからデータをダウンロードし、“/usr/local/Cellar/tesseract/4.1.1/share/tessdata”にコピーする
【testdata_best/jpn_vert.traineddata】
https://github.com/tesseract-ocr/tessdata_best/blob/master/jpn_vert.traineddataから同じ場所にコピー
実行
tesseract input.png out -l jpn+eng
なんだかoutと指定するとout.txtというファイル名で出力される。 末尾に勝手に“.txt”が付与されるようだ。
書きかけのMarkdownファイルをキャプチャして認識してみた。