【LinuxMint19】tesseract v3.05.02 インストール [tesseract]
記事:2018年11月
ソースファイルからコンパイルしてインストールしたときの備忘録
★前提環境★
・Linux mint 19 (32bit)
・tesseract v3.05.02
・leptonica v1.76.0
学習用ツールのライブラリー
インストール予定の tesseract v3.05.02 は,Leptonica は v1.74 or higher is required.
になります。(Leptonica v1.74 または それ以上のバージョン)
leptonica 公式で提供中のバージョン確認
http://www.leptonica.com/download.html
tesseract v3.05.02 に、leptonica-1.76.0 をインストールした。
学習用ツールのインストール
かといって、学習した言語データでも結構誤認識しますが・・・。
※学習ツールの扱い方は、いずれ記事にしたい・・・かなと
ソースファイルからコンパイルしてインストールしたときの備忘録
★前提環境★
・Linux mint 19 (32bit)
・tesseract v3.05.02
・leptonica v1.76.0
目次
ライブラリーのインストール
依存関係のあるライブラリーsudo apt-get install g++ sudo apt-get install autoconf automake libtool sudo apt-get install autoconf-archive sudo apt-get install pkg-config sudo apt-get install libpng-dev sudo apt-get install libjpeg-dev sudo apt-get install libtiff-dev sudo apt-get install zlib1g-dev
学習用ツールのライブラリー
sudo apt-get install libicu-dev sudo apt-get install libpango1.0-dev sudo apt-get install libcairo2-dev
leptonica 画像解析ライブラリーのインストール
★tesseract と leptonica のバージョン関係★Tesseract | Leptonica | Ubuntu |
---|---|---|
ver4.00 | ver1.74.2 | Ubuntu 18.04 |
ver3.05 | ver1.74.0 | Must build from source |
ver3.04 | ver1.71 | Ubuntu 16.04 |
ver3.03 | ver1.70 | Ubuntu 14.04 |
ver3.02 | ver1.6 | Ubuntu 12.04 |
ver3.01 | ver1.67 | - |
になります。(Leptonica v1.74 または それ以上のバージョン)
leptonica 公式で提供中のバージョン確認
http://www.leptonica.com/download.html
tesseract v3.05.02 に、leptonica-1.76.0 をインストールした。
wget http://www.leptonica.com/source/leptonica-1.76.0.tar.gz tar xvzf leptonica-1.76.0.tar.gz cd leptonica-1.76.0 ./configure make sudo make install
tesseract のインストール
tesseract v3.05.02 のインストールwget https://github.com/tesseract-ocr/tesseract/archive/3.05.02.tar.gz -o tesseract-ocr.tar.gz tar xvzf tesseract-ocr.tar.gz cd tesseract-3.05.02 ./autogen.sh ./configure --prefix=/usr/local/tesseract LDFLAGS="-L/usr/local/lib" CFLAGS="-I/usr/local/include" make sudo make install sudo ldconfig
学習用ツールのインストール
make training sudo make training-install sudo ldconfig
環境変数の追加
下記の変数を ホームディレクトリの .bashrc に追加
追加
export TESSDATA_PREFIX=/usr/local/tesseract/share/
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/lib
export PATH="$PATH:/usr/local/tesseract/bin"
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/lib
export PATH="$PATH:/usr/local/tesseract/bin"
cd ~ vi .bashrc
環境変数のPATHが正しいことを確認してみる
- バージョンの確認
- 下のような画面が表示されればPATHは正しいです。
tesseract -v
tesseract -v tesseract 3.05.02 leptonica-1.76.0 libjpeg 8d (libjpeg-turbo 1.5.2) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11
下の画面の場合は、PATHを見直してください。
tesseract: コマンドが見つかりません
言語データの追加
Linuxの場合は、日本語の言語データは一緒にインストールされないので、下の記事を参考に追加してみてください。実際に文字認識をやってみる
- ホームディレクトリに sample ディレクトリを作成する。
- 下の画像を ファイル名「 test.png 」として sample ディレクトリに保存する。
- sample ディレクトリに移動する
- 文字認識をさせてみる
- result.txt ファイルが作成されます。覗いてみる。
- ファイルの中身は 「 夏が来た 」かと思います。
mkdir ~/sample
cd ~/sample
tesseract test.png result -l jpn※オプションの -l は、英字のエル(小文字)です。
正常
異常(画像ファイルが存在しない場合)
tesseract test.png result -l jpn Tesseract Open Source OCR Engine v3.05.02 with Leptonica
異常(画像ファイルが存在しない場合)
tesseract test.png result -l jpn Tesseract Open Source OCR Engine v3.05.02 with Leptonica Error in fopenReadStream: file not found Error in findFileFormat: image file not found Error during processing.
cat result.txt 夏が来た
学習ツールについて
学習ツールは言語データを新たに作成して、文字の認識率を底上げするために使います。かといって、学習した言語データでも結構誤認識しますが・・・。
学習ツールの置かれている場所
/home/(ユーザ名)/tesseract-3.05.02/training/tesstrain.sh
/home/(ユーザ名)/tesseract-3.05.02/training/language-specific.sh
※ただし、パッケージインストールの場合は、/usr/local/...配下 にインストールされます。/home/(ユーザ名)/tesseract-3.05.02/training/language-specific.sh
※学習ツールの扱い方は、いずれ記事にしたい・・・かなと
ディスカッション
コメント一覧
まだ、コメントがありません