【LinuxMint19】tesseract v3.05.02 インストール [tesseract]

Linuxtesseract

記事:2018年11月

ソースファイルからコンパイルしてインストールしたときの備忘録

★前提環境★
・Linux mint 19 (32bit)
・tesseract v3.05.02
・leptonica v1.76.0

ライブラリーのインストール

依存関係のあるライブラリー
sudo apt-get install g++
sudo apt-get install autoconf automake libtool
sudo apt-get install autoconf-archive
sudo apt-get install pkg-config
sudo apt-get install libpng-dev
sudo apt-get install libjpeg-dev
sudo apt-get install libtiff-dev
sudo apt-get install zlib1g-dev

学習用ツールのライブラリー
sudo apt-get install libicu-dev
sudo apt-get install libpango1.0-dev
sudo apt-get install libcairo2-dev

leptonica 画像解析ライブラリーのインストール

★tesseract と leptonica のバージョン関係★
TesseractLeptonicaUbuntu
ver4.00ver1.74.2Ubuntu 18.04
ver3.05ver1.74.0Must build from source
ver3.04ver1.71Ubuntu 16.04
ver3.03ver1.70Ubuntu 14.04
ver3.02ver1.6Ubuntu 12.04
ver3.01ver1.67-
インストール予定の tesseract v3.05.02 は,Leptonica は v1.74 or higher is required.
になります。(Leptonica v1.74 または それ以上のバージョン)

leptonica 公式で提供中のバージョン確認
http://www.leptonica.com/download.html

tesseract v3.05.02 に、leptonica-1.76.0 をインストールした。
wget http://www.leptonica.com/source/leptonica-1.76.0.tar.gz
tar xvzf leptonica-1.76.0.tar.gz
cd leptonica-1.76.0
./configure
make
sudo make install

tesseract のインストール

tesseract v3.05.02 のインストール
wget https://github.com/tesseract-ocr/tesseract/archive/3.05.02.tar.gz -o tesseract-ocr.tar.gz
tar xvzf tesseract-ocr.tar.gz
cd tesseract-3.05.02
./autogen.sh
./configure --prefix=/usr/local/tesseract LDFLAGS="-L/usr/local/lib" CFLAGS="-I/usr/local/include"
make
sudo make install
sudo ldconfig

学習用ツールのインストール
make training
sudo make training-install
sudo ldconfig

環境変数の追加

下記の変数を ホームディレクトリの .bashrc に追加
追加 export TESSDATA_PREFIX=/usr/local/tesseract/share/
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/lib
export PATH="$PATH:/usr/local/tesseract/bin"

cd ~
vi .bashrc

環境変数のPATHが正しいことを確認してみる

  1. バージョンの確認
  2. tesseract -v

  3. 下のような画面が表示されればPATHは正しいです。
  4. tesseract -v
    
    tesseract 3.05.02
    leptonica-1.76.0
    libjpeg 8d (libjpeg-turbo 1.5.2) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11
    

    下の画面の場合は、PATHを見直してください。
    tesseract: コマンドが見つかりません

言語データの追加

Linuxの場合は、日本語の言語データは一緒にインストールされないので、下の記事を参考に追加してみてください。


実際に文字認識をやってみる

  1. ホームディレクトリに sample ディレクトリを作成する。
  2. mkdir ~/sample

  3. 下の画像を ファイル名「 test.png 」として sample ディレクトリに保存する。
  4. 画像保存
  5. sample ディレクトリに移動する
  6. cd ~/sample

  7. 文字認識をさせてみる
  8. tesseract test.png result -l jpn
    ※オプションの -l は、英字のエル(小文字)です。

    正常
    tesseract test.png result -l jpn
    
    Tesseract Open Source OCR Engine v3.05.02 with Leptonica
    

    異常(画像ファイルが存在しない場合)
    tesseract test.png result -l jpn
    
    Tesseract Open Source OCR Engine v3.05.02 with Leptonica
    Error in fopenReadStream: file not found
    Error in findFileFormat: image file not found
    Error during processing.
    

  9. result.txt ファイルが作成されます。覗いてみる。
  10. cat result.txt
    
    夏が来た

  11. ファイルの中身は 「 夏が来た 」かと思います。

学習ツールについて

学習ツールは言語データを新たに作成して、文字の認識率を底上げするために使います。
かといって、学習した言語データでも結構誤認識しますが・・・。

学習ツールの置かれている場所 /home/(ユーザ名)/tesseract-3.05.02/training/tesstrain.sh
/home/(ユーザ名)/tesseract-3.05.02/training/language-specific.sh
※ただし、パッケージインストールの場合は、/usr/local/...配下 にインストールされます。
※学習ツールの扱い方は、いずれ記事にしたい・・・かなと