【Windows7】tesseract v3.05.02 インストール 

Windows7tesseract

文字認識ツールの tesseract は、最新版 v4.0 と サードパーティ版 v3.5.1 と 安定版 v3.05.2 があります。
Windows 32bit 安定版のダウンロード先とインストール方法を説明します。

★前提条件★
・Windows 7 (32bit)
・tesseract v3.05.2


tesseract v3.05.2 のダウンロード

  1. GitHub の UB-Mannheim tesseract ページ にいく
  2. https://github.com/UB-Mannheim/tesseract/wiki

  3. 赤枠の「old version」を開き「 tesseract-ocr-setup-3.05.02-20180621.exe 」をダウンロード


tesseract v3.05.2 のインストール

  1. tesseract のインストールファイルを実行する。

  2. 「Next」ボタン


  3. 「I accept …」ボックスにチェックをして「Next」ボタン


  4. 「Next」ボタン


  5. 日本語辞書を追加したいので、赤枠の「+」をクリック


  6. 「Japanese」ボックスにチェック


  7. 「Next」ボタン


  8. 「Install」ボタン


  9. 「Next」ボタン


  10. 「Finish」ボタン

環境変数のPATHに「 C:¥Program Files¥Tesseract-OCR 」を追加

  1. コマンドプロンプト起動

  2. コマンドプロンプト画面から下記のコマンドを入力してシステムプロパティを開く
  3. sysdm.cpl

  4. システムプロパティが開いたら「詳細設定」タブ→「環境変数」ボタン

  5. 下段側「システム環境変数」内の「Path」を選択して「編集」ボタン

  6. 変数値」欄の末尾に、下記の文字を追加
  7. 追加 ;c:\Program Files\Tesseract-OCR
    先頭のセミコロン「;」をお忘れなく。
    追加の際には、追加先に元々ある文字を消さないように注意してください。 tesseract本体のインストール先が違う場合は、追加文字を適宜変更してください。

  8. OK」ボタン→「OK」ボタン で終わりです。

環境変数のPATHが正しいことを確認してみる

  1. コマンドプロンプト起動

  2. バージョンの確認
  3. tesseract -v

  4. 下のような画面が表示されれば環境変数は正しいです。

  5. 正常
    tesseract -v
    
    tesseract 3.05.02
    leptonica-1.75.3
    libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 :libopenjp2 2.2.0

    異常(環境変数のPATHを見直してください)
    tesseract -v
    
    'tesseract' は、内部コマンドまたは外部コマンド、 操作可能なプログラムまたはバッチ ファイルとして認識されていません。

  6. PATHが正常であれば、インストール言語の確認をします。
  7. tesseract --list-langs

  8. 日本語辞書が追加されていれば jpn が表示されます。
  9. tesseract --list-langs
    
    List of available languages (3):
    eng
    jpn
    osd

    ※日本語辞書の言語データを追加したい場合
    https://binary-star.net/?p=1319


実際に文字認識をやってみる

  1. C:¥sample フォルダを作成する。

  2. 下の画像を ファイル名「 test.png 」として C:¥sample フォルダに保存する。
  3. 画像保存

  4. コマンドプロンプト起動して C:¥sample に移動する
  5. cd c:¥sample

    正しく移動できれば下のように表示される
    c:¥sample

  6. 画像ファイルの置いた場所で、文字認識をさせてみる
  7. tesseract test.png result -l jpn
    ※オプションの -l は、英字のエル(小文字)です。

    正常
    tesseract test.png result -l jpn 
    
    Tesseract Open Source OCR Engine v3.05.02 with Leptonica

    異常(画像ファイルが存在しない場合)
    tesseract test.png result -l jpn
    
    Tesseract Open Source OCR Engine v3.05.02 with Leptonica
    Error in fopenReadStream: file not found
    Error in findFileFormat: image file not found
    Error during processing.

  8. 正常であれば c:¥sample フォルダに result.txt ファイルが作成されます。

  9. メモ帳で開いてみてください。「 夏が来た 」と書かれているかと思います。