Juliusの導入 – omonuinen

TurtleBot1で音声認識をさせるべく、Juliusをインストールしてみた。
大語彙連続音声認識エンジン Juliusによると、Juliusは以下のような音声認識エンジンである。

Julius は，音声認識システムの開発・研究のためのオープンソースの高性能な汎用大語彙連続音声認識エンジンです．数万語彙の連続音声認識を一般のPC上でほぼ実時間で実行できます．また，高い汎用性を持ち，発音辞書や言語モデル・音響モデルなどの音声認識の各モジュールを組み替えることで，様々な幅広い用途に応用できます． Julius はオープンソースソフトウェアで，ソースコードを含めてどなたでもフリーで入手することができます．

ubuntu(12.04LTS)のレポジトリのものは4.1.5と古かったので、最新のソースからビルドすることにした。

準備

Juliusのサイトから以下のファイルをダウンロードする。

julius-4.2.2.tar.gz
dictation-kit-v4.1.tar.gz

dictation-kit-v4.1（Juliusディクテーション実行キット）にはJulius本体が同梱されているが、バージョンが古いため最新のエンジンを用意しておく。
なお、説明の都合上、~/Downloadsに保存したものとする。

ビルド

上記のファイルを適当なフォルダ（ここでは~/workspaceとする）で展開する。
cd ~/workspace tar xzf ../Downloads/julius-4.2.2.tar.gz tar xzf ../Downloads/dictation-kit-v4.1.tar.gz
julius本体をビルド＆インストールする。
cd julius-4.2.2 ./configure make sudo make install

実行

以下のコマンドでJuliusを起動すると、連続的に音声認識を行い、認識結果がUTF-8で表示される。
julius -C ~/workspace/dictation-kit-v4.1/fast.jconf -charconv EUC-JP UTF-8

moduleモード

以下のコマンドではmoduleモードで起動する。
julius -C ~/workspace/dictation-kit-v4.1/fast.jconf -module -charconv EUC-JP UTF-8
moduleモードにするとJuliusはポート10500番でlistenし、TCPで接続してきたクライアントに認識結果がXML形式で送られる。
なお、JuliusBookには連続的な接続・切断をサポートするようなことが書かれているが、実際には切断するたびにJuliusが終了するので注意。

注意点

マイクの種類や音量には敏感なようなので微調整が必須。ディクテーションキットの辞書ではそれほど認識精度も高くない。ちゃんと認識させるにはそれなりの学習が必要と思われる。