demo_speech_recognition

最近のOpenVINOには音声認識がデモとして入っています
OpenVINO2020.xの頃はどうしても動作させることができず、後回しにしていたのですが、OpenVINO2021.3ではコマンドラインでGUIが表示されるまでになっていましたので、こちらでとりあげます

buildに関しては、下記のようになります

cd /opt/intel/openvino_2021/deployment_tools/demo/
bash ./demo_speech_recognition.sh

たったこれだけで、GUIが起動します

今回のターゲット環境は
Ubuntu18.04
Intel(R) Atom(TM) Processor E3950 @ 1.60GHz
MemTotal: 8012260 kB
です

入力する音声ファイルは、スティーブジョブズのスタンフォード大学でのスピーチをWav化したものとなります
ソースとなるファイルは、著作権などが絡みますので、音声ファイルは公開しませんが、オーディオ入力からでも取り込めると思います

こちらが認識デモです
最初に二つ画面が表示されます

上のウィンドウで音声ファイルを選び、recognizeボタンを押すと認識開始です
なおビデオの加工はしておりませんので、スピードはこのままとなります

英語の音声認識はかなり進んでいるようですね
ぜひ日本語にもチャレンジしたいです

産業用画像処理装置開発、
ゲームコンソール開発、半導体エンジニアなどを経て、
Webエンジニア＆マーケティングをやっています
好きな分野はハードウェアとソフトウェアの境界くらい