最近のOpenVINOには音声認識がデモとして入っています
OpenVINO2020.xの頃はどうしても動作させることができず、後回しにしていたのですが、OpenVINO2021.3ではコマンドライン でGUIが表示されるまでになっていましたので、こちらでとりあげます
buildに関しては、下記のようになります
cd /opt/intel/openvino_2021/deployment_tools/demo/ bash ./demo_speech_recognition.sh
たったこれだけで、GUIが起動します
今回のターゲット環境は
Ubuntu18.04
Intel(R) Atom(TM) Processor E3950 @ 1.60GHz
MemTotal: 8012260 kB
です
入力する音声ファイルは、スティーブジョブズのスタンフォード大学でのスピーチをWav化したものとなります
ソースとなるファイルは、著作権などが絡みますので、音声ファイルは公開しませんが、オーディオ入力からでも取り込めると思います
こちらが認識デモです
最初に二つ画面が表示されます

上のウィンドウで音声ファイルを選び、recognizeボタンを押すと認識開始です
なおビデオの加工はしておりませんので、スピードはこのままとなります
英語の音声認識はかなり進んでいるようですね
ぜひ日本語にもチャレンジしたいです

産業用画像処理装置開発、
ゲームコンソール開発、半導体エンジニアなどを経て、
Webエンジニア&マーケティングをやっています
好きな分野はハードウェアとソフトウェアの境界くらい