Xacti社の360°Web会議カメラにAI機能を実装する#4

はじめに

前回、第３回目として「参加者の名前、所属などを表示する部分(reidentification)」を説明しました。

Xacti社の360°Web会議カメラにAI機能を実装する#3

今回は OpenVINOを利用してミーティング中の話者を特定する機能について解説します。

実際のソースは以下にありますので、合わせてご確認ください。

facial-landmark detection
- intel/facial-landmarks-35-adas-0002/FP16/facial-landmarks-35-adas-0002

reidentificationを実行するタイミング（前回記事参照）で、同時にfacial-landmark detectionを実行します。

facial-landmark detectionを利用すると、顔の部分に番号が振られるイメージです。

上唇の場所は１０番目、下唇の場所は１１番目で取得できます。

fncMouthValue()内で、１０番目と１１番目の差分を取得します。

今回はmain()内に関係する部分はありません。

fncMouthValue()で上唇・下唇の差分を数値化し、fncWhoisSpeaker()で話者特定処理を実行します。

画像のみで話者特定を行う方法について、その考え方を図にしてみました。簡単に言うと「一定時間内に一番口をパクパク動かした人」を話者として特定（推定）するという考え方になります。

コマ1-コマ2間で一番大きいdの数値を持っている人を確認します。図ではTanakaさんがd:36で一番大きい値です。オレンジ色にマークします。
同じように、コマ2-コマ3間でdを確認します。図ではSatoさんがd:21で一番大きい値です。オレンジ色にマークします。
コマ5-コマ6まで同じように確認します。
コマ1からコマ6の間のオレンジマークの回数を確認します。Tanakaさんが3回、Suzukiさんが１回、Satoさんが２回、Takahashiさんが０回となりました。
Tanakaさんを話者として推定し、大写し（左上エリア）にします。
以降、処理を繰り返します。