音声認識はスマートフォンにおける検索機能や、カーナビゲーションの音声操作などに利用されています。しかし、音声信号が劣化するような雑音環境下では、発話内容の認識精度が大きく低下するという課題があります。
そこで音声と唇の画像を併用することで、発話認識の精度向上を目的とするマルチモーダル音声認識が注目されています。マルチモーダル音声認識は、特に雑音環境下において有効性が示されています。
マルチモーダル音声認識において音声と唇画像の情報を統合する様々な手法が研究されています。 本研究では,ある時刻の音声に関係する唇の画像は全体の一部であるという考えに基づいて、重みの計算を一部の画像フレームに限定するLocal attentionを用いた統合方法を提案しました。
提案した手法は特に雑音環境下で従来の手法よりも優位な結果を示しました。