Réseau neuronal

Quand une IA peut lire sur les lèvres

Les chercheurs du groupe Meta (ex-Facebook) ont développé un réseau neuronal multimodal non supervisé, capable de comprendre la parole en associant signaux audio et visuels.

Le réseau neuronal bimodal AV-HuBERT peut améliorer les systèmes de reconnaissance de la parole dans un contexte bruyant. (Source: Meta)
Le réseau neuronal bimodal AV-HuBERT peut améliorer les systèmes de reconnaissance de la parole dans un contexte bruyant. (Source: Meta)

Les systèmes de reconnaissance vocale font parfois face à des difficultés pour comprendre la parole dans des environnements bruyants. Des limites qui s’expliquent par le fait que ces modèles d’IA n’ont été formés qu'à partir de données audio. Les humains sont capables de comprendre quelqu'un dans ce genre de situations car ils s'appuient également sur les signaux visuels, dont le mouvement des lèvres. Les systèmes de reconnaissance vocale pourraient logiquement s’améliorer en étant dotés de ces mêmes capacités bimodales. C’est l’ambition de certains chercheurs, qui forment des modèles à partir de jeux de données audiovisuelles. Les scientifiques du groupe Meta (ex-Facebook) ont présenté leurs récents travaux en la matière, en l'occurrence le développement d’un réseau neuronal multimodal baptisé AV-HuBERT, qui selon eux serait 75% plus performants que les précédents systèmes de reconnaissance vocale exploitant des données à la fois audio et visuelles. Meta a mis le code et des modèles AV-HuBERT pré-entraînés à la disposition de la communauté scientifique.

Pas de transcriptions nécessaires

Les chercheurs de Meta expliquent qu’AV-HuBERT présente surtout l'avantage de pouvoir apprendre de façon non supervisée, c'est-à-dire qu’il n’est pas nécessaire de le nourrir de données audio labellisées. «Il s'agit du premier système à modéliser conjointement la parole et les mouvements des lèvres à partir de données non étiquetées», expliquent les chercheurs. Ce réseau neuronal bimodal peut détecter les relations sous-jacentes entre audio et mouvement des lèvres, à partir de vidéos brutes qui n'ont pas été transcrites. L'approche auto-supervisée d'AV-HuBERT devrait aider à concevoir des systèmes de reconnaissance automatique de la parole non perturbés par le bruit dans plus de langues et pour plus d'applications, car il nécessite beaucoup moins de données supervisées pour l'apprentissage.

Les chercheurs en IA de Meta ont rédigé un article de blog donnant passablement de détails sur le réseau neuronal multimodal AV-HuBERT, qui se fonde sur la même approche d'apprentissage que le système BERT de Google (dont la prédiction de mots/signal visuel masqués). Lire >> AI that understands speech by looking as well as hearing

Tags
Webcode
DPF8_243037