Reconnaissance vocale

L’IA de Microsoft retranscrit la parole aussi bien que l’humain

Le système de reconnaissance vocale de Microsoft obtient désormais un taux d’erreur comparable à des professionnels de la retranscription audio.

(Source : CC0/pexels.com)
(Source : CC0/pexels.com)

Les technologies de reconnaissance vocale progressent au point de rivaliser avec les capacités humaines. Les chercheurs de Microsoft Research ont en effet annoncé récemment que leur système de reconnaissance de la parole avait atteint un taux d’erreur de 5,1% dans le cadre d’un test Switchboard. Un score hautement symbolique puisqu’il s’agit aussi du taux d’erreur moyen des professionnels de la retranscription audio. Microsoft Research précise que Switchboard est un corpus de conversations téléphoniques enregistrées, utilisé depuis plus de 20 ans pour le benchmark de systèmes de reconnaissance vocale.

Les chercheurs de la firme de Redmond attribuent les progrès de leur système à plusieurs améliorations au niveau des modèles acoustiques et linguistiques basés sur des réseaux neuronaux artificiels. Dont l’introduction d’un réseau neuronal convolutif combiné à une mémoire bidirectionnelle à long terme. En outre, les chercheurs expliquent avoir renforcé le modèle de reconnaissance avec des capacités prédictives basées sur une historique de dialogues.

Les progrès ayant amené à ce record de taux d’erreur, qui concerne pour l’heure la reconnaissance de l’anglais, profiteront aux solutions et services de Microsoft dont Cortana, Presentation Translator et Microsoft Cognitive Services.

Webcode
DPF8_54043