En collaboration avec Alp ICT

De la reconnaissance vocale à la retranscription automatique de vidéos

| Mise à jour
par helenel

Depuis le lancement de Siri sur iOS, les technologies de reconnaissance vocale sont de plus en plus utilisées. Du simple assistant personnel sur les appareils mobiles jusqu'à l'auto-transcription de vidéos, tour d'horizon de ce marché qui attire de plus en plus d'acteurs.

En octobre 2011, Apple démocratisait la reconnaissance vocale en lançant son assistant personnel Siri, une application capable de régler une alarme, donner la météo, trouver un restaurant ou encore écrire un SMS sur simple commande vocale. D'autres constructeurs ont rapidement emboité le pas à Apple en incorporant des applications similaires à leurs propres appareils, et notamment Samsung, LG ou RIM. Quant à Google et son Google Now, il est non seulement disponible pour Android, mais également depuis peu pour iOS, à travers l'application Google Search. Google pourrait d'ailleurs aller plus loin: le géant de la recherche a récemment investi dans la start-up Expect Labs qui propose l'application MindMeld capable d'écouter et d'analyser les conversations en temps réel et de chercher sur internet des informations en rapport avec les propos tenus. Ainsi par exemple, lorsque l'un des interlocuteurs suggère un restaurant, l'application fera apparaître un plan pour y accéder, son menu ou des critiques s'y référant.

Vers des applications destinées aux professionnels

Mais ce type de technologies se limite à des expressions simples: recherche de restaurant, publication de la météo, indication de trajets… La start-up valaisanne Koemei, spin-off de l’Institut de recherche Idiap à Martigny, a amélioré cette technologie pour proposer une solution d'auto-transcription de la parole dans des vidéos en développant un algorithme de reconnaissance vocale plus sophistiqué, comme le précise son CEO Temitope Ola: «Jusqu'ici il n'existait aucun système capable de retranscrire des mots compliqués ou de reconnaître plusieurs personnes.» Une fois l'enregistrement numérique envoyé au serveur, le texte transcrit peut apparaître sous forme de bloc auto-défilant ou sous forme de sous-titre. Le logiciel lie également le texte reconnu aux images de la vidéo, de sorte que les utilisateurs puissent aisément naviguer dans la vidéo en cliquant sur un mot ou encore effectuer des recherches à l’aide de mots-clefs. La solution est déjà en service dans des instituts de formation, notamment au sein de l'IMD de Lausanne et de l'Université de Columbia, mais aussi dans le domaine des médias. La solution de la start-up a été choisie par la chaîne Al Jazeera pour traiter les cinq discours de Barack Obama sur l’Etat de l’Union. «A terme, ce sont toutes les vidéos d’Al Jazeera qui seront retranscrites par notre logiciel», précise Temitope Ola. 

La retranscription de vidéos pour une meilleure accessibilité du web

Pour les éditeurs de sites web, la vidéo est devenue une source de visites supplémentaires et devrait représenter 55% du trafic internet mondial à l’horizon 2016. En outre, depuis 1997, un département du consortium du World Wide Web, le Web Accessibility Initiative travaille sur la question de l’accessibilité du web aux personnes handicapées et a émis des recommandations en ce sens. De plus en plus de pays se sont donc dotés d'une loi exigeant un accès aux sites internet sans barrière pour les personnes handicapées. En  Suisse, cette loi existe depuis 2004. Elle recommande notamment la mise en place d'équivalents-textes comme des sous-titres et des transcriptions pour les contenus audio et vidéo. Le marché de la retranscription de vidéos ne cesse donc de s'étendre. Selon Temitope Ola, il s'élève au niveau mondial à plus de 18 milliards de dollars: «Grâce à ce type de législation, nous allons assister non seulement à une augmentation de la demande et des ressources allouées, mais aussi à un allongement des délais, les sociétés de transcriptions ne pouvant faire face à une telle demande.»

L'auto-transcription telle que la propose Koemei n’est pas encore répandue. La start-up basée à Martigny dit ne compter pour l'heure, qu'un unique concurrent, la société américaine Ramp. «Si cela paraît aujourd'hui très simple, c'est un domaine extrêmement pointu qui a nécessité plus de sept ans de développement grâce à des capitaux suisses et européens d'un montant d'environ 25 millions d'euros.» Temitope Ola précise que pour pouvoir reconnaître, sans entrainement préalable, une conversation entre plusieurs personnes, les chercheurs ont dès le départ intégré la question des différents accents. «Notre technologie a d'ailleurs été développée avec le centre de recherche des langues à Edimbourg. Elle est basée sur l'intelligence artificielle et elle apprend au fur et à mesure du temps.» Si l’anglais constitue encore le seul et unique langage de transcription, le français devrait être disponible dès le mois de juin pour des premiers tests effectués avec l'université de Genève. L'allemand suivra. Et pourquoi pas l'arabe puisque la chaîne Al Jazeera l'a déjà demandé.

Webcode
TzCRVDKK

Kommentare

« Plus