Technologie calme et respectueuse de la sphère privée

Ces lunettes permettent de parler en silence à votre smartphone

Développées par des chercheurs américains, les lunettes EchoSpeech sont capables de lire sur les lèvres de celui qui les porte et d’envoyer ses propos à son smartphone. Le dispositif a ceci d’original qu’il exploite un sonar plutôt qu’une caméra pour analyser les mouvements des lèvres.

Co-auteur de la recherche, Ruidong Zhang porte les lunettes EchoSpeech.
Co-auteur de la recherche, Ruidong Zhang porte les lunettes EchoSpeech.

Des chercheurs de l’Université de Cornell aux Etats-Unis ont développé un prototype de lunettes permettant de lire sur les lèvres de celui qui les porte. Baptisée EchoSpeech, l’interface est capable de reconnaître une trentaine de commandes silencieuses à partir des mouvements de la bouche et des lèvres et de les transmettre au smartphone de l’utilisateur. Combinant des technologies de sonar et de l’IA, le dispositif serait capable de fonctionner après quelques minutes d’entraînement seulement, dixit les chercheurs.

Le potentiel du dispositif est intéressant. EchoSpeech pourrait notamment servir de synthétiseur vocal et retranscrire les parole de personnes qui ne peuvent émettre des sons. La technologie pourrait aussi permettre de communiquer via son smartphone dans une bibliothèque où l’on est censé garder le silence, ou au contraire dans un restaurant bruyant. 

Sonar plutôt que caméra

EchoSpeech n’est pas la première technologie capable de lire sur les lèvres. Il y a un an, les chercheurs de Meta (Facebook) dévoilaient par exemple un réseau neuronal exploitant tant les données audio que visuelles pour comprendre ce que dit une personne (> Quand une IA peut lire sur les lèvres).

L’une des nouveautés de la technologie EchoSpeech, c’est qu’elle «lit sur les lèvres» non pas en les regardant mais en captant leur mouvement avec un système de sonar combiné à de l’IA. Concrètement le dispositif des lunettes envoie des ondes acoustiques vers le visage dont il récupère ensuite l’écho. Un algorithme de deep learning permet d’analyser en temps réel cet écho pour en déduire les mouvements des lèvres avec une précision de 95%, selon les chercheurs.

L’emploi d’un sonar acoustique plutôt qu’une caméra présente de nombreux atouts. Tout d’abord le dispositif est plus compact, moins gourmand en énergie et préserve davantage la sphère privée. D’un point de vue de l’expérience utilisateur, le procédé évite d’avoir à se positionner pour être vu par une caméra. De plus, les données acoustiques étant moins volumineuses que des données vidéo, leur transmission au smartphone nécessite moins de bande passante et peut s’effectuer via Bluetooth en temps réel. Enfin, les données étant analysées directement sur le smartphone, on élimine le risque d’avoir à les envoyer dans le cloud.

Voir sur le sujet:

> L'article des chercheurs de Cornell: EchoSpeech: Continuous Silent Speech Recognition on Minimally-obtrusive Eyewear Powered by Acoustic Sensing

> TinyML: pour une IA décentralisée et moins énergivore

Comment concevoir des technologies calmes?

 

Tags
Webcode
CswjGjj8