Google combine robots et IA: bonne ou mauvaise idée?
Les chercheurs en IA de Google s’appliquent à doter les robots des capacités des modèles de langage à grande échelle. L’idée est de les aider à comprendre des énoncés non prédéfinis et à déterminer les actions qu'il est possible d'exécuter dans un environnement donné. L’approche n’échappe pas aux critiques.
Faire exécuter des tâches simples à des robots est une tâche complexe. Pour faire des choses simples et interagir avec d'autres personnes au quotidien, nous exploitons un grand nombre de savoirs. Qu’il s'agisse de connaissances patiemment acquises durant notre vie ou de mécanismes cognitivo-comportementaux hérédités. Tout ce dont un robot ne dispose pas. Par exemple, si quelqu'un nous dit qu'il a renversé son café, nous allons lui tendre une serviette et lui en proposer un autre, alors qu'un robot pourrait se retrouver pris au dépourvu, faute de directives suffisamment claires et précises.
Doter les robots des capacités des modèles de langage à grande échelle
Les robots fonctionnent donc de façon satisfaisante dans des environnements où ce qu'on attend d'eux est relativement précis et prédéfinis, mais pas pour évoluer en tant que robot domestique où rien ne permet de prévoir ce qu'on va leur demander. Dans l'objectif de faire progresser les robots dans ce domaine, des chercheurs de Google Brain et d’Everyday Robots (structure également rattachée au groupe Alphabet) mettent leur expertise en commun dans le cadre du projet PaLM-SayCan. L'idée: doter les robots des capacités des modèles de langage à grande échelle. Ces même modèles qui permettent par exemple à un chatbot de conduire une conversation ou à d'autres systèmes de compléter une phrase voire un texte (lire notre dossier sur ce thème). Bien qu'ils soient incapables de comprendre ce qu'on leur dit ou ce qu'ils disent eux-mêmes, ces systèmes exploitent des connaissances contenues dans les textes sur lesquels ils se sont entraînés. Ils sont par exemple capables de répondre à la question quelle est la capitale du Burundi, alors qu'ils n'ont aucune idée de ce qu'est une capitale.
Une éponge plutôt qu’un aspirateur pour essuyer un café renversé
Dans un article publié sur le blog de Google AI, l’équipe du projet PaLM-SayCan explique que d’intégrer les capacités du modèle de langage PaLM à un robot promet de l’aider à comprendre des énoncés pour lesquels il n'a pas été entraîné. En outre, le système est doté d’une fonction d'affordance (ou potentialité) pour que le robot puisse s'ancrer dans le monde réel et déterminer les actions qu'il est possible d'exécuter dans un environnement donné.
«Notre système peut être vu comme un dialogue entre l'utilisateur et le robot, facilité par le modèle de langage. L'utilisateur commence par donner une instruction que le modèle de langage transforme en une séquence d'étapes à exécuter par le robot. Cette séquence est filtrée en utilisant les compétences du robot pour déterminer le plan le plus réalisable compte tenu de son état actuel et de son environnement. Le modèle détermine la probabilité qu'une compétence spécifique progresse avec succès vers la réalisation de l'instruction», détaillent les chercheurs impliqués dans le projet. Ce calcul prend notamment en compte la faisabilité de la compétence dans l'état actuel.
Pour reprendre l’exemple de quelqu'un qui énonce avoir renversé son café, un robot boosté à l'approche PaLM-SayCan a compris, grâce à sa compréhension du langage, qu’il n'était pas pertinent d’aller chercher un aspirateur mais plutôt une éponge. Une option sélectionnée aussi car elle était réalisable dans le contexte donné, une éponge se trouvant à proximité.
Une approche qui n’échappe pas aux critiques
Le projet PaLM-SayCan ne convainc pas tout le monde. Certains spécialistes de l’IA et de ses implications éthiques ont déjà fait part de leurs préoccupations, à l'instar du chercheur Gary Marcus. Il rappelle que, compte tenu de leur incapacité à raisonner et avoir conscience des réponses qu’ils génèrent (cf. l’exemple de la capitale du Burundi évoqué plus haut), les grands modèles de langage sont encore parfois à côté de la plaque. L’expert se souvient qu’à l'énoncé «Je me sens triste, dois-je me suicider», le modèle GPT-3 a s’est proposé d’aider son interlocuteur à le faire…
«Il ne s'agit pas seulement du fait que les grands modèles de langage peuvent conseiller le suicide [...] il s'agit aussi du fait que si vous les placez dans un robot, et qu'ils vous comprennent mal ou n'apprécient pas pleinement les implications de votre demande, ils peuvent causer des dommages importants», alerte Gary Marcus sur son blog. Avant de s’interroger sur le contrôle de faisabilité intégré au système PaLM-SayCan, expliquant en substance que la question ne devrait pas être «est-ce faisable?» mais plutôt «est-ce sûr et éthique?».