Modèles de langage

François Chollet, Google: «On aura bientôt entraîné les modèles sur tous les textes humainement disponibles»

Responsable de développements chez Google dans le domaine de l’intelligence artificielle, François Chollet s’est vu décerner en décembre le premier Global Swiss AI Award. C’est à ce chercheur français renommé que l’on doit le framework Keras permettant d’interagir avec des algorithmes de deep learning et employé par les équipes de Google pour Youtube et Waymo (voiture autonome). François Chollet est aussi l’auteur du livre «Deep Learning with Python». En entretien avec ICTjournal, il aborde les modèles langagiers à la GPT-3 et les difficultés à concevoir des intelligences artificielles efficaces dans un large spectre de situations.

Lauréat du premier Global Swiss AI Award, François Chollet est responsable de développements chez Google dans le domaine de l’intelligence artificielle.
Lauréat du premier Global Swiss AI Award, François Chollet est responsable de développements chez Google dans le domaine de l’intelligence artificielle.

On voit depuis quelques mois une course aux modèles langagiers gigantesques à la GPT-3 et aux capacités de calcul tout aussi gigantesques nécessaires à leur entraînement. Que pensez-vous de ces technologies et de cette évolution?

Les modèles de langage gigantesques sont effectivement en vogue, on explore ce qui est possible. Suite au développement de l’architecture Transformer publiée par Google en 2017, on a commencé à développer des modèles de langage de plus en plus grands, parce qu’on a vu que leur performance augmentait avec la taille. Au final, ce qui pourrait limiter cette évolution, ce ne sont pas les infrastructures de calcul nécessaires à l’entraînement, mais plutôt les données dont on dispose. On est proche du moment où on aura entraîné les modèles sur toutes les données textes humainement disponibles, on n’aura plus rien pour les alimenter.

Il est absurde de penser qu’on atteindra une intelligence de niveau humain simplement en construisant des modèles de plus en plus grands.

Ces modèles n’atteindront donc jamais l’intelligence générale...

De mon point de vue, il est absurde de penser qu’on atteindra une intelligence de niveau humain simplement en construisant des modèles de plus en plus grands. En augmentant la taille des modèles et en rajoutant des données, on parvient à couvrir de plus en plus de situations et de cas d’usage, mais on n’atteint pas la généralité. L’intelligence ce n’est pas ça: c’est l’utilisation efficace des données dont on dispose et pas l’accroissement sans fin de ces données. Un bébé apprend à marcher avec quelques centaines d’heures d’entraînement seulement et avec un corps qui change. Il y a une énorme différence d’efficacité entre le cerveau humain et le deep learning. Le problème ce n’est donc pas la dimension, mais la nature des modèles.

Quelles difficultés se présentent pour gagner en généralité?

Il faut garder à l’esprit que l’on fait peu de progrès en matière de généralité. On a la capacité de développer un système pour un problème précis, comme jouer au Go ou plier des protéines. Mais on a du mal lorsque ce sont des problèmes imprévisibles avec sans cesse des situations nouvelles. La conduite automobile en est un bon exemple: c’est un problème difficile que l’on ne peut pas résoudre avec du deep learning uniquement – c’est pourquoi Tesla n’y parvient pas. Chez Waymo, nous utilisons à la fois du deep learning et beaucoup d’ingénierie des modèles de conduite, ce qui marche beaucoup mieux.

Quelles sont les pistes pour créer une intelligence plus générale? Faut-il élargir l’IA à d’autres techniques et courants théoriques?

A ce stade, il est clair que le deep learning seul ne peut pas suffire. Il nous faut des idées nouvelles. Un modèle de deep learning fait sens de quelque chose de nouveau, comme une nouvelle image ou une nouvelle situation sur la route, en interpolant entre les différentes choses auxquelles il a été exposé pour son entraînement. Ceci marche très bien pour tout ce qui est de l’ordre de la perception, par exemple si le modèle a vu beaucoup d’images de chiens, le modèle peut interpoler entre ces différentes images pour reconnaître une nouvelle image de chien jamais vue auparavant. Mais ça ne marche pas du tout pour les problèmes de raisonnement pas à pas, parce que ça n’est pas interpolatif. Par exemple, la programmation. Si on veut créer des systèmes capables de s’adapter à des situations inattendues, il faut qu’ils soient aussi capables de raisonnement. Pour ce qui est des pistes à suivre pour y parvenir, je pense que la synthèse de programmes, en particulier la programmation génétique, offre des avenues intéressantes. Il y a beaucoup de synergies potentielles entre le deep learning et la synthèse de programmes, et je pense que les systèmes du futur vont mélanger ces deux techniques.

Si on veut créer des systèmes capables de s’adapter à des situations inattendues, il faut qu’ils soient aussi capables de raisonnement.

Quelles sont aujourd’hui les véritables innovations dans le domaine?

Les véritables découvertes en intelligence artificielle sont rares, à mon avis on n’en a pas vu depuis Transformer en 2017. La plupart des progrès auxquels on assiste aujourd’hui sont incrémentaux et de l’ordre de la mise en échelle. On progresse aussi horizontalement en appliquant une technique à de nouveaux cas d’usage. Par exemple, la reconnaissance d’images peut résoudre des milliers de problèmes différents. Aussi impressionnants soient-ils, ces développements ne nous rapprochent pas de l’intelligence générale. Les modèles de deep learning nécessitent beaucoup de données et ils restent relativement rigides quant à leur utilisation. Si l’on veut faire de vrais progrès, il faudra de nouvelles découvertes véritables...

Le deep learning est aussi limité à un certain type de problème...

Le deep learning résout bien les problèmes de perception ou d’intuition. Il est en revanche extrêmement mauvais pour les problèmes de raisonnement. Ceci dit, il y a un spectre continu qui va de la perception au raisonnement. On peut potentiellement résoudre des problèmes de raisonnement de façon perceptive à condition d’avoir beaucoup de données d’entraînement. C’est un peu la manière dont on traite le langage.

La plupart des progrès auxquels on assiste aujourd’hui sont incrémentaux et de l’ordre de la mise en échelle.

On s’épargne en quelque sorte le raisonnement...

Le deep learning peut très bien compléter un paragraphe de code, mais pas comprendre ce qu’il y a dedans et avoir le raisonnement d’un ingénieur logiciel. Tout ce que l’on fait de manière immédiate et intuitive, «sans y prêter attention» peut être réalisé par le deep learning: reconnaître des objets dans une image, conduire dans une situation ordinaire en pensant à autre chose, etc. Idem pour produire du langage. En ce moment, je vous parle, sans réfléchir à chacun de mes mots ou à la syntaxe de mes phrases, c’est complètement intuitif. Donc, on peut le faire avec du deep learning.

Tags
Webcode
DPF8_244851