Créativité algorithmique

DALL.E: l’intelligence artificielle qui crée une image à partir de n’importe quel texte

Le laboratoire OpenAI a développé une intelligence artificielle capable de générer des images de qualité à partir d’une simple phrase descriptive. Les capacités étonnent et soulèvent des questions.

Après la rédaction de textes, l’IA crée les images pour les accompagner. Derrière la dernière prouesse en date, on retrouve la même société OpenAI et son système GPT-3. En 2020, l’entreprise dévoilait une solution d’intelligence artificielle capable de rédiger la suite d’un texte crédible à partir de quelques phrases. Et le quotidien britannique The Guardian s’amusait à tromper ses lecteurs avec un article fruit de la prose de l’algorithme.

Après les articles, voici donc les images. Le laboratoire OpenAI vient de lever le voile sur sa dernière création baptisée DALL.E, un mot-valise formé à partir de Dali et de WALL.E, le robot imaginé par les studios Pixar. La nouvelle intelligence artificielle repose sur une version de GPT-3 de 12 milliards de paramètres. Entraînée avec des paires visuel-texte, la solution est capable de générer de nouvelles images à partir d’un bref descriptif. Parfois, les images sont générées de zéro, parfois il s’agit de transformations d’images existantes.

Et les résultats sont souvent convaincants. «C’est étonnant, mais pas totalement inattendu; DALL.E et GPT-3 sont deux exemples d'un sujet plus vaste en matière de deep learning: des réseaux neuronaux extraordinairement grands entraînés sur des données Internet non labellisées peuvent se montrer très polyvalents et capables d'accomplir de nombreuses tâches qui n'étaient pas prévues à l'origine», commente Dale Markowitz, ingénieure en IA chez Google.

Des capacités étonnantes

Dans son blog, la société décrit les nombreuses capacités du système. DALL.E est notamment à même de produire des images en modifiant les attributs d’un objet. A partir de l’entrée «Un cube avec la texture d’un porc-épic», il produit par exemple les images suivantes:

La solution est aussi capable de dessiner plusieurs objets en distinguant quels attributs s’appliquent à quels éléments. Voici les images produites avec le texte: «Un emoji d’un bébé pingouin portant un chapeau bleu, des gants rouges, un pull vert et des pantalons jaunes»:

L’IA produit aussi des images intégrant des instructions indirectes, comme une lumière différente si le texte indique qu’une scène se passe le soir. Ou change la police de caractère en fonction du contexte, comme ici avec l’instruction «Une devanture avec l’inscription OpenAI»:

En jouant avec la solution, ses concepteurs sont aussi parvenus à lui faire réaliser des tâches autres que celles envisagées au départ. Ainsi, DALL.E peut produire des dessins à partir d’une photo, il suffit de lui donner l’instruction «Exactement le même chat en haut que le dessin en dessous»:

Pour chaque exemple des capacités de DALL.E, les développeurs précisent néanmoins que les résultats ne sont pas toujours à la hauteur. Ils ont aussi identifié certaines limites du système (un trop grand nombre d’objets, par exemple) et des astuces pour améliorer sa performance (donner plusieurs variations du descriptif texte, par exemple).

Concurrence pour les créatifs et droit d’auteur

Au-delà de ces applications de laboratoire, DALL.E pourrait trouver des usages bien concrets. Au lieu de créer des illustrations ou de scanner les banques d’images, l’IA pourrait produire quantité d’images répondant à toutes les demandes, de quoi concurrencer de nombreuses professions. Voici par exemple ce que le système génère à partir du descriptif «Un salon avec deux fauteuils blancs et une peinture du Colisée. La peinture est au-dessus de la cheminée»:

Sans oublier que les images produites par DALL.E ne sont pas vraiment générées ex-nihilo, mais grâce aux milliers d’images utilisées pour l’entraîner. «Le principal problème éthique de DALL-E est le blanchiment des droits d'auteur, explique ainsi Alex Champandard, co-fondateur de Creative AI, au site The Register. Elle est entraînée sur un large ensemble de données extraites d'Internet sans aucune attribution. Il a été démontré que les modèles de langage GPT reproduisent mot pour mot les contenus d’entraînement, donc la situation juridique, par exemple l'utilisation équitable, n'est pas claire tant qu’elle n’est pas examinée par un tribunal».

Dans son post, OpenAI promet d’étudier les conséquences que pourrait avoir la commercialisation de sa solution: «À l'avenir, nous prévoyons d'analyser la manière dont des modèles comme DALL.E sont liés à des questions sociétales telles que l'impact économique sur certains processus de travail et certaines professions, le risque de biais dans les résultats des modèles et les défis éthiques à plus long terme qu'implique cette technologie».

Tags
Webcode
DPF8_202480