Google habille virtuellement des modèles grâce à l’IA générative
Google a développé un modèle capable, à partir d’une seule photo d’un vêtement, de générer des images où il habille différentes silhouettes. L’outil devrait ainsi permettre aux clients d’une boutique en ligne de se rendre compte du rendu d’un habit sur une personne leur ressemblant.
Google a dévoilé un outil s’appuyant sur l’IA générative pour essayer virtuellement des habits en ligne. Alors que les vêtements sont l’un des produits les plus couramment achetés sur le web, il est très difficile de se faire une idée de ce qu’ils donneront sur soi, une fois livrés. En conséquence, on n’achète pas ou on achète faux ou on commande plus que nécessaire, avec une explosion des colis retournés.
C’est bien entendu un problème pour les e-commerçants et l’essayage virtuel apparaît comme une bonne solution. Zalando qui affiche un taux de retour de 50% a par exemple acquis en 2020 la start-up suisse Fision et sa technologie de scan et d’essayage virtuel pour réduire les colis renvoyés.
L’outil «Try On» que Google lance dans un premier temps sur le marché américain, pour quelques marques dont H&M, n’est pas à proprement parler une cabine d’essayage virtuelle. Il s’agit en fait d’une modèle d’IA générative (diffusion model) capable d’appliquer virtuellement un habit sur une variété de modèles. A partir d’une seule photo du vêtement, l’IA crée des images où il est porté par des personnes d’une grande diversité de silhouettes, races, etc.
L'outil permet de visualiser le vêtement sur différents modèles et silhouettes.
Modèle d'IA générative
Pour entraîner TryOnDiffusion, les chercheurs expliquent s’être inspirés de modèles de diffusion générant des images à partir de textes. Toutefois, au lieu d’utiliser du texte en input de la procédure, ils ont introduit une paire d’images: une image avec un vêtement, une image avec une personne. En combinant deux techniques (image diffusion et cross-attention), le modèle parvient à générer une image de la personne portant le vêtement.
Exploitant ensuite la gigantesque base de photographies de Google Shopping Graph, ils ont ensuite entraîné le modèle à rendre compte du vêtement porté dans différentes poses en lui soumettant à nouveau des paires d’images. Un processus répété avec des millions de paires d’images avec outes sortes d’habits et de personnes. «Le modèle d'IA apprend par exemple à faire correspondre la forme de la chemise dans la pose latérale avec la personne dans la pose frontale, et vice versa, jusqu'à ce qu'il puisse générer des images réalistes de la chemise sur cette personne sous tous les angles», explique Ira Kemelmacher-Shlizerman, Senior Staff Research Scientist Shopping, sur le blog de Google.