Meta dévoile DINOv3, un modèle IA auto-supervisé pour l’analyse d’images
DINOv3, un nouveau modèle IA de Meta, a appris à interpréter des images sans annotations humaines. Il peut être utilisé pour un large éventail d’applications, allant des systèmes embarqués à la surveillance environnementale.

Meta a dévoilé DINOv3, un modèle IA de vision par ordinateur, qui a la particularité d'être issu d’un apprentissage auto-supervisé (self-supervised learning, SSL). Selon l’entreprise, cette version est capable de rivaliser, voire de dépasser, les systèmes supervisés traditionnels sur de nombreuses tâches. Ce nouveau système serait performant aussi bien sur des images issues du web que sur des clichés pris par des satellites.
Contrairement aux approches classiques qui reposent sur de vastes ensembles d’images annotées manuellement, DINOv3 apprend sans étiquettes. Le modèle a été entraîné sur 1,7 milliard d’images et compte jusqu’à 7 milliards de paramètres. Meta affirme que cette méthode réduit fortement le temps et les coûts nécessaires à la formation.
Des capacités diversifiées
Les capacités de DINOv3 incluent la classification d’images, la segmentation sémantique (identifier et délimiter des objets dans une image) et le suivi d’objets dans une vidéo. DINOv3 se distingue également par sa capacité à produire des représentations visuelles en très haute résolution. Ces représentations, qui décrivent finement le contenu de l’image, peuvent être exploitées par de petits modules additionnels, nécessitant peu d’exemples annotés pour obtenir des résultats performants. Le même modèle de base peut ainsi servir, sans modifications lourdes, à plusieurs applications en parallèle, optimisant les coûts de calcul, notamment pour les systèmes embarqués ou les environnements IT aux ressources limitées.
Meta propose en plus de la version la plus puissante une famille de modèles plus compacts — ViT et ConvNeXt — destinés aux chercheurs et développeurs ayant des ressources limitées. Tous sont mis à disposition avec le code d’entraînement et des modèles pré-entraînés, sous licence commerciale.
Meta souligne que la polyvalence de DINOv3 ouvre des perspectives dans des secteurs variés, de la santé à l’automobile, en passant par la surveillance ou la logistique. Dans le domaine environnemental, Meta cite l’exemple du World Resources Institute (WRI), qui utilise déjà DINOv3 pour analyser des images satellitaires et mesurer la hauteur de la canopée au Kenya. La précision obtenue a permis de réduire l’erreur moyenne de 4,1 mètres à 1,2 mètre, facilitant notamment l’automatisation du suivi de projets de reforestation.