Vesuvius Challenge

Comment le machine learning a permis de déchiffrer d'antiques papyrus carbonisés

Dans le cadre d’un concours scientifique, des étudiants férus d’IA sont parvenus à lire des textes cachés dans des rouleaux carbonisés lors de l’éruption du Vésuve il y a près de 2000 ans. Comment s'y sont-ils pris?

Le rouleau de parchemin partiellement déchiffré a d’abord été numérisé en 3D avant d'être virtuellement déroulé. (Source: Vesuvius Challenge)
Le rouleau de parchemin partiellement déchiffré a d’abord été numérisé en 3D avant d'être virtuellement déroulé. (Source: Vesuvius Challenge)

En décembre 2023, une avancée scientifique historique a été réalisée par des participants de la première phase du Vesuvius Challenge. Objectif du concours? Lire l'intérieur d'un rouleau de papyrus d'Herculanum, carbonisé lors de l’éruption du Vésuve en l’an 79, la même qui avait enseveli la ville voisine de Pompéi. Une récompense de 700’000 dollars a été attribuée à l’équipe formée de trois étudiants passionnés d’IA, qui ne se connaissaient pas à l'origine, mais qui ont bien fait de mettre leurs compétences en commun: Youssef Nader, Luke Farritor et Julian Schilliger (étudiant à l’EPFZ). Leur prouesse a nécessité d'exploiter avec succès des techniques avancées de machine learning. 

Rouleaux scannés en 3D virtuellement aplatis

Le Vesuvius Challenge a été lancé par Nat Friedman, CEO de GitHub, Daniel Gross, ancien chef de projets IA chez Apple, et Brent Seales, professeur en informatique à l'Université du Kentucky. La documentation disponible sur le site web du challenge parle en détails des différentes étapes ayant mené au déchiffrement de ces écrits antiques. Le défi a fait appel à des scans CT de rouleaux calcinés, images produites à l’aide d’une technique dite de tomodensitométrie consistant à mesurer l'absorption des rayons X par les tissus puis à les numériser. Cette numérisation en 3D a ensuite donné lieu à un processus de segmentation, où les images tridimensionnelles ont été virtuellement déroulées. Restait à identifier des régions marquées par l'encre dans les segments aplatis numériquement.

C’est cette détection de l’encre qui présentait la plus grande difficulté pour les scientifiques travaillant sur ces parchemins. Car aucune technique existante n’était en mesure de révéler l’encre végétale utilisée à l’époque, celle-ci se confondant au papyrus calciné. Des recherches antérieures ont toutefois permis de découvrir un motif de fissure formant des lettres à la surface des rouleaux. L’équipe lauréate a ainsi développé un modèle de machine learning à même de détecter l'encre sur les segments numérisés et aplatis, à partir de ces micro-craquelures. Pour y parvenir, trois architectures différentes (TimeSformer, Resnet3D-101 et I3D) ont été convoquées. 

Des taches d’encre qui font sens une fois regroupées 

Les images les plus probantes proviennent du modèle basé sur TimeSformer. A chaque nouvelle craquelure découverte, le modèle s'est amélioré, révélant davantage de craquelures dans le parchemin. Progressivement, les traces ont commencé à former des lettres et des indices de mots réels. Il est intéressant de remarquer que ce système de détection de l'encre n'exploite ni les caractéristiques des lettres helléniques, ni des techniques de reconnaissance optique de caractères (OCR), ni des modèles proprement  linguistiques. En fait, les minuscules taches d'encre sont découvertes indépendamment les unes des autres, l'écriture apparaissant peu à peu par agrégation des taches.

Le Vesuvius Challenge est aujourd’hui passé à sa deuxième phase. Le récent accomplissement a permis de déchiffrer quatre passages de 140 caractères chacun (avec au moins 85% de caractères récupérables). En 2024, l’objectif consiste à lire 90% des lettres de quatre rouleaux déjà scannés, afin de jeter les bases pour lire les 800 rouleaux existants. 

Le texte d’un philosophe épicurien

Mais en fait, que disent les passages déchiffrés? Il s’agit apparement d’un texte de philosophie épicurienne, dans lequel l’auteur se demande, notamment, si des choses disponibles en moindre quantité procurent plus de plaisir que celles disponibles en abondance: «[...] comme dans le cas de la nourriture, nous ne croyons pas d'emblée que les choses rares sont absolument plus agréables que celles qui sont abondantes». Dans un autre extrait, l’auteur s'en prend à ses détracteurs qui «n'ont rien à dire sur le plaisir, ni en général, ni en particulier, lorsqu'il s'agit de le définir». 
 

Tags
Webcode
SUycBSaz