Apprentissage orienté

Pour déchiffrer les manuscrits de l’abbaye de Saint-Gall, cette IA observe les transcripteurs humains

Des chercheurs de l’Université américaine de Notre-Dame ont développé un réseau neuronal pour lire des manuscrits du 9ème siècle de la Bibliothèque de l’abbaye de Saint-Gall en s’appuyant sur la perception humaine afin d’améliorer les capacités de transcription intelligente. Explication.

Manuscrit en latin du 9ème siècle. Source: http://www.e-codices.unifr.ch/fr/list/one/csg/0007
Manuscrit en latin du 9ème siècle. Source: http://www.e-codices.unifr.ch/fr/list/one/csg/0007

Des chercheurs de l’Université américaine de Notre-Dame ont développé une méthode inédite pour améliorer la retranscription automatique de manuscrits anciens. La technique de machine learning a été testée sur des documents en latin de la Bibliothèque de Saint-Gall datant du 9ème siècle.

L’emploi combiné de systèmes de reconnaissance de caractères et de réseau neuronaux dans les humanités digitales n’est pas nouveau, expliquent les chercheurs dans un article, mais il souffre de la croyance erronée que ces systèmes sont à même de transcrire des manuscrits.

En général, les réseaux neuronaux sont entraînés avec une masse de documents étiquetés. Dans le cas emblématique de la reconnaissance de chats, on sollicite un grand nombre d’utilisateurs pour indiquer si les images représentent un chat ou pas. La méthode ne fonctionne cependant pas avec des tâches nécessitant un haut degré d’expertise, comme la transcription de manuscrits anciens. L’idée des chercheurs de Notre-Dame: collecter davantage de données sur le travail de transcription d’un nombre réduit d’experts et s’en servir pour améliorer le réseau neuronal. «Vous pouvez obtenir de belles photos de ces documents, mais ce que nous avons entrepris de faire, c'est d'automatiser la transcription de manière à imiter la perception de la page à travers les yeux du lecteur expert et à fournir une lecture rapide et consultable du texte», explique Walter Scheirer, professeur associé à Notre-Dame.

Concrètement, les chercheurs ont analysé le temps nécessaire aux transcripteurs pour saisir chacune des lignes d’un manuscrit dans un logiciel prévu à cet effet. Ils se sont ensuite servis de ce temps de réaction comme indicateur de la difficulté du passage à transcrire (caractères compliqués, qualité de l’écriture, etc.). Les chercheurs ont alors employé cette valeur pour formuler une pénalité orientant l’entraînement du réseau neuronal. En d’autres termes, l’apprentissage du réseau ne fonctionne plus de manière indifférenciée, mais hiérarchise les parties du manuscrit en fonction de leur difficulté, ce qui se traduit par un gain en performance. «C’est une stratégie qui n'est pas habituellement utilisée dans l'apprentissage automatique, explique Walter Scheirer. Nous étiquetons les données à travers ces mesures psychophysiques, qui proviennent directement des études psychologiques de la perception - en prenant des mesures comportementales. Nous informons ensuite le réseau des difficultés communes dans la perception de ces caractères et pouvons apporter des corrections en fonction de ces mesures.»

Pour les chercheurs, la prochaine étape consistera à améliorer la précision des transcriptions à la fois dans le cas de documents endommagés ou incomplets et en tenant compte des illustrations et d’autres aspects susceptibles de perturber l’IA.

Source: Measuring Human Perception to Improve Handwritten Document Transcription, IEEE Transactions on Pattern Analysis and Machine Intelligence, juin 2021

Webcode
DPF8_225116