Marian MT et cluster Kubernetes

Comment Infomaniak a développé et opère son propre traducteur automatique d'e-mails

Infomaniak a lancé un traducteur automatique pour son service e-mail. Une solution de machine learning partiellement entraînée par ses soins et opérée sur une infrastructure spécifique. La firme planche déjà sur d’autres outils intelligents s’appuyant sur les mêmes systèmes et compétences. Explication.

(Image: Towfiqu barbhuiya sur Unsplash)
(Image: Towfiqu barbhuiya sur Unsplash)

Le service e-mail d’infomaniak intègre depuis quelques semaines un outil de traduction automatique, tant pour la lecture que pour la rédaction, pour le français, l’allemand, l’anglais, l’italien et l’espagnol. Son originalité: la solution IA ne repose pas sur un service tiers (DeepL, Google Translate) contacté via une API, mais elle est hébergée, opérée et en partie entraînée par Infomaniak, comme la société l’a expliqué à ICTjournal.

Outils open source et infrastructure dédiée

Pour développer son outil, Infomaniak s’est appuyé sur Marian MT, un framework de traduction automatique open source, employé dans le monde académique et par des organisations publiques et privées (Commission européenne, OMPI, eBay, Microsoft, Intel, etc.). Le modèle a été entraîné avec les données d’Opus, un corpus ouvert de contenus mutilingues provenant notamment de textes officiels et de fichiers de localisation. Ingénieur en machine learning chez Infomaniak, François Kawala précise que le modèle a ensuite été ré-entraîné et affiné de manière à bien traduire les termes employés dans le contexte et l’interface des applications d’Infomaniak. La firme compte par ailleurs poursuivre l’amélioration du modèle en l’entraînant typiquement avec de nouveaux textes de lois disponibles en plusieurs langues, mais aussi développer des outils de correction grammaticale et orthographique.

Au-delà de la couche logicielle, l’entraînement et l’exploitation de systèmes de réseaux neuronaux représentent aussi des défis en matière de calcul. Infomaniak a ainsi déployé une nouvelle infrastructure dédiée sous la forme d’un cluster Kubernetes reposant sur Open Stack et des instances GPU. La firme justifie son choix d’entraîner son modèle sur sa propre infrastructure par souci de respecter ses engagements écologiques et donc de maîtriser le type d’énergie employée.

Indexation automatique à venir

Fort de cette infrastructure taillée pour l’IA et d’une équipe de spécialistes en machine learning, Infomaniak a d’autres projets en tête pour diffuser de de l’intelligence dans son écosystème applicatif, explique son porte-parole Thomas Jacobsen. La prochaine solution à en profiter pourrait être son service de stockage en ligne kDrive.

La firme a en effet développé un outil capable d’indexer automatiquement les fichiers stockés. Déjà utilisée à l’interne, la solution pourrait être proposée aux entreprises clientes à l’avenir. Sur la base des catégories appliquées par une entreprise à ses documents stockés, la solution serait capable d’apprendre puis d’indexer automatiquement les nouveaux fichiers téléchargés. Entraîner un modèle séparé pour chaque entreprise cliente pose cependant de nouvelles contraintes côté infrastructure, souligne François Kawala. Se pose notamment le défi de lisser et de gérer les workloads entre entraînement et indexation. Pour mieux maîtriser les charges de calcul et donc d’énergie, la firme réfléchit à un déploiement progressif chez ses clients, et pourrait si nécessaire s’appuyer sur les capacités de son cloud.

Tags
Webcode
DPF8_258484