Open data & IA

Ce chatbot traduit les questions en requêtes SQL pour explorer les statistiques suisses

Développé notamment par le DSCC et la ZHAW, le projet StatBot.swiss permettra bientôt de poser des questions à un chatbot pour explorer les données de la plateforme opendata.swiss.

(Source: "PHC (Painfully Human Chatbot) / Iosune Sarasate Azcona (ES)" by Ars Electronica is licensed under CC BY-NC-ND 2.0 )
(Source: "PHC (Painfully Human Chatbot) / Iosune Sarasate Azcona (ES)" by Ars Electronica is licensed under CC BY-NC-ND 2.0 )

Il sera bien possible de dialoguer avec un chatbot pour explorer et exploiter les données ouvertes fournies par l’administration publique suisse. Mené par le Centre de Compétences en science des données (DSCC) et la Conférence suisse des offices régionaux de statistique (CORSTAT), le projet StatBot.swiss devrait voir son prototype fonctionnel débarquer d'ici fin 2023.

L'idée de concevoir le StatBot.swiss est née du constat que le grand public a encore du mal à naviguer et à faire bon usage des ensembles de données ouvertes du gouvernement, accessibles via la plateforme opendata.swiss. Des compétences telles que le codage et le formatage des données sont généralement nécessaires pour y parvenir. Le chatbot en développement devrait ainsi être capable de dialoguer avec ces données ouvertes par le biais de questions en langage naturel.

Chatbot basé sur le logiciel libre ValueNet né à la ZHAW

Afin de rendre les données lisibles par les machines, la phase initiale du projet s'est concentrée sur l'harmonisation et la standardisation des données du site opendata.swiss. Le chatbot, qui se fonde sur le machine learning, est développé par le DSCC en collaboration avec la Haute école des sciences appliquées de Zurich (ZHAW) afin d'interroger efficacement cette base de données SQL.

Le logiciel libre ValueNet né à la ZHAW, qui fournit un système complet d’interprétation de langage naturel et de sa traduction en langage de requêtes SQL, constitue la base du projet. ValueNet permet de lancer une recherche dans une base de données structurée de manière relationnelle sur la base des termes précis de la requête. «L'idée principale de notre approche est d'utiliser non seulement les métadonnées de la base de données sous-jacente, mais aussi les informations sur les données de base en tant qu'entrée pour notre architecture de réseau neuronal. En particulier, nous proposons une nouvelle esquisse d'architecture pour extraire les valeurs d'une question d'utilisateur et proposer des valeurs candidates possibles qui ne sont pas explicitement mentionnées dans la question», expliquent les créateurs de  ValueNet dans un papier de recherche. 

GPT-4 également utilisé dans un cas d’usage comparable 

D’autres projets de traduction de langage naturel en requêtes SQL existent pour l'exploration de données statistiques. A l'instar de Census GPT, aux Etats-Unis, un outil permettant de poser des questions par écrit sur la démographie des Etats-Unis dans un anglais simple. Census GPT-4 se base de son côté sur textSQL, un projet qui fait appel à la puissance du plus populaire des golems, au cœur de ChatGPT. GPT-4 est mis à profit pour convertir les questions en SQL mais également pour interroger la base de données. 

Tags
Webcode
wgrbLhLZ