Compétences

Data scientists: les héros du Big Data

| mise à jour

Le Big Data est au sommet des priorités de nombreuses entreprises, mais les projets peinent souvent à se concrétiser et à apporter les retours escomptés. Faute notamment des compétences nécessaires pour convertir les données en véritables insights. De quoi faire des data scientists des profils particulièrement recherchés…

Au début de la deuxième guerre mondiale, les services secrets britanniques réunissent une équipe de surdoués – dont Alan Turing – afin de déchiffrer les codes de la machine allemande Enigma. Pour débusquer ces talents rares, ils organisent notamment une compétition de mots-croisés avec le Daily Telegraph et recrutent ceux qui sont parvenus à les résoudre en moins de 12 minutes. L’histoire est d’ailleurs reprise dans le film The Imitation Game.

Huit décennies plus tard, les entreprises sont elles aussi à la recherche de mathématiciens et statisticiens de talent pour fouiller et extraire de la valeur des énormes volumes de données qu’elles amassent. En Suisse, un tiers des entreprises considèrent que le Big Data est une priorité, selon une enquête de MSM Research. De la banque aux télécoms, en passant par la grande distribution, les sociétés comptent ainsi sur les informations issues des données pour les aider dans leurs décisions, améliorer leurs offres et réaliser des économies. A l’image de la Suva qui explique qu’en 2015, le Big Data lui a permis de détecter de façon automatisée des demandes injustifiées et d’économiser ainsi 40 millions de plus que l'année précédente. Ou encore des Transports Publics Genevois (TPG), qui ont mis en place une structure et des senseurs pour remonter des données des véhicules et des entrepôts. Responsable marketing aux TPG, Michaël Chopard explique que le travail sur les données d’exploitation a permis de dépassionner les débats au sein de l’entreprise: «On peut remonter aux courses de la veille et sortir des graphiques qui montrent ce qui s’est passé. On partage une confiance dans les données, cela réduit la subjectivité».

Des projets «scientifiques» difficiles à mettre en œuvre

Si les initiatives Big Data se multiplient, beaucoup ne vont pas plus loin que la phase de pilote. Selon Gartner, seul 15% des projets passent en production. «C’est peut-être dû au fait que beaucoup de projets Big Data n’ont pas de retour sur investissement tangible qui puisse être déterminé en amont», suggère Nick Heudecker, directeur de recherche chez Gartner. Les projets Big Data buttent aussi sur d’autres obstacle: craintes sécuritaires, manque d’expertise, complexité de l’intégration, données insuffisantes ou de faible qualité, etc.

Par ailleurs, les spécialistes soulignent le caractère complexe et scientifique de ces projets. A l’instar d’Olivier Verscheure, qui, après avoir travaillé pendant une vingtaine d’années chez IBM, est à la tête du tout nouveau Swiss Data Science Center dans lequel le conseil des EPF a investi 30 millions de francs pour quatre ans. Pour le chercheur, il faut comprendre la data science comme une journey: «Le processus consiste à passer par de multiples étapes, depuis l’acquisition des données, leur débruitage, l’homogénéisation, la modélisation statistique, et au final l’interprétation des résultats, ainsi que leur visualisation. Il faut maîtriser toutes ces phases pour aboutir à des découvertes à même d’orienter les actions et décisions». Pour Diego Kuonen, CEO de la société spécialisée Statoo et Professeur de data science à l’Université de Genève, les entreprises doivent accepter que les initiatives de data science reposent sur une démarche scientifique d’amélioration continue, faite d’hypothèses et de validations, et qu’elles mettent parfois du temps à déployer leurs effets.

Les deux experts se méfient d’autre part de l’utilisation inconsidérée de solutions cognitives et de deep learning employées notamment par les géants du web pour la reconnaissance d’images. Pour intéressants qu’ils soient, les résultats livrés par ces systèmes peinent en effet à être interprétés et validés. Une situation acceptable lorsqu’il s’agit de mesurer un phénomène sur les réseaux sociaux, mais bloquante s’il s’agit de déterminer la solvabilité d’un client bancaire ou d’analyser des données de santé.

Les data scientists, des moutons à cinq pattes

Cette complexité explique pourquoi beaucoup d’entreprises peinent à transformer les données dont elles disposent en avantage business. Selon une étude menée par la MIT Sloan Management Review, ce ne sont pas les données qui manquent aux organisations, mais les collaborateurs à même d’en tirer profit: «La technologie n’est plus la principale barrière pour créer de la valeur business à partir des données. La plus grande barrière, c’est le manque de compétences appropriées». Pour le dire autrement, si les données sont une mine d’or pour les affaires, les data scientists sont ces mineurs sans lesquels ces gisements ne valent pas grand chose.

Surfant sur ce besoin croissant, de nombreuses écoles inaugurent des formations en analyse de données ouvertes aux professionnels. En Suisse, les HES de Berne et Zurich ont lancé récemment des masters en data science et l’Université de Genève s’apprête à ouvrir un master en business analytics. A la rentrée 2017, l’EPFL inaugurera elle aussi un master en data science.

Pour l’heure, les entreprises recrutent surtout des mathématiciens et statisticiens sortant des universités pour occuper la fonction de data scientist, car ces capacités pointues sont difficiles à apprendre «sur le tas». Selon une enquête d’AnalyticsWeek, en 2015, trois quarts des data scientists avaient effectué un bachelor ou un master et 19% un doctorat. En plus de leurs compétences mathématiques et statistiques, les data scientists sont censés comprendre les technologies Big Data (Hadoop, informatique parallèle et distribuée), savoir programmer (algorithmes, Matlab, R, Python) et s’intéresser aux enjeux business. Sans oublier des soft skills telles que la curiosité, la persévérance, la créativité ou la capacité à communiquer. «On cherche des moutons à cinq pattes», plaisante Cécile Vermeil, qui dirige les RH du prestataire IT Itecor dont l’activité Big Data se développe rapidement. «Pour les retenir, il faut aussi leur proposer sans cesse de nouveaux défis pour alimenter leur intellect», ajoute la responsable. De fait, selon l’étude de la MIT Sloan Management Review, quatre organisation sur dix éprouvent de la difficulté à recruter et à conserver des collaborateurs avec des compétences en analytics. Directeur commercial chez Itecor, Blaise Guignard explique que l’un de ses projets Big Data a été gelé pendant plusieurs mois, le temps que le client trouve un data scientist servant d’interlocuteur. Comme dans d’autres domaines, l’étude du MIT montre que les entreprises les plus avancées en Big Data sont aussi celles qui ont le plus de facilité à attirer et retenir les collaborateurs les plus talentueux. La concurrence est donc rude, notamment contre des start-up «nées dans les data» et ayant des projets innovants à proposer aux jeunes diplômés.

Intégrer les data scientists

La data science est aussi un sport d’équipe. D’une part, les data scientists sont amenés à travailler avec les responsables métier qui sont à même de poser les questions business orientant les recherches. D’autre part, les data scientists doivent travailler étroitement avec les équipes IT qui savent où sont les données et comment elles sont désignées dans les systèmes. Cette collaboration et l’intégration réussie de ces talents sont déterminantes tant pour le succès des projets de data science que pour la satisfaction des data scientists, signale l’étude du MIT. A cet égard, les experts recommandent de constituer la data science comme un pôle de compétences séparé plutôt que de les rattacher au métier ou à l’IT. On s’assure ainsi que toute l’entreprise profite de cette capacité et on évite de frustrer les data scientists en les englobant dans l’organisation existante. Diego Kuonen souligne par ailleurs que, pour les entreprises qui en ont les moyens, constituer une équipe de data scientists présente l’avantage de mettre en commun des compétences complémentaires en combinant par exemple certains profils plus forts en statistique avec d’autres plus forts en programmation.

Sourcing alternatif

Pour des sociétés plus petites ou qui débutent dans le domaine ou qui font face à des besoins ponctuels ou très spécifiques, l’outsourcing se révèle une alternative intéressante. Quelques prestataires IT présents en Suisse romande ont développé des pôles de compétences en matière de Big Data pour répondre à ce besoin. Itecor explique faire face à de nombreuses demandes d’accompagnement, en particulier dans les domaine du CRM, de la sécurité et de la maintenance industrielle.

Une autre option inédite particulièrement adaptée à des problèmes de data science très complexes consiste à faire appel à l’open innovation. Depuis plusieurs années, Syngenta fait appel à des talents externes pour concevoir ses outils analytiques. Grâce à un crowdsourcing savamment monitoré, la société suisse spécialisée dans l’agroalimentaire a notamment développé un outil permettant de déterminer quelles espèces de soja croiser et quelles techniques de reproduction utiliser pour maximiser les chances de succès. Pour les responsables, cette démarche présente notamment l’avantage de se focaliser sur la recherche d’experts pointus sans s’embarrasser de leur adéquation avec l’organisation.

Sur un modèle analogue, la société australienne Kaggle organise des compétitions pour résoudre des problèmes d’analyse prédictive posés par des entreprises. Les challenges et leurs données correspondantes sont proposés aux milliers de data scientists connectés à la plateforme avec des récompenses aux plus méritants. CEO et fondateur de Kaggle, Anthony Goldbloom juge ces compétitions particulièrement adaptées dans deux cas de figure: lorsque le jeu de données a une grande valeur et que l’entreprise veut en tirer le maximum, et lorsque l’entreprise est confrontée à un problème particulièrement complexe. Actuellement par exemple, plus de 800 équipes concourent dans une compétition proposée par la banque espagnole Santander. Le challenge: établir le meilleur système de recommandation prédisant quels produits les clients de la banque vont acheter le mois prochain sur la base de leurs comportements passés et de celui de clients similaires. Autre défi proposé cette fois par le fabricant allemand Bosch: prédire les défaillances internes à partir des milliers de mesures et de tests effectués pour chaque composant de la chaîne d’assemblage. Un jeune russe, un collaborateur brésilien de Petrobras et un spécialiste de la gestion du risque établi en Grèce.

Pour débusquer ces licornes que sont les data scientists, on retourne pour ainsi dire au système employé par les services secrets britanniques il y a 80 ans…

Tags
Webcode
DPF8_21678