Une formation spécifique et pluridisciplinaire
La demande de spécialistes des big data sur le marché de l’emploi se structure autour de trois profils, architecte de systèmes big data , chief data officer et data scientist.
REPÈRES
Les big data appellent de nouveaux profils sur le marché de l’emploi. Les offres relatives aux « métiers des données » affichent une hausse spectaculaire.
Ils appellent donc aussi de nouveaux programmes de formation, intégrant leurs multiples facettes et permettant d’acquérir une combinaison inédite de compétences : des connaissances et des savoir-faire techniques naturellement (informatique, mathématiques appliquées), une aptitude à anticiper les services et usages rendus possibles par les big data, mais aussi des connaissances juridiques relatives à la collecte, au stockage et à l’exploitation des données personnelles, tant le phénomène bouscule le concept de « vie privée » et fait aujourd’hui bouger les barrières légales.
L’architecte
Afin de concevoir un système d’information permettant d’acquérir, de stocker, de nettoyer, de représenter et d’analyser des données très volumineuses, d’une grande variété (matrices de nombres, séries temporelles, contenu multimédia, graphes dynamiques décrivant l’évolution des réseaux sociaux) en « temps réel », il convient d’assembler une multitude de briques technologiques (systèmes de fichiers distribués, parallélisation massive).
Aucun framework ne permet aujourd’hui à lui seul d’effectuer l’ensemble de ces tâches. L’architecte big data est celui qui saura construire « sur mesure » un tel système, adapté à l’activité de son entreprise, et le pérenniser.
Le chef
Des connaissances générales
Des connaissances générales relatives à ce que permet aujourd’hui le traitement des données, aux technologies à mettre en œuvre pour en réaliser l’acquisition et l’exploitation, aux dangers afférents (dépendance de certaines activités à l’égard des systèmes d’information, disparition de la vie privée) sont absolument indispensables à presque tous les cadres et décideur
Dans le but de cerner les enjeux stratégiques associés à la création possible de valeur à travers les big data et de mettre en place une organisation adaptée, la gouvernance de certaines entreprises doit être modifiée de façon à intégrer un chief data officer, dont la fonction concilie technologie de l’information et business au sein du groupe.
Le chief data officer perçoit l’impact éventuel des données sur chacun des « métiers » de la société, et crée ainsi les conditions de l’innovation et du big business à venir des big data.
Le savant
L’exploitation analytique des données n’est pas une activité nouvelle. La gestion des risques (financiers, sanitaires, opérationnels, etc.), l’optimisation de processus industriels (contrôle de qualité, planification), ou le monitoring de systèmes complexes, mobilisent depuis longtemps un corpus de connaissances et un savoir-faire issus de différentes branches des mathématiques appliquées (probabilités et statistique, optimisation, analyse et calcul numériques), avec une utilisation de solutions informatiques très encadrées.
Assembler une multitude de briques technologiques
Mais les big data imposent un changement d’approche profond. Jusqu’à présent, les données étaient majoritairement collectées en suivant des plans d’expérience ou de sondage précis et très coûteux. La rareté de l’information quantitative requérait des étapes de prétraitement des données considérables, lors desquelles l’expertise humaine jouait un rôle déterminant, dans la perspective d’élaborer des modèles statistiques à vocation prédictive en particulier.
La complexité des données disponibles aujourd’hui, leur dimension explosive, la nécessité d’automatiser le traitement en vue de satisfaire aux contraintes du temps réel ont conduit à l’essor du machine-learning, la discipline à l’interface des mathématiques appliquées et de l’informatique, visant à produire des algorithmes permettant d’apprendre automatiquement les données des représentations ou les modèles les plus performants.
Une filière française
François Bourdoncle (84) et Paul Hermelin (72) ont été nommés « chefs de file » de la filière big data française, les big data étant affichés comme l’une des sept priorités de la commission « Horizon 2030 » présidée par Anne Lauvergeon.
Une commission constituée par Serge Abiteboul est chargée de cerner et de quantifier les besoins dans le domaine de la formation de data scientists, afin de faire émerger un marché exportateur net et créateur d’emplois en France.
Avec la mise au point d’algorithmes très efficaces dès le début des années 1990, l’intégration des contraintes computationnelles et le succès commercial de solutions logicielles fondées sur ce type d’approche (pour la reconnaissance vocale ou de caractères manuscrits par exemple), le machine-learning a progressivement remplacé la statistique traditionnelle dans de nombreux domaines.
Ainsi, le data scientist n’est pas seulement un statisticien mais un technicien capable de combiner des compétences en mathématiques, en informatique et en droit, afin d’appréhender la chaîne de traitement des données dans sa globalité, de l’acquisition des données à la solution analytique, en passant par les étapes de stockage et de représentation.
Le temps où les services informatiques de l’entreprise transmettaient un fichier « plat » au département en charge de la modélisation puis se voyaient renvoyer un modèle statistique très parcimonieux encapsulé dans une structure spécifique et à recoder entièrement pour la mise en production est révolu à l’ère big data.
Nouveaux programmes d’enseignement
L’un des défis que pose le phénomène big data est la formation de cadres et de techniciens aux « métiers » évoqués plus haut et plus généralement l’enseignement d’un corpus de connaissances articulant sciences, business et droit requérant de s’affranchir des carcans disciplinaires.
L’Institut pluridisciplinaire pour la science et l’ingénierie des données de l’université de Columbia pourrait être un exemple à suivre. L’esquisse des futurs métiers des big data invite ainsi à réfléchir et à proposer de nouveaux programmes académiques pour les générations à venir.
Une approche pluridisciplinaire
L’une des principales recommandations de la commission spécialisée de la filière française est de mettre réellement en œuvre l’aspect multidisciplinaire dans ce type de formation, couvrant les trois domaines d’expertise : informatique, mathématiques appliquées et connaissances des métiers.
Combiner des compétences en mathématiques, en informatique et en droit
Au-delà des cours décrivant concepts et techniques, ce type de formation devra inclure des projets « en vraie grandeur », afin de se confronter aux différentes facettes de la « science des données », éventuellement encadrés par des professionnels et requérant l’usage de briques technologiques de l’état de l’art pour le travail expérimental.
La pluridisciplinarité n’interdit pas toute différenciation, l’un des domaines d’expertise pourra être la dominante de tel ou tel programme de formation mais il semble souhaitable qu’elle n’intervienne que tardivement dans le cursus.
Agir rapidement
Plusieurs pistes sont envisagées pour répondre rapidement aux besoins identifiés, en particulier le développement de formation à distance ou en ligne, permettant à des professionnels en situation d’emploi de monter en compétences ; l’élaboration d’un curriculum de référence en data science et d’un label afférent ; le développement de formations ciblées ; une évolution des formations actuelles, avec le concours éventuel de professionnels permettant aux étudiants de se confronter aux défis industriels.
Une large mobilisation
Mettre en œuvre ces orientations requiert une large mobilisation des établissements d’enseignement supérieur mais aussi des entreprises, les invitant à constituer un réseau inédit, permettant de partager des ressources et des expériences.