Une formation spécifique et pluridisciplinaire

Dossier : BIG DATAMagazine N°693 Mars 2014
Par Stéphane CLÉMENÇON

La demande de spé­cia­listes des big data sur le mar­ché de l’emploi se struc­ture autour de trois pro­fils, archi­tecte de sys­tèmes big data , chief data offi­cer et data scien­tist.

REPÈRES

Les big data appellent de nouveaux profils sur le marché de l’emploi. Les offres relatives aux « métiers des données » affichent une hausse spectaculaire.
Ils appellent donc aussi de nouveaux programmes de formation, intégrant leurs multiples facettes et permettant d’acquérir une combinaison inédite de compétences : des connaissances et des savoir-faire techniques naturellement (informatique, mathématiques appliquées), une aptitude à anticiper les services et usages rendus possibles par les big data, mais aussi des connaissances juridiques relatives à la collecte, au stockage et à l’exploitation des données personnelles, tant le phénomène bouscule le concept de « vie privée » et fait aujourd’hui bouger les barrières légales.

L’architecte

Afin de conce­voir un sys­tème d’information per­met­tant d’acquérir, de sto­cker, de net­toyer, de repré­sen­ter et d’analyser des don­nées très volu­mi­neuses, d’une grande varié­té (matrices de nombres, séries tem­po­relles, conte­nu mul­ti­mé­dia, graphes dyna­miques décri­vant l’évolution des réseaux sociaux) en « temps réel », il convient d’assembler une mul­ti­tude de briques tech­no­lo­giques (sys­tèmes de fichiers dis­tri­bués, paral­lé­li­sa­tion massive).

Aucun fra­me­work ne per­met aujourd’hui à lui seul d’effectuer l’ensemble de ces tâches. L’architecte big data est celui qui sau­ra construire « sur mesure » un tel sys­tème, adap­té à l’activité de son entre­prise, et le pérenniser.

Le chef

De​s connaissances générales

Des connaissances générales relatives à ce que permet aujourd’hui le traitement des données, aux technologies à mettre en œuvre pour en réaliser l’acquisition et l’exploitation, aux dangers afférents (dépendance de certaines activités à l’égard des systèmes d’information, disparition de la vie privée) sont absolument indispensables à presque tous les cadres et décideur

Dans le but de cer­ner les enjeux stra­té­giques asso­ciés à la créa­tion pos­sible de valeur à tra­vers les big data et de mettre en place une orga­ni­sa­tion adap­tée, la gou­ver­nance de cer­taines entre­prises doit être modi­fiée de façon à inté­grer un chief data offi­cer, dont la fonc­tion conci­lie tech­no­lo­gie de l’information et busi­ness au sein du groupe.

Le chief data offi­cer per­çoit l’impact éven­tuel des don­nées sur cha­cun des « métiers » de la socié­té, et crée ain­si les condi­tions de l’innovation et du big busi­ness à venir des big data.

Le savant

L’exploitation ana­ly­tique des don­nées n’est pas une acti­vi­té nou­velle. La ges­tion des risques (finan­ciers, sani­taires, opé­ra­tion­nels, etc.), l’optimisation de pro­ces­sus indus­triels (contrôle de qua­li­té, pla­ni­fi­ca­tion), ou le moni­to­ring de sys­tèmes com­plexes, mobi­lisent depuis long­temps un cor­pus de connais­sances et un savoir-faire issus de dif­fé­rentes branches des mathé­ma­tiques appli­quées (pro­ba­bi­li­tés et sta­tis­tique, opti­mi­sa­tion, ana­lyse et cal­cul numé­riques), avec une uti­li­sa­tion de solu­tions infor­ma­tiques très encadrées.

Assembler une multitude de briques technologiques

Mais les big data imposent un chan­ge­ment d’approche pro­fond. Jusqu’à pré­sent, les don­nées étaient majo­ri­tai­re­ment col­lec­tées en sui­vant des plans d’expérience ou de son­dage pré­cis et très coû­teux. La rare­té de l’information quan­ti­ta­tive requé­rait des étapes de pré­trai­te­ment des don­nées consi­dé­rables, lors des­quelles l’expertise humaine jouait un rôle déter­mi­nant, dans la pers­pec­tive d’élaborer des modèles sta­tis­tiques à voca­tion pré­dic­tive en particulier.

La com­plexi­té des don­nées dis­po­nibles aujourd’hui, leur dimen­sion explo­sive, la néces­si­té d’automatiser le trai­te­ment en vue de satis­faire aux contraintes du temps réel ont conduit à l’essor du machine-lear­ning, la dis­ci­pline à l’interface des mathé­ma­tiques appli­quées et de l’informatique, visant à pro­duire des algo­rithmes per­met­tant d’apprendre auto­ma­ti­que­ment les don­nées des repré­sen­ta­tions ou les modèles les plus performants.

Une filière française

François Bourdoncle (84) et Paul Hermelin (72) ont été nommés « chefs de file » de la filière big data française, les big data étant affichés comme l’une des sept priorités de la commission « Horizon 2030 » présidée par Anne Lauvergeon.
Une commission constituée par Serge Abiteboul est chargée de cerner et de quantifier les besoins dans le domaine de la formation de data scientists, afin de faire émerger un marché exportateur net et créateur d’emplois en France.

Avec la mise au point d’algorithmes très effi­caces dès le début des années 1990, l’intégration des contraintes com­pu­ta­tion­nelles et le suc­cès com­mer­cial de solu­tions logi­cielles fon­dées sur ce type d’approche (pour la recon­nais­sance vocale ou de carac­tères manus­crits par exemple), le machine-lear­ning a pro­gres­si­ve­ment rem­pla­cé la sta­tis­tique tra­di­tion­nelle dans de nom­breux domaines.

Ain­si, le data scien­tist n’est pas seule­ment un sta­tis­ti­cien mais un tech­ni­cien capable de com­bi­ner des com­pé­tences en mathé­ma­tiques, en infor­ma­tique et en droit, afin d’appréhender la chaîne de trai­te­ment des don­nées dans sa glo­ba­li­té, de l’acquisition des don­nées à la solu­tion ana­ly­tique, en pas­sant par les étapes de sto­ckage et de représentation.

Le temps où les ser­vices infor­ma­tiques de l’entreprise trans­met­taient un fichier « plat » au dépar­te­ment en charge de la modé­li­sa­tion puis se voyaient ren­voyer un modèle sta­tis­tique très par­ci­mo­nieux encap­su­lé dans une struc­ture spé­ci­fique et à reco­der entiè­re­ment pour la mise en pro­duc­tion est révo­lu à l’ère big data.

Nouveaux programmes d’enseignement

L’un des défis que pose le phé­no­mène big data est la for­ma­tion de cadres et de tech­ni­ciens aux « métiers » évo­qués plus haut et plus géné­ra­le­ment l’enseignement d’un cor­pus de connais­sances arti­cu­lant sciences, busi­ness et droit requé­rant de s’affranchir des car­cans disciplinaires.

L’Institut plu­ri­dis­ci­pli­naire pour la science et l’ingénierie des don­nées de l’université de Colum­bia pour­rait être un exemple à suivre. L’esquisse des futurs métiers des big data invite ain­si à réflé­chir et à pro­po­ser de nou­veaux pro­grammes aca­dé­miques pour les géné­ra­tions à venir.

Une approche pluridisciplinaire

L’une des prin­ci­pales recom­man­da­tions de la com­mis­sion spé­cia­li­sée de la filière fran­çaise est de mettre réel­le­ment en œuvre l’aspect mul­ti­dis­ci­pli­naire dans ce type de for­ma­tion, cou­vrant les trois domaines d’expertise : infor­ma­tique, mathé­ma­tiques appli­quées et connais­sances des métiers.

Combiner des compétences en mathématiques, en informatique et en droit

Au-delà des cours décri­vant concepts et tech­niques, ce type de for­ma­tion devra inclure des pro­jets « en vraie gran­deur », afin de se confron­ter aux dif­fé­rentes facettes de la « science des don­nées », éven­tuel­le­ment enca­drés par des pro­fes­sion­nels et requé­rant l’usage de briques tech­no­lo­giques de l’état de l’art pour le tra­vail expérimental.

La plu­ri­dis­ci­pli­na­ri­té n’interdit pas toute dif­fé­ren­cia­tion, l’un des domaines d’expertise pour­ra être la domi­nante de tel ou tel pro­gramme de for­ma­tion mais il semble sou­hai­table qu’elle n’intervienne que tar­di­ve­ment dans le cursus.

Agir rapidement

Plu­sieurs pistes sont envi­sa­gées pour répondre rapi­de­ment aux besoins iden­ti­fiés, en par­ti­cu­lier le déve­lop­pe­ment de for­ma­tion à dis­tance ou en ligne, per­met­tant à des pro­fes­sion­nels en situa­tion d’emploi de mon­ter en com­pé­tences ; l’élaboration d’un cur­ri­cu­lum de réfé­rence en data science et d’un label affé­rent ; le déve­lop­pe­ment de for­ma­tions ciblées ; une évo­lu­tion des for­ma­tions actuelles, avec le concours éven­tuel de pro­fes­sion­nels per­met­tant aux étu­diants de se confron­ter aux défis industriels.

Une large mobilisation

Mettre en œuvre ces orien­ta­tions requiert une large mobi­li­sa­tion des éta­blis­se­ments d’enseignement supé­rieur mais aus­si des entre­prises, les invi­tant à consti­tuer un réseau inédit, per­met­tant de par­ta­ger des res­sources et des expériences.

Poster un commentaire