Phénomène de mode ou nouvelle frontière ?

Dossier : BIG DATAMagazine N°693 Mars 2014
Par Jean-Pierre DARDAYROL (72)

Le mot big data est un terme géné­rique curieux. Appa­ru très récem­ment, il n’a pas d’équivalent recon­nu en fran­çais. Il désigne cepen­dant des concepts anciens et dif­fé­rents, et il fait l’objet d’un buzz mar­ke­ting énorme.

Une masse difficile à appréhender

Les infor­ma­tions sont de plus en plus « éva­nes­centes », leur durée de vie se rac­cour­cit. Elles sont moins acces­sibles au sens des biblio­thé­caires et des infor­ma­ti­ciens : 90% des infor­ma­tions sur le Web seraient de fait cachées.

Elles sont éga­le­ment deve­nues hété­ro­gènes quant à leur nature, à leur régime de pro­prié­té, à leurs for­mats. Or, tirer par­ti des infor­ma­tions, trans­for­mer cette charge en res­source est deve­nu un impé­ra­tif et un défi pour tous les acteurs – entre­prises, États, particuliers.

Des réalités diverses

Sous des vocables dif­fé­rents, les concepts qui sont regrou­pés aujourd’hui – peut-être à tort – sous celui de big data sont anciens et ins­crits dans le déve­lop­pe­ment de sec­teurs d’activité dif­fé­rents et de points de vue éloi­gnés. Quatre éco­sys­tèmes se dis­putent l’origine ou la légi­ti­mi­té des big data.

90 % des informations disponibles sur le Web seraient de fait cachées

Dans ce monde, l’accent est mis sur la créa­tion de valeur et le trai­te­ment des data pour l’entreprise. Les États se sont empa­rés à leur tour de ces outils, pour la Défense comme aux États-Unis ou pour lut­ter contre les fraudes fis­cales et sociales comme au Royaume-Uni.

Les per­for­mances des pro­grammes exploi­tant les don­nées com­mer­ciales sont impres­sion­nantes. C’est, par exemple, la capa­ci­té à pré­voir les gros­sesses à par­tir de l’évolution du « cha­riot heb­do­ma­daire » des ache­teurs en hypermarché.

Les big data dési­gnent dans les milieux uni­ver­si­taires, notam­ment aux États-Unis et en Alle­magne, les méthodes de construc­tion de nou­velles géné­ra­tions de modèles, en par­ti­cu­lier macroé­co­no­miques, plus que l’utilisation des don­nées elles-mêmes. Dans ce cas, le concept même de preuve en sciences est questionné.

Techniques avancées : l’infrastress

Le mot infras­tress pour dési­gner l’importance don­née aux moyens de trai­te­ment et aux archi­tec­tures tech­niques déployées pour répondre à la com­plexi­té des appli­ca­tions et des infor­ma­tions – et non leur volume – en termes de vitesse de rota­tion, d’hétérogénéité des temps de trai­te­ment, de dif­fé­ren­tiels de sécu­ri­té, etc.

Si les pre­mières carac­té­ris­tiques des big data font réfé­rence aux don­nées au sens clas­sique, celle-ci fait réfé­rence à la varié­té des infor­ma­tions plus ou moins struc­tu­rées : chat, vidéo, réseaux sociaux, etc., aux condi­tions de conser­va­tion, d’accès, etc. La ques­tion des sta­tions de tra­vail et des entre­pôts de don­nées est cru­ciale, tout comme celle du trai­te­ment du temps, dans toutes les nuances du temps réel au temps sans contrainte.

Open data : la massification des usages

Les pra­ti­ciens de l’open, notam­ment au sein de l’Open Know­ledge Foun­da­tion, ont avan­cé une nou­velle vision des big data : la démo­cra­ti­sa­tion et la mas­si­fi­ca­tion de l’accès, du sto­ckage et du trai­te­ment. Ici, les pro­blé­ma­tiques rela­tives à la forme, la logis­tique et la res­ti­tu­tion des infor­ma­tions hété­ro­gènes sont cen­trales. L’accent est mis tant sur le sujet de l’infras­tress que sur celui de small data, c’est-à-dire de res­ti­tu­tions adap­tées aux capa­ci­tés cog­ni­tives des per­sonnes humaines.

Commentaire

Ajouter un commentaire

Fami­ly-zinerépondre
11 avril 2014 à 9 h 58 min

Mer­ci pour l’ar­ticle.
Très inté­res­sant 🙂

Répondre