Phénomène de mode ou nouvelle frontière ?
Le mot big data est un terme générique curieux. Apparu très récemment, il n’a pas d’équivalent reconnu en français. Il désigne cependant des concepts anciens et différents, et il fait l’objet d’un buzz marketing énorme.
Une masse difficile à appréhender
Les informations sont de plus en plus « évanescentes », leur durée de vie se raccourcit. Elles sont moins accessibles au sens des bibliothécaires et des informaticiens : 90% des informations sur le Web seraient de fait cachées.
Elles sont également devenues hétérogènes quant à leur nature, à leur régime de propriété, à leurs formats. Or, tirer parti des informations, transformer cette charge en ressource est devenu un impératif et un défi pour tous les acteurs – entreprises, États, particuliers.
Des réalités diverses
Sous des vocables différents, les concepts qui sont regroupés aujourd’hui – peut-être à tort – sous celui de big data sont anciens et inscrits dans le développement de secteurs d’activité différents et de points de vue éloignés. Quatre écosystèmes se disputent l’origine ou la légitimité des big data.
90 % des informations disponibles sur le Web seraient de fait cachées
Dans ce monde, l’accent est mis sur la création de valeur et le traitement des data pour l’entreprise. Les États se sont emparés à leur tour de ces outils, pour la Défense comme aux États-Unis ou pour lutter contre les fraudes fiscales et sociales comme au Royaume-Uni.
Les performances des programmes exploitant les données commerciales sont impressionnantes. C’est, par exemple, la capacité à prévoir les grossesses à partir de l’évolution du « chariot hebdomadaire » des acheteurs en hypermarché.
Les big data désignent dans les milieux universitaires, notamment aux États-Unis et en Allemagne, les méthodes de construction de nouvelles générations de modèles, en particulier macroéconomiques, plus que l’utilisation des données elles-mêmes. Dans ce cas, le concept même de preuve en sciences est questionné.
Techniques avancées : l’infrastress
Le mot infrastress pour désigner l’importance donnée aux moyens de traitement et aux architectures techniques déployées pour répondre à la complexité des applications et des informations – et non leur volume – en termes de vitesse de rotation, d’hétérogénéité des temps de traitement, de différentiels de sécurité, etc.
Si les premières caractéristiques des big data font référence aux données au sens classique, celle-ci fait référence à la variété des informations plus ou moins structurées : chat, vidéo, réseaux sociaux, etc., aux conditions de conservation, d’accès, etc. La question des stations de travail et des entrepôts de données est cruciale, tout comme celle du traitement du temps, dans toutes les nuances du temps réel au temps sans contrainte.
Open data : la massification des usages
Les praticiens de l’open, notamment au sein de l’Open Knowledge Foundation, ont avancé une nouvelle vision des big data : la démocratisation et la massification de l’accès, du stockage et du traitement. Ici, les problématiques relatives à la forme, la logistique et la restitution des informations hétérogènes sont centrales. L’accent est mis tant sur le sujet de l’infrastress que sur celui de small data, c’est-à-dire de restitutions adaptées aux capacités cognitives des personnes humaines.
Commentaire
Ajouter un commentaire
Merci pour l’article.
Très intéressant 🙂