Les données massives du « big data », un nouvel or noir

Dossier : Économie numérique : Les succèsMagazine N°675 Mai 2012
Par Michel CRESTIN
Par Hervé DHELIN

La crois­sance des volumes d’informations numé­riques est telle que les bases de don­nées qui les gèrent ne suf­fisent plus. Il faut donc ima­gi­ner de nou­velles archi­tec­tures (logi­cielles et maté­rielles) pour trai­ter ces masses consi­dé­rables de données.

REPÈRES
En 2011, on a créé et répli­qué 1,8 zet­ta­oc­tet (c’est-à-dire 1800 mil­liards de giga­oc­tets), neuf fois plus qu’en 2005, soit une crois­sance dépas­sant les pré­dic­tions de la loi de Moore. D’i­ci la pro­chaine décen­nie, la quan­ti­té de don­nées gérée par les entre­prises pour­rait être mul­ti­pliée par cin­quante, et la taille des fichiers par soixante-quinze. Concrè­te­ment, un volume de 1,8 zet­ta­oc­tet de don­nées équi­vaut au volume de plus de 200 mil­liards de film HD (d’une durée moyenne de deux heures). Il fau­drait à un indi­vi­du pas moins de 47 mil­lions d’an­nées pour en vision­ner l’in­té­gra­li­té, si tant est qu’il s’y consacre vingt-quatre heures sur vingt-quatre et sept jours sur sept.

Un investissement massif

L’évolution tech­no­lo­gique se tra­duit par une dimi­nu­tion dras­tique des coûts de sto­ckage des don­nées. Par exemple, cha­cun peut acqué­rir une capa­ci­té de sto­ckage d’un téra­oc­tet pour seule­ment quelques cen­taines d’euros. Le coût d’un giga­bit de sto­ckage s’élevait à envi­ron 20 dol­lars en 2005, à net­te­ment moins d’un dol­lar aujourd’hui. À cet aspect pure­ment maté­riel s’ajoute la dimi­nu­tion du coût de créa­tion, cap­ture et dupli­ca­tion des données.

L’évolution tech­no­lo­gique se tra­duit par une dimi­nu­tion dras­tique des coûts de sto­ckage des données

Les inves­tis­se­ments consen­tis par les entre­prises dans l’univers numé­rique (cloud com­pu­ting, équi­pe­ment infor­ma­tique, logi­ciels, ser­vices et per­son­nel dédié à la créa­tion, ges­tion, sto­ckage et exploi­ta­tion des infor­ma­tions) ont aug­men­té de 50% entre 2005 et 2011, pour atteindre les 4000 mil­liards de dol­lars au niveau mon­dial. En 2012, 90 % des socié­tés du clas­se­ment For­tune 500 auront lan­cé un grand chan­tier de ges­tion des don­nées. Les entre­prises amé­ri­caines de plus de mille sala­riés stockent, en moyenne, l’équivalent de 235 tera­bytes de données.

Une nouvelle stratégie d’entreprise

Ajus­ter ses prix en temps réel
Une entre­prise amé­ri­caine de grande dis­tri­bu­tion a consta­té une baisse de ses parts de mar­ché. Elle s’est aper­çue que son prin­ci­pal concur­rent avait lour­de­ment inves­ti dans des outils de col­lecte, d’in­té­gra­tion et d’a­na­lyses de don­nées, de sorte qu’il était capable d’a­jus­ter en temps réel ses prix, d’ar­bi­trer l’ap­pro­vi­sion­ne­ment entre ses dif­fé­rents maga­sins et de recons­ti­tuer ses stocks grâce à une étroite inté­gra­tion de son sys­tème d’in­for­ma­tion avec ceux de ses fournisseurs.

La valeur des don­nées, et notam­ment la per­ti­nence de leur exploi­ta­tion, devient très impor­tante. Une habile exploi­ta­tion de ces gise­ments d’information contri­bue à accroître les avan­tages com­pé­ti­tifs. Au-delà de ces aspects éco­no­miques, la crois­sance des volumes de don­nées remet en cause le mana­ge­ment des entre­prises et des orga­ni­sa­tions. Les diri­geants peuvent ain­si légi­ti­me­ment se poser les ques­tions suivantes.

Sur le plan mana­gé­rial : s’il était pos­sible de tes­ter toutes les déci­sions, cela chan­ge­rait-il la stra­té­gie de l’entreprise ? Pro­ba­ble­ment car les mana­gers pour­raient mieux iden­ti­fier les causes d’un phé­no­mène et les consé­quences de leurs déci­sions, en fonc­tion de dif­fé­rents scé­na­rios, au-delà de l’analyse de simples cor­ré­la­tions, et adap­ter leur stra­té­gie en conséquence.

Sur le plan opé­ra­tion­nel : dans quelle mesure les offres d’une entre­prise seraient-elles trans­for­mées si les énormes volumes de don­nées dis­po­nibles étaient uti­li­sés pour per­son­na­li­ser en temps réel les solu­tions pro­po­sées aux consom­ma­teurs et pré­voir leur com­por­te­ment d’achat ? Par exemple, un e‑commerçant pour­rait tra­quer en temps réel le com­por­te­ment de ses pros­pects et iden­ti­fier le moment où ils vont s’engager dans l’acte d’achat. Et, ain­si, pous­ser des offres à plus fortes marges. La grande dis­tri­bu­tion consti­tue un sec­teur pri­vi­lé­gié d’expérimentation dans la mesure où foi­sonnent les infor­ma­tions issues des achats sur le Web, des réseaux sociaux et, aujourd’hui, de plus en plus, les don­nées de géo­lo­ca­li­sa­tion des smartphones.

Sur le plan stra­té­gique : l’exploitation des gise­ments de don­nées peut-elle don­ner lieu à de nou­veaux modèles d’affaires ? Pro­ba­ble­ment pour des entre­prises qui se posi­tion­ne­raient comme inter­mé­diaires dans la chaîne de valeur pour gérer des don­nées tran­sac­tion­nelles de manière exhaustive.

L’analyse pré­dic­tive
En se fon­dant sur un his­to­rique des infor­ma­tions dis­po­nibles sur les clients, l’analyse pré­dic­tive éta­blit, avec une ana­lyse sta­tis­tique des rela­tions entre les don­nées dis­po­nibles, si elles sont de nature à pré­dire, avec la meilleure fia­bi­li­té pos­sible, le futur com­por­te­ment d’un indi­vi­du. Rete­nons seule­ment deux domaines dans les­quels l’analyse pré­dic­tive se révèle par­ti­cu­liè­re­ment per­ti­nente : la détec­tion de la fraude et le marketing.
Évi­ter l’effet domino
Une grande banque euro­péenne a mis en place un sys­tème d’analyse pré­dic­tive pour détec­ter les risques de faillites par­mi ses entre­prises clientes, en par­ti­cu­lier en inté­grant des infor­ma­tions rela­tives au contexte éco­no­mique. Concrè­te­ment, la banque est éga­le­ment en mesure d’anticiper les consé­quences d’une défaillance, pour elle, d’un client majeur, de manière à évi­ter les consé­quences néfastes d’un « effet domi­no » sur d’autres clients.

Une création de valeur

La pro­fu­sion de don­nées génère des oppor­tu­ni­tés nou­velles pour les entre­prises, même s’il faut demeu­rer conscient des risques induits (inté­gri­té des infor­ma­tions, menaces sur la vie pri­vée, droit à l’oubli, pira­tage, atteinte à l’image, vol d’identité, fraude, etc.). L’une des révo­lu­tions concerne l’analyse pré­dic­tive, approche qui étu­die les don­nées et les carac­té­ris­tiques com­por­te­men­tales des indi­vi­dus pour en tirer des modèles pré­dic­tifs en vue d’optimiser la rela­tion avec les clients.

Mieux détecter les fraudes

Pour réus­sir sur un mar­ché domi­né par des grands noms de l’assurance, la socié­té amé­ri­caine Infi­ni­ty, spé­cia­li­sée dans l’assurance des conduc­teurs à risques éle­vés, avait besoin d’accroître son parc de clients et d’améliorer son effi­ca­ci­té opé­ra­tion­nelle, notam­ment pour la ges­tion des sinistres et la réduc­tion de la fraude. Des tech­niques d’analyse pré­dic­tive ont été mises en œuvre. L’objectif était, sur le modèle des cré­dits ban­caires, de « sco­rer » les sinistres de manière à mieux iden­ti­fier la pro­ba­bi­li­té de fraude.

Récupérer ses fonds

L’analyse pré­dic­tive se révèle par­ti­cu­liè­re­ment per­ti­nente dans la détec­tion des fraudes

Il s’agissait éga­le­ment d’optimiser la col­lecte dite de subro­ga­tion, c’est-à-dire lorsque l’assureur se retourne vers des tiers pour récu­pé­rer des fonds, quand son assu­ré n’est pas responsable.

En un mois, la solu­tion mise en œuvre par Infi­ni­ty a per­mis d’augmenter les fonds col­lec­tés d’un mil­lion de dol­lars et de douze mil­lions de dol­lars en six mois, uni­que­ment par une meilleure ana­lyse des données.

La pro­chaine étape, elle aus­si fon­dée sur l’analyse de volumes impor­tants de don­nées, consis­te­ra à étu­dier le conte­nu des docu­ments liés aux règle­ments des sinistres, par exemple les comptes ren­dus d’accidents, les rap­ports médi­caux ou les témoi­gnages, autant d’éléments qui sont sus­cep­tibles d’améliorer la détec­tion de la fraude le plus en amont possible.

Lutter contre la criminalité

L’analyse de grandes masses de don­nées est éga­le­ment très utile pour lut­ter contre la criminalité.

L’exemple de Memphis
Déjà déployé au sein de la police de Mem­phis (Ten­nes­see), le logi­ciel Crush a per­mis de réduire la cri­mi­na­li­té de 30 % et la cri­mi­na­li­té vio­lente de 15 % par rap­port à 2006. En jan­vier 2010, la police a lan­cé plu­sieurs opé­ra­tions dans un quar­tier de la ville, en se fon­dant sur les indi­ca­tions du logi­ciel Crush. Résul­tat : plus de cin­quante arres­ta­tions de tra­fi­quants de drogue et une réduc­tion de près de 40% de la criminalité.

Par exemple, la police de New York dis­pose d’un logi­ciel d’analyse pré­dic­tive de la cri­mi­na­li­té. Bap­ti­sée Crush (Cri­mi­nal reduc­tion uti­li­zing sta­tis­ti­cal his­to­ry), cette appli­ca­tion regroupe une ving­taine d’années d’archives et de sta­tis­tiques liées à la délin­quance et à la cri­mi­na­li­té, avec toutes les carac­té­ris­tiques des délits : lieu, heure, mode opé­ra­toire, etc. L’analyse de ces don­nées est assu­rée par un pro­gramme mathé­ma­tique conçu par les cher­cheurs de l’université de Cali­for­nie. Elle per­met de loca­li­ser les endroits à risque de la ville, d’identifier les types de délits qui y sont com­mis, en fonc­tion de cri­tères tels que le moment de la jour­née ou le jour de la semaine. Concrè­te­ment, la police peut alors agir et envoyer des effec­tifs avant que le crime ou le délit ne soient commis.

Améliorer le marketing

L’une des dif­fi­cul­tés pour les entre­prises qui s’adressent à des mil­lions de clients est de fidé­li­ser ceux-ci et d’en conqué­rir d’autres. Dans les banques anglo-saxonnes par exemple, le taux de rota­tion des clients atteint faci­le­ment 10% à 20% par an, avec un coût par client s’élevant entre 200 et 3500 dol­lars. Une banque néer­lan­daise, grâce à l’analyse pré­dic­tive, a réus­si à accroître l’efficacité de ses cam­pagnes mar­ke­ting avec un taux de réponse pas­sé de 4% à 12%, d’où un retour sur inves­tis­se­ment de ses actions amé­lio­ré de 10 % à 20%.

Une tendance lourde

La rapi­di­té du service
Le loueur de véhi­cules Avis a amé­lio­ré le résul­tat en Europe de ses cam­pagnes de mar­ke­ting par cour­riel et divi­sé ses coûts par deux. En ana­ly­sant les don­nées sur ses clients, Avis pro­pose des offres per­son­na­li­sées dans plus de 18 mil­lions d’envois de cour­riels chaque année. Avec une meilleure connais­sance de l’activité des clients grâce à l’historique des clics dans les cour­riels et des tran­sac­tions, Avis per­son­na­lise tous les cour­riels. Par exemple, le loueur dis­pose d’une base de don­nées de « clients pri­vi­lé­giés » à qui elle pro­met une prise en charge dans un délai de trois minutes (ils sont assu­rés de rece­voir la clef de leur véhi­cule dans un délai de trois minutes à par­tir du moment où ils se pré­sentent au gui­chet). La rapi­di­té de ser­vice étant essen­tielle pour fidé­li­ser les clients.

On pour­rait mul­ti­plier les exemples de créa­tion d’avantages com­pé­ti­tifs grâce à une exploi­ta­tion intel­li­gente de volumes de don­nées. Le phé­no­mène du big data va impul­ser un élan sup­plé­men­taire. À moyen ou long terme, on peut dis­cer­ner ce qui relève de cer­ti­tudes et ce qui consti­tue­ra des incer­ti­tudes sus­cep­tibles de frei­ner, mais pas d’annihiler, la ten­dance lourde à consi­dé­rer les don­nées, sur­tout si elles sont mas­sives, comme un nou­vel « or noir » pour les entre­prises et les organisations.

L’analyse des données

Du côté des cer­ti­tudes, on retien­dra une crois­sance conti­nue des volumes de don­nées, d’autant que se pro­filent l’Internet des objets et la civi­li­sa­tion des cap­teurs, pro­duc­teurs d’énormes quan­ti­tés d’informations ; une trans­for­ma­tion pro­fonde des modèles d’affaires et, de fait, des stra­té­gies des entre­prises ; des inves­tis­se­ments mas­sifs en outils d’analyse de don­nées à mesure que les entre­prises vont prendre conscience de la valeur de leurs données.

Le rejet des intrusions

Des inquié­tudes sur le res­pect de la vie pri­vée et le droit à l’oubli

Du côté des incer­ti­tudes, on retien­dra les inquié­tudes sur le res­pect de la vie pri­vée, l’éventuelle mon­tée en puis­sance de sen­ti­ments de rejet face à ce qui peut être consi­dé­ré comme des intru­sions de mes­sages com­mer­ciaux dans la sphère pri­vée. De même, nous n’avons pas de cer­ti­tudes sur les pro­blé­ma­tiques de sécu­ri­té asso­ciées au big data. Enfin, un frein poten­tiel réside dans l’évolution de la légis­la­tion, sus­cep­tible de deve­nir plus res­tric­tive. Entre ces puis­sants fac­teurs accé­lé­ra­teurs et les éven­tuels freins, les entre­prises devront trou­ver un équi­libre de manière à conci­lier créa­tion de valeur et éthique.

Poster un commentaire