Les trois paradoxes de la sécurité

Dossier : BIG DATAMagazine N°693 Mars 2014
Par Philippe WOLF (78)

Les pro­blèmes de sécu­ri­té liés aux big data sont mul­ti­formes sui­vant l’origine des don­nées (publiques, pri­vées ou mixtes), la loyau­té de leur recueil, la pré­sence ou non, directe ou indi­recte, de don­nées per­son­nelles, l’objectif pour­sui­vi (bien com­mun scien­ti­fique ou avan­tage concur­ren­tiel), la trans­pa­rence ou l’opacité des buts pour­sui­vis, les infra­struc­tures (publiques, pri­vées ou mixtes) de sto­ckage et de cal­culs mises en œuvre et le carac­tère ouvert ou fer­mé des trai­te­ments algorithmiques.

Les attaques pos­sibles contre les big data sont, de ce fait, mul­tiples : attaques infor­ma­tiques clas­siques, atteintes aux infra­struc­tures, usages détour­nés des puis­sances de cal­culs, mais aus­si, clo­nages de masse frau­du­leux, fal­si­fi­ca­tions par­fois par­tielles des don­nées, mani­pu­la­tions de l’information ou encore atteintes aux per­sonnes dans leur dignité.

REPÈRES

Le terme big data fait référence à des ensembles de données dont la taille dépasse la capacité des logiciels usuels pour collecter, gérer et traiter les données dans un temps raisonnable.
Les traitements de masse impliquent une nouvelle approche de la donnée : collecter et utiliser beaucoup de données plutôt que de se contenter d’échantillons comme l’ont fait des générations de statisticiens ; accepter de traiter des données imparfaites ou mal organisées, une part d’inexactitude peut en général être tolérée car dans de nombreux cas, il est plus avantageux d’avoir bien plus de données qu’un plus petit nombre de données très exactes ou finement sélectionnées afin d’être représentatives ; accepter de renoncer à rechercher des causalités au profit de la recherche de corrélations, de motifs qui peuvent aider à prédire l’avenir.
Les big data aident à répondre à la question du quoi mais pas à celle du comment, ce qui est souvent suffisant.

Diagnostic

Posons d’abord un diag­nos­tic qui s’appuie sur trois para­doxes de la fina­li­té des big data, sou­li­gnés par un juriste et un stra­tège du cloud1, que nous résu­mons (en ita­liques) et commentons.

Une dif­fi­cul­té appa­raît qui est de ne pas ana­ly­ser cette nou­velle manière d’acquérir des connais­sances en ne consi­dé­rant que ceux qui ont actuel­le­ment la capa­ci­té de col­lec­ter et d’exploiter des don­nées en masse à des fins com­mer­ciales (Google, Face­book, Twit­ter, etc.) ou d’espionnage (NSA et autres ser­vices de renseignements).

Le paradoxe de la transparence

La pri­va­cy ou « pro­tec­tion des don­nées per­son­nelles » est morte ; nos don­nées per­son­nelles deviennent trans­pa­rentes. Les trai­te­ments big data devraient aus­si l’être ; mais ce sont les « éco­sys­tèmes numé­riques fer­més » qui les mani­pulent avec le secret le plus absolu.

« Cyberwar is storytelling » (Martin C. Libicki)

Les déci­sions prises par les robots de sur­veillance sont d’une opa­ci­té kaf­kaïenne. Le modèle éco­no­mique « gra­tuit » de l’Internet repose sur une nou­velle forme de com­mer­cia­li­sa­tion et de valo­ri­sa­tion de don­nées col­lec­tées sur le com­por­te­ment des personnes.

« Quand vous ne voyez pas le ser­vice [payant], c’est que vous êtes le pro­duit [reven­du]2 ! » Il se nour­rit de l’une de deux visions irré­con­ci­liables du droit à un espace pri­vé3 que sou­lignent les dif­fi­ciles débats euro­péens sur la pro­tec­tion des don­nées per­son­nelles qui serait, vue d’Amérique du Nord, un obs­tacle à l’innovation4.

Les objec­tifs de cette pro­tec­tion sont le res­pect des per­sonnes dans les trai­te­ments par le recueil de leur consen­te­ment préa­lable, le contrôle de leurs fina­li­tés, la limi­ta­tion de la col­lecte5 et des croisements.

Mais la dif­fu­sion des ordi­phones, par exemple, pousse à la per­son­na­li­sa­tion de l’action sur les infor­ma­tions ; elle accen­tue le déca­lage entre les besoins de ser­vices publics (édu­ca­tion, san­té, régu­la­tion éco­no­mique, ordre public) et la ten­ta­tive de pri­va­ti­sa­tion des don­nées direc­te­ment liées aux per­sonnes sol­vables (pour la publi­ci­té directe).

Le paradoxe de l’identité

Le droit à l’identité, au moi, à l’ego néces­site le libre arbitre. Les robots-pro­grammes béha­vio­ristes du big data cherchent à iden­ti­fier qui nous devons être, qui nous devons aimer, ce que nous devons consom­mer, ce qui nous est inter­dit. Jusqu’à influen­cer nos choix intel­lec­tuels et nous faire perdre notre identité.

Connaître tout sur ses clients

Parmi les géants de la Toile (Web), tous américains, la société Google s’appuie sur la recherche « en psychologie cognitive » pour mieux atteindre son but « d’amener les gens à utiliser leur ordinateur avec plus d’efficacité » ; elle ne sera pas satisfaite tant qu’elle ne disposera pas de « 100% des données de ses utilisateurs6 ».
Elle utiliserait même la biométrie de la frappe clavier pour reconnaître l’usager derrière sa machine.

Le film Bien­ve­nue à Gat­ta­ca anti­ci­pait cette uni­for­mi­té engen­drée par des machines. Ce n’est encore, heu­reu­se­ment, que de la science-fiction.

En revanche, l’hyperconnectivité accroît, sans pause, notre dépen­dance cyber­né­tique. La publi­ci­té d’une marque alle­mande de voi­tures « haut de gamme » vante son attrait irré­sis­tible : « Connec­ted Drive. Mieux connec­té. Encore plus libre7. »

Les réseaux sociaux sont l’archétype d’une illu­sion numé­rique géné­ra­li­sée. Pour le meilleur, comme la ges­tion en temps réel de catas­trophes natu­relles, la dif­fu­sion ins­tan­ta­née de l’état du monde ou la sor­tie de l’isolement qu’engendrent nos socié­tés trop indi­vi­dua­listes. Mais aus­si pour le pire, comme l’exploitation outran­cière de leurs capa­ci­tés d’intrusion dans les intimités.

Les réseaux sociaux sont l’archétype d’une illusion numérique généralisée

Le droit à l’oubli, une chi­mère par nature, devient une demande à satis­faire par la limi­ta­tion de la col­lecte. Il ne fonc­tionne que pour nos don­nées domes­tiques par la fra­gi­li­té, sou­vent igno­rée, des sup­ports numé­riques personnels.

Alors, qu’à l’image du spa­ra­drap du capi­taine Had­dock, ce que nous aime­rions voir dis­pa­raître dans les volutes du pas­sé risque fort de res­ter dans l’éponge Internet.

Le paradoxe du pouvoir

Les big data sont cen­sés nous four­nir une boîte à outils pour mieux com­prendre le monde. Mais ses robots sont entre les mains d’institutions inter­mé­diaires, qui ont le pou­voir de mani­pu­la­tion, et non des indi­vi­dus. Les big data crée­ront des vain­queurs et des vain­cus9.

Le cas NSA

Dans les révélations Snowden, on apprend ainsi que le programme Synapse de la NSA vise à stocker, pour chaque internaute, 94 critères d’identité (numéro de téléphone, courriels, adresses IP, etc.) permettant d’y corréler 164 types de relations (profilage par les réseaux sociaux, paiements électroniques, profils d’intérêts, déplacements grâce à la géolocalisation, etc.)8.
On est très loin du principe de non-croisement des données et du respect d’un espace privé prévu dans la loi Informatique et Libertés. Mais le diable avance masqué et toujours dans la séduction.

Noam Chom­sky, dans une confé­rence récente, constate que le pou­voir lié à la pos­ses­sion des don­nées existe depuis une cen­taine d’années mais que la sur­prise vient aujourd’hui des échelles atteintes. Il rap­pelle aus­si que le « pou­voir demeure fort quand il reste dans le noir ; expo­sé à la lumière du soleil, il com­mence à s’évaporer »10.

La révo­lu­tion scien­ti­fique pro­mise par les big data11 per­met­trait l’élaboration de nou­velles théo­ries scien­ti­fiques libé­rées des capa­ci­tés « réduites » du cer­veau humain qui migre­raient du concep­tuel déduc­tif vers l’inductif ; même si l’intuition humaine et quelques résul­tats théo­riques (théo­rèmes d’incomplétude de Gödel) devraient encore éloi­gner pour un temps le spectre d’une intel­li­gence arti­fi­cielle dominatrice.

La malveillance d’un code informatique est indécidable

Il fau­dra, pour la com­mu­nau­té scien­ti­fique mon­diale, plus de banques de don­nées ouvertes. Mais, depuis 2010, les banques publiques géno­miques ne sont plus exhaus­tives, pour des rai­sons bud­gé­taires, mar­quant ain­si un retour vers la mar­chan­di­sa­tion du vivant. Les trai­te­ments eux-mêmes relè­ve­ront par­fois du logi­ciel libre et ouvert (astro­no­mie, géno­mique, recen­se­ment de la faune et de la flore, phar­ma­co­lo­gie, démo­gra­phie, phy­sique des par­ti­cules, météo­ro­lo­gie, cli­ma­to­lo­gie, macroé­co­no­mie, socio­lo­gie) mais bien plus sou­vent de solu­tions pro­prié­taires, au nom de la pro­tec­tion du patri­moine infor­ma­tion­nel et du secret des affaires des grandes entreprises.

Il ne s’agit pas de les oppo­ser mais d’imaginer les méca­nismes sécu­ri­sés créant les pas­se­relles néces­saires. Il fau­dra éga­le­ment, sans naï­ve­té ni excès, par­fois limi­ter la capa­ci­té de ces nou­veaux lit­tle brothers.

Nouveaux dangers

Un diag­nos­tic étant posé sur le trai­te­ment de don­nées en masse, il convient de ten­ter d’en recen­ser les dan­gers, à l’expérience de cybe­rat­taques récentes. La visi­bi­li­té acquise de l’exploitation sys­té­ma­tique de vul­né­ra­bi­li­tés non cor­ri­gées, dites 0‑Day13, per­met­tant des attaques ciblées sur­prises, modi­fie la pra­tique de la pro­tec­tion en SSI.

Coûts prohibitifs

L’utopie de la bibliothèque mondiale de tous les savoirs, chère à J. L. Borges12, s’éloigne devant les coûts des centres de traitements énergivores.
Pourtant, le progrès de l’humanité passe par une coordination négociée, décentralisée, multilinguistique et multiculturelle dans l’acquisition et la maîtrise des savoirs, des biens mondiaux.

Les pro­tec­tions péri­mé­triques et la sur­veillance interne des traces ou des com­por­te­ments sont néces­saires mais ne suf­fisent plus. La vir­tua­li­sa­tion et l’ubiquité, consti­tu­tives des archi­tec­tures mas­sives, aug­mentent les sur­faces d’attaques et les délocalisent.

Les efforts et les bud­gets de sécu­ri­sa­tion doivent alors se concen­trer sur les don­nées les plus sen­sibles. Le noma­disme condamne, de toute façon, les autres don­nées à une trans­pa­rence for­cée. Ces ser­vices sécu­ri­sés seront bâtis à par­tir de briques cryp­to­gra­phiques, mais devront por­ter une atten­tion plus grande à la faci­li­té d’emploi14. Même si leur usage ne pour­ra jamais être trans­pa­rent et se pas­ser de la ges­tion humaine.

Dualité

Il faut rappeler que toute fonction de sécurité est à usage dual ; elle servira aussi bien le criminel que l’honnête homme.
Cela ne doit pas justifier le piégeage généralisé (matériel, logiciel, sémantique ou mathématique) qui pénalise, avant tout, la cyberprotection.

Il fau­dra enfin consi­dé­rer que la pro­tec­tion des don­nées et infor­ma­tions (acces­si­bi­li­té, authen­ti­ci­té, contrôle des fina­li­tés) au moyen de la cryp­to­gra­phie (attaches indé­lé­biles de marques, de signa­tures, obs­cur­cis­se­ment) est un moyen faillible, au-delà des mathé­ma­tiques « par­faites » sous-jacentes.

Enfin, les quatre V (Volume, Varié­té, Vélo­ci­té, Véra­ci­té) asso­ciés aux big data obéissent aux limi­ta­tions de deux théo­rèmes démon­trés en 200215. Ces der­niers sont à rap­pro­cher du théo­rème du virus de 198616 qui dit que la mal­veillance d’un code infor­ma­tique est indécidable.

Ces incer­ti­tudes inhé­rentes aux big data changent la donne en matière de défense et de sécu­ri­té des sys­tèmes d’information.

Une sécurité « à la volée »

Les modèles de sécurité statiques qui protègent nos systèmes ont une quarantaine d’années (Multics, Unix). Il y a urgence à les repenser autour de concepts de dynamique et de proactivité. Les big data en mode flux (streaming) obligent à gérer une sécurité « à la volée ».
L’irruption de l’Internet (une architecture faible des années 1970) comme système d’information global dès 1991 n’avait pas anticipé les enjeux de protection. La plasticité des protocoles non sécurisés de l’Internet devra pourtant s’accommoder de nouveaux services sécurisés, notamment pour la protection des données personnelles mais aussi patrimoniales.

____________________________________________
1. Neil M. Richards & Jona­than H. King, Three Para­doxes of Big Data.
http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2325537
2. Ari Mel­ber, The Secret to Facebook’s IPO Value.
http://www.thenation.com/blog/166388/secret-facebooks-ipo-value
3. James Q. Whit­man, The Two Wes­tern Cultures of Pri­va­cy : Digni­ty Ver­sus Liber­ty, 4 jan­vier 2004.
http://www.yalelawjournal.org/images/pdfs/246.pdf
4. Pour ne citer qu’elle, la socié­té fran­çaise CRITEO, cotée au Nas­daq depuis peu, vend des ser­vices robo­ti­sés pro­dui­sant en qua­si temps réel, les ban­deaux publi­ci­taires ciblés en fonc­tion des don­nées iden­ti­fiant l’internaute.
5. A prio­ri data mini­mi­za­tion, Datas­par­sam­keit (voir les règles pour le casier et les archives publiques judi­ciaires en France).
6. Nicho­las Carr, Inter­net rend-il bête ? Robert Laf­font, 6 octobre 2011.
7. http://www.bmw.fr/fr/topics/innovation/connecteddrive-2013/overview.html
8. http://mobile.nytimes.com/2013/09/29/us/nsa-examines-social-networks-of-us-citizens.html
9. Louis Pou­zin, Où va l’internet ? Mon­dia­li­sa­tion et Balkanisation.
10. http://www.hyperorg.com/blogger/2013/11/15/liveblog-noam-chomsky-at-engaging-data/
11. Ce que Jim Gray appelle le fourth para­digm.
http://research.microsoft.com/en-us/collaboration/fourthparadigm/4th_paradigm_book_part4_lynch.pdf
12. http://fr.wikipedia.org/wiki/Tl%C3%B6n,_Uqbar,_Orbis_Tertius
13. Vul­né­ra­bi­li­tés 0‑Day, pré­ven­tion et bonnes pra­tiques,
http://www.ssi.gouv.fr/fr/bonnes-pratiques/recommandations-et-guides/securite-du-poste-de-travail-et-des-serveurs/vulnerabilites-0-day-prevention-et-bonnes-pratiques.html
14. Alma Whit­ten et J. Doug Tygar, Why John­ny can’t encrypt ? a user expe­riment of PGP 5.0. Alma Whit­ten tra­vaille main­te­nant chez Google
15. Le théo­rème de Bre­wer qui affirme qu’il est impos­sible de satis­faire à la fois la cohé­rence, la dis­po­ni­bi­li­té et la résis­tance au morcellement
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.20.1495&rep=rep1&type=pdf
et le théo­rème de Klein­berg iden­tique au pré­cé­dent pour la cohé­rence, la dis­po­ni­bi­li­té et l’invariance d’é­chelle http://www.cs.cornell.edu/home/kleinber/nips15.pdf
16. Fred Cohen, Com­pu­ter Viruses, jan­vier 1986.

Commentaire

Ajouter un commentaire

Laloyrépondre
25 mars 2014 à 14 h 47 min

Para­doxes de la sécu­ri­té
Les trois para­doxes de la sécu­ri­té ne concerne pas uni­que­ment le Big Data, car les « Mini Data » (votre ordi de la mai­son), vu les mul­ti­tudes d’in­ter­con­nexions qui s’ef­fec­tuent dès que vous bran­chez le cor­don Inter­net, ne consti­tuent ils pas tous ensemble un super Big Data Planétaire ?

Un super article très clair.

JM L

Répondre