Garantir la disponibilité, l’intégrité et la confidentialité des données

Dossier : BIG DATAMagazine N°693 Mars 2014
Par Philippe WOLF (78)

Sécurité des infrastructures

La sécu­ri­té des infra­struc­tures met­tant en œuvre les big data, poten­tiel­le­ment sen­sibles au regard de ce qu’ils mani­pulent, fait appel prin­ci­pa­le­ment aux fonc­tions de dis­po­ni­bi­li­té et d’intégrité. La rési­lience doit être une pro­prié­té glo­bale de la chaîne (réseaux, baies, pro­cé­dures, humains) et ne peut s’appréhender, dans son ensemble, qu’avec une ana­lyse holis­tique et une ges­tion per­ma­nente des risques.

Quatre règles à respecter

Les quatre trayons du « cloud maîtrisé ou souverain » sont connus mais pas toujours activés :
faire appel à un ou des prestataires de confiance ;
être capable d’auditer réellement la solution dans un temps court ;
avoir la garantie testée de réversibilité pour changer de prestataire sans pertes, si nécessaire ;
rédiger les contrats sous la protection du droit national pour gérer le risque juridique.

Du très clas­sique, même si les ques­tions d’interdépendance et d’éparpillement prennent une impor­tance cru­ciale due à la com­plexi­fi­ca­tion des archi­tec­tures de protection.

De plus, le modèle du pair-à-pair se sub­sti­tue au modèle client-ser­veur qui faci­li­tait la super­vi­sion de sécu­ri­té. L’introduction de méca­nismes de sécu­ri­té sur des couches logi­cielles qui se stan­dar­disent (opens­tack, hadoop1, etc.) doit pou­voir appor­ter une résis­tance nouvelle.

Les puis­sances de cal­cul requises par les big data néces­sitent, sauf pour quelques très grosses entre­prises, d’externaliser ou, au mini­mum, de mutua­li­ser sto­ckages et trai­te­ments dans l’infonuagique (cloud com­pu­ting). Le recours au cloud com­pu­ting réclame des pré­cau­tions même dans le cas de trans­pa­rence absolue.

REPÈRES

La CNIL propose que « l’appellation coffre-fort numérique, ou coffre-fort électronique, soit réservée à une forme spécifique d’espace de stockage numérique, dont l’accès est limité à son seul utilisateur et aux personnes physiques spécialement mandatées par ce dernier.
Les services de coffre-fort numérique doivent garantir l’intégrité, la disponibilité et la confidentialité des données stockées et impliquer la mise en œuvre des mesures de sécurité décrites dans la recommandation. »

Protection des données

Dans le cas des big data non ouverts (pri­vés), la confi­den­tia­li­té des don­nées sto­ckées ne pose pas de pro­blème par­ti­cu­lier si l’entreprise ou l’organisme garde la capa­ci­té de gérer ses propres clés de chif­fre­ment ou de signa­ture, de pré­fé­rence dans un coffre-fort numé­rique label­li­sé2, ou en confie la ges­tion à des tiers réel­le­ment de confiance.

Rédiger les contrats sous la protection du droit national pour gérer le risque juridique

Pour rendre confi­den­tiels les algo­rithmes de cal­cul, il manque aujourd’hui un ingré­dient essen­tiel qui serait une implé­men­ta­tion pra­tique du chif­fre­ment dit homo­mor­phique, c’est-à-dire d’un chif­fre­ment qui don­ne­rait un moyen de réa­li­ser diverses opé­ra­tions sur le chif­fré sans recou­rir à l’opération de déchif­fre­ment com­plète. Une avan­cée dans ce domaine comme sur le cal­cu­la­teur quan­tique ou à ADN néces­si­te­ra, de toutes les manières, de recon­ce­voir une algo­rith­mique adaptée.

L’inté­gri­té clas­sique qui repose sur la signa­ture numé­rique doit être, à son tour, révi­sée. Il existe déjà des dérives poten­tielles liées aux cal­culs lar­ge­ment répar­tis ou en grilles. Le res­pect des règles inter­na­tio­nales de non-pro­li­fé­ra­tion impose un contrôle, préa­lable de pré­fé­rence, à un usage dévoyé des puis­sances cal­cu­la­toires disponibles.

La seule signa­ture des res­sources par­ta­gées, dis­tri­buées, hété­ro­gènes, délo­ca­li­sées et auto­nomes ne suf­fit plus. Des tech­niques d’obscurcissement (« obfus­ca­tion de code ») com­pliquent le contrôle.

Risques d’identification

Un pan crois­sant des big data touche aux don­nées per­son­nelles quand ils n’en sont pas le car­bu­rant pre­mier3. Les pro­grès des moteurs de recherche intel­li­gents per­mettent d’identifier faci­le­ment une per­sonne à par­tir d’un nombre très réduit de carac­tères, cela d’autant plus que l’intimité est lit­té­ra­le­ment mise à nu sur les réseaux sociaux.

Tolérance au flou

L’intégrité stricte des données n’est plus nécessaire quand il s’agit de manipuler des données non structurées, parfois faussées ou incomplètes, ou de travailler principalement par échantillonnage.
Une tolérance au flou, aux calculs approchés et aux mutations rompant le clonage binaire parfait, est un ingrédient porteur d’une meilleure adéquation des big data au monde réel qu’ils sont censés nous aider à comprendre.

On retrouve, à une échelle nou­velle, de vieux pro­blèmes d’inférences par déduc­tion, induc­tion, abduc­tion ou adduc­tion dans les bases de don­nées clas­siques. Les croi­se­ments de don­nées per­mettent des attaques par canaux auxi­liaires séman­tiques – attaques qui ne visent pas direc­te­ment les pro­tec­tions théo­riques mais leur implé­men­ta­tion pra­tique – struc­ture redou­tée en SSI.

On arri­vait à négli­ger ou à jugu­ler les canaux cachés numé­riques : ce n’est plus le cas avec les canaux séman­tiques4.

Quatre critères sécuritaires

Les cri­tères com­muns pour l’évaluation de la sécu­ri­té des tech­no­lo­gies de l’information5 intro­duisent dès 1999, sous l’impulsion du Dr Pfitz­mann, des fonc­tions de sécu­ri­té pour la pro­tec­tion des don­nées per­son­nelles. Elles sont au nombre de quatre.

  • L’ano­ny­mat garan­tit qu’un sujet peut uti­li­ser une res­source ou un ser­vice sans révé­ler son iden­ti­té d’utilisateur.
  • La pos­si­bi­li­té d’agir sous un pseu­do­nyme garan­tit qu’un uti­li­sa­teur peut uti­li­ser une res­source ou un ser­vice sans révé­ler son iden­ti­té, mais peut quand même avoir à répondre de cette utilisation.
  • Des amendes records touchent aujourd’hui des institutions financières

    L’impos­si­bi­li­té d’établir un lien garan­tit qu’un uti­li­sa­teur peut uti­li­ser plu­sieurs fois des res­sources ou des ser­vices sans que d’autres soient capables d’établir un lien entre ces utilisations.

  • La non-obser­va­bi­li­té garan­tit qu’un uti­li­sa­teur peut uti­li­ser une res­source ou un ser­vice sans que d’autres, en par­ti­cu­lier des tierces par­ties, soient capables d’observer que la res­source ou le ser­vice est en cours d’utilisation.

Ces fonc­tions font l’objet de tra­vaux algo­rith­miques nova­teurs, prin­ci­pa­le­ment en Europe, mais tardent à s’implanter dans les trai­te­ments numé­riques de masses qui vont pas­ser rapi­de­ment aux trai­te­ments d’informations en masses.

Protection des informations

On ne peut éli­mi­ner le rôle du sujet dans la pro­duc­tion de l’information, ou par­fois de la connais­sance, par les big data. « La signi­fi­ca­tion d’une infor­ma­tion est tou­jours rela­tive »7. Il s’agit de mesu­rer l’intelligibilité, la véri­fia­bi­li­té et la tra­ça­bi­li­té, d’estimer la res­pon­sa­bi­li­té contrac­tuelle, de gérer les conflits d’influences, de dis­tin­guer les fausses nou­velles, bref, de résis­ter au mirage des big data sim­plistes.

Anonymat et santé

La sphère santé-social accumule les difficultés malgré les promesses des big data (études épidémiologiques, dossier médical personnel, optimisation des systèmes sociaux). Le constat de départ est qu’il n’y a pas de confidence (médicale) sans confiance (singulière). Il faut alors distinguer la confidentialité-discrétion partageable par du chiffrement réversible de la « confidentialité-séclusion6 » qui exige des fonctions à sens unique.
Mais, dans ce dernier cas, la pseudo-anonymisation réversible serait parfois préférable à une véritable anonymisation irréversible, dans le cas, par exemple, de détection d’une maladie orpheline ou d’une grave épidémie où il faudrait retrouver l’individu porteur. Il manque clairement un modèle de sécurité partagé.

Des amendes records touchent aujourd’hui des ins­ti­tu­tions finan­cières. Elles sanc­tionnent des infrac­tions à répé­ti­tion qui n’auraient pas été pos­sibles sans l’obs­cur­cis­se­ment numé­rique, tech­nique consis­tant à cacher des infor­ma­tions en les noyant dans une masse de don­nées. L’obésité, sans diète, nour­rit et ampli­fie cette obs­cu­ri­té. De plus, les biais cog­ni­tifs des big data, vou­lus ou non, aveuglent une saine com­pré­hen­sion des enjeux de sécurité.

La capa­ci­té d’absorption humaine étant limi­tée8, un dif­fé­ren­tiel de plus en plus grand se crée­ra avec les capa­ci­tés atten­dues des robots-pro­grammes. Tant que les résul­tats espé­rés ne seront pas là, la ten­dance sera de com­plexi­fier les trai­te­ments par une mas­si­fi­ca­tion encore plus grande des don­nées et par l’ajout de para­mètres aux automates.

Alors qu’il fau­drait, au contraire, modé­li­ser, ana­ly­ser, expli­quer et mieux cibler et cri­bler les don­nées utiles et ratio­na­li­ser cette intel­li­gence artificielle.

Cette ten­dance à l’entropie porte en elle le germe des « acci­dents de la connais­sance » signa­lés par l’essayiste Paul Viri­lio9. À bras­ser trop large et trop gros, on oublie les fonc­tions essen­tielles et on bride l’engagement.

Une nouvelle approche de la SSI

Les big data ouvrent aus­si des pers­pec­tives nou­velles en SSI, qui passent d’abord par la mutua­li­sa­tion des com­pé­tences devant une menace mul­ti­forme qui s’adapte très vite aux muta­tions technologiques.

Dans cette lutte aujourd’hui inégale entre défen­seurs et atta­quants, l’analyse des signaux faibles est lar­ge­ment prô­née. Les big data semblent adap­tés à cette détec­tion d’anomalies sur l’échelle dite des sources ouvertes. Ils pré­parent l’analyse des signi­fi­ca­tions (la séman­tique) des affron­te­ments cyber. Ils four­nissent un fais­ceau d’indices per­met­tant aux ana­lystes d’évaluer l’origine des attaques. Ils doivent aus­si ser­vir à anti­ci­per les usages mal­veillants des tech­no­lo­gies micro­ro­bo­tiques consti­tu­tives de l’Internet des objets.

Sciences du danger et big data

Il est intéressant de noter que les cindyniques, ou sciences du danger, commencent à investiguer le champ de l’information10.
Elles proposent un regard à cinq dimensions, examinant à la fois la dimension des données (axe statistique), la dimension des modèles (axe épistémique), les finalités de l’acteur (axe téléologique), l’axe des règles, normes, codes auxquels est soumis (ou que s’impose) l’acteur et les valeurs (éthiques, morales) de l’acteur (axe axiologique).

Enfin, ils doivent offrir des simu­la­tions dyna­miques d’attaques, les plus proches du réel, pour en déduire les méca­nismes de contre-réac­tion les plus per­ti­nents. Plu­sieurs écueils consti­tu­tifs des big data sont à évi­ter ici. Il ne s’agit ni de rem­pla­cer la pré­ci­sion des don­nées par leur masse, ni de rem­pla­cer la recherche de causes par celle de coïn­ci­dences ou de corrélations.

Il faut se méfier du retour de cer­taines illu­sions bien connues des infor­ma­ti­ciens expé­ri­men­tés, comme l’apprentissage, les réseaux de neu­rones, voire cer­tains aspects de l’intelligence arti­fi­cielle dans les­quels les hypo­thèses impli­cites (struc­ture du réseau de neu­rones, biais de la col­lecte ser­vant à l’apprentissage) ne peuvent être ignorées.

Pour faire des big data un outil de progrès, il faut en maîtriser les dérives

Appli­qué, par exemple, à l’identification de sus­pects ou de cibles en sécu­ri­té civile, cela semble être por­teur de très graves dan­gers pour les socié­tés. Mais la SSI ne se réduit pas, mal­heu­reu­se­ment, aux archi­tec­tures de systèmes.

L’assemblage de com­po­sants sécu­ri­sés ne garan­tit pas la soli­di­té du tout ; au contraire, la com­plexi­té faci­lite le tra­vail de l’attaquant dans la recherche d’un che­min d’attaque. A contra­rio, la mono­cul­ture tech­no­lo­gique favo­rise le contrôle cen­tra­li­sé mais cette faci­li­té fra­gi­lise également.

Éthique des big data ?

Un rap­port gou­ver­ne­men­tal récent12 affirme qu’il est impé­ra­tif « d’assurer la sécu­ri­té des don­nées ». Pour faire des big data un outil de pro­grès socié­tal, par exemple pour les villes intel­li­gentes ou smart cities (eau, trans­ports, éner­gie, com­merce élec­tro­nique), il faut en maî­tri­ser les dérives.

Protéger la cyberdiversité

Une analogie s’impose. La diversité des espèces est le plus grand rempart immunitaire contre la perte d’un écosystème.
De même, la cyberdiversité11, si malmenée par quelques écosystèmes numériques fermés dont aucun n’est européen, reste le constituant principal d’une véritable défense en profondeur.

On pour­rait para­phra­ser le célèbre Code is Law (Le Code fait loi) de Law­rence Les­sig13 par « Micro­code is law in cybers­pace ». La France ou l’Europe vou­dront-elles reve­nir dans le jeu tech­no­lo­gique ? Une oppor­tu­ni­té se pré­sente avec le pro­bable rem­pla­ce­ment du sili­cium par le car­bone (gra­phène).

Quoi qu’il en soit, des règles d’éthiques sont à poser. La France et la vieille Europe sont héri­tières des ver­tus de « digni­té, de réserve et de droi­ture » (Épic­tète).

Puissent-elles enga­ger la maî­trise et la domes­ti­ca­tion des robots logi­ciels des big data sur une régu­la­tion s’inspirant de ces prin­cipes en gar­dant l’homme au centre des enjeux.

____________________________________________
1. En par­ti­cu­lier, sa sur­couche Accu­mu­lo qui pro­pose du contrôle d’accès par mar­quage (sans chif­fre­ment), pre­mier pas vers le contrôle de fina­li­té de la col­lecte des don­nées. Deux socié­tés au moins sup­portent ce logi­ciel libre.
http://accumulo.appache.org
2. http://www.cnil.fr/linstitution/actualite/article/article/adoption-dune-recommandation-sur-les-coffre-forts-electroniques/
3. Lire, de ce point de vue, la der­nière recom­man­da­tion ENISA sur la pro­tec­tion de la vie pri­vée dans les don­nées de connexions
http://www.enisa.europa.eu/media/news-items/enisa-publishes-new-study-for-securing-personal-data-in-the-context-of-data-retention
4. Comme, par exemple, le pié­geage mathé­ma­tique de la norme de géné­ra­tion de nombres pseu­do-aléa­toires Dual_EC_DRBG par la NSA, publiée en 2006 par le NIST et dont la porte déro­bée n’a été décou­verte qu’en 2008.
5. http://www.ssi.gouv.fr/fr/certification-qualification/cc/les-criteres-et-methodologies-d-evaluation.html
6. Termes intro­duits par Gilles Trouessin
https://www.ossir.org/jssi/jssi2008/4B.pdf
7. Jean Zin, Le monde de l’information, 2004
http://jeanzin.fr/ecorevo/sciences/mondinfo/mondinfo.htm
8. Un humain absor­be­ra au plus 40 péta­oc­tets (1015) dans sa vie, à rap­por­ter aux 200 yot­ta­oc­tets (1024) mani­pu­lés par Inter­net sur 60 ans.
9. L’accident ori­gi­nel, Paul Viri­lio, Gali­lée, 2005.
10. http://ifrei.org/tiki-index.php?page=InfoCindynique
11. La cyber diver­si­té est en berne. Pour ne prendre qu’un exemple, seules les entre­prises IBM (USA) et TSMC (Taï­wan, Chine) détiennent les savoir-faire phy­si­co-chi­miques des fon­de­ries élec­tro­niques « sili­cium ». Les inves­tis­se­ments pour créer un nou­veau cir­cuit et ses ser­vices asso­ciés atteignent la somme de 10 mil­liards de dol­lars, autant qu’un aéronef.
12. Ana­lyse des big data, Quels usages, quels défis ?, Com­mis­sa­riat géné­ral à la stra­té­gie et à la pros­pec­tive, novembre 2013.
http://www.strategie.gouv.fr/blog/wp-content/uploads/2013/11/2013–11-09-Bigdata-NA008.pdf
13. Tra­duc­tion française :
http://www.framablog.org/index.php/post/2010/05/22/code-is-law-lessig
et son livre codev2 : http://codev2.cc/

Poster un commentaire