Un open data pour la recherche scientifique

Dossier : BIG DATAMagazine N°693 Mars 2014
Par Danielle BOURLANGE (79)
Par Antoine FRACHOT (84)

L’État et ses ser­vices publics dis­posent d’un gise­ment extra­or­di­naire de don­nées et d’informations sur les indi­vi­dus et les entre­prises, ayant un carac­tère sen­sible et béné­fi­ciant d’une pro­tec­tion spé­ci­fique : don­nées per­son­nelles, don­nées rele­vant du secret des affaires, etc.

Un potentiel considérable de valorisation économique et sociale

Une masse d’informations aus­si consi­dé­rable col­lec­tée par les admi­nis­tra­tions et ser­vices publics n’implique pas, du fait des garde-fous juri­diques, que ces infor­ma­tions puissent être détour­nées pour des fins autres que celles pour les­quelles elles ont été col­lec­tées, ni même qu’il existe une « auto­ri­té cen­trale » capable de les appa­rier entre elles sans contrôle et auto­ri­sée à le faire.

Elle consti­tue un poten­tiel consi­dé­rable de valo­ri­sa­tion éco­no­mique et sociale au ser­vice de l’intérêt géné­ral et, simul­ta­né­ment, porte en elle une menace poten­tielle à l’égard de la vie pri­vée et de la confiance que les citoyens ont à l’égard de leur gouvernement.

Il est vain d’insister sur le poten­tiel de valo­ri­sa­tion en niant les dan­gers, de même qu’il est vain de pous­ser à l’extrême le prin­cipe de pré­cau­tion en oubliant les bien­faits consi­dé­rables que l’utilisation de ces don­nées peut appor­ter à la société.

Face à cette dif­fi­cul­té, per­mettre à des cher­cheurs d’exploiter ces don­nées dans un cadre strict et sécu­ri­sé peut consti­tuer une réponse d’un inté­rêt majeur.

REPÈRES

Les administrations produisent une quantité considérable de données nécessaires au bon fonctionnement du service public et à la gouvernance des politiques menées. Depuis 2005, ces données peuvent être réutilisées par des tiers, citoyens, chercheurs, créateurs, associations et entreprises.
L’objectif de cette large diffusion des données publiques, aussi appelée open data, était avant tout de stimuler la création économique et l’innovation à partir de cette masse de données. Il s’agit en effet d’une matière première très riche pour l’industrie numérique notamment. Une étude européenne chiffre ainsi à 40 milliards d’euros par an environ les gains économiques directs pouvant découler de l’utilisation des informations publiques pour l’ensemble de l’Union.
Mais l’ouverture de ces données répond aussi à une exigence démocratique de transparence de l’action publique et constitue un vecteur de modernisation de l’administration. Les bénéfices attendus sont donc tant d’ordre économique que social.
Au sein de la masse des données publiques, il convient toutefois de distinguer celles qui peuvent faire l’objet d’une diffusion large et ouverte, des données sensibles, au regard notamment de la protection de la vie privée des citoyens dont l’utilisation doit être encadrée.

Bienfaits et dangers

Il est impé­ra­tif de consi­dé­rer simul­ta­né­ment les bien­faits et les dan­gers de l’exploitation de don­nées per­son­nelles comme les deux faces d’une même pro­blé­ma­tique. Des don­nées agré­gées qui ne contien­draient aucune infor­ma­tion ris­quant de mettre en dan­ger la vie pri­vée peuvent pré­sen­ter un inté­rêt indé­niable pour cer­tains acteurs, par exemple pour construire des indi­ca­teurs sur la per­for­mance des centres hos­pi­ta­liers. Mais l’agrégation obère très pro­ba­ble­ment une grande par­tie du poten­tiel de valo­ri­sa­tion des données.

Identification indirecte

Le rapport sur les données de santé cité dans l’article donne un exemple très parlant du risque d’identification indirecte : si on prend l’exemple des séjours hospitaliers avec pour seules informations l’hôpital, le code postal du domicile, l’âge (mois et année de naissance), le sexe, le mois de sortie et la durée de séjour, 89% des patients hospitalisés dans l’année 2008 sont théoriquement identifiables (et 100% des personnes hospitalisées deux fois).

Inver­se­ment, une source de don­nées à haute valeur ajou­tée avec une gra­nu­la­ri­té fine a de grandes chances d’être aus­si une source de dan­ger pour la vie pri­vée si son usage est détourné.

En effet, une base de don­nées, même ren­due ano­nyme, c’est-à-dire sans le nom, pré­nom, adresse et numé­ro de Sécu­ri­té sociale des indi­vi­dus, peut pré­sen­ter un risque réel d’identification des indi­vi­dus pré­sents dans cette base. On parle alors de don­nées indi­rec­te­ment nomi­na­tives et de risque de réidentification.

Autre­ment dit, la pro­ba­bi­li­té n’est jamais nulle qu’en croi­sant les variables de la base de façon sys­té­ma­tique on arrive à iden­ti­fier des indi­vi­dus, d’autant plus si l’on dis­pose d’informations externes supplémentaires.

Un encadrement législatif solide

Quelles sont les solu­tions ? En pre­mier lieu, l’encadrement légis­la­tif et régle­men­taire doit être solide. S’agissant de la France et, plus géné­ra­le­ment, de l’espace euro­péen, cet enca­dre­ment est clai­re­ment éta­bli, via notam­ment les dis­po­si­tions pro­té­geant le secret médi­cal, le secret fis­cal, le secret sta­tis­tique ou encore le secret des affaires, ain­si que l’ensemble des lois et règle­ments euro­péens. En outre, la légi­ti­mi­té et l’autorité de la CNIL sont indiscutables.

Quand il s’agit de recherche scientifique – et non d’open data – le risque à maîtriser est le risque de dissémination

En deuxième lieu, il existe un ensemble de métho­do­lo­gies et d’algorithmes sta­tis­tiques pour réduire le risque de réiden­ti­fi­ca­tion tout en mini­mi­sant la perte d’information asso­ciée. En effet, il y a néces­sai­re­ment perte d’information dès lors qu’on réduit la pro­ba­bi­li­té de réidentification.

Les algo­rithmes et métho­do­lo­gies sta­tis­tiques ont jus­te­ment pour but de mini­mi­ser le ratio entre le « coût » (la perte d’information) et le « béné­fice » (la réduc­tion de la pro­ba­bi­li­té de réidentification).

Mal­heu­reu­se­ment, ce genre de tech­nique conduit en géné­ral à une perte d’information qui fait perdre à la base de don­nées son inté­rêt pour des recherches scien­ti­fiques pous­sées, même si la base garde sou­vent un inté­rêt dans une logique d’open data visant à ali­men­ter le débat public.

Santé et vie privée

Un rapport remarquable remis récemment à la ministre des Affaires sociales concernant l’ouverture des données de santé illustre cette tension entre les bienfaits considérables d’une meilleure utilisation des données de santé, en l’occurrence la base de 1,2 milliard d’enregistrements des feuilles de soin collectées par la Caisse nationale d’assurance maladie, soit environ 200 téraoctets de données chaque année, et les dangers potentiels d’une telle masse de données.
Du côté des bienfaits, personne ne pourra nier l’intérêt considérable de détecter très tôt des associations médicamenteuses délétères ou des phénomènes épidémiologiques graves, d’économiser des sommes considérables en examens médicaux inutiles et peut-être dangereux, de permettre aux médecins de mieux suivre et « piloter » l’état de santé de leurs patients, et tout ceci grâce à une analyse statistique rigoureuse des données de l’assurance-maladie.
Qui pourrait affirmer que des problèmes graves de santé publique ne sont pas en train de survenir aujourd’hui même sans que personne n’en ait conscience encore ? Sachant cela, qui serait prêt à refuser une analyse statistique fouillée et en temps réel des données individuelles de l’assurance-maladie permettant de détecter ces problèmes plusieurs mois voire plusieurs années avant que les dégâts n’apparaissent au grand jour ?
À l’inverse, personne ne peut nier que cette source d’information recèle des dangers potentiels pour la vie privée des usagers qui exigent que son utilisation soit encadrée. Il suffit d’imaginer ce que des assureurs, des laboratoires pharmaceutiques ou les administrations pourraient faire, dans un pays qui ne serait pas un État de droit, avec une telle masse d’informations sur la santé des individus ou sur les pratiques des médecins.

Contrai­re­ment à la logique de l’open data, la recherche scien­ti­fique exige en revanche de per­mettre à des cher­cheurs dûment auto­ri­sés de pou­voir tra­vailler direc­te­ment sur les don­nées brutes les plus exhaustives.

Face au risque de réiden­ti­fi­ca­tion par nature très impor­tant, l’enjeu cru­cial est plu­tôt d’empêcher toute fuite de don­nées en dehors du cercle strict des seuls cher­cheurs auto­ri­sés. Le risque à maî­tri­ser n’est donc plus le risque de réiden­ti­fi­ca­tion mais le risque de dissémination.

S’enfermer dans un bunker

Long­temps, la seule « tech­no­lo­gie » uti­li­sable pour pré­ve­nir le risque de dis­sé­mi­na­tion rele­vait de la tech­nique du « bun­ker », c’est-à- dire la construc­tion d’un centre phy­sique dans lequel le cher­cheur doit se rendre, être fouillé à l’entrée et la sor­tie, et sur­veillé pen­dant tout le temps où il tra­vaille sur les don­nées à l’intérieur de ce bunker.

Les pre­miers centres phy­siques ont été créés aux États-Unis ou au Cana­da il y a plu­sieurs décennies.

Pour l’anecdote, aux États-Unis, le centre phy­sique est sur­veillé par la police et c’est un poli­cier qui fouille le cher­cheur avant et après l’entrée dans le bun­ker. Inutile de dire que cette façon de faire de la recherche est très coû­teuse et ne cor­res­pond pas vrai­ment aux pra­tiques de la recherche scientifique.

La deuxième géné­ra­tion tech­no­lo­gique a por­té sur le remote exe­cu­tion dans lequel le cher­cheur n’a pas accès aux don­nées et se contente d’envoyer son pro­gramme infor­ma­tique à l’administration pro­prié­taire des don­nées qui se charge alors de le faire tour­ner et ren­voie les résul­tats au cher­cheur (après avoir véri­fié que rien de confi­den­tiel ne s’y trou­vait). Très lourd aussi.

La troi­sième géné­ra­tion a natu­rel­le­ment consis­té à implé­men­ter un logi­ciel de sécu­ri­té sur le poste infor­ma­tique du cher­cheur mais cette solu­tion, uti­li­sée aux Pays-Bas par exemple, est extrê­me­ment coû­teuse à gérer (il n’y a pas deux cher­cheurs sur terre qui ont le même maté­riel et le même envi­ron­ne­ment infor­ma­tique) et, au final, très peu sécu­ri­sée, car le cher­cheur est sou­vent admi­nis­tra­teur de son poste de travail.

La compétence française

Le Centre d’accès sécurisé aux données (CASD) a été développé au sein du Groupe des écoles nationales d’économie et statistique (l’établissement tutelle de l’ENSAE, école d’application de l’École polytechnique) pour répondre aux besoins de l’INSEE.
Aujourd’hui, 500 chercheurs français et européens ont accès en toute sécurité aux données fiscales, données de l’INSEE, données de divers ministères et bientôt peut-être les données de santé si leur ouverture est décidée par le pouvoir politique.
Cette technologie (mais pas les données bien sûr) est en train d’être commercialisée dans les autres pays européens, voire également pour d’autres applications privées où des entreprises ont des données sensibles qui doivent être utilisées, prouvant au passage l’excellence française en termes de big data et de gestion de la sécurité des données.

Travailler à distance

L’administration fran­çaise est en pointe car elle a déve­lop­pé la qua­trième géné­ra­tion grâce à une inno­va­tion tech­no­lo­gique bre­ve­tée et label­li­sée « Équi­pe­ment d’excellence » qui per­met à des cen­taines de cher­cheurs fran­çais et euro­péens de tra­vailler à dis­tance sur des don­nées confi­den­tielles sans risque de dissémination.

Les données ne quittent jamais les serveurs centraux

Cette solu­tion tech­no­lo­gique repose sur un ter­mi­nal phy­sique minia­tu­ri­sé (SD Box) qui fonc­tionne en remote access, qui est tota­le­ment indé­pen­dant du réseau infor­ma­tique local et qui néces­site une iden­ti­fi­ca­tion bio­mé­trique forte (par empreinte digi­tale) pour être utilisé.

Ain­si, les don­nées ne quittent jamais les ser­veurs cen­traux de l’administration fran­çaise, les­quels ser­veurs sont eux-mêmes tota­le­ment étanches aux réseaux infor­ma­tiques de l’administration et ne peuvent dia­lo­guer qu’avec les ter­mi­naux SD Box.

Poster un commentaire