Utilisation de la donnée massive dans la police judiciaire : fichier automatisé des empreintes digitales (FAED)

La police judiciaire à l’épreuve de la donnée massive
Moore a rendez-vous avec Locard

Dossier : Gendarmerie & numériqueMagazine N°778 Octobre 2022
Par Sarah PÉTROFF (X13)

Avec la révo­lu­tion numé­rique, la quan­ti­té de preuves poten­tielles dis­po­nibles dans les enquêtes judi­ciaires a connu une crois­sance ver­ti­gi­neuse. Les délin­quants ont inves­ti le cybe­res­pace et les besoins des enquê­teurs ont chan­gé. Data scien­tists et enquê­teurs col­la­borent pour trai­ter au mieux cette masse de don­nées au poten­tiel inédit, dans un cadre juri­dique par­ti­cu­liè­re­ment sensible. 
Le conte­nu de l’article n’exprime que le point de vue de l’auteur et n’engage pas la gendarmerie.

Les forces de sécu­ri­té ont main­te­nant bien pris la mesure de la menace que repré­sente la cyber­cri­mi­na­li­té (atteintes aux sys­tèmes de trai­te­ment auto­ma­ti­sé de don­nées ou STAD, pira­tages, etc.) avec pour la gen­dar­me­rie la créa­tion à l’été 2021 du Com­Cy­ber­Gend, regrou­pant sous une même ban­nière toutes les acti­vi­tés de l’institution dans ce domaine, de la pré­ven­tion à l’identification des auteurs en pas­sant par la recherche de la preuve numé­rique. Elles conti­nuent leur adap­ta­tion à l’irruption du numé­rique dans la délin­quance de tous les jours, alors même que la crois­sance ver­ti­gi­neuse du volume des preuves numé­riques poten­tielles exige une modi­fi­ca­tion pro­fonde de la manière d’appréhender, de trier et d’exploiter cette don­née massive.

Déjà trente ans d’analyse criminelle

La pro­blé­ma­tique du trai­te­ment de la don­née judi­ciaire de masse n’est pas tout à fait nou­velle. En 2017, le logi­ciel Ana­lyst Note­book a connu une renom­mée éphé­mère en per­met­tant une avan­cée signi­fi­ca­tive dans le cold case peut-être le plus célèbre de France, l’affaire Gré­go­ry. Ce logi­ciel, four­ni par IBM, est uti­li­sé depuis les années 1990 par des gen­darmes spé­cia­le­ment for­més, appe­lés ana­lystes cri­mi­nels ou « Ana­crim », pour le trai­te­ment des affaires les plus com­plexes. Ces spé­cia­listes trans­forment notam­ment le conte­nu des pro­cé­dures en base de don­nées puis en graphe, ce qui per­met d’avoir une vision d’ensemble de dos­siers qui repré­sentent des mil­liers de pièces de pro­cé­dure et de mettre en évi­dence inco­hé­rences et connexions.

Aujourd’hui la don­née mas­sive est par­tout. Le pro­blème de son trai­te­ment n’est donc plus limi­té aux dos­siers les plus graves, mais est deve­nu un pro­blème quo­ti­dien des enquê­teurs, même pour des faits de faible inten­si­té, aux­quels la gen­dar­me­rie ne peut pas se per­mettre de consa­crer autant de temps. Il y a encore vingt ans, ana­ly­ser le conte­nu d’un Nokia 3310 pou­vait se faire à la main en quelques minutes. Aujourd’hui, le der­nier iPhone offre un téra­oc­tet de sto­ckage. Le pro­blème n’est pas tout à fait le même non plus : dans un dos­sier com­plexe, les Ana­crim intègrent toute la don­née dis­po­nible, dans le but de mettre en évi­dence des preuves qui résident dans l’assemblage des pièces de pro­cé­dure plu­tôt que dans ces pièces prises individuellement.

Dans un dos­sier clas­sique, la logique qui pré­vaut est celle de l’efficacité : il s’agit de trou­ver l’aiguille qui inté­resse le dos­sier dans la botte de foin que repré­sente la don­née dis­po­nible, sans pou­voir y consa­crer trop de temps.


Edmond Locard, fondateur du premier laboratoire de police scientifique

Il y a tout juste un siècle, le Fran­çais Edmond Locard décla­rait que « nul ne peut agir avec l’intensité que sup­pose l’action cri­mi­nelle sans lais­ser des marques mul­tiples de son pas­sage ». Par­tant de ce prin­cipe, il crée le pre­mier labo­ra­toire de cri­mi­na­lis­tique pour for­ma­li­ser l’étude des traces et indices retrou­vés sur les scènes de crime. Si Locard n’a sans doute pas pu ima­gi­ner l’avènement excep­tion­nel du numé­rique, son prin­cipe en devient encore plus vrai aujourd’hui. À l’heure où l’évolution expo­nen­tielle des capa­ci­tés des ordi­na­teurs valide le pos­tu­lat de Moore, où la créa­tion mon­diale de don­nées se mesure en zet­ta­oc­tets et où le délin­quant a dans sa poche le der­nier iPhone, la trace numé­rique est par­tout. Mais, et heu­reu­se­ment, la durée légale de la garde à vue n’a pas sui­vi la même courbe et les enquê­teurs se retrouvent à devoir ana­ly­ser des volumes de don­nées tou­jours plus impor­tants dans des délais tou­jours aus­si restreints. 


De la donnée à la preuve

Tech­ni­que­ment, il est rela­ti­ve­ment aisé de four­nir aux gen­darmes un outil per­met­tant de recher­cher des don­nées qui consti­tuent en elles-mêmes la preuve d’une infrac­tion. Par exemple, les forces de police dis­posent depuis de nom­breuses années d’outils per­met­tant la recherche d’images à carac­tère pédo­por­no­gra­phique, dont la déten­tion est à elle seule une infrac­tion. Il est beau­coup plus com­plexe de recher­cher des indices qui ne deviennent des preuves qu’une fois mis en rela­tion avec d’autres élé­ments du dos­sier : une posi­tion géo­gra­phique incri­mi­nante, un his­to­rique Inter­net sus­pect, une pho­to contre­di­sant le conte­nu d’une audition…

Ces recherches néces­sitent donc à la fois des com­pé­tences tech­niques, per­met­tant d’automatiser les recherches, et une connais­sance aus­si pous­sée que pos­sible du dos­sier, pour savoir quoi recher­cher et esti­mer la force pro­bante des résul­tats. Les agents dis­po­sant de cette double com­pé­tence, tech­nique et judi­ciaire, sont aujourd’hui trop rares, pour un cas d’usage qui est déjà quo­ti­dien et qui sera de plus en plus fréquent.

Des marges d’amélioration

De plus, bien que la spé­cia­li­té Ana­crim existe depuis long­temps, celle-ci ne fait encore qu’un usage limi­té des pos­si­bi­li­tés offertes par la tech­no­lo­gie. En effet, si ces enquê­teurs sont indis­so­ciables du logi­ciel Ana­lyst Note­book, ce der­nier sert prin­ci­pa­le­ment sinon exclu­si­ve­ment à la trans­for­ma­tion d’une base de don­nées rela­tion­nelle en graphe per­met­tant d’avoir une repré­sen­ta­tion visuelle d’un dossier.

La base en elle-même est aujourd’hui encore très lar­ge­ment ren­sei­gnée manuel­le­ment à par­tir des pièces du dos­sier, tâche chro­no­phage s’il en est. Une fois le graphe consti­tué, son ana­lyse relève là aus­si pure­ment de l’intelligence humaine, l’analyste mani­pu­lant visuel­le­ment le graphe pour faire res­sor­tir les élé­ments d’intérêt. Les Ana­crim d’aujourd’hui sont donc davan­tage des enquê­teurs que des data scien­tists.

“Il est complexe de rechercher des indices qui ne deviennent des preuves qu’une fois mis en relation avec d’autres éléments.”

Mais leur tra­vail consiste prin­ci­pa­le­ment à faire par­ler de la don­née mas­sive et pour­rait béné­fi­cier des avan­cées en ce domaine. Des recherches sont par exemple en cours pour auto­ma­ti­ser autant que pos­sible la phase de consti­tu­tion de la base de don­nées, en appli­quant des méthodes d’extraction auto­ma­tique d’éléments et de rela­tions. La par­tie ana­lyse peut elle aus­si béné­fi­cier aujourd’hui des algo­rithmes d’analyse de graphe, en par­ti­cu­lier sur les dos­siers s’attaquant à des réseaux cri­mi­nels impor­tants et organisés.

Prendre un peu de recul

La révo­lu­tion numé­rique n’a pas fait que mul­ti­plier les don­nées à ana­ly­ser, elle a aus­si fait explo­ser le nombre de délits, d’auteurs et de vic­times. Depuis 2018, l’infraction de har­cè­le­ment peut être rete­nue pour chaque per­sonne ayant pos­té même un seul com­men­taire hai­neux sous une publi­ca­tion Face­book, ce qui implique des faits avec des cen­taines voire des mil­liers d’auteurs. Aujourd’hui, un escroc peut ache­ter pour quelques euros sur le dark­net une base conte­nant des mil­lions d’adresses e‑mail et com­mettre ensuite en un clic autant de ten­ta­tives d’escroquerie.

Face à ce raz-de-marée d’infractions et de vic­times poten­tielles, la façon de faire his­to­rique – chaque vic­time dépose plainte dans le com­mis­sa­riat ou la bri­gade de gen­dar­me­rie, qui mène­ra ensuite l’enquête sur ce fait indi­vi­duel – ne tient plus la charge. Les pou­voirs publics com­mencent ain­si à déployer depuis quelques années dif­fé­rentes pla­te­formes pour per­mettre le signa­le­ment de ces faits com­mis en masse sur Inter­net, comme Per­ce­val pour les uti­li­sa­tions frau­du­leuses de don­nées ban­caires ou Thé­sée pour les escroqueries.

Au-delà du gain de temps pour l’usager – plus besoin de se rendre phy­si­que­ment en bri­gade ou en com­mis­sa­riat – l’utilité de ces pla­te­formes réside sur­tout dans la consti­tu­tion de bases de don­nées au niveau natio­nal, sur les­quelles il est ensuite éta­bli auto­ma­ti­que­ment des recou­pe­ments entre infrac­tions simi­laires, afin d’orienter ensuite les pro­cé­dures de façon grou­pée vers un unique ser­vice d’enquête.


Lire aussi : La transformation numérique de l’innovation de la Gendarmerie nationale

L’angle de la donnée massive

Si ces pla­te­formes ne traitent aujourd’hui que des infrac­tions rele­vant du numé­rique, tout le spectre des infrac­tions de basse inten­si­té com­mises de façon sérielle – vols à l’étalage, détour­ne­ments de chèque… – pour­rait béné­fi­cier d’une approche sous l’angle de la don­née mas­sive. Il est dif­fi­cile aujourd’hui de lut­ter contre ce type de faits, car impu­ter un fait unique à un auteur ne suf­fit pas pour obte­nir une réponse pénale dissuasive.

Le tra­vail de l’enquêteur réside alors prin­ci­pa­le­ment dans la science du « recou­pe­ment », qui consiste à iden­ti­fier dans d’autres uni­tés des pro­cé­dures d’intérêt et à démon­trer que celles-ci sont rela­tives à des faits ayant vrai­sem­bla­ble­ment été com­mis par le même auteur. Déjà dif­fi­cile en soi, la tâche se com­plique encore si l’on veut s’attaquer non pas à un indi­vi­du, mais à un réseau, avec des équipes à la com­po­si­tion variable. Ici aus­si, des algo­rithmes pour­raient contri­buer à effec­tuer ce recou­pe­ment, sous réserve que la don­née rela­tive aux enquêtes soit dis­po­nible de façon centralisée.

Inter­pel­la­tion d’un indi­vi­du par les enquê­teurs du Centre de lutte contre les cri­mi­na­li­tés numé­riques (C3N)
du pôle judi­ciaire de la Gen­dar­me­rie natio­nale (PJGN), à Pontoise.

Le retour d’un arbitrage historique

Aujourd’hui en effet, la tech­no­lo­gie est mûre, mais le prin­ci­pal blo­cage est juri­dique. L’utilisation des don­nées judi­ciaires est légi­ti­me­ment très enca­drée par le légis­la­teur, qui limite par exemple for­te­ment les croi­se­ments de don­nées entre pro­cé­dures. Le prin­ci­pal enjeu est celui de l’éthique des algo­rithmes. Sans aller jusqu’aux dys­to­pies hol­ly­woo­diennes, les pro­blé­ma­tiques de dis­cri­mi­na­tion liées à l’IA sont bien réelles et revêtent une impor­tance toute par­ti­cu­lière dans le domaine du judi­ciaire. Uti­li­ser des algo­rithmes dans ce domaine néces­si­te­ra de s’assurer de leur valeur éthique, et sur­tout de pou­voir en appor­ter la preuve, sans doute via des audits externes.

La notion d’explicabilité des algo­rithmes est éga­le­ment fon­da­men­tale. Dans un pro­cès pénal, la pro­cé­dure rédi­gée par l’enquêteur s’apparente à une démons­tra­tion, qui doit être com­prise et véri­fiée par les juges ou le jury. Dans ce contexte, faire appel à un algo­rithme pour fran­chir une étape de la démons­tra­tion pose ques­tion et néces­si­te­rait vrai­sem­bla­ble­ment au moins de rendre public son code – ce qui entraîne de nou­velles ques­tions : dans le cadre d’un algo­rithme de machine lear­ning, les don­nées d’entraînement sont au moins aus­si impor­tantes que le code en lui-même et devraient donc logi­que­ment être éga­le­ment publiées, avec les dif­fi­cul­tés que cela implique au vu de la sen­si­bi­li­té des don­nées en question…

Ne pas prendre de retard

Ces ques­tions juri­diques seront au cœur des dis­cus­sions des pro­chaines années, car le sec­teur public a pris conscience du poten­tiel de la don­née dont il dis­pose et pous­se­ra pour faire évo­luer la légis­la­tion afin de per­mettre la valo­ri­sa­tion de cette don­née. L’éternelle ques­tion de l’arbitrage entre les moyens don­nés aux forces de l’ordre et la pré­ser­va­tion des liber­tés fon­da­men­tales est trans­po­sée aujourd’hui sur le ter­rain de l’IA. Mais, au rythme des évo­lu­tions tech­no­lo­giques, les forces de l’ordre auront tou­jours un temps de retard sur des délin­quants qui, par défi­ni­tion, ne s’embarrassent pas de telles précautions.

Poster un commentaire