Un verre d'eau avec des glaçons

Physique statistique et information : le défi des données massives

Dossier : La PhysiqueMagazine N°721 Janvier 2017
Par Marc MÉZARD

Dans le cadre de la phy­sique il y a l’in­fi­ni­ment com­plexe, avec le trai­te­ment des don­nées mas­sives. Trois exemples :
► La tran­si­tion de phases d’un corps où il appa­raît un com­por­te­ment col­lec­tif nou­veau dans un sys­tème à un grand nombre de particules.
► La trans­mis­sion de l’in­for­ma­tion où il existe un code de cor­rec­tion qui sup­prime toutes les erreurs pour un bruit de fond donné.
► La com­pres­sion du signal que l’on sou­haite faire à l’en­re­gis­tre­ment et non plus en post-traitement 


Un gla­çon dans un verre d’eau : des molé­cules d’H2O orga­ni­sées différemment.
© KATELEIGH / FOTOLIA.COM

Dès le début du ving­tième siècle, les phy­si­ciens curieux s’étaient inter­ro­gés devant les dif­fé­rentes phases de la matière. Un gla­çon dans un verre d’eau ? Ce ne sont que des molé­cules d’H2O.

Les inter­ac­tions entre deux molé­cules sont tou­jours les mêmes, alors qu’est-ce qui amène ces molé­cules à par­fois s’aligner pour construire un cris­tal bien ordon­né, ou bien au contraire à dif­fu­ser dans l’eau ? La réponse est jus­te­ment qu’il s’agit d’un com­por­te­ment collectif. 

Vous ne pou­vez ni l’observer ni le com­prendre en étu­diant cinq ou dix molé­cules. En revanche, lorsqu’il y en a un grand nombre il se pro­duit un phé­no­mène coopé­ra­tif, pure­ment sta­tis­tique, qui les amène à s’aligner dans un ordre cris­tal­lin, à une tem­pé­ra­ture très bien défi­nie et très pré­cise, le zéro degré de l’échelle Celsius. 

Il a fal­lu attendre les tra­vaux du phy­si­cien nor­vé­gien Lars Onsa­ger en 1944, pour obte­nir une ana­lyse détaillée de ce phé­no­mène pour­tant d’expérience quo­ti­dienne : la tran­si­tion de phase entre un solide et un liquide. 

REPÈRES

Le domaine de la physique statistique d’aujourd’hui est celui qui explore les phénomènes « émergents », les comportements collectifs nouveaux qui apparaissent lorsqu’un système est composé d’un grand nombre de particules.
Le prix Nobel Philip Anderson l’avait résumé dans le titre d’un de ses articles célèbres : More is different.

LES SINGULARITÉS DE LA TRANSITION DE PHASE

Depuis une qua­ran­taine d’années, l’attention des phy­si­ciens s’est dépla­cée vers une autre fron­tière, celle des tran­si­tions de phases dans les sys­tèmes très désor­don­nés, les verres. 

Pierre Weiss (1865-1940) invente en 1907 la théorie du champ moyen.
Pierre Weiss (1865−1940) invente en 1907 la théo­rie du champ moyen.

Un verre est en effet un état solide (au moins sur des échelles de temps pas trop longues), et pour­tant les molé­cules du verre ne s’alignent pas dans un ordre cris­tal­lin, mais se figent dans des posi­tions aléa­toires, un peu comme si on restrei­gnait les mou­ve­ments molé­cu­laires d’un liquide, ne lais­sant plus à chaque molé­cule que la pos­si­bi­li­té de petites vibra­tions dans la cage créée par ses voi­sines, en sup­pri­mant le mou­ve­ment col­lec­tif qui per­met à l’eau de couler. 

En avan­çant dans la com­pré­hen­sion de ces phases vitreuses, les phy­si­ciens et mathé­ma­ti­ciens ont déve­lop­pé un impres­sion­nant cor­pus de concepts et de méthodes. Pour sai­sir la dif­fi­cul­té, on peut trans­po­ser le pro­blème en étu­diant des com­por­te­ments émer­gents d’agents qui décident d’acheter ou vendre sur un mar­ché financier. 

Si tous les agents suivent la même stra­té­gie, l’analyse est assez simple : on consi­dère un « agent repré­sen­ta­tif », et l’effet des autres agents sur le résul­tat de sa propre stra­té­gie est pris en compte en se disant que, jus­te­ment, les autres agents sont aus­si dans le même cas que lui. Une rela­tion d’autocohérence per­met alors de com­prendre le fonc­tion­ne­ment du marché. 

En phy­sique, c’est la théo­rie du champ moyen, inven­tée par Pierre Weiss en 1907, qui rend compte ain­si des tran­si­tions de phases ordi­naires. Dans les sys­tèmes désor­don­nés c’est une tout autre affaire : chaque agent suit sa propre stra­té­gie, on ne peut pas étu­dier un seul agent repré­sen­ta­tif, on doit déve­lop­per une étude sta­tis­tique car le com­por­te­ment moyen d’un indi­vi­du n’apporte pas d’information suf­fi­sante. C’est ce qui a été fait pour l’étude des verres de spin (des sys­tèmes magné­tiques pré­sen­tant des phases vitreuses), et les méthodes déve­lop­pées dans ce contexte ont trou­vé des appli­ca­tions dans des domaines très variés, de la finance à la bio­lo­gie en pas­sant par l’informatique.

La théo­rie des verres de spin, moti­vée à l’origine par des com­por­te­ments anor­maux comme le vieillis­se­ment de ces maté­riaux dont on n’a trou­vé aucune appli­ca­tion, déve­lop­pée par pure curio­si­té intel­lec­tuelle, est sou­vent com­pa­rée à une corne d’abondance.

LA THÉORIE DE L’INFORMATION, NOUVEAU CHAMP DE RECHERCHE

Un des champs de recherche majeurs où l’on ren­contre ces phé­no­mènes d’émergence et de tran­si­tions de phases est la théo­rie de l’information. Fon­dée par Claude Shan­non en 1948, avec en tête des ques­tions très concrètes de télé­com­mu­ni­ca­tions, elle s’est trans­for­mée désor­mais en un champ scien­ti­fique fer­tile et pro­fond, aux rami­fi­ca­tions actuelles essen­tielles dans de nom­breux domaines où inter­viennent les notions de sto­ckage, de trans­fert et de mani­pu­la­tion d’information.

Claude Shannon, né en 1916, est le père de la théorie de l’information.
Claude Shan­non, né en 1916, est le père de la théo­rie de l’information.

Que l’on songe par exemple au trans­fert d’information de la rétine au cer­veau et à sa mani­pu­la­tion entre les dif­fé­rentes aires du cor­tex visuel pour extraire d’une image un conte­nu, ou bien, tou­jours en bio­lo­gie, à la trans­mis­sion d’information géné­tique d’une cel­lule à ses filles lors de la divi­sion cellulaire. 

Ce domaine scien­ti­fique, qui tra­verse les dis­ci­plines, devient d’importance capi­tale de nos jours avec l’arrivée de don­nées mas­sives et la quête de bons algo­rithmes pour en extraire l’information per­ti­nente via les tech­niques d’apprentissage machine. 

BRUIT ET INTÉGRITÉ DE L’INFORMATION

Comme pre­mier exemple pen­chons-nous sur un des sujets mis en avant par Shan­non lui-même : l’utilisation des codes de cor­rec­tion d’erreurs pour trans­mettre de l’information. Dès que le canal de trans­mis­sion est brui­té, ce qui est tou­jours le cas, qu’il s’agisse de récu­pé­rer des don­nées mesu­rées par un satel­lite, de télé­pho­ner, de sto­cker un docu­ment sur son disque dur ou tout sim­ple­ment de par­ler à quelqu’un, pour que la per­sonne qui reçoit le mes­sage puisse com­prendre le mes­sage qui lui est trans­mis, il faut uti­li­ser ce qu’on appelle un code cor­rec­teur, c’est-à-dire en pra­tique envoyer un mes­sage redondant. 

C’est le cas lorsque je v**s p*rle ou l*rsqu* j’é*ris : le lan­gage est redon­dant (on peut mon­trer qu’il contient à peine plus d’un bit d’information par lettre envoyée, très en des­sous des 4,7 bits par lettre cor­res­pon­dant aux pos­si­bi­li­tés offertes par les com­bi­nai­sons des 26 lettres de l’alphabet si on n’utilisait pas les seuls mots du dic­tion­naire), et cette redon­dance vous per­met de cor­ri­ger des fautes de pro­non­cia­tion ou des fautes de frappe. 

Pour com­prendre le méca­nisme du codage par redon­dance, on peut consi­dé­rer le code le plus simple, dit par répé­ti­tion : pour trans­mettre le « mot » 1101, on envoie trois fois chaque bit, donc 111111000111. Avec 10 % de bruit sur la ligne on va alté­rer un bit sur dix, et rece­voir par exemple 110111010111 ; le déco­dage (par majo­ri­té au sein de chaque tri­plet) est évident : dans ce cas il per­met de retrou­ver l’information trans­mise, au prix d’une redon­dance d’un fac­teur 3. 

Mais un tel code, dit code par répé­ti­tion, ne peut pas cor­ri­ger toutes les erreurs : il reste tou­jours une cer­taine pro­ba­bi­li­té que le code ne res­ti­tue pas le mot d’origine, c’est le cas si le bruit a retour­né deux bits d’un même triplet. 

SUDOKU GÉANT

La grande décou­verte de Shan­non est qu’il existe des codes qui savent cor­ri­ger toutes les erreurs, lorsque le niveau de bruit est infé­rieur à un seuil critique. 

Sudoku géant
Le « jeu » du déco­dage s’apparente à un sudo­ku géant. © JULIASUDNITSKAYA / FOTOLIA.COM

La construc­tion des meilleurs codes de cor­rec­tion d’erreurs, per­met­tant d’atteindre les per­for­mances idéales pré­vues par Shan­non, a énor­mé­ment pro­gres­sé ces der­nières années. Ces codes sont fon­dés sur une redon­dance col­lec­tive impli­quant un grand nombre de bits à la fois. 

En un sens, le « jeu » du déco­dage s’apparente à un sudo­ku géant : il faut retrou­ver le signal envoyé, à par­tir d’une ver­sion brui­tée de ce signal qu’on a reçue, en uti­li­sant la connais­sance du code, qui se tra­duit en une série de contraintes reliant les bits envoyés. La grande dif­fi­cul­té était de trou­ver des algo­rithmes de déco­dage effi­caces, alors que la dyna­mique à l’œuvre dans ces algo­rithmes, mani­pu­lant beau­coup de bits à la fois, est jus­te­ment sujette à des phé­no­mènes émer­gents et à des tran­si­tions de phases qui limitent leurs performances. 

C’est désor­mais chose faite, et cer­taines caté­go­ries de codes atteignent des per­for­mances proches du seuil idéal de Shan­non, grâce à un ensemble d’idées qui sont inti­me­ment liées à la phy­sique des verres de spin : le rôle des molé­cules est joué par les bits d’information, leurs inter­ac­tions sont les contraintes du code, et on cherche à accé­lé­rer une dyna­mique qui est celle de l’algorithme de décodage. 

COMPRESSION DE L’INFORMATION

Un autre exemple récent de cette fer­ti­li­sa­tion croi­sée entre dis­ci­plines est celui de l’acquisition com­pri­mée en trai­te­ment du signal. Cha­cun sait désor­mais que l’information peut être com­pri­mée. Pour sto­cker une image, on peut déci­der d’utiliser un algo­rithme de com­pres­sion qui certes fera perdre un peu de réso­lu­tion, si l’on cherche un jour à zoo­mer sur un détail, mais qui per­met­tra de gar­der l’essentiel, en éco­no­mi­sant l’espace mémoire. 

Dans une base appro­priée, l’image est « par­ci­mo­nieuse » : un bon nombre de ses com­po­santes sont presque nulles (par exemple, dans une trans­for­mée en onde­lettes, on uti­lise la somme et la dif­fé­rence de deux pixels voi­sins, et cette der­nière est sou­vent très petite, dès lors que les deux pixels sont dans une même zone presque uniforme). 

COMPRESSION DU SIGNAL

RMN
On peut espé­rer acqué­rir une image de RMN en accé­lé­rant le pro­ces­sus d’un fac­teur 3 ou 4. © SFAM_PHOTO / SHUTTERSTOCK.COM

Peut-on exploi­ter cette pro­prié­té pour acqué­rir le signal en fai­sant un nombre de mesures mini­mal ? Pour une pho­to, cela revien­drait à se dis­pen­ser de la double étape : mesure de chaque pixel, puis com­pres­sion infor­ma­tique, et la rem­pla­cer par une acqui­si­tion du signal direc­te­ment sous forme com­pri­mée. Si cela pré­sente peu d’intérêt pour nos pho­tos de famille, on peut en revanche espé­rer acqué­rir une image de RMN en accé­lé­rant le pro­ces­sus d’un fac­teur 3 ou 4, aug­men­tant d’autant l’efficacité de nos dis­po­si­tifs d’imagerie médi­cale, ou bien dimi­nuer l’irradiation lors de l’examen par micro­sco­pie de molé­cules biologiques. 

Rien de sur­pre­nant à ce que l’acquisition com­pri­mée soit deve­nue un thème majeur en trai­te­ment de signal dans la der­nière décennie. 

PLUS DE VARIABLES QUE D’ÉQUATIONS

À pre­mière vue, le pro­blème de l’acquisition com­pri­mée peut sem­bler insur­mon­table : il s’agit en effet de recons­ti­tuer un signal en fai­sant un nombre de mesures infé­rieur au nombre d’inconnues. Dans le cas très étu­dié où les mesures sont des com­bi­nai­sons linéaires des com­po­santes du signal, on a donc affaire à un sys­tème linéaire mal condi­tion­né : il com­porte moins d’équations (les mesures) que de variables (les com­po­santes du signal). 

Com­ment faire dans ce cas ? En cher­chant une solu­tion où un cer­tain nombre de variables sont nulles. 

UN INTENSE TRAVAIL THÉORIQUE

La théo­rie de l’information nous enseigne que, lorsqu’on mesure des signaux par­ci­mo­nieux, dès lors que le nombre de mesures est supé­rieur au nombre de variables non nulles, il existe en prin­cipe une solu­tion per­met­tant de retrou­ver le signal d’origine.

Reste à trou­ver une méthode pour atteindre cet objec­tif. L’intense acti­vi­té théo­rique sur ce sujet a en effet por­té ses fruits. Pour réus­sir à recons­truire un signal à par­tir d’un petit nombre de don­nées, il faut avant tout que chaque mesure porte sur un grand nombre de com­po­santes du signal (au lieu de regar­der une image pixel par pixel, on uti­li­se­ra un verre dépo­li), et on doit ensuite uti­li­ser un puis­sant algo­rithme de reconstruction. 

Dans une des approches les plus récentes, on cherche le signal comme la com­bi­nai­son la plus pro­bable, pre­nant en compte les contraintes dues aux mesures et favo­ri­sant la parcimonie. 

Galilée
Gali­lée est un des pères de la démarche scientifique.

SÉRENDIPITÉ

Lorsqu’ils réfléchissaient aux verres de spin il y a trente ans, jamais les physiciens n’auraient pensé que leur savante théorie des systèmes désordonnés s’appliquerait un jour à des problèmes majeurs de théorie de l’information, où la dynamique vitreuse n’est pas liée au mouvement des atomes mais à des algorithmes de reconstruction de signaux.
Bel exemple de ce qu’on appelle la sérendipité.

ANALOGIE AVEC LES ÉTATS CRISTALLINS

Le signal d’origine, celui que l’on cherche à recons­truire, est bien le plus pro­bable. Mais, dans un pro­blème typique qui peut com­por­ter des cen­taines de mil­liers voire des mil­lions de variables, le retrou­ver n’a rien de simple. C’est en fait comme trou­ver un état « cris­tal­lin » dans un sys­tème phy­sique : le rôle de la posi­tion des atomes est ici joué par les com­po­santes du signal, les inter­ac­tions entre atomes sont les contraintes dues aux mesures ; il existe un état cris­tal­lin opti­mum, et pour le trou­ver on peut uti­li­ser des algo­rithmes de champ moyen, notre fameuse sta­tis­tique des « agents », appli­quée ici aux com­po­santes du signal. L’analogie avec le sys­tème phy­sique va très loin. 

En effet, l’application directe de ces prin­cipes se heurte à l’existence d’une phase vitreuse : l’algorithme n’arrive pas à recons­truire l’ensemble du signal, au lieu de trou­ver un cris­tal sa dyna­mique se ralen­tit et il se fige dans un état vitreux éloi­gné du signal d’origine. Il faut alors appli­quer un autre prin­cipe phy­sique : en uti­li­sant une matrice de mesure struc­tu­rée, l’algorithme par­vient à créer un germe de cris­tal à par­tir duquel se pro­page une onde de cris­tal­li­sa­tion, recons­trui­sant le signal dési­ré, jusqu’au seuil pré­dit par Shannon. 

DE NOUVEAUX OUTILS STATISTIQUES

Les suc­cès dans la recons­truc­tion de « signaux par­ci­mo­nieux » ouvrent des pers­pec­tives qui vont bien au-delà de l’acquisition com­pri­mée, et pro­posent une nou­velle évo­lu­tion de la démarche scien­ti­fique. Dans sa forme géné­rique éta­blie depuis, disons, Gali­lée, celle-ci pro­cède par hypo­thèses, par construc­tion de modèle, et par véri­fi­ca­tion expé­ri­men­tale du modèle. 

Éléphant
Avec 5 para­mètres, on peut faire bou­ger la trompe de l’éléphant.
© JIMLARKIN / FOTOLIA.COM

Dans cette phase de véri­fi­ca­tion, on s’appliquera à déter­mi­ner les divers para­mètres du modèle, ce qui n’est pos­sible habi­tuel­le­ment que lorsque le nombre de para­mètres est assez petit, en tout cas bien plus petit que le nombre de mesures (on se sou­vient de la bou­tade de John von Neu­mann : pour expli­quer un phé­no­mène, avec un fit à quatre para­mètres je peux fit­ter un élé­phant, et avec cinq para­mètres je peux lui faire bou­ger la trompe). 

La démarche que nous avons décrite est un peu dif­fé­rente : même en l’absence de modèle, on peut intro­duire des cen­taines ou des mil­liers de para­mètres, tout en exi­geant du fit qu’il soit par­ci­mo­nieux : il devra donc mettre un cer­tain nombre de para­mètres à zéro, et ne gar­der que les para­mètres les plus per­ti­nents statistiquement. 

C’est ain­si l’analyse sta­tis­tique elle-même qui peut appor­ter l’information sur les para­mètres à consi­dé­rer en prio­ri­té, ame­nant à réflé­chir ensuite sur la construc­tion d’un modèle. 

Contrai­re­ment à ce qui est par­fois dit, l’irruption des don­nées mas­sives dans l’étude des sys­tèmes com­plexes ne va pas se sub­sti­tuer à la théo­rie. Il est tou­jours aus­si néces­saire, et de plus en plus dif­fi­cile, de com­prendre, ana­ly­ser, construire un modèle, mais le théo­ri­cien peut s’appuyer sur de nou­veaux outils sta­tis­tiques extrê­me­ment performants.

Poster un commentaire