Conférence « Les mathématiques pour changer le Monde », mars 2018, Lê Nguyên Hoang (X07) / EPFL, science4all.

Mystères mathématiques des réseaux de neurones et enseignement

Dossier : MathématiquesMagazine N°782 Février 2023
Par Stéphane MALLAT (X81)

Les réseaux de neu­rones arti­fi­ciels donnent des résul­tats spec­ta­cu­laires, sans que l’on maî­trise les pro­prié­tés mathé­ma­tiques de l’apprentissage et de la géné­ra­li­sa­tion. Ana­ly­ser des don­nées de grandes tailles pose des ques­tions mathé­ma­tiques dif­fi­ciles, dues à la « malé­dic­tion de la grande dimen­sion ». Résoudre ces pro­blèmes est néces­saire pour garan­tir la pré­ci­sion et la robus­tesse des appli­ca­tions, or on assiste à une désaf­fec­tion des mathé­ma­tiques en France. Pro­mou­voir l’enseignement des mathé­ma­tiques est aujourd’hui un enjeu de com­pé­ti­ti­vi­té internationale.

Les per­for­mances spec­ta­cu­laires des réseaux de neu­rones pro­fonds sont une grande sur­prise. Per­sonne n’imaginait en 2010 que cinq ans plus tard des algo­rithmes pour­raient recon­naître des visages mieux que des humains, syn­thé­ti­ser et recon­naître la parole comme le fait un télé­phone, et dix ans plus tard géné­rer des textes com­plexes, des tra­duc­tions, dia­lo­guer, pro­gram­mer, syn­thé­ti­ser des images… En sciences, cela touche presque tous les domaines, pour pré­dire l’énergie de molé­cules en chi­mie quan­tique aus­si bien que pour cal­cu­ler la confi­gu­ra­tion géo­mé­trique de pro­téines, à par­tir d’exemples. 

Comprendre les mathématiques des réseaux de neurones

Ces résul­tats sont d’autant plus remar­quables que les mêmes types d’architectures de cal­cul sont capables de résoudre des pro­blèmes pour­tant très dif­fé­rents. Cela sug­gère qu’il y a des prin­cipes mathé­ma­tiques géné­riques der­rière ces pro­blèmes, dont la struc­ture est cap­tu­rée par ces réseaux de neu­rones. Or, ces prin­cipes, on les com­prend très mal. On parle sou­vent de boîtes noires. C’est à la fois frus­trant et une oppor­tu­ni­té for­mi­dable pour le déve­lop­pe­ment de nou­velles mathématiques.

Au-delà de l’enjeu intel­lec­tuel, com­prendre les mathé­matiques de ces réseaux est impor­tant pour garan­tir la pré­ci­sion et la robus­tesse des résul­tats obte­nus, ce qui n’est pas négli­geable lorsqu’il s’agit de conduire une voi­ture ou de faire un diag­nos­tic médi­cal. On veut aus­si apprendre avec moins de don­nées, avec des algo­rithmes plus effi­caces et donc moins éner­gi­vores. Que les mathé­ma­tiques soient en retard vis-à-vis de l’expéri­mentation n’a rien d’extraordinaire. C’est le plus sou­vent le cas en sciences, hor­mis quelques excep­tions comme la géo­mé­trie rie­man­nienne pour la rela­ti­vi­té géné­rale. Ici le retard est grand et le fos­sé s’est creu­sé au cours des der­nières années. Je vais expli­quer pour­quoi ce pro­blème est à la fois simple à décrire et dif­fi­cile à résoudre. Ce sera ensuite l’occasion de faire un point rapide sur quelques enjeux de l’enseignement des mathé­ma­tiques, en lien avec le trai­te­ment de don­nées. 

Le problème de l’apprentissage

En appren­tis­sage sta­tis­tique, on veut apprendre à pré­dire la réponse y à une ques­tion, à par­tir d’un tableau de don­nées x, en uti­li­sant des exemples de don­nées x’ pour les­quels on connaît la réponse y’. Ain­si x peut être une image d’animal et y le nom de l’animal qui appa­raît dans l’image. Apprendre, cela veut dire confi­gu­rer les para­mètres d’un algo­rithme afin qu’il pré­dise y en fonc­tion de x, en ne se trom­pant presque pas sur les exemples d’entraînement. On espère que ces per­for­mances se géné­ra­lisent. Cela signi­fie que, si l’on prend des nou­velles don­nées x de même nature, une nou­velle image d’animal, alors l’algorithme trou­ve­ra le plus sou­vent la bonne réponse y du nom de l’animal.

Un réseau de neu­rones est un algo­rithme d’apprentissage, dont les para­mètres sont des « poids » mul­ti­pli­ca­tifs qui trans­forment suc­ces­si­ve­ment les don­nées. Il peut y en avoir des mil­liards dans les réseaux de grande taille. Un pro­blème d’apprentissage peut être vu comme un pro­blème d’interpolation du graphe de la fonc­tion y = f(x), à par­tir des valeurs y’ = f(x’) que l’on connaît pour quelques x’. Si x n’a qu’une coor­don­née, par exemple l’âge d’un enfant, on peut approxi­mer sa taille = f(x) à n’importe quel âge x, en tra­çant une courbe régu­lière qui passe par quelques mesures de taille y’ à des âges x’ dif­fé­rents. Si ces mesures ont été faites suf­fi­sam­ment sou­vent, on obtien­dra une bonne approxi­ma­tion. Rien de com­pli­qué. 

Malédiction de la grande dimension

La dif­fi­cul­té cachée vient de la « malé­dic­tion de la grande dimen­sion ». Une image est un tableau x d’environ 1 mil­lion de pixels, qui peuvent cha­cun varier de 0 (noir) à 1 (blanc). Il faut donc approxi­mer y = f(x) dans un espace où x est dans un cube ayant 1 mil­lion de dimen­sions. Si la dimen­sion du cube est D, pour s’assurer que les exemples ne sont pas trop loin les uns des autres, par exemple à une dis­tance 110, alors il faut de l’ordre de 10D exemples. C’est bien plus qu’astro­nomique. Si D = 80, alors 10D est déjà plus grand que le nombre total d’atomes dans l’univers, or ici D est plu­tôt de l’ordre de 1 million.

En géné­ral on n’a donc pas suf­fi­sam­ment d’exemples pour approxi­mer pré­ci­sé­ment y = f(x). À moins que x ne se balade pas n’importe où dans tout l’espace de grande dimen­sion, ou que f(x) soit une fonc­tion extrê­me­ment régu­lière. Com­prendre ces deux aspects est au cœur des ques­tions mathé­ma­tiques de l’apprentissage et nous plonge dans le monde de l’analyse, de la géo­mé­trie, des pro­ba­bi­listes et des sta­tis­tiques. De telles ques­tions ont d’abord été sou­le­vées en phy­sique, dans un contexte très dif­fé­rent. 

Information et physique statistique

La phy­sique doit faire face à cette malé­dic­tion de la grande dimen­sion, pour carac­té­ri­ser les pro­prié­tés de quelques grammes de matière qui contient typi­que­ment plus de 1023 atomes, dont les confi­gu­ra­tions varient en per­ma­nence. Les tra­vaux de Boltz­mann ont fait émer­ger les lois de la phy­sique des fluides grâce aux pro­prié­tés sta­tis­tiques obte­nues en agré­geant les pro­prié­tés d’un grand nombre de par­ti­cules micro­sco­piques. Les fron­tières entre phy­sique, méca­nique et chi­mie sont deve­nues beau­coup plus floues. Les dif­fé­rentes sous-dis­ci­plines de la phy­sique se sont plu­tôt réor­ga­ni­sées sui­vant les échelles des phé­no­mènes : du macro­sco­pique à l’échelle des atomes jusqu’à l’échelle des par­ti­cules dites élé­men­taires. 

« Les frontières entre physique, mécanique et chimie sont devenues beaucoup plus floues. »

On assiste à une révo­lu­tion simi­laire pour le trai­te­ment de l’information. On pen­sait que des domaines tels que la per­cep­tion visuelle, audi­tive, la com­pré­hen­sion du lan­gage, la pré­dic­tion des états d’un sys­tème phy­sique devaient être étu­diés sépa­ré­ment pour com­prendre leurs pro­prié­tés spé­ci­fiques. Les réseaux de neu­rones ont mon­tré que ce n’est pas le cas, puisque des archi­tec­tures simi­laires, entraî­nées sur des exemples, peuvent approxi­mer ces phé­no­mènes différents.

Chaque point d’une image peut être assi­mi­lé à un atome dont les valeurs dépendent des valeurs de ses voi­sins proches, ou plus éloi­gnés sui­vant le type d’images. En appre­nant les poids d’un réseau de neu­rones, on apprend des cou­plages entre ces pixels, à tra­vers les dif­fé­rentes couches du réseau. Cela agrège l’information sur des domaines de plus en plus larges, jusqu’à atteindre l’échelle macro­sco­pique de l’image, où l’on peut recon­naître l’animal. Cela est bien plus qu’une ana­lo­gie avec la phy­sique sta­tis­tique, car on retrouve les mêmes ques­tions mathé­ma­tiques. Quelles dis­tri­bu­tions de pro­ba­bi­li­tés ? Com­ment expli­quer les phé­no­mènes de concen­tra­tion sta­tis­tiques et de grandes dévia­tions ? Le voyage à tra­vers les échelles est étu­dié en ana­lyse mathé­ma­tique par la trans­for­mée de Fou­rier et les bases d’ondelettes, mais cela met aus­si en jeu d’autres domaines des mathé­ma­tiques. 

Comprendre la nature des interactions

Pour com­prendre la nature des inter­ac­tions, en phy­sique on recherche les symé­tries du sys­tème. Ce sont elles qui vont défi­nir les forces et les équa­tions d’évolutions. De même en trai­te­ment de don­nées, on peut se deman­der quels types de trans­for­ma­tion ne vont pas modi­fier la classe y d’une image. Par exemple, si un ani­mal bouge dans l’image, cela reste le même ani­mal y. On a donc une inva­riance par trans­la­tion. Les trans­la­tions sont un exemple de groupe d’invariants, mais il y en a bien d’autres. Il sem­ble­rait que les réseaux soient capables d’apprendre ces inva­riants qui jouent un rôle important.

Quels groupes et com­ment sont-ils appris ? Peut-on vrai­ment par­ler de modèles pro­ba­bi­listes quand il s’agit de struc­tures aus­si contraintes que des images de visage, ou s’agit-il plu­tôt de mémo­ri­sa­tion ? Cette ques­tion n’a pas de réponse simple, pro­ba­ble­ment les deux. Un réseau de neu­rones est capable de mémo­ri­ser beau­coup de don­nées, et cela joue un rôle impor­tant pour ses capa­ci­tés de géné­ra­li­sa­tion. Pour­tant aucune mémoire n’est ajou­tée sépa­ré­ment à l’architecture de cal­cul. Elle se cache dans les poids des réseaux, de façon délo­ca­li­sée, ce qui lui donne aus­si une forme de robus­tesse, mais cette mémoire reste mal défi­nie. 

« Aucune mémoire n’est ajoutée séparément à l’architecture de calcul. »

Enfin, der­rière la per­for­mance des réseaux de neu­rones appa­raissent aus­si des pro­blèmes d’optimisation, pour ajus­ter les para­mètres aux don­nées d’entraînement. L’algorithme uti­li­sé est le plus simple : la des­cente de gra­dient. Pour mini­mi­ser l’erreur de pré­dic­tion sur les exemples d’entraînement, à chaque ité­ra­tion on suit la direc­tion de la plus grande pente. Si l’erreur est une fonc­tion convexe des para­mètres, comme un bol de café, alors on arri­ve­ra au fond du bol, qui mini­mise l’erreur. Cepen­dant, cette hypo­thèse de convexi­té n’est pas du tout véri­fiée par les réseaux de neu­rones. La des­cente devrait être blo­quée dans des mini­ma locaux et ne pas trou­ver de bonnes solu­tions. Et pour­tant cela marche ! Un mys­tère de plus. 

Fuite des cerveaux

Le sujet est pas­sion­nant, les enjeux sont fon­da­men­taux pour les mathé­ma­tiques et les appli­ca­tions. Cepen­dant, abor­der ce sujet n’est pas tou­jours facile, car cela néces­site à la fois d’effectuer des expé­ri­men­ta­tions numé­riques de grande taille pour com­prendre les phé­no­mènes sous-jacents, tout en construi­sant des modèles mathé­ma­tiques sophis­ti­qués. De fait, la com­mu­nau­té mathé­ma­tique s’est mise au tra­vail, mais en France on manque de bras. Beau­coup de mathé­ma­ti­ciennes et mathé­ma­ti­ciens de haut niveau sont aspi­rés hors des uni­ver­si­tés et ins­ti­tuts de recherche fran­çais. À l’étranger, ce sont les uni­ver­si­tés amé­ri­caines et suisses qui attirent de nom­breux jeunes, avec des salaires quatre fois supérieurs. 

En France, ce sont les labo­ra­toires de recherche des Gafam qui attirent le plus, avec un salaire dix fois supé­rieur et de très bonnes condi­tions de tra­vail. Il est main­te­nant clair pour les entre­prises qu’avancer les mathé­ma­tiques de ce domaine est por­teur d’innovations pro­fondes, qui sont impor­tantes pour leur com­pé­ti­ti­vi­té. Pour des jeunes mathé­ma­ti­ciens, il est dif­fi­cile de ne pas suc­com­ber à ces offres. On peut le regret­ter, mais on peut aus­si se réjouir que les mathé­ma­tiques soient deve­nues aus­si impor­tantes pour les déve­lop­pe­ments scien­ti­fiques, l’industrie et les ser­vices. 

Enseigner les mathématiques… 

Alors com­ment faire face ? On peut rêver que le ser­vice public aug­mente les salaires de ses mathé­ma­ti­ciens et devienne com­pé­ti­tif, mais j’ai, hélas, quelques doutes dans la conjec­ture actuelle. Une autre solu­tion est de for­mer, for­mer et for­mer tou­jours plus de jeunes pour assu­rer tous les besoins et pour qu’ils pro­fitent de ces pers­pec­tives. Et là les nou­velles ne sont pas bonnes. Mal­gré les besoins crois­sants en mathé­ma­tiques de haut niveau, on assiste à une baisse dra­ma­tique du nombre de jeunes atti­rés par les mathé­ma­tiques au lycée. Les causes sont connues et ont été lon­gue­ment ana­ly­sées : réforme, for­ma­tion, condi­tions de tra­vail des pro­fes­seurs, salaires… Je ne revien­drai pas là-des­sus. Il s’agit plu­tôt de se deman­der ce que l’on peut faire pour atti­rer plus de jeunes vers les mathé­ma­tiques. 

… aussi par l’expérience

L’enseignement et les exer­cices de mathé­ma­tiques consistent le plus sou­vent à trou­ver la réponse à une ques­tion pré­dé­fi­nie. Ne pas trou­ver, autre­ment dit sécher, est pour beau­coup une expé­rience stres­sante. Sim­pli­fier les exer­cices pour s’adapter au niveau des élèves n’est pas tou­jours facile. Cela peut deve­nir des appli­ca­tions de règles de cal­cul, qui perdent leur sens et leur inté­rêt. Beau­coup d’élèves se demandent « à quoi ça sert ». Faire trop de sol­fège avant de jouer de son ins­tru­ment peut vite dégoû­ter de la musique. Réduire la dif­fi­cul­té des exer­cices de sol­fège n’est pas une solution.

Faire com­prendre le sens der­rière le sol­fège mathé­ma­tique est faci­li­té par un lien avec les appli­ca­tions, qui sont une source pri­mor­diale de créa­ti­vi­té mathé­ma­tique. Cepen­dant, intro­duire des appli­ca­tions peut être lourd, sur­tout s’il s’agit de pro­blèmes qui viennent d’autres sciences comme la phy­sique ou la bio­lo­gie. De ce point de vue, l’analyse de don­nées est une chance. Cela ouvre la pos­si­bi­li­té d’expérimenter sur des ques­tions impor­tantes et com­pré­hen­sibles, comme un diag­nos­tic médical.

On peut cher­cher une pro­cé­dure très simple, pour ana­ly­ser des don­nées, qui éven­tuel­le­ment fonc­tion­ne­ra très mal. Se deman­der pour­quoi cela ne fonc­tionne pas, et com­ment l’améliorer, c’est le début d’une réflexion mathé­ma­tique. On com­mence par se poser des ques­tions pour mieux com­prendre des outils d’abstraction. Ces ques­tions relient natu­rel­le­ment l’informatique, les pro­ba­bi­li­tés, les sta­tis­tiques, l’analyse, l’algèbre et la géo­mé­trie, à des niveaux qui peuvent res­ter élé­men­taires. 

Des initiatives

Dans le cadre d’une ini­tia­tive du Col­lège de France « Agir pour l’éducation », nous essayons de déve­lop­per pro­gres­si­ve­ment ce che­min d’accès aux mathé­ma­tiques par l’analyse de don­nées. Cela se fait par la mise à dis­po­si­tion de chal­lenges de don­nées, de conte­nus péda­go­giques et d’outils infor­ma­tiques pour les pro­fes­seurs et leurs élèves. Nous avons com­men­cé avec des élèves d’université sur des pro­blèmes réels sou­mis par des entre­prises des ser­vices publiques ou des labo­ra­toires de recherche, avec plus de 10 000 par­ti­ci­pants sur le site web challengedata.ens.fr. La plate­­forme MathA­Da­ta étend ces chal­lenges pour les élèves de lycées au niveau natio­nal, afin d’encourager l’enseignement des mathé­ma­tiques en lien avec des appli­ca­tions dont les enjeux sont réels. Une ini­tia­tive de plus dans la jungle des idées pour l’enseignement des maths ? Peut-être, mais cela vaut le coup d’essayer.

“L’industrie doit aussi se sentir concernée.”

L’intelligence arti­fi­cielle fas­cine beau­coup de jeunes et l’analyse de don­nées a besoin de plus de mathé­ma­ti­ciennes et de mathé­ma­ti­ciens. L’enseignement des mathé­ma­tiques est sous-finan­cé, alors que l’industrie et les ser­vices d’analyse de don­nées sont en pleine crois­sance. Il est impor­tant de com­prendre com­ment uti­li­ser ces nou­veaux débou­chés pour atti­rer plus de jeunes vers la pra­tique et les études de mathé­ma­tiques fon­da­men­tales ou appli­quées. L’industrie doit aus­si se sen­tir concer­née par ces ques­tions d’enseignement et leurs finan­ce­ments, qui sont impor­tantes pour son avenir.

Poster un commentaire