Mystères mathématiques des réseaux de neurones et enseignement
Les réseaux de neurones artificiels donnent des résultats spectaculaires, sans que l’on maîtrise les propriétés mathématiques de l’apprentissage et de la généralisation. Analyser des données de grandes tailles pose des questions mathématiques difficiles, dues à la « malédiction de la grande dimension ». Résoudre ces problèmes est nécessaire pour garantir la précision et la robustesse des applications, or on assiste à une désaffection des mathématiques en France. Promouvoir l’enseignement des mathématiques est aujourd’hui un enjeu de compétitivité internationale.
Les performances spectaculaires des réseaux de neurones profonds sont une grande surprise. Personne n’imaginait en 2010 que cinq ans plus tard des algorithmes pourraient reconnaître des visages mieux que des humains, synthétiser et reconnaître la parole comme le fait un téléphone, et dix ans plus tard générer des textes complexes, des traductions, dialoguer, programmer, synthétiser des images… En sciences, cela touche presque tous les domaines, pour prédire l’énergie de molécules en chimie quantique aussi bien que pour calculer la configuration géométrique de protéines, à partir d’exemples.
Comprendre les mathématiques des réseaux de neurones
Ces résultats sont d’autant plus remarquables que les mêmes types d’architectures de calcul sont capables de résoudre des problèmes pourtant très différents. Cela suggère qu’il y a des principes mathématiques génériques derrière ces problèmes, dont la structure est capturée par ces réseaux de neurones. Or, ces principes, on les comprend très mal. On parle souvent de boîtes noires. C’est à la fois frustrant et une opportunité formidable pour le développement de nouvelles mathématiques.
Au-delà de l’enjeu intellectuel, comprendre les mathématiques de ces réseaux est important pour garantir la précision et la robustesse des résultats obtenus, ce qui n’est pas négligeable lorsqu’il s’agit de conduire une voiture ou de faire un diagnostic médical. On veut aussi apprendre avec moins de données, avec des algorithmes plus efficaces et donc moins énergivores. Que les mathématiques soient en retard vis-à-vis de l’expérimentation n’a rien d’extraordinaire. C’est le plus souvent le cas en sciences, hormis quelques exceptions comme la géométrie riemannienne pour la relativité générale. Ici le retard est grand et le fossé s’est creusé au cours des dernières années. Je vais expliquer pourquoi ce problème est à la fois simple à décrire et difficile à résoudre. Ce sera ensuite l’occasion de faire un point rapide sur quelques enjeux de l’enseignement des mathématiques, en lien avec le traitement de données.
Le problème de l’apprentissage
En apprentissage statistique, on veut apprendre à prédire la réponse y à une question, à partir d’un tableau de données x, en utilisant des exemples de données x’ pour lesquels on connaît la réponse y’. Ainsi x peut être une image d’animal et y le nom de l’animal qui apparaît dans l’image. Apprendre, cela veut dire configurer les paramètres d’un algorithme afin qu’il prédise y en fonction de x, en ne se trompant presque pas sur les exemples d’entraînement. On espère que ces performances se généralisent. Cela signifie que, si l’on prend des nouvelles données x de même nature, une nouvelle image d’animal, alors l’algorithme trouvera le plus souvent la bonne réponse y du nom de l’animal.
Un réseau de neurones est un algorithme d’apprentissage, dont les paramètres sont des « poids » multiplicatifs qui transforment successivement les données. Il peut y en avoir des milliards dans les réseaux de grande taille. Un problème d’apprentissage peut être vu comme un problème d’interpolation du graphe de la fonction y = f(x), à partir des valeurs y’ = f(x’) que l’on connaît pour quelques x’. Si x n’a qu’une coordonnée, par exemple l’âge d’un enfant, on peut approximer sa taille y = f(x) à n’importe quel âge x, en traçant une courbe régulière qui passe par quelques mesures de taille y’ à des âges x’ différents. Si ces mesures ont été faites suffisamment souvent, on obtiendra une bonne approximation. Rien de compliqué.
Malédiction de la grande dimension
La difficulté cachée vient de la « malédiction de la grande dimension ». Une image est un tableau x d’environ 1 million de pixels, qui peuvent chacun varier de 0 (noir) à 1 (blanc). Il faut donc approximer y = f(x) dans un espace où x est dans un cube ayant 1 million de dimensions. Si la dimension du cube est D, pour s’assurer que les exemples ne sont pas trop loin les uns des autres, par exemple à une distance 1⁄10, alors il faut de l’ordre de 10D exemples. C’est bien plus qu’astronomique. Si D = 80, alors 10D est déjà plus grand que le nombre total d’atomes dans l’univers, or ici D est plutôt de l’ordre de 1 million.
En général on n’a donc pas suffisamment d’exemples pour approximer précisément y = f(x). À moins que x ne se balade pas n’importe où dans tout l’espace de grande dimension, ou que f(x) soit une fonction extrêmement régulière. Comprendre ces deux aspects est au cœur des questions mathématiques de l’apprentissage et nous plonge dans le monde de l’analyse, de la géométrie, des probabilistes et des statistiques. De telles questions ont d’abord été soulevées en physique, dans un contexte très différent.
Information et physique statistique
La physique doit faire face à cette malédiction de la grande dimension, pour caractériser les propriétés de quelques grammes de matière qui contient typiquement plus de 1023 atomes, dont les configurations varient en permanence. Les travaux de Boltzmann ont fait émerger les lois de la physique des fluides grâce aux propriétés statistiques obtenues en agrégeant les propriétés d’un grand nombre de particules microscopiques. Les frontières entre physique, mécanique et chimie sont devenues beaucoup plus floues. Les différentes sous-disciplines de la physique se sont plutôt réorganisées suivant les échelles des phénomènes : du macroscopique à l’échelle des atomes jusqu’à l’échelle des particules dites élémentaires.
« Les frontières entre physique, mécanique et chimie sont devenues beaucoup plus floues. »
On assiste à une révolution similaire pour le traitement de l’information. On pensait que des domaines tels que la perception visuelle, auditive, la compréhension du langage, la prédiction des états d’un système physique devaient être étudiés séparément pour comprendre leurs propriétés spécifiques. Les réseaux de neurones ont montré que ce n’est pas le cas, puisque des architectures similaires, entraînées sur des exemples, peuvent approximer ces phénomènes différents.
Chaque point d’une image peut être assimilé à un atome dont les valeurs dépendent des valeurs de ses voisins proches, ou plus éloignés suivant le type d’images. En apprenant les poids d’un réseau de neurones, on apprend des couplages entre ces pixels, à travers les différentes couches du réseau. Cela agrège l’information sur des domaines de plus en plus larges, jusqu’à atteindre l’échelle macroscopique de l’image, où l’on peut reconnaître l’animal. Cela est bien plus qu’une analogie avec la physique statistique, car on retrouve les mêmes questions mathématiques. Quelles distributions de probabilités ? Comment expliquer les phénomènes de concentration statistiques et de grandes déviations ? Le voyage à travers les échelles est étudié en analyse mathématique par la transformée de Fourier et les bases d’ondelettes, mais cela met aussi en jeu d’autres domaines des mathématiques.
Comprendre la nature des interactions
Pour comprendre la nature des interactions, en physique on recherche les symétries du système. Ce sont elles qui vont définir les forces et les équations d’évolutions. De même en traitement de données, on peut se demander quels types de transformation ne vont pas modifier la classe y d’une image. Par exemple, si un animal bouge dans l’image, cela reste le même animal y. On a donc une invariance par translation. Les translations sont un exemple de groupe d’invariants, mais il y en a bien d’autres. Il semblerait que les réseaux soient capables d’apprendre ces invariants qui jouent un rôle important.
Quels groupes et comment sont-ils appris ? Peut-on vraiment parler de modèles probabilistes quand il s’agit de structures aussi contraintes que des images de visage, ou s’agit-il plutôt de mémorisation ? Cette question n’a pas de réponse simple, probablement les deux. Un réseau de neurones est capable de mémoriser beaucoup de données, et cela joue un rôle important pour ses capacités de généralisation. Pourtant aucune mémoire n’est ajoutée séparément à l’architecture de calcul. Elle se cache dans les poids des réseaux, de façon délocalisée, ce qui lui donne aussi une forme de robustesse, mais cette mémoire reste mal définie.
« Aucune mémoire n’est ajoutée séparément à l’architecture de calcul. »
Enfin, derrière la performance des réseaux de neurones apparaissent aussi des problèmes d’optimisation, pour ajuster les paramètres aux données d’entraînement. L’algorithme utilisé est le plus simple : la descente de gradient. Pour minimiser l’erreur de prédiction sur les exemples d’entraînement, à chaque itération on suit la direction de la plus grande pente. Si l’erreur est une fonction convexe des paramètres, comme un bol de café, alors on arrivera au fond du bol, qui minimise l’erreur. Cependant, cette hypothèse de convexité n’est pas du tout vérifiée par les réseaux de neurones. La descente devrait être bloquée dans des minima locaux et ne pas trouver de bonnes solutions. Et pourtant cela marche ! Un mystère de plus.
Fuite des cerveaux
Le sujet est passionnant, les enjeux sont fondamentaux pour les mathématiques et les applications. Cependant, aborder ce sujet n’est pas toujours facile, car cela nécessite à la fois d’effectuer des expérimentations numériques de grande taille pour comprendre les phénomènes sous-jacents, tout en construisant des modèles mathématiques sophistiqués. De fait, la communauté mathématique s’est mise au travail, mais en France on manque de bras. Beaucoup de mathématiciennes et mathématiciens de haut niveau sont aspirés hors des universités et instituts de recherche français. À l’étranger, ce sont les universités américaines et suisses qui attirent de nombreux jeunes, avec des salaires quatre fois supérieurs.
En France, ce sont les laboratoires de recherche des Gafam qui attirent le plus, avec un salaire dix fois supérieur et de très bonnes conditions de travail. Il est maintenant clair pour les entreprises qu’avancer les mathématiques de ce domaine est porteur d’innovations profondes, qui sont importantes pour leur compétitivité. Pour des jeunes mathématiciens, il est difficile de ne pas succomber à ces offres. On peut le regretter, mais on peut aussi se réjouir que les mathématiques soient devenues aussi importantes pour les développements scientifiques, l’industrie et les services.
Enseigner les mathématiques…
Alors comment faire face ? On peut rêver que le service public augmente les salaires de ses mathématiciens et devienne compétitif, mais j’ai, hélas, quelques doutes dans la conjecture actuelle. Une autre solution est de former, former et former toujours plus de jeunes pour assurer tous les besoins et pour qu’ils profitent de ces perspectives. Et là les nouvelles ne sont pas bonnes. Malgré les besoins croissants en mathématiques de haut niveau, on assiste à une baisse dramatique du nombre de jeunes attirés par les mathématiques au lycée. Les causes sont connues et ont été longuement analysées : réforme, formation, conditions de travail des professeurs, salaires… Je ne reviendrai pas là-dessus. Il s’agit plutôt de se demander ce que l’on peut faire pour attirer plus de jeunes vers les mathématiques.
… aussi par l’expérience
L’enseignement et les exercices de mathématiques consistent le plus souvent à trouver la réponse à une question prédéfinie. Ne pas trouver, autrement dit sécher, est pour beaucoup une expérience stressante. Simplifier les exercices pour s’adapter au niveau des élèves n’est pas toujours facile. Cela peut devenir des applications de règles de calcul, qui perdent leur sens et leur intérêt. Beaucoup d’élèves se demandent « à quoi ça sert ». Faire trop de solfège avant de jouer de son instrument peut vite dégoûter de la musique. Réduire la difficulté des exercices de solfège n’est pas une solution.
Faire comprendre le sens derrière le solfège mathématique est facilité par un lien avec les applications, qui sont une source primordiale de créativité mathématique. Cependant, introduire des applications peut être lourd, surtout s’il s’agit de problèmes qui viennent d’autres sciences comme la physique ou la biologie. De ce point de vue, l’analyse de données est une chance. Cela ouvre la possibilité d’expérimenter sur des questions importantes et compréhensibles, comme un diagnostic médical.
On peut chercher une procédure très simple, pour analyser des données, qui éventuellement fonctionnera très mal. Se demander pourquoi cela ne fonctionne pas, et comment l’améliorer, c’est le début d’une réflexion mathématique. On commence par se poser des questions pour mieux comprendre des outils d’abstraction. Ces questions relient naturellement l’informatique, les probabilités, les statistiques, l’analyse, l’algèbre et la géométrie, à des niveaux qui peuvent rester élémentaires.
Des initiatives
Dans le cadre d’une initiative du Collège de France « Agir pour l’éducation », nous essayons de développer progressivement ce chemin d’accès aux mathématiques par l’analyse de données. Cela se fait par la mise à disposition de challenges de données, de contenus pédagogiques et d’outils informatiques pour les professeurs et leurs élèves. Nous avons commencé avec des élèves d’université sur des problèmes réels soumis par des entreprises des services publiques ou des laboratoires de recherche, avec plus de 10 000 participants sur le site web challengedata.ens.fr. La plateforme MathAData étend ces challenges pour les élèves de lycées au niveau national, afin d’encourager l’enseignement des mathématiques en lien avec des applications dont les enjeux sont réels. Une initiative de plus dans la jungle des idées pour l’enseignement des maths ? Peut-être, mais cela vaut le coup d’essayer.
“L’industrie doit aussi se sentir concernée.”
L’intelligence artificielle fascine beaucoup de jeunes et l’analyse de données a besoin de plus de mathématiciennes et de mathématiciens. L’enseignement des mathématiques est sous-financé, alors que l’industrie et les services d’analyse de données sont en pleine croissance. Il est important de comprendre comment utiliser ces nouveaux débouchés pour attirer plus de jeunes vers la pratique et les études de mathématiques fondamentales ou appliquées. L’industrie doit aussi se sentir concernée par ces questions d’enseignement et leurs financements, qui sont importantes pour son avenir.