L’utilisation du modèle des « bandits survivalistes » pour améliorer le processus de test d’un médicament
Aussi fascinant qu’inquiétant, le machine learning (ML), cœur de l’intelligence artificielle (IA), a ouvert de nombreuses perspectives scientifiques dans divers domaines, de la mécanique à la vision par ordinateur. Aujourd’hui, c’est une de ses applications à la médecine que nous allons explorer. Nous allons voir comment des bandits survivalistes peuvent nous aider à améliorer le processus de test d’un médicament avant sa mise en production. Le lecteur peut compléter son information en se connectant à ma chaîne YouTube sur le machine learning et l’intelligence artificielle : ML New Papers.
Avant de vendre un médicament au grand public, on le teste rigoureusement lors d’un processus en quatre étapes : découverte et développement, recherche préclinique, recherche clinique et inspection finale.
L’étape la plus déterminante est la recherche clinique, qui consiste à tester le médicament sur des personnes.
Lors de ce processus de recherche et de développement, une entreprise pharmaceutique a conçu K médicaments que vous souhaitez tester sur T patients. Pour chaque patient t ∈ {1,…,T}, on choisit un médicament It ∈ {1,…,K} et on observe son effet r(t,It) sur le patient t. L’objectif est de maximiser l’effet total des médicaments choisis
Un bon modèle pour ce problème se nomme « bandits manchots ».
Les bandits manchots : qu’est-ce que c’est ?
Lorsque l’on donne un médicament à un patient, on n’est jamais sûr de son effet, qui dépend aussi bien de la maladie que du patient. Même un bon médicament ne marche pas toujours comme souhaité ou bien a des effets secondaires indésirables. Il est donc judicieux de considérer que l’effet d’un médicament est aléatoire. Les bandits manchots, ou multi-armed bandits en anglais, représentent l’effet de chaque médicament comme une distribution de probabilité inconnue. L’objectif est de donner le plus souvent possible le médicament qui est le plus efficace en moyenne. Mathématiquement, on parle de la distribution qui a la plus grande espérance.
“L’objectif est de donner le plus souvent possible le médicament qui est le plus efficace en moyenne.”
Le dilemme exploration-exploitation
Maintenant qu’on connaît les bandits manchots, comment peut-on les résoudre ? Intuitivement, on essaye d’abord plusieurs fois tous les médicaments. Dans un second temps, on donne uniquement le médicament qui semble fonctionner le mieux. C’est d’ailleurs ce qui est largement utilisé dans l’industrie actuellement. Logique, n’est-ce pas ? Pourtant, cela ne marche pas pour beaucoup d’applications ! En effet, si l’on n’a pas de chance lors de la phase de test, on peut sélectionner un mauvais médicament et tous les patients suivants recevront le mauvais traitement ! On ne peut donc jamais vraiment arrêter la phase de test.
Dans ce contexte, les stratégies qui fonctionnent satisfont le paradoxe suivant : exploration (on essaie tous les médicaments régulièrement, même ceux qui semblent ne pas avoir les effets désirés sur les patients) ; exploitation (on donne plus souvent le médicament qui semble fonctionner le mieux). Ce phénomène s’appelle le dilemme exploration-exploitation. On parle également d’optimisme face à l’incertitude. Cela se résume ainsi : tant qu’un médicament a des chances de marcher, soyons optimistes et continuons à le tester : il peut toujours sauver des vies !
Un problème important
Pourtant, la formulation précédente ignore un problème important en pratique. Imaginons que la procédure se passe mal et que les médicaments ne marchent pas sur la plupart des patients. Pire, la plupart des patients se plaignent d’effets secondaires. Naturellement, on interrompt la procédure. C’est typiquement ce qui arrive si l’un des médicaments testés est très mauvais. Car rappelons-nous : on explore, donc on essaie régulièrement tous les médicaments. Et tant pis si un des médicaments testés est très bon. On recommence tout et il est nécessaire de trouver une nouvelle cohorte, rédiger un nouveau protocole, etc. Dommage, non ?
Et les bandits survivalistes dans tout ça ?
Les bandits survivalistes sont une généralisation des bandits manchots, dans laquelle on intègre le risque que, si ça tourne mal, on interrompt la procédure. Concrètement, qu’est-ce que ça change ? Les bandits survivalistes vont être beaucoup plus conservateurs, car ils veulent éviter le risque d’arrêter la procédure autant que possible. Imaginons qu’on ait le choix entre deux médicaments : le médicament A, qui marche bien, et le médicament B, qu’on n’a pas beaucoup essayé. Les bandits manchots vont nous dire d’essayer le médicament B, c’est l’exploration dont on a parlé plus haut. Au contraire, les bandits survivalistes vont nous dire : continuez à utiliser le médicament A qui marche, on essaiera le médicament B plus tard, quand on aura moins de risques que la procédure s’arrête.
Le dilemme exploitation-exploration-exploitation
Du coup, les bandits survivalistes explorent-ils moins que les bandits manchots ? C’est à peu près ça. En réalité, ils n’explorent pas forcément moins, mais plus tard. L’idée revient à écarter le risque d’arrêter la procédure, autant que possible. Pour cela, on cherche d’abord à identifier un médicament qui est efficace, sans spécifiquement essayer d’identifier le médicament le plus efficace. Et dans un second temps seulement, quand les premiers résultats de la procédure sont suffisamment bons pour que la procédure ait moins de chances d’être arrêtée, on peut se permettre d’explorer et de chercher le médicament le plus efficace. Et ainsi ils n’illustrent pas le dilemme d’exploration-exploitation.
À la place, ils illustrent le dilemme d’exploitation-exploration-exploitation : exploitation 1 (on donne autant que possible les médicaments qui sont bons, sans se soucier de trouver le meilleur) ; exploration (une fois qu’on a soigné beaucoup de patients et que la procédure a moins de risques d’être arrêtée, on peut explorer et essayer tous les médicaments régulièrement) ; exploitation 2 (on donne plus souvent le médicament qui semble être le meilleur). Les bandits survivalistes sont un problème ouvert posé à une grande conférence de ML en raison de son intérêt théorique et pratique, notamment en médecine. Mon travail est le premier à apporter une solution théorique et pratique au problème, et j’espère qu’il contribuera à améliorer la recherche et le développement de nouveaux médicaments.
La solution au problème
Les bandits survivalistes ajoutent une contrainte au problème des bandits manchots : si l’effet des médicaments choisis est trop mauvais, la procédure s’arrête. Formellement, on définit un seuil de tolérance, ou budget b, et la procédure s’arrête au premier temps τ tel que
Comment résoudre ce problème ? Pour cela, imaginons qu’on ait un budget de b euros et qu’on souhaite acheter des pâtes. Il y a K différentes marques au supermarché, et on souhaite acheter les pâtes qui nous procureront un maximum de plaisir au meilleur prix. Si l’on ignore notre contrainte de budget, une bonne idée est d’acheter plusieurs fois tous les paquets, puis d’acheter celui qui nous a le plus plu. C’est la solution des bandits manchots. Si l’on tient compte de notre limite de budget, une idée assez naturelle est de diviser notre budget entre les différentes marques, disons b ⁄ K euros par marque, jusqu’à ce qu’on trouve une marque qui nous convient, et on fait avec. Jusqu’au jour où le budget n’est plus un problème, et à ce moment-là on pourra essayer d’autres marques de pâtes. Eh bien ça, c’est exactement la solution des bandits survivalistes.
“Les techniques de preuve sont liées à divers domaines des maths : probabilités, théorie de l’information, théorie des processus stochastiques et de la concentration de la mesure.”
On attribue un budget b ⁄ K à chaque médicament et, si l’effet total d’un médicament devient inférieur à -b ⁄ K, on ne l’utilise plus… jusqu’à ce qu’il n’y ait plus de risque d’interrompre l’expérience. Nous avons prouvé que cette stratégie minimise le risque d’interrompre la procédure et en même temps maximise l’effet total des médicaments attribués aux patients. Les techniques de preuve sont liées à divers domaines des maths : il y a des probabilités, mais aussi de la théorie de l’information, de la théorie des processus stochastiques et de la concentration de la mesure.
Le message à retenir des bandits manchots et des bandits survivalistes
Outre l’aspect scientifique, les bandits manchots et les bandits survivalistes m’ont donné des petits conseils pour la vie quotidienne, qui m’ont beaucoup aidé. Je les partage avec vous et j’espère qu’ils vous aideront également.
Première chose, l’optimisme. Le meilleur moyen de trouver le meilleur médicament, c’est d’essayer. Parfois, il y aura des résultats négatifs, mais il ne faut pas abandonner. Il en va de même pour une carrière professionnelle, où il ne faut pas hésiter à essayer divers chemins de carrière avant de trouver le bon. Personnellement, j’ai essayé le conseil puis la banque avant de venir dans la recherche.
Deuxième chose, la persévérance. L’exploration, c’est en plusieurs étapes. Parfois on traverse des difficultés, mais il peut être judicieux (parfois) d’insister et d’attendre un peu avant de changer de direction ou de se faire une idée fixe. Ma rencontre avec deux de mes meilleurs amis a commencé avec des petites tensions. Vous aussi, vous avez peut-être un ami comme ça ?
« Dans les bandits manchots, l’exploitation marche grâce à l’exploration. En d’autres termes, on peut trouver le meilleur médicament parce qu’on accepte d’essayer de mauvais médicaments et de se tromper. »
Troisième chose : accepter l’erreur. Dans les bandits manchots, l’exploitation marche grâce à l’exploration. En d’autres termes, on peut trouver le meilleur médicament parce qu’on accepte d’essayer de mauvais médicaments et de se tromper. C’est pareil dans la vie. Sur ma chaîne YouTube, j’ai fait une interview (entre autres) d’une chercheuse de renommée mondiale en IA, qui explique qu’elle a abandonné son premier doctorat et se sentait perdue. Aujourd’hui, elle est invitée dans des summer schools et des conférences de renommée mondiale, et elle a même lancé une nouvelle conférence en IA, à peine trois ans après son doctorat.
Quatrième chose : si vous avez des contraintes qui vous empêchent d’essayer, vous pourrez toujours explorer plus tard. C’est probablement l’un des messages forts des bandits survivalistes. Parfois, on doit satisfaire une contrainte pressante, et on doit continuer un travail qui ne vous plaît pas pour nourrir sa famille, garder son visa et ainsi de suite. On ne peut pas vraiment essayer de nouvelles choses et partir en exploration, mais cela ne veut pas dire qu’on ne le fera jamais. Les bandits survivalistes le disent : une fois cette contrainte satisfaite, on peut à nouveau explorer et trouver la perle rare.
ML New Papers : une chaîne YouTube sur le Machine Learning
Je vous présente ma chaîne YouTube, que j’ai lancée récemment pendant ma thèse, sur le machine learning (ML) : ML New Papers. Mon objectif est double : vulgariser sans sacrifier le ML pour un public large (le passionné comprendra comment marche et est conçue l’IA de pointe, le professionnel découvrira des méthodes récentes dans tous les domaines de l’IA) ; donner des conseils à tous ceux qui souhaitent se lancer dans une carrière dans l’IA. Comment devenir un data scientist ?
Dois-je faire un doctorat et comment le choisir ? Où trouver des ressources pour apprendre l’IA actuelle ? La plupart des vidéos durent dix minutes et les formats sont variés : vlog dans une summer school, résumés de publications de recherche en IA (bases théoriques incluses), interviews de chercheurs, et bien plus encore. Si vous êtes intéressés et/ou que vous souhaitez soutenir ma chaîne, n’hésitez pas à vous abonner avec le QR code et à mettre un pouce bleu à mes vidéos.