L’utilisation du modèle des « bandits survivalistes » pour améliorer le processus de test d’un médicament

Dossier : Nouvelles du PlatâlMagazine N°798 Octobre 2024
Par Charles RIOU (X14)

Aus­si fas­ci­nant qu’inquiétant, le machine lear­ning (ML), cœur de l’intelligence arti­fi­cielle (IA), a ouvert de nom­breuses pers­pec­tives scien­ti­fiques dans divers domaines, de la méca­nique à la vision par ordi­na­teur. Aujourd’hui, c’est une de ses appli­ca­tions à la méde­cine que nous allons explo­rer. Nous allons voir com­ment des ban­dits sur­vi­va­listes peuvent nous aider à amé­lio­rer le pro­ces­sus de test d’un médi­ca­ment avant sa mise en pro­duc­tion. Le lec­teur peut com­plé­ter son infor­ma­tion en se connec­tant à ma chaîne You­Tube sur le machine lear­ning et l’intelligence arti­fi­cielle : ML New Papers.

Avant de vendre un médi­ca­ment au grand public, on le teste rigoureuse­ment lors d’un pro­ces­sus en quatre étapes : décou­verte et déve­lop­pe­ment, recherche pré­cli­nique, recherche cli­nique et ins­pec­tion finale. 

L’étape la plus déter­mi­nante est la recherche cli­nique, qui consiste à tes­ter le médi­ca­ment sur des personnes.

Lors de ce pro­ces­sus de recherche et de déve­lop­pe­ment, une entre­prise phar­ma­ceu­tique a conçu K médi­ca­ments que vous sou­hai­tez tes­ter sur T patients. Pour chaque patient t {1,…,T}, on choi­sit un médi­ca­ment It {1,…,K} et on observe son effet r(t,It) sur le patient t. L’objectif est de maxi­mi­ser l’effet total des médi­ca­ments choisis

Un bon modèle pour ce pro­blème se nomme « ban­dits manchots ».

Bandit survivaliste #1

Les bandits manchots : qu’est-ce que c’est ?

Lorsque l’on donne un médi­ca­ment à un patient, on n’est jamais sûr de son effet, qui dépend aus­si bien de la mala­die que du patient. Même un bon médi­ca­ment ne marche pas tou­jours comme sou­hai­té ou bien a des effets secon­daires indé­si­rables. Il est donc judi­cieux de consi­dé­rer que l’effet d’un médi­ca­ment est aléa­toire. Les ban­dits man­chots, ou mul­ti-armed ban­dits en anglais, repré­sentent l’effet de chaque médi­ca­ment comme une dis­tri­bu­tion de pro­ba­bi­li­té incon­nue. L’objectif est de don­ner le plus sou­vent pos­sible le médi­ca­ment qui est le plus effi­cace en moyenne. Mathé­ma­ti­que­ment, on parle de la dis­tri­bu­tion qui a la plus grande espérance.

“L’objectif est de donner le plus souvent possible le médicament qui est le plus efficace en moyenne.”

Le dilemme exploration-exploitation

Main­te­nant qu’on connaît les ban­dits man­chots, com­ment peut-on les résoudre ? Intui­ti­ve­ment, on essaye d’abord plu­sieurs fois tous les médi­ca­ments. Dans un second temps, on donne uni­que­ment le médi­ca­ment qui semble fonc­tion­ner le mieux. C’est d’ailleurs ce qui est lar­ge­ment uti­li­sé dans l’industrie actuel­le­ment. Logique, n’est-ce pas ? Pour­tant, cela ne marche pas pour beau­coup d’applications ! En effet, si l’on n’a pas de chance lors de la phase de test, on peut sélec­tion­ner un mau­vais médi­ca­ment et tous les patients sui­vants rece­vront le mau­vais trai­te­ment ! On ne peut donc jamais vrai­ment arrê­ter la phase de test. 

Dans ce contexte, les stra­té­gies qui fonc­tionnent satis­font le para­doxe sui­vant : explo­ra­tion (on essaie tous les médi­ca­ments régu­liè­re­ment, même ceux qui semblent ne pas avoir les effets dési­rés sur les patients) ; exploi­ta­tion (on donne plus sou­vent le médi­ca­ment qui semble fonc­tion­ner le mieux). Ce phé­no­mène s’appelle le dilemme explo­ra­tion-exploi­ta­tion. On parle éga­le­ment d’opti­misme face à l’incertitude. Cela se résume ain­si : tant qu’un médi­ca­ment a des chances de mar­cher, soyons opti­mistes et conti­nuons à le tes­ter : il peut tou­jours sau­ver des vies !

Un problème important

Pour­tant, la for­mu­la­tion pré­cé­dente ignore un pro­blème impor­tant en pra­tique. Ima­gi­nons que la pro­cé­dure se passe mal et que les médi­ca­ments ne marchent pas sur la plu­part des patients. Pire, la plu­part des patients se plaignent d’effets secon­daires. Natu­rel­le­ment, on inter­rompt la pro­cé­dure. C’est typique­ment ce qui arrive si l’un des médi­ca­ments tes­tés est très mau­vais. Car rap­pe­lons-nous : on explore, donc on essaie régu­liè­re­ment tous les médi­ca­ments. Et tant pis si un des médi­ca­ments tes­tés est très bon. On recom­mence tout et il est néces­saire de trou­ver une nou­velle cohorte, rédi­ger un nou­veau pro­to­cole, etc. Dom­mage, non ?

Et les bandits survivalistes dans tout ça ?

Les ban­dits sur­vi­va­listes sont une géné­ra­li­sa­tion des ban­dits man­chots, dans laquelle on intègre le risque que, si ça tourne mal, on inter­rompt la pro­cé­dure. Concrète­ment, qu’est-ce que ça change ? Les ban­dits sur­vi­va­listes vont être beau­coup plus conser­va­teurs, car ils veulent évi­ter le risque d’arrêter la pro­cé­dure autant que pos­sible. Ima­gi­nons qu’on ait le choix entre deux médi­ca­ments : le médi­ca­ment A, qui marche bien, et le médi­ca­ment B, qu’on n’a pas beau­coup essayé. Les ban­dits man­chots vont nous dire d’essayer le médi­ca­ment B, c’est l’explo­ra­tion dont on a par­lé plus haut. Au contraire, les ban­dits sur­vi­va­listes vont nous dire : conti­nuez à uti­li­ser le médi­ca­ment A qui marche, on essaie­ra le médi­ca­ment B plus tard, quand on aura moins de risques que la pro­cé­dure s’arrête.

Le dilemme exploitation-exploration-exploitation

Du coup, les ban­dits sur­vi­va­listes explorent-ils moins que les ban­dits man­chots ? C’est à peu près ça. En réa­li­té, ils n’explorent pas for­cé­ment moins, mais plus tard. L’idée revient à écar­ter le risque d’arrêter la pro­cé­dure, autant que pos­sible. Pour cela, on cherche d’abord à iden­ti­fier un médi­ca­ment qui est effi­cace, sans spé­ci­fi­que­ment essayer d’identifier le médi­ca­ment le plus effi­cace. Et dans un second temps seule­ment, quand les pre­miers résul­tats de la pro­cé­dure sont suf­fi­sam­ment bons pour que la pro­cé­dure ait moins de chances d’être arrê­tée, on peut se per­mettre d’explorer et de cher­cher le médi­ca­ment le plus effi­cace. Et ain­si ils n’illustrent pas le dilemme d’exploration-exploitation.

À la place, ils illus­trent le dilemme d’exploitation-exploration-exploitation : exploi­ta­tion 1 (on donne autant que pos­sible les médi­ca­ments qui sont bons, sans se sou­cier de trou­ver le meilleur) ; explo­ra­tion (une fois qu’on a soi­gné beau­coup de patients et que la pro­cé­dure a moins de risques d’être arrê­tée, on peut explo­rer et essayer tous les médi­ca­ments régulière­ment) ; exploi­tation 2 (on donne plus sou­vent le médi­ca­ment qui semble être le meilleur). Les ban­dits sur­vi­va­listes sont un pro­blème ouvert posé à une grande confé­rence de ML en rai­son de son inté­rêt théo­rique et pra­tique, notam­ment en méde­cine. Mon tra­vail est le pre­mier à appor­ter une solu­tion théo­rique et pra­tique au pro­blème, et j’espère qu’il contri­bue­ra à amé­lio­rer la recherche et le déve­lop­pe­ment de nou­veaux médicaments.

La solution au problème

Les ban­dits sur­vi­va­listes ajoutent une contrainte au pro­blème des ban­dits man­chots : si l’effet des médi­ca­ments choi­sis est trop mau­vais, la pro­cé­dure s’arrête. Formel­lement, on défi­nit un seuil de tolé­rance, ou bud­get b, et la pro­cé­dure s’arrête au pre­mier temps τ tel que

Com­ment résoudre ce pro­blème ? Pour cela, ima­gi­nons qu’on ait un bud­get de b euros et qu’on sou­haite ache­ter des pâtes. Il y a K dif­fé­rentes marques au super­mar­ché, et on sou­haite ache­ter les pâtes qui nous pro­cu­re­ront un maxi­mum de plai­sir au meilleur prix. Si l’on ignore notre contrainte de bud­get, une bonne idée est d’acheter plu­sieurs fois tous les paquets, puis d’acheter celui qui nous a le plus plu. C’est la solu­tion des ban­dits man­chots. Si l’on tient compte de notre limite de bud­get, une idée assez natu­relle est de divi­ser notre bud­get entre les dif­fé­rentes marques, disons b ⁄ K euros par marque, jusqu’à ce qu’on trouve une marque qui nous convient, et on fait avec. Jusqu’au jour où le bud­get n’est plus un pro­blème, et à ce moment-là on pour­ra essayer d’autres marques de pâtes. Eh bien ça, c’est exac­te­ment la solu­tion des ban­dits survivalistes. 

“Les techniques de preuve sont liées à divers domaines des maths : probabilités, théorie de l’information, théorie des processus stochastiques et de la concentration de la mesure.”

On attri­bue un bud­get b ⁄ K à chaque médi­ca­ment et, si l’effet total d’un médi­ca­ment devient infé­rieur à -b ⁄ K, on ne l’utilise plus… jusqu’à ce qu’il n’y ait plus de risque d’interrompre l’expérience. Nous avons prou­vé que cette stra­té­gie mini­mise le risque d’interrompre la pro­cé­dure et en même temps maxi­mise l’effet total des médi­ca­ments attri­bués aux patients. Les tech­niques de preuve sont liées à divers domaines des maths : il y a des pro­ba­bi­li­tés, mais aus­si de la théo­rie de l’information, de la théo­rie des pro­ces­sus sto­chas­tiques et de la concen­tra­tion de la mesure.

Bandits Manchots vs Bandits survivalistes

Le message à retenir des bandits manchots et des bandits survivalistes

Outre l’aspect scien­ti­fique, les ban­dits man­chots et les ban­dits sur­vi­va­listes m’ont don­né des petits conseils pour la vie quo­ti­dienne, qui m’ont beau­coup aidé. Je les par­tage avec vous et j’espère qu’ils vous aide­ront également. 

Pre­mière chose, l’optimisme. Le meilleur moyen de trou­ver le meilleur médi­ca­ment, c’est d’essayer. Par­fois, il y aura des résul­tats néga­tifs, mais il ne faut pas aban­don­ner. Il en va de même pour une car­rière pro­fes­sion­nelle, où il ne faut pas hési­ter à essayer divers che­mins de car­rière avant de trou­ver le bon. Per­son­nel­le­ment, j’ai essayé le conseil puis la banque avant de venir dans la recherche. 

Deuxième chose, la per­sé­vé­rance. L’exploration, c’est en plu­sieurs étapes. Par­fois on tra­verse des dif­fi­cul­tés, mais il peut être judi­cieux (par­fois) d’insister et d’attendre un peu avant de chan­ger de direc­tion ou de se faire une idée fixe. Ma ren­contre avec deux de mes meilleurs amis a com­men­cé avec des petites ten­sions. Vous aus­si, vous avez peut-être un ami comme ça ?

« Dans les bandits manchots, l’exploitation marche grâce à l’exploration. En d’autres termes, on peut trouver le meilleur médicament parce qu’on accepte d’essayer de mauvais médicaments et de se tromper. »

Troi­sième chose : accep­ter l’erreur. Dans les ban­dits man­chots, l’exploitation marche grâce à l’exploration. En d’autres termes, on peut trou­ver le meilleur médi­ca­ment parce qu’on accepte d’essayer de mau­vais médi­ca­ments et de se trom­per. C’est pareil dans la vie. Sur ma chaîne You­Tube, j’ai fait une inter­view (entre autres) d’une cher­cheuse de renom­mée mon­diale en IA, qui explique qu’elle a aban­don­né son pre­mier doc­to­rat et se sen­tait per­due. Aujourd’hui, elle est invi­tée dans des sum­mer schools et des confé­rences de renom­mée mon­diale, et elle a même lan­cé une nou­velle confé­rence en IA, à peine trois ans après son doctorat. 

Qua­trième chose : si vous avez des contraintes qui vous empêchent d’essayer, vous pour­rez tou­jours explo­rer plus tard. C’est pro­ba­ble­ment l’un des mes­sages forts des ban­dits sur­vi­va­listes. Par­fois, on doit satis­faire une contrainte pres­sante, et on doit conti­nuer un tra­vail qui ne vous plaît pas pour nour­rir sa famille, gar­der son visa et ain­si de suite. On ne peut pas vrai­ment essayer de nou­velles choses et par­tir en explo­ra­tion, mais cela ne veut pas dire qu’on ne le fera jamais. Les ban­dits sur­vi­va­listes le disent : une fois cette contrainte satis­faite, on peut à nou­veau explo­rer et trou­ver la perle rare.


ML New Papers : une chaîne YouTube sur le Machine Learning

Je vous pré­sente ma chaîne You­Tube, que j’ai lan­cée récem­ment pen­dant ma thèse, sur le machine lear­ning (ML) : ML New Papers. Mon objec­tif est double : vul­ga­ri­ser sans sacri­fier le ML pour un public large (le pas­sion­né com­pren­dra com­ment marche et est conçue l’IA de pointe, le pro­fes­sion­nel décou­vri­ra des méthodes récentes dans tous les domaines de l’IA) ; don­ner des conseils à tous ceux qui sou­haitent se lan­cer dans une car­rière dans l’IA. Com­ment deve­nir un data scien­tist ?

Dois-je faire un doc­to­rat et com­ment le choi­sir ? Où trou­ver des res­sources pour apprendre l’IA actuelle ? La plu­part des vidéos durent dix minutes et les for­mats sont variés : vlog dans une sum­mer school, résu­més de publi­ca­tions de recherche en IA (bases théo­riques incluses), inter­views de cher­cheurs, et bien plus encore. Si vous êtes inté­res­sés et/ou que vous sou­hai­tez sou­te­nir ma chaîne, n’hésitez pas à vous abon­ner avec le QR code et à mettre un pouce bleu à mes vidéos.

Poster un commentaire