Quelles statistiques sont utiles aux entreprises ?

Dossier : Mathématiques et entreprisesMagazine N°577 Septembre 2002
Par Paul DEHEUVELS

Une entre­prise com­bine trois fonc­tions essen­tielles : inven­ter, fabri­quer et vendre. L’exemple de l’in­dus­trie phar­ma­ceu­tique illustre par­fai­te­ment cette tri­lo­gie. Il lui faut en effet, tout d’a­bord, décou­vrir de nou­velles molé­cules répon­dant aux besoins de san­té, ensuite, fabri­quer les pré­pa­ra­tions des­ti­nées à les rendre dis­po­nibles aux uti­li­sa­teurs, et enfin, com­mer­cia­li­ser ces der­nières afin de géné­rer, in fine, un béné­fice d’ex­ploi­ta­tion. Natu­rel­le­ment, ce der­nier est des­ti­né, d’une part à ren­ta­bi­li­ser les inves­tis­se­ments anté­rieurs, et d’autre part à finan­cer la recherche de pro­duits nouveaux.

Au cours de ces dif­fé­rentes opé­ra­tions, il est constam­ment néces­saire de pou­voir appré­cier les effets thé­ra­peu­tiques des nou­veaux pro­duits, et ceci à par­tir d’un ensemble d’ex­pé­riences médi­cales, dont cer­taines doivent être conduites sur des patients en cours de trai­te­ment. Il est facile de com­prendre, dans ce der­nier cas, que les don­nées d’ob­ser­va­tion sont presque tou­jours coû­teuses et peu nom­breuses. Il importe donc qu’on puisse en extraire toute l’in­for­ma­tion dis­po­nible, plu­tôt que de prendre des risques sur la san­té de malades en mul­ti­pliant des pro­to­coles inutiles.

Le pro­blème se pose d’ailleurs dans les mêmes termes lors­qu’il est fait appel à des expé­ri­men­ta­tions ani­males. Sans entrer dans le débat de jus­ti­fier ou non leur exis­tence, cha­cun sera d’ac­cord sur le fait qu’il serait inac­cep­table de ne pas cher­cher à exploi­ter au mieux les don­nées qu’elles four­nissent. Or, par leur nature, les obser­va­tions aux­quelles on peut avoir accès par l’ex­pé­rience sont impré­cises, enta­chées d’er­reur, et aléa­toires. C’est ain­si qu’il y a peu de trai­te­ments qui soient effi­caces à 100 % pour trai­ter des mala­dies comme le can­cer, et qu’on doive jus­ti­fier l’in­té­rêt d’une nou­velle médi­ca­tion en fonc­tion de taux de sur­vie à douze ou vingt-quatre mois, plu­tôt que de comp­ter les gué­ri­sons, cette notion per­dant d’ailleurs toute signi­fi­ca­tion sur le long terme.

Il faut alors rai­son­ner, non pas sur des patients indi­vi­duels, mais sur des popu­la­tions. Comme, pour celles-ci, il n’est pas pos­sible de pré­voir avec cer­ti­tude le détail des réac­tions des indi­vi­dus qui les com­posent, on cher­che­ra à mesu­rer l’in­ci­dence glo­bale des actes thé­ra­peu­tiques aux­quelles elles sont soumises.

Le rôle de la sta­tis­tique est ici essen­tiel. Aus­si bien un mau­vais choix du cri­tère de vali­da­tion qu’une mau­vaise uti­li­sa­tion des outils mathé­ma­tiques qu’elle met en œuvre peut abou­tir à des déci­sions désas­treuses. On court ain­si le risque de pour­suivre le déve­lop­pe­ment d’un pro­duit dan­ge­reux et inef­fi­cace, ou, inver­se­ment, d’ar­rê­ter pré­ma­tu­ré­ment l’é­tude d’une molé­cule poten­tiel­le­ment riche en appli­ca­tions utiles.

Une approche naïve mène­rait à croire que la sta­tis­tique est un mono­lithe par­fait, au sens qu’il y aurait pour chaque type d’ex­pé­rience un trai­te­ment sta­tis­tique unique qui lui soit par­fai­te­ment adap­té. Il n’en est mal­heu­reu­se­ment rien. Le plus sou­vent, on doit confron­ter les don­nées d’ob­ser­va­tion à de vastes cata­logues de modèles mathé­ma­tiques plus ou moins com­plexes, et entre les­quels il est dif­fi­cile de jus­ti­fier a prio­ri des pré­fé­rences éventuelles.

D’une cer­taine manière, l’ac­tion du sta­tis­ti­cien s’ap­pa­rente alors à celle du méde­cin au che­vet de son patient. Comme tout bon pra­ti­cien, son devoir est de bien inter­pré­ter les symp­tômes variés por­tés à sa connais­sance. Les choix qu’il adop­te­ra ensuite pour­ront avoir des consé­quences extrêmes allant de la gué­ri­son au décès. Avant tout, il lui importe donc de for­mu­ler un bon diagnostic.

Tou­te­fois, on ne peut pas se fier tota­le­ment à la seule expé­rience d’un homme de ter­rain et il est néces­saire de se livrer à toutes les véri­fi­ca­tions pos­sibles avant d’ac­cep­ter ses conclu­sions. Il s’a­git en effet de dis­tin­guer l’in­for­ma­tion réelle qu’ap­portent les obser­va­tions de l’in­for­ma­tion impli­cite et sub­jec­tive qui est induite par les choix de modèle de l’ex­pert en charge de pro­blème. Ceci est loin d’être facile comme on pour­ra le consta­ter plus loin.

De plus, la pra­tique de la sta­tis­tique est ren­due d’au­tant plus dif­fi­cile qu’elle se doit de com­bi­ner une solide expé­rience avec des connais­sances théo­riques appro­fon­dies. On ren­contre sou­vent l’une sans l’autre. Pour­sui­vant la com­pa­rai­son entre la sta­tis­tique et la méde­cine, il est tout autant dan­ge­reux de se faire soi­gner par des rebou­teux que par des bio­lo­gistes qui n’ont pas une expé­rience réelle des malades.

Quelques exemples

Plu­tôt que de res­ter abs­trait, je don­ne­rai quelques exemples pour illus­trer mon pro­pos. Le pre­mier, issu de l’in­dus­trie pétro­lière, concerne les bou­chons dans les écou­le­ments dipha­siques (voir, par exemple, [2]). Ima­gi­nons une plate-forme en pleine mer qui pompe dans un pipe­line long de dizaines de kilo­mètres un mélange com­po­sé d’huile, d’eau et de gaz. Sous cer­taines condi­tions, l’en­semble se sépare en deux com­po­santes, l’une gazeuse, l’autre liquide, et l’é­cou­le­ment alter­ne­ra donc des bulles gazeuses et des bou­chons liquides, ces der­niers étant pro­pul­sés dans le conduit comme la balle dans le canon du fusil.

Il est alors d’une grande impor­tance de quan­ti­fier la lon­gueur aléa­toire de ces bou­chons afin d’a­dap­ter au mieux l’ap­pa­reillage de récep­tion. Si ce der­nier a une capa­ci­té insuf­fi­sante, il sera dété­rio­ré par l’ar­ri­vée intem­pes­tive d’un bou­chon de trop grande lon­gueur. Inver­se­ment, une trop grande capa­ci­té du réser­voir de récep­tion serait coû­teuse à l’ex­cès au point d’o­bé­rer le béné­fice d’ex­ploi­ta­tion de l’ensemble.

Com­pa­rai­son d’une courbe para­mé­trique et non para­mé­trique sur un même jeu de données
M​esures d’émission de CO2 (en g/km) pour des véhi­cules par­ti­cu­liers légers essence de cylin­drée com­prise entre 1.4 et 2 litres ;
en poin­tillé : courbe théo­rique ajus­tée (poly­nôme du second degré) 
en trait plein : moyenne mobile.

Com­ment pro­cède-t-on pour ajus­ter les para­mètres d’in­té­rêt dans un pro­blème comme celui-ci ? Il est clas­sique de faire usage d’une expé­rience pilote où l’on ajuste, par des méthodes sta­tis­tiques stan­dard, une loi de répar­ti­tion des lon­gueurs de bou­chons à par­tir d’un ensemble limi­té d’ob­ser­va­tions. On extra­pole ensuite cette loi de répar­ti­tion pour pré­voir les carac­té­ris­tiques de bou­chons extrêmes, ces der­niers posant les pro­blèmes de fonc­tion­ne­ment les plus sérieux.

Or, c’est pré­ci­sé­ment là où le bât blesse : des modèles dif­fé­rents peuvent à la fois s’a­jus­ter fidè­le­ment l’un et l’autre aux don­nées de l’ex­pé­rience ini­tiale, tout en menant à des pré­vi­sions diver­gentes sur les valeurs extrêmes qu’on doit s’at­tendre à obser­ver par la suite. Dans cet exemple, le fac­teur cru­cial est davan­tage le bon choix de la loi de répar­ti­tion des lon­gueurs de bou­chons que la façon dont on en ajuste les para­mètres à par­tir de l’ex­pé­rience. Une erreur dans les choix ini­tiaux du modèle pour­ra avoir des consé­quences catastrophiques.

Mon deuxième exemple vient de l’in­dus­trie phar­ma­ceu­tique. Les efforts qui doivent y être faits, entre l’in­ven­tion de nou­velles molé­cules et leur com­mer­cia­li­sa­tion, sont extra­or­di­nai­re­ment longs et coû­teux. Il y a peu, la presse a lar­ge­ment fait écho au fait qu’une entre­prise pros­père pou­vait aller à la limite du dépôt de bilan lorsque l’un de ses pro­duits phares était accu­sé d’ef­fets secon­daires inat­ten­dus met­tant en jeu la san­té des consommateurs.

À chaque étape du pro­ces­sus d’é­va­lua­tion, des expé­riences déli­cates doivent être menées pour déci­der si l’ef­fi­ca­ci­té du pro­duit existe ou non, quan­ti­fier ses effets secon­daires (et notam­ment sa toxi­ci­té), et déci­der si l’en­semble de ces carac­té­ris­tiques jus­ti­fie qu’on en pour­suive le déve­lop­pe­ment jus­qu’à son terme. Il suf­fit par­fois d’un mau­vais emploi des sta­tis­tiques pour que l’une de ces ana­lyses mène à aban­don­ner à tort l’é­tude d’un pro­duit qui aurait géné­ré des bien­faits sub­stan­tiels, ou inver­se­ment à inves­tir à fonds per­dus dans des voies improductives.

Il m’a été don­né de par­ti­ci­per au déve­lop­pe­ment d’une molé­cule dont les effets remar­quables pour le trai­te­ment des mala­dies car­dio­vas­cu­laires sont main­te­nant par­fai­te­ment connus. Il s’a­git du Clo­pi­do­grel de Sano­fi-Syn­thé­la­bo. Je me sou­viens encore d’une expé­rience menée sur plus de 10 000 patients, et au cours de laquelle l’u­ti­li­sa­tion d’un modèle sta­tis­tique inadap­té, impo­sé par un orga­nisme de san­té publique étran­ger, avait failli mener à l’échec.

Le pro­blème était que l’or­ga­nisme vou­lait admettre que les taux de mor­ta­li­té des patients res­taient constants au cours de l’ex­pé­rience (rap­pe­lons que le taux de mor­ta­li­té T(x) d’un patient à l’ins­tant x cor­res­pond à une pro­ba­bi­li­té de décès T(x)dx dans l’in­ter­valle de temps [x,x+dx], sachant que le patient est encore vivant à l’ins­tant x). Il se trouve que le taux de mor­ta­li­té pour les patients trai­tés avec la nou­velle molé­cule décrois­sait avec le temps, ce qui vou­lait dire que les malades étaient, d’une cer­taine manière, gué­ris par ce trai­te­ment. Inver­se­ment, les patients rece­vant la médi­ca­tion clas­sique à base d’as­pi­rine conser­vaient un taux de mor­ta­li­té constant dans le temps. Ce phé­no­mène, nou­veau et inat­ten­du, a été décou­vert par l’emploi de nou­velles tech­niques sta­tis­tiques (voir [3]). S’il n’a­vait pas été pris en compte à temps, qui sait ce qui aurait pu être déduit d’une étude de cette ampleur ana­ly­sée sous de mau­vaises hypothèses ?

On peut en effet abou­tir à des conclu­sions tota­le­ment erro­nées par l’emploi de modèles inadap­tés. Pour bien com­prendre le pro­blème, on obser­ve­ra que, pour des taux de mor­ta­li­té T1 et T2 constants, il n’y a pas d’am­bi­guï­té à pré­fé­rer le pro­duit (1) au pro­duit (2) si T1 < T2. Le pro­blème est plus com­plexe lorsque, par exemple, T1(x) dépend du temps x et T2 est constant. En effet, dans ce cas, il peut se faire qu’on observe, pour cer­taines valeurs des temps x et y, des inéga­li­tés telles que T1(x) > T2 et T1(y) < T2. Dans quel cas doit-on alors pré­fé­rer le pro­duit (1) au pro­duit (2) ? De plus, les méthodes d’es­ti­ma­tion adap­tées au cas où les T1 et T2 sont constants donnent des résul­tats sans signi­fi­ca­tion par rap­port à la com­pa­rai­son de T1 et T2 lorsque l’un de ces taux varie avec le temps.

Premières constatations

Au prin­temps 2001, dans un débat public à l’oc­ca­sion d’un congrès alle­mand à Ham­bourg, j’a­vais été cho­qué qu’un inter­ve­nant puisse affir­mer de bonne foi qu’il ne s’é­tait pas pas­sé grand-chose d’in­no­vant en sta­tis­tique depuis l’in­ven­tion du prin­cipe du maxi­mum de vrai­sem­blance par Ronald Fisher en 1922. Je m’é­tais vive­ment éle­vé, preuves à l’ap­pui, contre des pro­pos aus­si polé­miques. Si je me plais à les répé­ter ici, c’est qu’ils reflètent un point de vue qui vou­drait limi­ter la sta­tis­tique à l’a­jus­te­ment des para­mètres de modèles (on appelle ceci la sta­tis­tique para­mé­trique lorsque le modèle est carac­té­ri­sé par un nombre fini de para­mètres numériques).

En effet, s’il s’a­gis­sait seule­ment d’é­va­luer un nombre fixé de para­mètres réels, décri­vant un modèle pré­cis et spé­ci­fié, à par­tir d’ob­ser­va­tions répé­tées issues de ce der­nier, la méthode du maxi­mum de vrai­sem­blance four­ni­rait cer­tai­ne­ment des solu­tions qua­si­ment opti­males dans la plu­part des cas. Il n’y aurait alors pas besoin d’al­ler beau­coup plus loin dans l’ap­pren­tis­sage de la statistique.

Or, c’est igno­rer la réa­li­té de la sta­tis­tique que de limi­ter celle-ci à une situa­tion aus­si simple. D’une part, on dis­pose le plus sou­vent d’une quan­ti­té de modèles can­di­dats pour repré­sen­ter un même phé­no­mène, et dont le nombre de para­mètres peut varier de un à l’in­fi­ni. D’autre part, il n’est pas non plus réa­liste de vou­loir choi­sir entre ces dif­fé­rentes pos­si­bi­li­tés celle qui convient le mieux par un cri­tère unique, par exemple, en fai­sant usage de tech­niques de type Akaike (voir [1]), basées sur la théo­rie de l’in­for­ma­tion, et se pré­sen­tant comme des variantes de la théo­rie du maxi­mum de vrai­sem­blance, adap­tées à un nombre de para­mètres variable. Je pren­drai un nou­vel exemple pour appuyer ce point de vue, sans doute un peu iconoclaste.

Il y a une dizaine d’an­nées, j’a­vais mis au point un algo­rithme des­ti­né à amé­lio­rer la pré­vi­sion de séries finan­cières en uti­li­sant une modé­li­sa­tion fai­sant usage de bruit blanc frac­tion­naire. J’é­tais alors à New York, et je fus invi­té, dans le cadre d’une col­la­bo­ra­tion indus­trielle, par une socié­té de ser­vices qui s’in­té­res­sait à ma méthode.

Quelle ne fut pas ma sur­prise de voir que cette socié­té uti­li­sait un Cray pour mettre en com­pé­ti­tion per­ma­nente les unes contre les autres toutes les méthodes connues de pré­vi­sion de séries tem­po­relles sur un cer­tain nombre de cours de valeurs bour­sières. Je m’in­té­res­sais à un modèle, alors qu’il y en avait des cen­taines dis­po­nibles, au point qu’un uti­li­sa­teur, même aver­ti, devait uti­li­ser des com­pa­rai­sons expé­ri­men­tales pour en faire le tri, et même com­bi­ner toutes les pré­vi­sions entre elles pour construire une sorte de méta-ana­lyse des cours finan­ciers, en elle-même plus effi­cace que cha­cune des méthodes ain­si conjuguées.

Lors d’une ana­lyse sta­tis­tique iso­lée d’un ensemble de don­nées, il n’est certes pas pos­sible de pro­cé­der, comme ci-des­sus, à une vali­da­tion dyna­mique de modèles en com­pé­ti­tion, à l’ins­tar de celle qui pro­cé­de­rait d’un ajus­te­ment sur des séries tem­po­relles obser­vées en temps réel. Tou­te­fois, le sta­tis­ti­cien expert se trouve aujourd’­hui de plus en plus devant une mul­ti­tude d’op­tions en concur­rence, et entre les­quelles il n’est pas tou­jours aisé de choi­sir. Que doit-il faire ? Je suis per­son­nel­le­ment convain­cu qu’il lui faut explo­rer sys­té­ma­ti­que­ment toutes ces pos­si­bi­li­tés, plu­tôt que de se limi­ter arbi­trai­re­ment à l’une d’entre elles comme on le voit faire le plus sou­vent. Certes, ceci demande beau­coup de tra­vail, mais cela pré­sente aus­si l’a­van­tage de limi­ter les risques d’un mau­vais choix.

On m’ob­jec­te­ra que cette approche risque de créer une confu­sion cer­taine, dans la mesure où des modèles dif­fé­rents pour­ront ame­ner, en toute logique, à des conclu­sions dif­fé­rentes. La sta­tis­tique ne serait plus alors un pré­cieux outil d’aide à la déci­sion, mais à l’in­verse un fac­teur de désordre et de contradiction.

J’en viens main­te­nant aux réponses que je vou­drais appor­ter à la ques­tion posée en exergue. La sta­tis­tique utile aux entre­prises est pré­ci­sé­ment celle qui leur per­met de ne pas se trom­per, c’est celle qui leur per­met de bien choi­sir entre les pos­si­bi­li­tés qui leur sont offertes pour l’in­ter­pré­ta­tion des don­nées. D’une part, il convient de ne pas se limi­ter à un nombre trop res­treint de modèles dans les ana­lyses, c’est la conclu­sion de ce qui pré­cède. D’autre part, il faut faire le bon choix entre les dif­fé­rentes voies pos­sibles, et ceci fera l’ob­jet de notre dis­cus­sion finale.

Les plus brillantes inno­va­tions de la sta­tis­tique au cours des der­nières décen­nies sont sans conteste dans le domaine des méthodes non para­mé­triques, où il s’a­git d’é­va­luer la struc­ture des phé­no­mènes avec un mini­mum d’hy­po­thèses contrai­gnantes. Le voca­bu­laire de la sta­tis­tique englobe sous l’ap­pel­la­tion de non-para­mé­trique des modèles qui ne peuvent pas être décrits sim­ple­ment en fonc­tion d’un nombre fini de para­mètres numériques.

À titre d’exemple, dire qu’une variable aléa­toire suit une loi de Laplace-Gauss est une hypo­thèse para­mé­trique, puisque cette loi est défi­nie par sa moyenne et sa variance. À l’op­po­sé, dire que cette variable a sa loi de pro­ba­bi­li­té ayant une den­si­té conti­nue est une hypo­thèse non para­mé­trique, la loi étant ici défi­nie par une fonc­tion conti­nue posi­tive ou nulle d’in­té­grale égale à 1. Les outils de la sta­tis­tique non para­mé­trique sont, par leur nature même, ceux qui doivent être employés pour vali­der des modèles plus pré­cis mais en les­quels on n’a qu’une confiance limi­tée au départ. Nous recom­man­dons donc d’u­ti­li­ser sys­té­ma­ti­que­ment des méthodes non para­mé­triques en paral­lèle aux méthodes clas­siques afin de véri­fier si leurs résul­tats sont en concor­dance (voir, par exemple, [4]).

Par ailleurs, l’emploi de tech­niques de rééchan­tillon­nage, telles celles du boots­trap (voir [5]), per­met­tant d’u­ti­li­ser les don­nées elles-mêmes pour éva­luer la pré­ci­sion des esti­ma­tions en lieu et place des résul­tats asymp­to­tiques de la théo­rie clas­sique, devrait entrer dans les mœurs comme une tech­no­lo­gie standard.

Sait-on par exemple que l’in­ter­valle de confiance pour la moyenne, basé sur le boots­trap, est bien sou­vent beau­coup plus pré­cis que l’in­ter­valle de Student habi­tuel ? Un détail comme celui-ci devrait pour le moins éveiller l’attention.

Conclusion

Jus­qu’i­ci, nous nous sommes limi­tés à l’é­tude des don­nées rares ou pré­cieuses, des­quelles il impor­tait de tirer le maxi­mum de ren­sei­gne­ments, sans lési­ner sur les efforts devant être faits pour par­ve­nir à ce but. Nous avons argué qu’il fal­lait mani­pu­ler la sta­tis­tique sans trop d’a prio­ri, en essayant, autant que faire se peut, tous les modèles pos­sibles, et en choi­sis­sant entre ceux-ci grâce à des ana­lyses non para­mé­triques menées en paral­lèle. Il arrive, inver­se­ment, que les don­nées soient sur­abon­dantes au point qu’il soit dif­fi­cile d’en déga­ger une struc­ture quel­conque. C’est le pro­blème du » data mining « . Je ne par­le­rai tou­te­fois pas ici de cette der­nière situa­tion, qui méri­te­rait en elle-même une dis­cus­sion sépa­rée, en men­tion­nant tou­te­fois que notre ana­lyse s’ap­plique aus­si bien à ce cas.

Notre conclu­sion géné­rale est que les sta­tis­tiques les plus utiles aux entre­prises sont celles qui leur per­mettent les bons choix de modèles. À par­tir du moment où un modèle est rete­nu, le » calage » des para­mètres est une opé­ra­tion plus ou moins de rou­tine, grâce, entre autres, à la méthode du maxi­mum de vrai­sem­blance. Tou­te­fois, le risque asso­cié à un mau­vais modèle est sou­vent impor­tant, et tout doit être fait pour le réduire. Il faut donc dis­po­ser d’ou­tils de vali­da­tion appro­priés, et c’est sur ces der­niers que devraient por­ter les efforts les plus importants. 

Réfé­rences bibliographiques

[1] H. Akaike (1973). Infor­ma­tion theo­ry and an exten­sion of the maxi­mal like­li­hood prin­ciple. Dans : Second Sym­po­sium on Infor­ma­tion Theo­ry (B. N. Petrov et F. Cza­ki, eds.). Aka­de­miai Kioa­do, Budapest.
[2] M. Ber­ni­cot, P. Deheu­vels (1995). A uni­fied model for slug flow gene­ra­tion. Revue de l’Ins­ti­tut Fran­çais du Pétrole. 50 219–236.
[3] P. Deheu­vels, J. Ein­mahl (2000). Func­tio­nal Limit laws for the Incre­ments of Kaplan-Meier Pro­duct-Limit Pro­cesses and Appli­ca­tions. Annals of Pro­ba­bi­li­ty. 28 1301–1335.
[4] P. Deheu­vels, G. Derz­ko (2002). Esti­ma­tion non para­mé­trique de la régres­sion dicho­to­mique – appli­ca­tion bio­mé­di­cale. C. R. Acad. Sci. Paris, Ser. I 333. 1–5.
[5] P. Hall (1992). The Boots­trap and Edge­worth Expan­sion. Sprin­ger, New York.

Poster un commentaire