Une équipe de Formule 1

La puissance de calcul : un mariage entre technologies et applications

Dossier : Simulation et supercalculateursMagazine N°732 Février 2018
Par Jean-Philippe NOMINÉ (83)

Dis­po­ser de la puis­sance de cal­cul néces­saire à cer­tains tra­vaux exige d’avoir accès à des centres dédiés, entou­rés de la com­pé­tence de dizaines de spé­cia­listes en tout genre. La France conserve une auto­no­mie de déve­lop­pe­ment de super­cal­cu­la­teurs face à des pays qui inves­tissent mas­si­ve­ment dans ce domaine. 

Les appli­ca­tions propres au monde des sciences et de l’industrie sont en moyenne plus intenses en cal­cul et trai­te­ments que les tâches tran­sac­tion­nelles au pro­fit du Web, de la mes­sa­ge­rie, des réseaux sociaux ou encore de maintes tâches d’informatique d’entreprise.

“ Les plus grands centres de calcul scientifique actuels voient leur capacité mesurée en dizaines de pétaflops ”

En effet, la réso­lu­tion des pro­blèmes scien­ti­fiques concer­nés – tant dans la recherche aca­dé­mique que dans l’industrie – néces­site des capa­ci­tés de cal­cul mas­si­ve­ment paral­lèles et for­te­ment cou­plées, avec gros débits et faibles latences de com­mu­ni­ca­tion entre pro­ces­seurs et serveurs. 

Cela dis­qua­li­fie les solu­tions très dis­tri­buées, au pro­fit de super­cal­cu­la­teurs « loca­li­sés » et à réseau interne spé­ci­fique – en per­ma­nence au-delà des capa­ci­tés de réseaux longue dis­tance ou classiques. 

REPÈRES

Les centres de calcul dont il est question ici perpétuent le gigantisme des ordinateurs à tube des années 1940, occupant de grandes salles, en ayant bien entendu bénéficié de la miniaturisation de leurs composants intimes.
S’ils sont parfois moins gigantesques que les plus grands centres informatiques des géants du Web, ou de la NSA américaine, ils sont plus « denses » : dans quelques centaines ou milliers de mètres carrés, et quelques mégawatts – parfois jusqu’à 20–30 – ils concentrent unités de calcul et de stockage.

DES ÉCURIES DE FORMULE 1

Beau­coup des tech­no­lo­gies de base (pro­ces­seurs, mémoires) sont com­munes entre super­cal­cu­la­teurs et ser­veurs plus géné­riques, même si le cal­cul haute per­for­mance (en anglais HPC, pour High Per­for­mance Com­pu­ting) uti­lise plu­tôt le haut de gamme des com­po­sants pro­duits par ailleurs en masse. 

Ce sont donc sur­tout la den­si­té et l’intégration plus pous­sées qui carac­té­risent les archi­tec­tures en clus­ters uti­li­sées et leur envi­ron­ne­ment local, qui com­porte aus­si des sys­tèmes de refroi­dis­se­ment adap­tés, et des sys­tèmes de sto­ckage de masse. 

Les plus grands centres de cal­cul scien­ti­fique actuels voient leur capa­ci­té mesu­rée en dizaines de péta­flops (cal­cul) et de péta­oc­tets1 (sto­ckage) – voir les sta­tis­tiques sur www.top500.org. Les sys­tèmes logi­ciels de ces machines sont adap­tés à l’administration de masse, à la ges­tion de res­sources par­ta­gées par des cen­taines d’utilisateurs dis­tants, à la pro­gram­ma­tion paral­lèle mas­sive des applications. 

Enfin, les équipes de sup­port et d’exploitation peuvent regrou­per des dizaines de spé­cia­listes de nom­breux sujets – une sorte d’analogue à une équipe tech­nique d’écurie de For­mule 1. 


Les équipes de sup­port et d’exploitation peuvent regrou­per des dizaines de spé­cia­listes de nom­breux sujets – une sorte d’analogue à une équipe tech­nique d’écurie de For­mule 1.

LE COMPLEXE DE CALCUL DU CEA :
TERA, TGCC, CCRT

À ce jour, le CEA exploite à Bruyères-le-Châtel dans l’Essonne deux des plus grands centres de calcul d’Europe, Tera, installation classifiée pour la défense, le TGCC, installation dédiée aux moyens et services pour la recherche et l’industrie – via 2 autres machines.
La conjonction sur un même site de 3 machines « pétaflopiques » exploitées par les mêmes équipes CEA sur ces 3 grands axes d’usage du HPC, formant ce complexe de calcul, est quasiment unique au monde ; il en résulte des économies d’échelle et un partage extrêmement vertueux des compétences au profit de toutes les catégories d’utilisateurs.
Le CCRT (partie industrie) en particulier est un montage très original de partage de machine avec plus de quinze industriels partenaires/utilisateurs. Voir www-hpc.cea.fr

DES CENTRES DE COMPÉTENCES PLURIDISCIPLINAIRES

Pen­chons-nous sur les ver­tus et voca­tions de ces infra­struc­tures de cal­cul et de trai­te­ment de don­nées. Ces infra­struc­tures sont pri­vées (par exemple, pro­prié­té de grands indus­triels ou de grou­pe­ments d’intérêt), ou publiques (au ser­vice de la recherche publique) et de dif­fé­rentes échelles, crois­santes : régio­nale, natio­nale, internationale. 

“ La France est ainsi l’un des rares pays à conserver une autonomie de développement de supercalculateurs ”

Les centres de cal­cul sont plus ou moins géné­ra­listes (pri­vés, ils seront sou­vent plus spé­cia­li­sés, mais des com­mu­nau­tés de recherche peuvent dis­po­ser de centres qui leur sont réser­vés, comme la fusion pour l’énergie).

Mais sur­tout, ce sont des centres de com­pé­tences : à la fois sur les tech­no­lo­gies en per­pé­tuelle évo­lu­tion, sur les méthodes de déve­lop­pe­ment logi­ciel, sur le sup­port aux uti­li­sa­teurs – en plus des mis­sions de base de bonne exploi­ta­tion des machines et de ser­vices de base associés. 

UN PATRIMOINE À VALORISER

Cette notion de centre de com­pé­tences est en fait cru­ciale, elle doit être une ambi­tion en soi. 

LA COURSE « À L’EXASCALE » À TRAVERS LE MONDE

USA, Japon sont les grandes nations historiques du HPC et de leurs technologies. La Chine s’y investit désormais avec une volonté et des moyens considérables, en quête de souveraineté et d’indépendance, voire de domination sur le secteur. Tous ont des programmes « exascale », soit mille fois le pétaflops atteint vers 2010, ambitieux, clairement cadrés aux niveaux gouvernementaux.
La Commission européenne est consciente de l’enjeu de la maîtrise du HPC comme fer de lance de nombreuses évolutions informatiques, et de l’importance du calcul intensif et traitement de données massives pour la compétitivité industrielle et scientifique. Un programme HPC global a donc été lancé au sein du programme cadre Horizon 2020.
La France est le seul pays européen à avoir son propre programme d’ambition globale – technologies + infrastructures + applications – qu’il est impératif de combiner et d’amplifier au mieux avec les efforts européens, afin d’atteindre une masse critique de moyens de R & D, de compétences, de marché.

Il s’agit de faire fruc­ti­fier le patri­moine ines­ti­mable de savoir-faire résul­tant de cette posi­tion pri­vi­lé­giée d’observatoire glo­bal : lieu de vie des grandes appli­ca­tions de cal­cul et trai­te­ment de don­nées, per­met­tant des opti­mi­sa­tions plus glo­bales et com­munes, des anti­ci­pa­tions tech­no­lo­giques plus mûries et au final de meilleurs ser­vices hau­te­ment par­ta­gés, invo­quant par­fois des com­pé­tences très poin­tues et rares en trai­te­ment de don­nées, admi­nis­tra­tion de masse, algo­rith­mique avan­cée, etc. 

De plus, les grands centres de cal­cul peuvent avoir une rela­tion pri­vi­lé­giée avec les grands four­nis­seurs de tech­no­lo­gie (com­po­sants ou sys­tèmes) : accès et test pré­coces pour mieux anti­ci­per les évo­lu­tions ; voire concep­tion conjointe des sys­tèmes de cal­cul futurs : le CEA fait cela depuis quinze ans avec Bull (Atos) avec le sou­tien d’un Plan d’investissement d’avenir.

La France est ain­si l’un des rares pays au monde à vou­loir et pou­voir déve­lop­per et conser­ver une auto­no­mie de déve­lop­pe­ment de supercalculateurs. 

COLOCALISER DONNÉES ET TRAITEMENT

La place crois­sante prise par la pro­blé­ma­tique des don­nées impose de pen­ser une juste (co)localisation des cal­culs et des don­nées. On rap­proche aujourd’hui plus aisé­ment un cal­cul de l’entrepôt de don­nées que l’on ne déplace les pétaoctets. 

“ Le calcul haute performance n’est pas aisément soluble dans du cloud totalement banalisé ”

Les grands cal­culs pro­duisent sou­vent de grandes masses de don­nées locales ; à trai­ter, inter­pré­ter, par­fois redis­tri­buer au mieux ensuite par par­ties ; des grandes masses de don­nées d’origine quel­conque (cal­cul mais aus­si, de plus en plus, issues a prio­ri de cap­teurs, réseaux sociaux, etc.) peuvent béné­fi­cier de la proxi­mi­té de forte puis­sance de cal­cul afin de les trai­ter et exploiter. 

On observe notam­ment une forte et rapide évo­lu­tion des besoins d’analyse de don­nées (data ana­ly­tics, machine lear­ning, deep lear­ning) dont cer­tains algo­rithmes pour­raient dépas­ser les besoins en puis­sance de cal­cul de ceux de la simu­la­tion numé­rique – pas vouée à dis­pa­raître pour autant ! 

Les grandes infra­struc­tures de cal­cul sont donc bien des lieux pri­vi­lé­giés où faire vivre et évo­luer la rela­tion des grands cal­culs aux grandes masses de don­nées, par évo­lu­tion des archi­tec­tures et ser­vices offerts, sur la base de forte com­pé­tence his­to­rique de ges­tion de sys­tèmes et de ser­vices mutua­li­sés complexes. 

Vue de Chine qui investit dans les supercalculateurs
La Chine inves­tit dans ce domaine avec une volon­té et des moyens consi­dé­rables. © EYETRONIC

UN BESOIN DURABLE DE GRANDES INFRASTRUCTURES

Enfin, l’informatique en nuage (cloud) est per­çue comme une ten­dance lourde pou­vant refor­mu­ler poten­tiel­le­ment tous les usages de l’informatique.

TECHNOLOGIES ÉMERGENTES ET TECHNOLOGIES DE RUPTURE

Les recherches sont actives sur des voies alternatives aux circuits actuels (CMOS sur silicium) ou en rupture – ordinateur quantique, à ADN, neuromorphique, pour citer les principales voies. On ne voit aucune de ces dernières options à même d’émerger rapidement sur le marché et à un stade industriel, ni être « généralistes » dans leurs usages potentiels.
Il importe néanmoins de suivre ces technologies, d’anticiper leur futur impact et notamment de penser leur programmation et exploitation efficaces. Les grands centres de calcul ont un rôle privilégié à jouer ici, surtout lorsqu’ils sont adossés et naturellement liés à des organismes technologiques et communautés de recherche au meilleur niveau mondial.

Il s’agit en fait d’abord d’un mode d’accès à dis­tance, et d’organisation plus « vir­tua­li­sée » des ser­vices, que les grands centres de cal­cul pra­tiquent déjà très couramment. 

Le cal­cul haute per­for­mance n’est pas aisé­ment soluble dans du cloud tota­le­ment bana­li­sé ; il requiert de toute façon les archi­tec­tures tech­ni­que­ment adap­tées décrites précédemment. 

Les rendre acces­sibles en mode cloud, c’est sur­tout en aug­men­ter la sou­plesse d’accès (« élas­ti­ci­té », qui peut aus­si béné­fi­cier à des uti­li­sa­teurs plus occa­sion­nels on non ins­ti­tu­tion­nels comme des PME ou des ETI). 

En conclu­sion, cal­cul inten­sif et masses de don­nées ont tou­jours coexis­té en cal­cul scien­ti­fique. La crois­sance uni­ver­selle des masses de don­nées pro­duites et/ou trai­tées dans des domaines de plus en plus variés ne fait que ren­for­cer la valeur des grandes infra­struc­tures de cal­cul capables de trai­ter les pro­blèmes aux frontières. 

__________________________________
1. Péta = 1015, soit un mil­lion de mil­liards (~250).

NDLR : Qu’est-ce qu’un flop ?

Poster un commentaire