Comment améliorer la netteté d'une image

Vision artificielle, entretien avec un chercheur

Dossier : L'intelligence artificielleMagazine N°733 Mars 2018
Par Jean PONCE

La vision arti­fi­cielle a été une des pre­mières appli­ca­tions de l’in­tel­li­gence arti­fi­cielle et s’est consi­dé­ra­ble­ment déve­lop­pée au fil des ans, avec en 2012, un bond de per­for­mance per­mis par l’utilisation de réseaux de neu­rones. Il ne s’a­git pas sim­ple­ment de voir, mais de recon­naître les formes et de défi­nir les objets figu­rants sur l’image. 

Pouvez-vous nous présenter vos travaux en lien avec l’intelligence artificielle ?

Le but de la vision arti­fi­cielle est d’interpréter auto­ma­ti­que­ment une image (que ce soit une pho­to, une vidéo ou une image de pro­fon­deur obte­nue grâce à des cap­teurs spé­cia­li­sés) en déve­lop­pant des modèles dont l’apprentissage néces­site le moins de super­vi­sion possible. 

En effet, c’est le tra­vail d’étiquetage des don­nées qui est le plus coû­teux, et plus la machine est auto­nome dans sa recon­nais­sance et son inter­pré­ta­tion d’images, meilleur est le modèle. 

Il s’agit donc (entre autres) d’essayer de com­prendre les connexions et les struc­tures impli­cites entre des images : qu’est-ce qui fait qu’au-delà de la diver­si­té entre les tailles, réso­lu­tions, fonds de l’image, etc., on peut regrou­per l’ensemble des images de castors ? 

REPÈRES

Dans le département informatique de l’ENS que dirigeait Jean Ponce jusqu’en septembre 2017, il y a une dizaine d’équipes dont certaines qui travaillent sur des sujets d’intelligence artificielle :
l’équipe de Francis Bach qui fait de l’apprentissage statistique,
celle de Stéphane Mallat qui s’occupe d’analyse et de classification des données ainsi que de deep learning
et la sienne spécialisée dans la vision artificielle, ce qui permet d’échanger sur les différents sous-domaines de l’IA.

Y a‑t-il eu des progrès continus en vision artificielle ?
Quels sont les espoirs pour cette discipline dans les années à venir et les obstacles sur lesquels vous butez ?

Il y a eu en effet des pro­grès conti­nus en vision arti­fi­cielle, contrai­re­ment à d’autres champs de l’intelligence arti­fi­cielle qui ont connu des phases d’accélération puis de ralentissement. 

Depuis la fin des années 1990, de gros pro­grès ont été accom­plis en recon­nais­sance visuelle (notam­ment par Cor­de­lia Schmid et son équipe à Gre­noble) : celle-ci ne se limite plus à des images très simples, mais conti­nue à « mar­cher » avec des géo­mé­tries et des fonds com­plexes par exemple. 

“ Il y a eu des progrès continus en vision artificielle, contrairement à d’autres champs de l’IA ”

En paral­lèle, les appa­reils pho­tos détectent les visages au moment de la prise de vue, ce qui per­met une plus grande net­te­té de l’image.

En 2012, un bond de per­for­mance a été per­mis par l’utilisation de réseaux de neu­rones pour la recon­nais­sance visuelle (cf. les tra­vaux de Geof­frey Hin­ton à Toron­to). Cette tech­no­lo­gie exis­tait depuis les années 1990 mais était sur­tout uti­li­sée pour la recon­nais­sance d’écriture manus­crite par exemple et avait été peu exploi­tée dans le cadre du trai­te­ment de photographies. 

Cette tech­no­lo­gie a per­mis des pro­grès impor­tants dans ce cadre mais des pro­blèmes demeurent pour la vidéo où elle ne donne pas des résul­tats fran­che­ment meilleurs que les méthodes clas­siques, notam­ment à cause de la varia­bi­li­té tem­po­relle des images (on arrive à bien recon­naître un visage ou un chien sur une image fixe, mais le pro­blème se com­plexi­fie quand les images se déforment avec le mouvement). 

Un autre pro­blème que l’on ren­contre actuel­le­ment dans notre dis­ci­pline est le manque de séman­tique dans les éti­que­tages manuels qui sont un point clef des méthodes d’apprentissage.

Qu’est-ce que je carac­té­rise comme une action par exemple ? Com­ment uti­li­ser une séman­tique com­mune d’une base de don­nées à l’autre ?

Quels sont les progrès actuels liés au deep learning ?
Se rapproche-t-on de machines qui s’autonomisent par rapport aux humains ?

Le deep lear­ning est très à la mode, mais il faut rela­ti­vi­ser ses pro­grès, en tout cas dans le domaine de la vision arti­fi­cielle : la tech­no­lo­gie n’est pas très dif­fé­rente de celle des années 1990 (alors que celle-ci était davan­tage en rup­ture avec la tech­no­lo­gie des décen­nies précédentes). 

“ Nous ne sommes pas plus près aujourd’hui qu’il y a vingt ans d’une « machine intelligente » qui détrônerait l’humanité ”

Pour moi, nous ne sommes pas plus près aujourd’hui qu’il y a vingt ans d’une « machine intel­li­gente » qui détrô­ne­rait l’humanité. Je sais que des per­sonnes très com­pé­tentes comme Elon Musk, Bill Gates, Ste­phen Haw­king ont lan­cé un appel à la pru­dence vis-à-vis des machines intel­li­gentes qui pour­raient mena­cer à terme l’humanité en l’absence de régu­la­tion, mais je consi­dère actuel­le­ment cette crainte comme dénuée de fondement. 

RENDRE LES PHOTOS PLUS NETTES

On arrive aujourd’hui à considérablement améliorer la qualité d’une image grâce aux méthodes de « débruitage » comme en attestent les images ci-après (Mairal et al., 2009).

En revanche, il est vrai que nous allons vers une intel­li­gence arti­fi­cielle plus inté­grée : alors que les dif­fé­rents domaines de l’IA s’étaient sépa­rés dans les années 1980, les pro­grès effec­tués dans cha­cune de ces sous-branches (comme la robo­tique, le trai­te­ment du lan­gage natu­rel, la vision arti­fi­cielle, etc.) per­mettent actuel­le­ment d’aller vers plus d’intégration de leurs outils. 

La robo­tique notam­ment se doit d’intégrer plu­sieurs couches « d’intelligence » : un robot doit maî­tri­ser la per­cep­tion, apprendre par expé­rience, com­mu­ni­quer, etc. Cepen­dant, atten­tion, plus on empile les modules, plus le sys­tème est com­pli­qué et plus il y a de risque quant à sa fiabilité. 

Par exemple, il est dif­fi­cile d’identifier ce qui a cau­sé l’accident mor­tel pro­vo­qué par une voi­ture Tes­la. Est-ce le sys­tème de cap­tage des infor­ma­tions, de leur ana­lyse, de la prise de déci­sion qui était défaillant ? 

C’est pour­quoi l’intégration des dif­fé­rents modules revêt une impor­tance toute par­ti­cu­lière, même si nous sommes encore loin du moment où cela sera le seul pro­blème, cha­cun des modules ayant encore de gros pro­grès à accomplir. 

Vous avez été longtemps chercheur aux États-Unis, comment se situent la France et l’Europe dans la compétition avec les autres pays (États-Unis, Chine notamment) ?
Comment s’articulent les liens entre recherche académique et industrielle ?

Les condi­tions de recherche en France ou en Europe sont très favo­rables, notam­ment grâce à l’ERC (Euro­pean Research Coun­cil) qui octroie des fonds géné­reux pour des pro­grammes de recherche. Lorsque j’étais cher­cheur aux États- Unis, je pas­sais beau­coup plus de temps à recher­cher des contrats que main­te­nant. De plus, en France, beau­coup d’étudiants ont des bourses, que ce soit par les grandes écoles comme l’ENS ou Poly­tech­nique ou des bourses de thèse, ce qui sou­lage finan­ciè­re­ment les labo­ra­toires qui les emploient. 

“ Pour ce qui est de la vision artificielle, la France compte parmi les meilleurs mondiaux ! ”

Pour ce qui est des rela­tions entre labo­ra­toires aca­dé­miques et indus­triels, les pre­miers sont très appré­ciés de l’industrie qui embauche les étu­diants qui en sont issus, donnent des fonds sans contre­par­tie, etc. 

Les rela­tions sont donc bonnes, et la recherche aca­dé­mique conti­nue d’avoir un rôle impor­tant à jouer (les indus­tries sont moins inté­res­sées main­te­nant par les bre­vets ou pro­duits clés en main que par le fait d’avoir accès à des cer­veaux bien formés). 

L’APPRENTISSAGE N’EST PAS LA PANACÉE

L’intelligence artificielle progresse aussi en dehors de l’apprentissage et de larges pans de l’IA ne sont pas concernés par ces évolutions. Par exemple, une méthodologie fondamentale en robotique est ce qu’on appelle « SLAM » (simultaneous localization and mapping), où le robot est équipé de capteurs (souvent visuels) lui permettant de construire un modèle tridimensionnel de son environnement et de l’utiliser pour naviguer, sans aucun apport (en général) de méthodes d’apprentissage.

Les labo­ra­toires aca­dé­miques ont moins de don­nées que ceux des GAFA par exemple, mais les labo­ra­toires de ces der­niers se heurtent à la pro­tec­tion de la vie pri­vée, ce qui limite consi­dé­ra­ble­ment l’usage qu’ils peuvent faire de ces données. 

De plus, l’objectif de la recherche en vision arti­fi­cielle est de tra­vailler avec le moins d’annotation pos­sible donc le fait de ne pas avoir accès à tous les « tags » des pho­tos que peuvent col­lec­ter les entre­prises n’est pas tou­jours préjudiciable. 

Enfin, on a sou­vent ten­dance à ne pen­ser qu’aux géants de l’internet, mais l’IA pro­gresse éga­le­ment grâce à d’autres indus­tries qui ont énor­mé­ment de don­nées (on peut pen­ser aux banques ou à la méde­cine par exemple), domaines dans les­quels l’Europe a aus­si des champions. 

Pour ce qui est de la vision arti­fi­cielle, la France compte par­mi les meilleurs mondiaux !
 

École polytechnique
Beau­coup d’étudiants ont des bourses que ce soit par les grandes écoles comme Poly­tech­nique ou des bourses de thèse.
© ÉCOLE POLYTECHNIQUE – J. BARANDE

Poster un commentaire