L’intelligence artificielle au service du traitement des images

Dossier : TrajectoiresMagazine N°733 Mars 2018
Par Xavier BOURRY (06)
Par Hervé KABLA (X84)

Jee­liz est une start-up qui pro­pose une gamme d’ou­til exploi­tant des réseaux neu­ro­naux, per­met­tant le deep lear­ning, pour le trai­te­ment d’i­mages direc­te­ment dans votre navi­ga­teur, avec inter­face directe sur la carte gra­phique. Une des pre­mières appli­ca­tions est l’essayage vir­tuel de lunettes. 

Que fait Jeeliz ?

Jee­liz pro­pose un ensemble com­plet d’outils afin de conce­voir, d’implémenter, d’optimiser et d’exploiter des réseaux neu­ro­naux pour le trai­te­ment d’image en WebGL. 

Que signifient deep learning et WebGL ?

Le terme deep lear­ning signi­fie appren­tis­sage pro­fond. C’est un réseau de neu­rones, i.e. un modèle algo­rith­mique com­po­sé de boîtes noires com­pu­ta­tion­nelles inter­con­nec­tées appe­lées abu­si­ve­ment neurones. 

En direct :
Démons­tra­tion d’es­sai vir­tuelle de lunettes de soleil en réa­li­té augmentée

L’idée est d’imiter vague­ment le cer­veau, car les vrais neu­rones servent d’unité de cal­cul et trans­mettent une infor­ma­tion sous la forme de poten­tiel d’action depuis leurs den­drites (entrées) vers leur axone (sor­tie).

In sili­co, ces neu­rones mis en rela­tion sur une ou plu­sieurs couches (d’où le terme pro­fond) per­mettent d’apprendre et de repro­duire des opé­ra­tions non-linéaires com­plexes. Open­GL est un ensemble d’outils logi­ciels (inter­faces et fonc­tions) qui per­met d’effectuer du ren­du gra­phique voire du cal­cul infor­ma­tique direc­te­ment sur la carte gra­phique, sépa­ré­ment du micro­pro­ces­seur central. 

Web­GL est l’interface d’OpenGL dans le navi­ga­teur web. Elle per­met aux appli­ca­tions web d’accéder au pro­ces­seur gra­phique, qu’il s’agisse de sites web ou d’applications mobiles. 

En quoi la combinaison des deux offre-t-elle un intérêt économique ?

Pour conce­voir une appli­ca­tion côté ser­veur, il existe déjà des briques logi­cielles et des inter­faces de pro­gram­ma­tion per­met­tant d’implémenter des réseaux de neu­rones, par exemple le cadri­ciel Ten­sor­flow de Google ou Torch de Face­book. Elles uti­lisent des librai­ries de cal­cul pro­prié­taires fonc­tion­nant avec un maté­riel spé­ci­fique (par exemple CUDA, pour les cartes gra­phiques Nvidia). 

Mais pour un déploie­ment effi­cace côté client, Web­GL est la seule solu­tion : elle met en oeuvre des réseaux neu­ro­naux inté­grés dans des sites inter­net ou des appli­ca­tions mobiles. 

Ce type d’approche ne va-t-il pas devenir rapidement disponible en open source ?

Nous impo­sons des contraintes fortes sur l’architecture de nos réseaux afin qu’ils soient adap­tés à tous les types de pro­ces­seurs gra­phiques, y com­pris les moins per­for­mants (sur mobile). Cela per­met de réa­li­ser des opti­mi­sa­tions cruciales. 

Nous avons des concur­rents open source, notam­ment Deeplearn.js de Google, mais leur approche est dif­fé­rente. Le flux opé­ra­tion­nel est moins fluide, et leurs réseaux sont moins rapides. 

Verra-t-on l’IA évoluer vers des systèmes autonomes et spécialisés ?

Je pense que oui, au vu des pro­grès énormes en la matière. Les pro­ces­seurs gra­phiques ne sont pas impac­tés par la loi de Moore et leur puis­sance conti­nue de croître. En effet, l’accroissement de la puis­sance de cal­cul des micro­pro­ces­seurs repose prin­ci­pa­le­ment sur l’affinement de la gra­vure sur sili­cium, per­met­tant un caden­çage plus éle­vé, tan­dis que l’amélioration des pro­ces­seurs gra­phiques repose aus­si sur la sca­la­bi­li­té hori­zon­tale (ajout d’unités de calcul). 

Nous arri­vons aux limites de la finesse de la gra­vure sur sili­cium, tan­dis que la sca­la­bi­li­té hori­zon­tale est tou­jours pos­sible. L’arrivée de l’informatique quan­tique vien­dra peut-être accé­lé­rer encore l’IA.

Peux-tu donner des exemples d’applications commerciales ?

Nous avons choi­si de nous concen­trer sur trois cas d’utilisation. Le pre­mier est l’essayage vir­tuel de lunettes : il est pos­sible, sur un site inter­net mar­chand de vente de mon­tures, d’essayer avant de pas­ser la commande. 

Notre réseau neu­ro­nal ana­lyse le flux vidéo de la web­cam, détecte et suit le visage, son orien­ta­tion, son éclai­rage, puis des lunettes sont super­po­sées à l’image, en 3D temps réel. 

Les émo­ti­cones ani­més sont le deuxième cas : nous pou­vons détec­ter et suivre la tête, ain­si que les expres­sions de l’utilisateur afin de les repro­duire sur un maillage 3D ani­mé. Notre tech­no­lo­gie pro­duit un résul­tat ana­logue aux ani­mo­jis de l’Iphone X, sans néces­si­ter de camé­ra infra­rouge spé­ci­fique. C’est notre prin­ci­pale acti­vi­té en ce moment. 

Enfin, nous tra­vaillons sur l’intégration avec les cadri­ciels de réa­li­té aug­men­tée d’Apple et Google, ARKit et ARCore : ils per­mettent de conce­voir des appli­ca­tions inté­grant la détec­tion des plans (par exemple le sol d’une pièce), et d’y pla­cer des objets vir­tuels (par exemple des meubles). 

Nous per­met­tons, en plus, la recon­nais­sance des objets. 

Y a‑t-il vraiment un marché pour des émoticones animés ?

Il serait dif­fi­cile d’acquérir la masse cri­tique pour délo­ger les mas­to­dontes de la mes­sa­ge­rie élec­tro­nique ins­tan­ta­née, même si nous pro­po­sons une option ludique et attrayante comme les émo­ti­cones animés. 

En revanche, en B2B, nous pou­vons pro­po­ser notre exper­tise aux ténors du mar­ché qui sou­hai­te­raient ajou­ter la fonc­tion­na­li­té dans leur logi­ciel. Ils doivent constam­ment se renou­ve­ler et main­te­nir une inter­face moderne et attrayante pour ne pas tom­ber dans l’obsolescence.

Quel est le bon timing pour créer sa start-up ? Au sortir de l’X ou dix ans après ?

Il n’y a pas de bon timing, c’est une ques­tion d’opportunité : il faut avoir la bonne idée et ren­con­trer les bonnes per­sonnes, le tout au bon moment par rap­port aux tech­no­lo­gies et au marché. 

Écran de Jeeliz, essayage de lunettes
L’essayage vir­tuel de lunettes est une des appli­ca­tion com­mer­ciale de Jeeliz.

J’ai rapi­de­ment créé ma socié­té à la sor­tie de l’X afin de com­mer­cia­li­ser une vision­neuse de PDF en 3D en Web­GL, puis un confi­gu­ra­teur de maison. 

Je ne suis pas par­ve­nu à vendre ces pro­duits mais j’ai eu des demandes de for­ma­tions intraen­tre­prises et de pres­ta­tions autour du Web­GL et de la pro­gram­ma­tion 3D. 

J’ai ain­si tra­vaillé plu­sieurs années en tant que déve­lop­peur et for­ma­teur free­lance, sur des pro­jets et dans des domaines variés. Être free­lance, c’est l’idéal pour lan­cer sa start-up : on peut démar­rer pro­gres­si­ve­ment tout en ayant des reve­nus pro­ve­nant des prestations. 

Cela per­met de déve­lop­per une exper­tise tech­nique poin­tue, et de s’inspirer de la varié­té des ren­contres et des pro­jets pour lan­cer sa société. 

Et dans ton cas, quelle a été la motivation principale ?

D’abord le défi tech­nique : au début je ne savais pas si c’était pos­sible. Puis la volon­té de construire quelque chose de nou­veau, en tra­vaillant avec une équipe choi­sie sur un pro­jet dont on maî­trise les tenants et les aboutissants. 

Et que retires-tu de ton parcours récent à l’X ?

Mon stage mili­taire de pre­mière année a affer­mi ma volon­té d’aller au bout de ce que j’entreprends, ain­si que ma confiance en moi. Le sta­tut de free­lance, c’est comme la Légion étran­gère : la mis­sion est sacrée et il faut l’effectuer jusqu’au bout. 

Sur le pla­teau, beau­coup de cours d’informatique m’ont tech­ni­que­ment ser­vi. J’ai aus­si beau­coup appris par la vie asso­cia­tive, via les binets et la Khô­miss dont j’étais GénéK. 

Au niveau aca­dé­mique, je regrette le manque de pro­jets en groupe pro­po­sés. À la Khô­miss, nous avons eu à gérer des crises, à orga­ni­ser des pro­jets, du gag potache à la céré­mo­nie de remise des bicornes, et cela res­semble par bien des aspects à la vie professionnelle. 

L'équipe dirigeante de Jeeliz

Commentaire

Ajouter un commentaire

quoc-anh.tran.1962répondre
12 mars 2018 à 10 h 48 min

Jee­liz

Bra­vo à Xavier et Her­vé pour cet article, que je clas­se­rais comme super inté­res­sant article d’IA de ce numéro.

Répondre