L’intelligence artificielle au service du traitement des images

Dossier : TrajectoiresMagazine N°733 Mars 2018

Jeeliz est une start-up qui propose une gamme d’outil exploitant des réseaux neuronaux, permettant le deep learning, pour le traitement d’images directement dans votre navigateur, avec interface directe sur la carte graphique. Une des premières applications est l’essayage virtuel de lunettes.

Que fait Jeeliz ?

Jeeliz propose un ensemble complet d’outils afin de concevoir, d’implémenter, d’optimiser et d’exploiter des réseaux neuronaux pour le traitement d’image en WebGL.

Que signifient deep learning et WebGL ?

Le terme deep learning signifie apprentissage profond. C’est un réseau de neurones, i.e. un modèle algorithmique composé de boîtes noires computationnelles interconnectées appelées abusivement neurones.

En direct :
Démonstration d’essai virtuelle de lunettes de soleil en réalité augmentée

L’idée est d’imiter vaguement le cerveau, car les vrais neurones servent d’unité de calcul et transmettent une information sous la forme de potentiel d’action depuis leurs dendrites (entrées) vers leur axone (sortie).

In silico, ces neurones mis en relation sur une ou plusieurs couches (d’où le terme profond) permettent d’apprendre et de reproduire des opérations non-linéaires complexes. OpenGL est un ensemble d’outils logiciels (interfaces et fonctions) qui permet d’effectuer du rendu graphique voire du calcul informatique directement sur la carte graphique, séparément du microprocesseur central.

WebGL est l’interface d’OpenGL dans le navigateur web. Elle permet aux applications web d’accéder au processeur graphique, qu’il s’agisse de sites web ou d’applications mobiles.

En quoi la combinaison des deux offre-t-elle un intérêt économique ?

Pour concevoir une application côté serveur, il existe déjà des briques logicielles et des interfaces de programmation permettant d’implémenter des réseaux de neurones, par exemple le cadriciel Tensorflow de Google ou Torch de Facebook. Elles utilisent des librairies de calcul propriétaires fonctionnant avec un matériel spécifique (par exemple CUDA, pour les cartes graphiques Nvidia).

Mais pour un déploiement efficace côté client, WebGL est la seule solution : elle met en oeuvre des réseaux neuronaux intégrés dans des sites internet ou des applications mobiles.

Ce type d’approche ne va-t-il pas devenir rapidement disponible en open source ?

Nous imposons des contraintes fortes sur l’architecture de nos réseaux afin qu’ils soient adaptés à tous les types de processeurs graphiques, y compris les moins performants (sur mobile). Cela permet de réaliser des optimisations cruciales.

Nous avons des concurrents open source, notamment Deeplearn.js de Google, mais leur approche est différente. Le flux opérationnel est moins fluide, et leurs réseaux sont moins rapides.

Verra-t-on l’IA évoluer vers des systèmes autonomes et spécialisés ?

Je pense que oui, au vu des progrès énormes en la matière. Les processeurs graphiques ne sont pas impactés par la loi de Moore et leur puissance continue de croître. En effet, l’accroissement de la puissance de calcul des microprocesseurs repose principalement sur l’affinement de la gravure sur silicium, permettant un cadençage plus élevé, tandis que l’amélioration des processeurs graphiques repose aussi sur la scalabilité horizontale (ajout d’unités de calcul).

Nous arrivons aux limites de la finesse de la gravure sur silicium, tandis que la scalabilité horizontale est toujours possible. L’arrivée de l’informatique quantique viendra peut-être accélérer encore l’IA.

Peux-tu donner des exemples d’applications commerciales ?

Nous avons choisi de nous concentrer sur trois cas d’utilisation. Le premier est l’essayage virtuel de lunettes : il est possible, sur un site internet marchand de vente de montures, d’essayer avant de passer la commande.

Notre réseau neuronal analyse le flux vidéo de la webcam, détecte et suit le visage, son orientation, son éclairage, puis des lunettes sont superposées à l’image, en 3D temps réel.

Les émoticones animés sont le deuxième cas : nous pouvons détecter et suivre la tête, ainsi que les expressions de l’utilisateur afin de les reproduire sur un maillage 3D animé. Notre technologie produit un résultat analogue aux animojis de l’Iphone X, sans nécessiter de caméra infrarouge spécifique. C’est notre principale activité en ce moment.

Enfin, nous travaillons sur l’intégration avec les cadriciels de réalité augmentée d’Apple et Google, ARKit et ARCore : ils permettent de concevoir des applications intégrant la détection des plans (par exemple le sol d’une pièce), et d’y placer des objets virtuels (par exemple des meubles).

Nous permettons, en plus, la reconnaissance des objets.

Y a‑t-il vraiment un marché pour des émoticones animés ?

Il serait difficile d’acquérir la masse critique pour déloger les mastodontes de la messagerie électronique instantanée, même si nous proposons une option ludique et attrayante comme les émoticones animés.

En revanche, en B2B, nous pouvons proposer notre expertise aux ténors du marché qui souhaiteraient ajouter la fonctionnalité dans leur logiciel. Ils doivent constamment se renouveler et maintenir une interface moderne et attrayante pour ne pas tomber dans l’obsolescence.

Quel est le bon timing pour créer sa start-up ? Au sortir de l’X ou dix ans après ?

Il n’y a pas de bon timing, c’est une question d’opportunité : il faut avoir la bonne idée et rencontrer les bonnes personnes, le tout au bon moment par rapport aux technologies et au marché.

L’essayage virtuel de lunettes est une des application commerciale de Jeeliz.

J’ai rapidement créé ma société à la sortie de l’X afin de commercialiser une visionneuse de PDF en 3D en WebGL, puis un configurateur de maison.

Je ne suis pas parvenu à vendre ces produits mais j’ai eu des demandes de formations intraentreprises et de prestations autour du WebGL et de la programmation 3D.

J’ai ainsi travaillé plusieurs années en tant que développeur et formateur freelance, sur des projets et dans des domaines variés. Être freelance, c’est l’idéal pour lancer sa start-up : on peut démarrer progressivement tout en ayant des revenus provenant des prestations.

Cela permet de développer une expertise technique pointue, et de s’inspirer de la variété des rencontres et des projets pour lancer sa société.

Et dans ton cas, quelle a été la motivation principale ?

D’abord le défi technique : au début je ne savais pas si c’était possible. Puis la volonté de construire quelque chose de nouveau, en travaillant avec une équipe choisie sur un projet dont on maîtrise les tenants et les aboutissants.

Et que retires-tu de ton parcours récent à l’X ?

Mon stage militaire de première année a affermi ma volonté d’aller au bout de ce que j’entreprends, ainsi que ma confiance en moi. Le statut de freelance, c’est comme la Légion étrangère : la mission est sacrée et il faut l’effectuer jusqu’au bout.

Sur le plateau, beaucoup de cours d’informatique m’ont techniquement servi. J’ai aussi beaucoup appris par la vie associative, via les binets et la Khômiss dont j’étais GénéK.

Au niveau académique, je regrette le manque de projets en groupe proposés. À la Khômiss, nous avons eu à gérer des crises, à organiser des projets, du gag potache à la cérémonie de remise des bicornes, et cela ressemble par bien des aspects à la vie professionnelle.