Quelques exemples d’images générées par la solution d’AI Verse. Chaque image est créée en moins de 5 secondes de calcul.

AI Verse démocratise l’accès aux datasets

Dossier : Vie des entreprisesMagazine N°781 Janvier 2023
Par Benoît MORISSET

Avec sa solu­tion SaaS, AI Verse démo­cra­tise l’accès aux data­sets labé­li­sés pour les PME / PMI et leur per­met d’entraîner des appli­ca­tions inno­vantes en vision arti­fi­cielle à une frac­tion du coût actuel. Benoît Moris­set, CEO d’AI Verse, nous en dit plus.

Dans le monde de l’IA, quels sont le métier et le positionnement d’AI Verse ?

AI Verse est une start-up Deep Tech B2B, incu­bée à l’INRIA pen­dant 18 mois et qui a vu le jour en 2020. Nous avons déve­lop­pé une tech­no­lo­gie qui pro­duit de manière auto­ma­ti­sée des images syn­thé­tiques opti­mi­sées pour l’entraînement des réseaux de Deep Lear­ning. Nous avons conçu un sys­tème entiè­re­ment self-ser­vice qui per­met à des entre­prises de toute taille de géné­rer elles-mêmes leurs data­sets pour diverses appli­ca­tions en vision arti­fi­cielle : smart­phones, réa­li­té aug­men­tée, robots, assis­tants digi­taux, camé­ras de sur­veillance, véhi­cules autonomes… 

La géné­ra­tion d’un data­set entiè­re­ment label­li­sé peut main­te­nant être faite direc­te­ment par l’ingénieur CV /ML qui en a besoin, en quelques heures et pour une frac­tion du coût de la créa­tion d’un data­set d’images réelles. Aujourd’hui, AI Verse regroupe une dou­zaine de per­sonnes. Nous avons levé 2,5 mil­lions d’euros en amor­çage en sep­tembre 2021 pour accé­lé­rer notre développement. 

Concrètement, quels sont les enjeux et besoins auxquels vous répondez ? 

Les camé­ras se mul­ti­plient par­tout dans nos vies. Il est pri­mor­dial que tous les sys­tèmes qui en sont dotés com­prennent de mieux en mieux le conte­nu des images qu’ils cap­turent. Cette com­pré­hen­sion est indis­pen­sable pour rendre les sys­tèmes arti­fi­ciels plus auto­nomes, plus effi­caces, plus sûrs et plus per­ti­nents dans leurs inter­ac­tions avec les humains. Cette com­pré­hen­sion des images passe par l’entraînement de réseaux de Deep Lear­ning. Si aujourd’hui les modèles sont per­for­mants et acces­sibles sur éta­gère, le point blo­quant est tou­jours l’accès aux don­nées d’entraînement pour divers cas d’usage. Dans la plu­part des cas, ces don­nées sont tout sim­ple­ment impos­sibles à acqué­rir. Si, par exemple, vous vou­lez entraî­ner un robot aspi­ra­teur à détec­ter la chute d’une per­sonne chez elle, où trou­ve­rez-vous les 500 000 images inté­grant toutes les varia­tions néces­saires pour géné­ra­li­ser le concept de chute, quelles que soient les varia­tions de l’éclairage, de l’âge, du sexe et de la mor­pho­lo­gie de la per­sonne au sol, de sa pos­ture par­ti­cu­lière, de l’ameublement et de la déco­ra­tion de la pièce ? Et si ces images peuvent être col­lec­tées, il fau­dra encore les label­li­ser une à une manuel­le­ment dans un pro­ces­sus oné­reux qui néces­site des mois de travail. 

C’est à cette dif­fi­cul­té blo­quante pour l’innovation en vision arti­fi­cielle que nous répon­dons. Nous ren­dons la construc­tion d’un data­set rapide, simple et confi­gu­rable à volon­té. Ce pro­ces­sus ne requiert plus des équipes entières ni de recours à la sous-trai­tance. La construc­tion d’un data­set devient ain­si une tâche réa­li­sée en toute auto­no­mie par l’ingénieur qui a besoin d’images à par­tir d’un fron­tend sophis­ti­qué qui lui per­met de confi­gu­rer lui-même son cas d’usage et le type d’images dont il a besoin.

Et dans cette démarche, quelle est la proposition de valeur d’AI Verse ? 

Micro­soft a déve­lop­pé un data­set très connu, COCO (Com­mon Objects in Context), qui inclut des images réelles label­li­sées manuel­le­ment. Il a fal­lu à Micro­soft plus de 70 000 heures de tra­vail afin de label­li­ser ces 200 000 images. Ce temps n’inclut d’ailleurs pas la col­lecte et la ges­tion de ces bases d’images volu­mi­neuses qui posent aus­si de vrais chal­lenges d’infrastructure et donc des coûts sup­plé­men­taires. En 2020 et 2021, une cam­pagne d’évaluation inten­sive réa­li­sée en col­la­bo­ra­tion avec l’INRIA a mon­tré qu’AI Verse est capable de pro­duire un data­set aux pro­prié­tés et aux per­for­mances d’entraînement équi­va­lentes à COCO en seule­ment quelques heures de cal­cul sur le cloud et ce, sans avoir à faire inter­ve­nir une ressource. 

La créa­tion des data­sets repré­sente les dépenses les plus éle­vées dans le déve­lop­pe­ment d’applications de vision arti­fi­cielle. Nous chan­geons la donne en trans­for­mant les data­sets en du consom­mable acces­sible rapi­de­ment et pour un coût divi­sé par plu­sieurs ordres de grandeur.

Frontend d’AI Verse permettant à un utilisateur de contrôler tous les paramètres intervenant dans la génération des scènes et des images.
Fron­tend d’AI Verse per­met­tant à un uti­li­sa­teur de contrô­ler tous les para­mètres inter­ve­nant dans la géné­ra­tion des scènes et des images.

Dans cette démarche, quels sont vos principaux enjeux ? 

Nous avons, d’abord, un enjeu d’éducation et d’évangélisation sur l’utilisation des images syn­thé­tiques pour l’entraînement de modèles de Deep Lear­ning : est-ce que les images syn­thé­tiques marchent aus­si bien que des images réelles ? com­ment gérez-vous le pro­blème du « rea­li­ty gap » ? est-ce qu’un entraî­ne­ment fait à par­tir d’images syn­thé­tiques géné­ra­lise bien ? … 

Notre réponse peut paraître contre-intui­tive, mais repose sur plus de deux ans de com­pa­rai­son d’entraînements de divers modèles, pour diverses tâches, réa­li­sés à par­tir d’images réelles et à par­tir d’images syn­thé­tiques. Pour nous, les images réelles ne sont pas le bon maté­riau pour entraî­ner des réseaux : elles sont trop dif­fi­ciles et coû­teuses à acqué­rir et à label­li­ser. Les labels manuels sont très limi­tés et sou­vent impré­cis. Les data­sets sont trop rigides et impos­sibles à modi­fier. Par exemple, on ne peut plus modi­fier l’éclairage des scènes ou chan­ger les para­mètres de la camé­ra une fois les images acquises. D’autre part, une fois le data­set construit, il est impos­sible de connaître les biais inhé­rents au data­set : com­bien d’images sont prises avec le soleil fai­sant face à la camé­ra ? Com­bien d’images incluent des objets trans­pa­rents ? Com­bien d’hommes, de femmes, ou d’enfants ? Com­bien de per­sonnes habillées en fon­cé ou en cou­leurs vives ? … Toutes ces mesures ne peuvent pas être réa­li­sées à par­tir d’images réelles. Les dis­tri­bu­tions de l’ensemble des para­mètres ne sont pas maî­tri­sées et res­tent incon­nues. Ces dés­équi­libres impactent néga­ti­ve­ment la qua­li­té des entraî­ne­ments. Notre cam­pagne d’évaluation nous a ensei­gné deux choses : le « rea­li­ty gap » existe aus­si entre deux data­sets dif­fé­rents d’images réelles, et ce qui compte, ce n’est pas l’hyper-réalisme des images, mais la meilleure cou­ver­ture et dis­tri­bu­tion pos­sible de tous les para­mètres de l’espace d’apprentissage.

Contrai­re­ment aux images réelles, notre sys­tème per­met à l’utilisateur de contrô­ler et de confi­gu­rer l’ensemble des para­mètres par­ti­ci­pant à la créa­tion des scènes 3D et au ren­du des images de syn­thèse. Les images de syn­thèse sont donc par­fai­te­ment confi­gu­rables et les data­sets opti­mi­sables. C’est pour cette rai­son que pour tous les tests que nous avons menés, nos images de syn­thèse ont tou­jours au moins éga­lé les images réelles, en les dépas­sant le plus sou­vent. Comme le moteur construit lui-même ses scènes et ses images, il peut géné­rer toute une varié­té de labels impos­sibles à pro­duire manuel­le­ment comme la posi­tion 3D des arti­cu­la­tions des acteurs, les boîtes englo­bantes 3D de tous les objets de l’image, des seg­men­ta­tions « pixel-per­fect » sans biais…

Sur ce marché, comment vous projetez-vous ? Quelles sont les prochaines étapes pour AI Verse ? 

La pre­mière ver­sion de notre pro­duit acces­sible en ligne et en mode self-ser­vice cou­vri­ra les cas d’usage que l’on retrouve dans des envi­ron­ne­ments de type « Hou­se­hold ». Il s’adresse en prio­ri­té aux appli­ca­tions liées à la réa­li­té aug­men­tée, la robo­tique per­son­nelle, à la sur­veillance / sécu­ri­té, aux robots aspi­ra­teurs, aux smart TV… Nous éten­drons pério­di­que­ment notre solu­tion à d’autres mar­chés en ajou­tant d’autres envi­ron­ne­ments comme les gares, les aéro­ports, les usines, les super­mar­chés… Nous allons éga­le­ment pré­pa­rer une levée de fonds (série A) cou­rant 2023. 

Enfin, à ce stade, nous avons déjà une ver­sion beta que nous sou­hai­te­rions faire éva­luer par des entre­prises inté­res­sées par une col­la­bo­ra­tion avec nous. Avis aux ama­teurs, n’hésitez pas à me contac­ter (https://www.ai-verse.com ) !

Poster un commentaire