Kili technology sélectionne les données pour une IA performante

Dossier : TrajectoiresMagazine N°773 Mars 2022

En 2018 Édouard d’Archimbaud (2004) a cofondé Kili Technology, afin de fournir aux entreprises une solution complète pour constituer leur IA plus rapidement et passer avec succès leurs projets d’IA en production. Il s’agit de mieux gérer les données de formation en exploitant des fonctionnalités optimisées. Disponible en ligne ou sur site, la solution permet de tirer parti des dernières techniques d’apprentissage automatique. L’entreprise est reconnue comme l’un des trois leaders mondiaux sur le sujet.

Quelle est l’activité de Kili Technology ?

L’intelligence artificielle (IA) bouleverse nos économies en profondeur. Cependant, pour être intelligente, l’IA a besoin d’apprendre à partir de milliers d’exemples (image, texte, vidéo, son), qui sont les données d’apprentissage. La qualité de ces données conditionne la performance des algorithmes. Notre travail chez Kili Technology, c’est de préparer les meilleures données d’apprentissage, à partir des données brutes des entreprises, pour améliorer l’efficacité et la fiabilité des modèles d’IA.

Quel est le parcours des fondateurs ?

Issu de la promotion 2004, et après un master MVA (mathématiques, vision, apprentissage) de l’ENS Cachan, je suis devenu directeur technique de Kili Technology, entreprise que j’ai cofondée en 2018 avec François-Xavier Leduc (EM Lyon Business School), directeur général. Je me considère comme un data scientist. Avant de créer Kili Technology, j’ai notamment dirigé le lab Data Science et intelligence artificielle de BNP Paribas CIB. François-Xavier Leduc a un profil de multi-entrepreneur. Il a, par le passé, cofondé Tripndrive, une plateforme d’autopartage dans les gares et les aéroports.

Comment t’est venue l’idée ?

Quand je travaillais au labo d’IA de BNP Paribas CIB, notre plus gros travail était de préparer les données pour nos programmes d’IA. Nous avons développé notre outil pour annoter nos données en interne. J’ai compris que toutes les entreprises allaient faire face au même enjeu stratégique de gestion des données. En fondant Kili Technology, je voulais créer la meilleure plateforme de gestion des données pour répondre aux problèmes des data scientists et aider les entreprises à déployer l’IA à grande échelle.

Qui sont les concurrents ?

Kili Technology opère dans un domaine en pleine structuration, qui n’existait pas il y a trois ans. Alors qu’on parlait hier uniquement d’annotation de données, on évoque aujourd’hui la data-centric AI, qui comprend l’annotation et la sélection en amont des données d’entraînement, pour couvrir tous les cas d’application de l’IA. Nous sommes régulièrement cités par les experts de l’IA, dont le chercheur américain Andrew Ng (spécialiste de l’apprentissage informatique et cofondateur de Coursera), comme l’un des trois leaders mondiaux sur le sujet. Nous voulons conforter ce leadership dans les années qui viennent.

Quelles ont été les étapes clés depuis la création ?

Nous avons développé Kili Technology sur fonds propres pendant les deux premières années, pour développer le meilleur produit et affiner notre fit to market. Le succès est au rendez-vous : nous enregistrons une très forte croissance auprès des grandes entreprises et des scale-up de l’IA. Nous avons réalisé deux levées de fonds en janvier et juillet 2021 pour accélérer notre développement et notre expansion internationale (Asie et États-Unis).

Peut-on encore envisager de nos jours une IA qui ne soit pas data-centric ?

La data-centric AI n’est pas une mode, c’est l’avenir de l’IA ! De nombreux chercheurs insistent sur ce nouveau paradigme pour renforcer la performance de l’IA. Travailler à partir de la donnée permet de sélectionner précisément les données nécessaires à l’application de l’IA et de vérifier la qualité de ces données. Cela permet surtout de tester en continu la performance des modèles à partir des données d’entraînement et d’inspecter finement les cas de défaillance pour les résoudre un à un, en améliorant la qualité et la composition des données d’apprentissage.

Le risque d’un internet à deux vitesses ou sous contrôle, comme en Chine, est-il une menace pour l’IA ?

Je ne pense pas que ce soit une menace. Mais nous devons accélérer en France et en Europe sur toutes les technologies autour de l’IA, du cloud, du métavers, de la blockchain. Nous nous targuons d’être bons en mathématiques en France, mais je constate que nous sommes plutôt en retard en IA par rapport à nos voisins (UK, Suisse, Israël). Nous devons investir sans hésitation tous ces champs d’application, maîtriser ces technologies et promouvoir un usage au bénéfice de la société, telle que nous la définissons en Europe. La directive européenne qui vise à favoriser le développement d’une IA de confiance est une initiative positive, mais il ne faut pas freiner l’innovation, ce qui entraînerait un exode des entreprises vers les pays tiers. Nous devons préserver notre autonomie stratégique sur ces technologies en favorisant la croissance d’entreprises leaders en Europe.

Penses-tu que l’IA deviendra un jour un produit grand public, comme un traitement de texte ou un navigateur internet ?

L’IA est devenue une technologie d’intérêt général (automatisation d’un nombre croissant de tâches, gains de productivité) qui va continuer à se diffuser de manière croissante dans nos sociétés, comme hier l’électricité, l’informatique ou internet. Je pense que demain la majorité des IA ne seront plus conçues au niveau du code, mais à un niveau d’abstraction plus élevé, en manipulant de la donnée, ce qui permettra une diffusion plus rapide et plus profonde. Aujourd’hui, il faut un bon bagage en computer science et en mathématiques pour concevoir des programmes d’IA, mais demain cela ne sera plus nécessaire.

On parle de plus en plus de l’impact énergétique et environnemental de la data. Gros fake ou vrai problème ?

Les technologies de stockage et de gestion des données sont fortement consommatrices d’énergie, ce qui pose évidemment problème dans un contexte de nécessaire sobriété énergétique, alors que les données vont continuer à exploser. La data-centric AI est une solution qui permet de rationaliser la gestion de données. Nous estimons que 40 % des données annotées sont inutiles, parce que trop proches de données déjà existantes dans le dataset d’entraînement. Chez Kili Technology, nous accompagnons nos clients dans la définition en amont des typologies de données nécessaires en fonction des problématiques à traiter. Grâce à la data-centric AI, nous promouvons une gestion intelligente de la donnée qui permet de savoir ce qui se passe, de rationaliser le stockage et d’arbitrer entre le nécessaire et le superflu.

Conseillerais-tu aux jeunes X de s’orienter encore vers l’IA et, si oui, pourquoi ?

Évidemment, je conseillerais aux jeunes X de s’orienter vers l’IA. C’est un domaine passionnant, où beaucoup de choses sont encore à construire et à découvrir ! Mais je leur conseillerais de privilégier une double formation, qui allie théorie scientifique et application, type master MVA et école 42. Concevoir un programme d’IA, c’est 10 % de théorie et 90 % de programmation. Sur la théorie, les X sont au top, mais nous avons des progrès à faire en programmation.