Sinequa, moteur de recherche

Détecter l’information confidentielle avec un moteur de recherche intelligent

Dossier : Vie des entreprisesMagazine N°753 Mars 2020
Par Adrien GABEUR (08)

En s’appuyant sur de puis­santes tech­no­lo­gies d’indexation com­bi­nées au poten­tiel des algo­rithmes de Machine Lear­ning et de Deep Lear­ning, Sine­qua per­met aux entre­prises d’exploiter leurs don­nées non struc­tu­rées. Expli­ca­tions d’Adrien Gabeur (08), Direc­teur des Solu­tions Cog­ni­tives au sein de Sinequa.

Présentez-nous Sinequa.

Sine­qua est un édi­teur de logi­ciels indé­pen­dant de la French Tech. Nous four­nis­sons aux entre­prises mul­ti­na­tio­nales et agences gou­ver­ne­men­tales une pla­te­forme d’analyse et de recherche intelligente. 

La com­bi­nai­son unique d’un moteur de recherche pro­prié­taire éprou­vé (Enter­prise Search) avec des algo­rithmes avan­cés de NLP (Trai­te­ment du Lan­gage Natu­rel), de Machine Lear­ning et de Deep Lear­ning per­met à notre solu­tion d’extraire des infor­ma­tions métiers à par­tir de don­nées struc­tu­rées, mais sur­tout non structurées. 

Grâce à un tra­vail d’innovation constant depuis 2017, Sine­qua est recon­nu lea­der dans le Magic Qua­drant pour les Insight Engines réa­li­sés par le cabi­net d’analyste amé­ri­cain Gart­ner. Il en est de même pour le For­res­ter Wave conduit par le cabi­net For­res­ter. Ce sont des recon­nais­sances pres­ti­gieuses pour un édi­teur de logi­ciels européen.

En 2015, nous nous sommes implan­tés aux États-Unis avec des bureaux à Man­hat­tan. Plus de 50 % de notre chiffre d’affaires est réa­li­sé en Amé­rique du Nord où notre solu­tion est déployée chez des clients emblé­ma­tiques, comme la NASA qui a récem­ment choi­si notre pla­te­forme pour navi­guer à tra­vers son énorme base docu­men­taire scien­ti­fique et réuti­li­ser les savoir-faire accu­mu­lés au cours des anciennes mis­sions spatiales. 

Comment aidez-vous les entreprises à exploiter leurs données non structurées ? 

Si les don­nées non struc­tu­rées connaissent une crois­sance expo­nen­tielle, elles res­tent dif­fi­ci­le­ment exploi­tables, car elles sont de for­mats extrê­me­ment divers (tex­tuel, image, vidéo…) et sont dis­sé­mi­nées dans toute l’entreprise.

Leur exploi­ta­tion néces­site des solu­tions capables d’interpréter le lan­gage natu­rel (texte) et ses sub­ti­li­tés dans toutes les langues. Notre pla­te­forme per­met de rele­ver l’ensemble de ces défis :

  • elle pro­pose des trai­te­ments avan­cés pour plus 23 langues ; 
  • elle s’appuie sur une librai­rie pro­prié­taire de plus de 200 connec­teurs qui per­mettent d’accéder aux dif­fé­rentes sources de don­nées uti­li­sées par les entreprises ; 
  • elle extrait les conte­nus à tra­vers plus de 350 for­mats de fichiers.

Comment cela se traduit-il concrètement ? 

Nous com­men­çons par confi­gu­rer nos connec­teurs pour accé­der en lec­ture aux dif­fé­rentes sources de don­nées. Cela peut par­fois repré­sen­ter plu­sieurs cen­taines de mil­lions de docu­ments. Les don­nées sont alors indexées dans notre pla­te­forme et enri­chies grâce à nos algo­rithmes de trai­te­ment du langage. 

À ce stade, le texte est immé­dia­te­ment dis­po­nible à la recherche et nous sommes déjà en mesure de recon­naître toute sorte de pat­terns, de concepts ou du voca­bu­laire spé­ci­fique au métier, que nous extra­yons sous forme d’entités nommées. 

Nous uti­li­sons ensuite des algo­rithmes de Machine Lear­ning pour entraî­ner, sur les don­nées du client, des modèles capables de faire une ana­lyse plus fine du conte­nu et dédiés au cas d’usages que nous adressons.

En paral­lèle, nous créons aus­si des appli­ca­tions métier, dites « Search-Based appli­ca­tions », pour per­mettre aux uti­li­sa­teurs d’explorer, d’analyser et d’exploiter le cor­pus docu­men­taire enri­chi par nos ana­lyses. À par­tir de ces appli­ca­tions, nous pou­vons récol­ter le feed­back des métiers. Cela nous per­met d’améliorer constam­ment les modèles, mais aus­si d’assurer que les pré­dic­tions res­tent pré­cises, aus­si bien dans le temps que dans le cadre de l’évolution des corpus. 

Qu’en est-il en termes de cyber sécurité ? 

Face à la crois­sance expo­nen­tielle du volume des don­nées non struc­tu­rées, les entre­prises se retrouvent avec un cor­pus docu­men­taire qui déborde d’informations, entre autres confi­den­tielles. L’enjeu est d’analyser en temps réel les don­nées pour iden­ti­fier les élé­ments à pro­té­ger. L’évolution rapide de ces cor­pus rend la plu­part des méthodes d’identification manuelle tota­le­ment inefficaces. 

En paral­lèle, ces infor­ma­tions confi­den­tielles prennent une mul­ti­tude de formes en fonc­tion des métiers de l’organisation : plan stra­té­gique, infor­ma­tions clients, savoir-faire indus­triels, par­te­na­riat stratégique… 

Nous aidons à résoudre ce pro­blème en entraî­nant des modèles capables d’appréhender, pour chaque client, le contexte et l’essence du conte­nu, pour pré­dire avec pré­ci­sion un niveau de confi­den­tia­li­té, en accord avec ses règles internes de confi­den­tia­li­té. Une fois ces modèles déployés à une échelle indus­trielle sur notre pla­te­forme, nous auto­ma­ti­sons le pro­ces­sus d’identification et met­tons à dis­po­si­tion des inter­faces uti­li­sa­teurs qui per­mettent, entre autres, de com­prendre où se trouve la don­née confi­den­tielle ou pri­vée et de véri­fier qu’elle est bien protégée.

“Face à la croissance exponentielle du volume des données non structurées,
les entreprises se retrouvent avec un corpus documentaire qui déborde d’informations, entre autres confidentielles.
L’enjeu est d’analyser en temps réel les données pour identifier les éléments à protéger.”

Comment résumeriez-vous la valeur ajoutée de Sinequa ?

Notre pla­te­forme se dis­tingue par sa com­bi­nai­son unique de technologies :

  • l’évolutivité et la per­for­mance : la capa­ci­té de gérer, dans le cloud ou on-pre­mise, de gros volumes de don­nées ou Big Data ;
  • la connec­ti­vi­té : la capa­ci­té de se connec­ter à toutes les sources de don­nées dans les entre­prises grâce à plus de 200 connecteurs ;
  • le trai­te­ment avan­cé du texte en plus de 23 langues ;
  • un moteur de recherche éprou­vé qui per­met d’interagir avec les don­nées en fonc­tion des pro­blé­ma­tiques utilisateurs ;
  • la ges­tion des droits d’accès : dans chaque inter­face uti­li­sa­teur que nous déployons, nous répli­quons les droits d’accès en place dans la source d’origine ;
  • le Machine Lear­ning et le Deep Lear­ning : la capa­ci­té d’entraîner sur les don­nées de nos clients puis de mettre en pro­duc­tion, à l’échelle, l’usage de modèles d’intelligence artificielle.

Nous sommes par­ti­cu­liè­re­ment mobi­li­sés sur les tech­no­lo­gies de Deep Lear­ning qui évo­luent constam­ment et consti­tuent une véri­table révo­lu­tion. Nous ana­ly­sons quo­ti­dien­ne­ment les papiers pro­duits par la recherche fon­da­men­tale pour étu­dier leur poten­tielle appli­ca­tion à nos cas d’usages et leur appli­ca­bi­li­té dans les contraintes de notre mar­ché cible (appli­ca­bi­li­té au non struc­tu­ré, hard­ware néces­saire, évo­lu­ti­vi­té, taille des ensembles d’apprentissages requis…). Si cela est per­ti­nent, nous les opti­mi­sons et les inté­grons ensuite à notre pla­te­forme. Aujourd’hui, nous comp­tons un nombre crois­sant de clients qui uti­lisent cette tech­no­lo­gie en pro­duc­tion et à l’échelle sur notre plateforme.

La data est au cœur de votre expertise. Quelles problématiques adressez-vous dans ce cadre ?

Le prin­ci­pal défi est de four­nir la bonne infor­ma­tion au bon uti­li­sa­teur, au bon moment et au bon endroit. C’est l’essence même de notre métier. 

Cela peut prendre dif­fé­rentes formes. Plus par­ti­cu­liè­re­ment, dans le domaine de la cyber sécu­ri­té, nous créons, par exemple, une car­to­gra­phie navi­gable qui donne avec pré­ci­sion une vue d’ensemble de toutes les don­nées sen­sibles, confi­den­tielles et pri­vées de l’entreprise.

En parallèle, quels sont les sujets qui vous mobilisent actuellement ? Qu’en est-il de vos perspectives ?

Le Deep Lear­ning est une tech­no­lo­gie encore émer­gente. À l’heure actuelle, très peu d’entreprises sont capables de l’utiliser à une échelle indus­trielle pour géné­rer du retour sur inves­tis­se­ment. En paral­lèle, l’arrivée récente des modèles « Deep Lan­guage » et le déve­lop­pe­ment des tech­niques de Trans­fer Lear­ning laissent entre­voir une mul­ti­tude de fonc­tion­na­li­tés nou­velles. Notre objec­tif est de les embar­quer sur notre pla­te­forme pour que nos clients puissent en béné­fi­cier. Mon rôle au sein de Sine­qua consiste à iden­ti­fier les nou­veaux cas d’usages qui peuvent en décou­ler et déve­lop­per cette offre en Europe et aux États-Unis.


Décou­vrir le site de Sinequa

A lire sur le même sujet : « Nous trans­for­mons la don­née brute en une infor­ma­tion éclai­rée et contex­tua­li­sée pour une meilleure prise de déci­sion », dans La jaune et la Rouge n° 742 de Février 2019.

Poster un commentaire