IA et data financière : un saut technologique majeur qui bouleverse le marché
Le marché des données financières des Entreprises
Tous les ans, les Sociétés éditent un bilan contenant les principaux postes exprimant les données significatives de l’exercice fiscal.
Ce Bilan Fiscal, envoyé aux impôts, sert aussi de document comptable reflétant l’activité de l’Entreprise…
Aussi appelé « bilan Cerfa », il présente l’avantage d’être soumis à une normalisation officielle qui réduit considérablement la variabilité de sa présentation.
Les sociétés éditent aussi des « États de Gestion » plus finement renseignés mais moins assujettis à une norme de présentation. Ils sont cependant soumis à une logique financière limitant leur variabilité.
Au niveau des grands Groupes, les « Comptes Consolidés » ont, avec leurs filiales, des structures ramifiées plus inattendues se prêtant difficilement à des automatisations…
Ces données sont la base d’Analyses Financières avec différentes finalités. Le marché est, en particulier, dominé par le besoin des Banques de se conformer aux obligations Internationales Bâle II et III en s’assurant de la santé financière de leurs Entreprises. Par ailleurs, elles servent à calculer les taux d’intérêts des prêts accordés aux Entreprises à travers une Analyse de Risques. Autrefois, les analystes s’imprégnaient des résultats en parcourant les documents. L’irruption du numérique a modifié la donne :
- d’un côté, les possibilités de calculs ont apporté rigueur et rationalité, encore faut-il alimenter les ordinateurs en données !
- de l’autre, l’œil de l’expert reste indispensable pour compléter ces calculs avec sa perception intuitive des comptes nourrie de dizaines d’années de pratique.
Il y a donc nécessité de faire cohabiter deux types de fichiers :
- un fichier informatique de données que l’ordinateur devra savoir lire,
- un fichier image (Pdf) sur lequel l’expert pourra exercer sa perception intuitive.
Le marché dichotomique de la Data Financière
L’analyse des données financières requiert donc deux représentations antinomiques :
- L’image du Document, lisible par un humain.
- Un fichier informatique lisible par un ordinateur
Pourquoi antinomiques ?
- De notoriété publique, l’entrée directe de ces données dans un ordinateur est impossible à partir de l’image du Bilan, car
- L’extraction de valeurs d’une image suppose un OCR, toujours suspecté d’erreurs !
- Un montant financier ne veut rien dire si on ne sait pas quelle valeur il représente ! Le cerveau de l’expert peut, lui, le détecter en interprétant les rubriques des lignes de tableaux.
- L’expert ne retrouve pas, dans l’affichage linéaire du fichier, la disposition en tableaux qui lui est familière.
- L’image typée du Bilan est une présomption d’authenticité, contrairement au fichier informatique, impersonnel et falsifiable.
Conséquence :
Le marché de la Data Financière issue des Bilans nécessite la cohabitation de deux fichiers :
- l’image du Bilan sous forme de fichier Pdf imprimable ou affichable.
- le fichier informatique contenant les valeurs du bilan selon un format prédéfini, les modules utilisateurs devant s’adapter à lui.
Le fichier Pdf étant la source des données, le fichier informatique ne peut résulter que de leur extraction intelligente par saisie humaine, en temps différé.
Aucun format de fichier ne s’impose comme norme de référence. D’où une floraison de formats imaginés par les acteurs du marché, chacun voulant marquer son territoire…
De leur côté, les Logiciels d’Analyse Financière voudraient bien imposer leurs propres formats d’entrée…
D’où une complexification du marché, d’autant plus préjudiciable qu’au moment de la saisie, on ne connait pas nécessairement le logiciel qui utilisera ces données…
Pour couronner le tout, il y a 8 Types de Bilans Cerfa, chacun constituant un modèle spécifique !
Les acteurs de la saisie des bilans
Attirés par ce marché, plusieurs sociétés ont créé une activité de saisie de bilans.
Parmi ces acteurs, on distingue :
- les Organismes Institutionnels comme l’INPI ou les Greffes des Tribunaux de Commerce (Infogreffe), ayant vocation à collecter et mettre à disposition les Bilans Financiers des Entreprises, considérés comme d’Intérêt Public. Initialement limités aux documents-images, ils ont complété leur offre avec la fourniture de fichiers Informatiques, à travers des prestataires dédiés à cette saisie. Bien sûr, chacun s’est différencié par le choix du format de sortie propriétaire…
- les sociétés de saisie travaillant en sous-traitance des Banques. Dans ce cas, l’acteur de saisie reçoit les Bilans-images de ses donneurs d’ordres, et connait donc le format de retour des résultats.
Historique
Dans les années 90, les pouvoirs publics avaient déjà mandaté la société OR-TELEMATIQUE pour constituer une base référenciant les données de bilans au niveau national. Les bilans étaient saisis à l’ancienne à Pont-à-Mousson. INOVATIC, pionnier de l’OCR (voir Encart 1), cherchant à se diversifier dans l’Extraction de Données, a proposé à ORT d’automatiser cette saisie, projet interrompu par la vente d’ORT fin 1999. Suite à ces contacts, Inovatic a été sollicité par une Banque Populaire. Ce fut le début d’une longue et fructueuse collaboration avec le Groupe BPCE, bientôt rejoint par d’autres grands Organismes bancaires.
INOVATIC : 20 ans d’expérience capitalisée sur 7 millions de bilans
Inspiré de mon logiciel OCR de 1985 ReadStar, notre solution d’Extraction de Données de 1999 a consisté à compléter le travail d’un Noyau informatique par l’intervention d’opéra [teur] [trice] lui indiquant les informations qu’il n’a pas trouvées tout seul, pour qu’il achève, en retour, son travail. C’est un processus d’extraction automatique de données assistée par opérateur ! Cela permet aussi une amélioration de l’automaticité du processus par une fonction d’apprentissage du noyau enrichissant ses algorithmes grâce aux indications retournées par l’opérateur.
Nous avons conceptualisé ce procédé sous l’acronyme WYSIHYG (voir encart 2).
Le WYSIHYG est basé sur la structure en tableaux des Documents Comptables. Chaque type de bilan fait l’objet d’un modèle de référence, indiquant la succession des Rubriques attendues pour chaque ligne de chaque tableau. L’apprentissage porte sur la collecte des variantes linguistiques rencontrées pour chaque rubrique, grâce aux indications fournies par les opérateurs…
Tout au long des années passées, le logiciel s’est enrichi des variantes rencontrées au fil des millions de bilans traités, à travers l’apprentissage appliqué aux bilans classiques et Consolidés (en cours).
Retombée intéressante du procédé : lorsqu’un même bilan repasse entre nos mains, il sera reconnu automatiquement, le paramétrage étant alors globalement à jour de ses variantes.
1. OCR vs Data Extraction
La Lecture Automatique de Documents couvre deux problématiques différentes :
1- La Reconnaissance de Caractères (OCR), qui permet la transcription d’un texte contenu dans une image-pixel.
2- L’Extraction Automatique de Données, qui suppose un Modèle de Référence du type de document à « lire ». Une Donnée est un couple <Identifiant, Valeur>. L’identifiant se déduit de la position de la valeur dans les tableaux de Référence.
Principale difficulté : les variantes terminologiques et structurelles introduites par les éditeurs des Documents.
2. Data Extraction : la saisie WYSIHYG (What You See Is How You Get)
Les saisies manuelles classiques consistent à reporter les valeurs lues sur le document dans un masque de saisie.
Avec le mode WYSIHYG d’INOVATIC, l’opérateur, à travers son écran interactif, transmet à l’Application des informations de localisation des valeurs. En plus de les extraire lui-même, le Noyau pratique un apprentissage supervisé transparent, lui permettant d’enrichir, au fil des exemples, ses critères de localisation, augmentant d’autant son automaticité : ce qu’il voit est comment obtenir les valeurs…
Alors, le tout automatique, c’est pour aujourd’hui ou pour demain ?
La difficulté est qu’on doit être sûr à 100 % des résultats ! Pour la localisation des données, on peut l’atteindre, grâce au WYSIHYG.
Il reste une difficulté : la reconnaissance des chiffres !
Si un bilan nous parvient une seconde fois avec la même image (cas ID), notre WYSIHYG a aussi gardé la mémoire graphique des caractères individuels et recomposera sans erreur les montants ! Sinon, une vérification humaine est nécessaire !
Notre joker : Les Pdf Natifs
Le Pdf image résultant d’un scanning n’est pas le seul format créé par ADOBE !
Le Pdf Structuré a été conçu pour permettre la création par programme de documents-images. Sa propriété principale est de contenir nativement dans sa structure la liste renseignée des caractères de l’image. Une fonction permet alors d’extraire du Pdf la valeur de tous ces caractères. À la création du document Bilan, les logiciels de Comptabilité utilisent tous ce format, et donc, tout chef d’Entreprise dispose de ce fichier « Bilan Natif ».
La quête du tout automatique, Graal de la reconnaissance de Document
On n’osait en rêver. Avec les Bilans Natifs, ça devient réalité !
C’est par l’alliance de la Nativité, qui permet la reconnaissance sans erreur des montants, et de l’apprentissage WYSIHYG, qui apporte la localisation, que le miracle se produit.
Le Bilan Natif est ainsi intronisé comme
Le Format Universel des Comptes annuels.
Oubliés les fichiers Informatiques ésotériques ! Notre logiciel d’Extraction de Données Comptables est capable de transmettre instantanément à tout Logiciel Financier les données du Bilan Natif. Le marché dichotomique de la Data Financière s’assainit d’un coup.
Le nouveau visage de l’Analyse Financière
En préalable, Inovatic incorpore au portail de l’acteur Financier son module de lecture du Bilan Natif. Le « Client » n’a plus qu’à déposer son fichier Bilan Natif sur le portail et renseigner sa requête. Le résultat de l’Analyse apparait en quelques secondes.
Avantages :
- Instantanéité,
- garantie d’authenticité des données (vous pouvez afficher le Pdf d’où elles sont issues).
Et surtout, UNE IMMENSE SIMPLIFICATION DU MARCHÉ DES DONNÉES COMPTABLES.
Conséquences sur les acteurs du Marché de la Data Financière.
- Pour les Organismes Institutionnels (Infogreffe et INPI), leur activité « Bilans » se trouve facilitée par la suppression de l‘étape de saisie. Cependant, leurs prestataires pourraient conserver un rôle résolvant un paradoxe : actuellement, les bilans sont saisis 2 fois à partir des mêmes images ! Cette réalité absurde prendrait un sens avec l’aide d’INOVATIC :
- sous licence INOVATIC, le Prestataire d’Infogreffe utiliserait notre logiciel, bénéficiant de l’automatisation des bilans déjà traités pour nos banques, et complèterait l’apprentissage des nouvelles éventuelles variantes.
- pour l’INPI, les bilans seraient reconnus automatiquement, à travers un portail INOVATIC mis à la disposition du Prestataire, validant ainsi ce complément d’apprentissage !
Processus gagnant pour tous !
L’organisation ne serait pas perturbée : il faut que tout change pour que rien ne change !
- Pour les Prestataires des Banques impactés, ils devront se réorienter…
SCHUMPETER bouge encore !
Cette révolution technologique reproduit le processus de destruction créatrice cher à Joseph Schumpeter. Les Sociétés de saisie devront trouver d’autres débouchés ! C’est la dure loi de l’innovation créatrice, moteur du dynamisme capitaliste. Cependant, avec nos projets ambitieux au niveau Européen, nous aurons besoin de renforts, et pourrons peut-être les associer à ces projets…
Et l’institut Polytechnique dans tout ça ?
Né d’une tentative avortée de déstabilisation de notre École, l’Institut souffre d’un mal originel : son objet relève d’une Recherche Appliquée qui n’a pas vocation à se développer en Laboratoire. Nous en sommes la démonstration. L’État a introduit en 1989 la révolution du CIR consacrant la reconnaissance du rôle du secteur privé dans l’essor du pays. L’Institut devra se limiter à la formation de chercheurs, qui viendront vivifier les Industries HighTech. S’obnubiler sur le Classement de Shanghai, c’est se mettre à la remorque des critères que les Américains ont eux-mêmes suscités !
Et l’Avenir ?
INOVATIC c’est une formidable aventure humaine où chaque personne est reconnue comme un être unique, où la diversité devient richesse et l’adhésion au projet commun gage de réussite et de pérennité. C’est aussi une équipe de Direction, formée par osmose avec le Fondateur, mûre pour prendre la relève…
Emmanuel MACRON a appelé de ses vœux l’émergence de sociétés hightech à la française rejoignant les champions mondiaux américains. Monsieur le Président, nous répondons : présents ! Et en plus, nous paierons nos impôts en France… à travers le dispositif IP Box, tout de même !