A la BNF, les appariements aujourd’hui réalisés à la main dans le cadre de projets ponctuels pourraient être automatisés grâce à l’IA.

L’IA à la Bibliothèque nationale de France : la patrimonialisation 4.0

Dossier : Intelligence artificielleMagazine N°781 Janvier 2023
Par Arnaud BEAUFORT (X88)

Les grandes biblio­thèques, avec leurs col­lec­tions de grandes dimen­sions, trouvent dans le trai­te­ment de la don­née et donc dans l’IA des outils pré­cieux pour l’exploitation de leurs immenses col­lec­tions. Le cas de la Biblio­thèque natio­nale de France (BnF) est par­ti­cu­liè­re­ment élo­quent en la matière. Voi­ci la pré­sen­ta­tion de quatre de ses pro­jets uti­li­sant l’IA.

Non seule­ment l’IA est sus­cep­tible d’outiller la col­lec­tion d’une biblio­thèque comme la BnF, mais elle pro­met aux cher­cheurs et à tous les ama­teurs de don­nées un maté­riau de tra­vail inédit, de nou­velles clés de décou­verte et de futures trou­vailles. C’est d’autant plus vrai que les don­nées et les conte­nus sus­cep­tibles de faire l’objet d’expérimentations et de pro­jets s’y trouvent en très grande quan­ti­té et que la col­lec­tion numé­rique va consi­dé­ra­ble­ment s’étendre à la faveur du dépôt légal numérique.

L’intérêt de la BnF pour l’IA

En sa qua­li­té de ser­vice public, la BnF réflé­chit à cette double dimen­sion interne et externe. Cela fait une ving­taine d’années qu’elle explore les nom­breux champs d’application de l’IA : la recon­nais­sance optique de carac­tères (OCR), le trai­te­ment auto­ma­ti­sé de la langue, l’analyse de don­nées, l’analyse de docu­ments (pério­diques, cata­logues de vente, cartes, par­ti­tions musi­cales…), etc. Ce pay­sage fer­tile et bigar­ré a ouvert la voie à des pro­jets d’envergure et à des pers­pec­tives inédites en termes d’exploration et de traitement.

Ce chan­ge­ment sus­cite un vif inté­rêt chez les pro­fes­sion­nels des biblio­thèques, comme en témoigne le suc­cès des dif­fé­rentes confé­rences orga­ni­sées sur le sujet, et il appelle un cadrage capable de prendre en compte les enjeux à la fois mana­gé­riaux, juri­diques, éthiques et socié­taux sou­le­vés par l’usage de l’IA. Les mis­sions de la BnF – col­lec­ter, conser­ver, enri­chir et com­mu­ni­quer le patri­moine docu­men­taire natio­nal – sont suf­fi­sam­ment ancrées his­to­ri­que­ment et léga­le­ment pour garan­tir une conti­nui­té d’action et de posi­tion­ne­ment, ain­si qu’une qua­li­té de ser­vice, au gré de l’introduction des tech­no­lo­gies nou­velles. C’est dans cette dyna­mique que les docu­ments stra­té­giques récents de l’institution ont inté­gré l’IA (feuille de route de la BnF sur l’intelligence arti­fi­cielle, contrat d’objectifs et de per­for­mance 2022–2026…).

Penser l’IA selon une logique d’ouverture

Les cher­cheurs qui sou­haitent entraî­ner leurs algo­rithmes peuvent trou­ver d’importants jeux de don­nées à la BnF. Au-delà des res­sources actuel­le­ment dis­po­nibles (le site api.bnf.fr, qui donne accès aux jeux de don­nées de la BnF et à ses API, et le Data­Lab, son équi­valent phy­sique), il s’agit de faire en sorte que les don­nées fran­co­phones puissent ser­vir d’entraînement à des pro­jets dans le sillage de SQuAD (The Stan­ford Ques­tion Ans­we­ring Data­set) : lan­cé par une équipe de recherche de l’université Stan­ford à la fin des années 2010, ce pro­jet consis­tait à apprendre à une machine à répondre à des ques­tions à par­tir d’un algo­rithme et d’un jeu de don­nées consti­tué d’articles de Wiki­pé­dia, de ques­tions sur ces articles et de réponses. Un enjeu glo­bal de décou­vra­bi­li­té des conte­nus cultu­rels numé­riques en ligne se pré­cise, par­ta­gé avec de nom­breuses ins­ti­tu­tions, en par­ti­cu­lier francophones. 

Pour rele­ver ces défis, la Biblio­thèque s’inscrit dans un posi­tion­ne­ment réso­lu­ment coopé­ra­tif, fon­dé sur l’intelligence col­lec­tive et la mutua­li­sa­tion, pour mieux prendre en compte les enjeux envi­ron­ne­men­taux, tout en fai­sant face aux dépenses impor­tantes sus­ci­tées par l’IA, et en pré­ser­vant les valeurs du ser­vice public. Quatre pro­jets illus­trent les béné­fices atten­dus de l’IA en termes de service. 

Gallica Images

Gal­li­ca (https://gallica.bnf.fr) est la biblio­thèque numé­rique de la BnF et de ses par­te­naires. Les images y sont omni­pré­sentes, que ce soit dans la presse, dans les livres et bien sûr dans les fonds ico­no­gra­phiques. Ce pro­jet de fouille d’images répond à des cas d’usage très pra­tiques, par exemple à la volon­té de trou­ver plus faci­le­ment la source des images publiées dans les jour­naux numé­ri­sés : les col­lec­tions numé­riques de la BnF com­prennent à la fois de nom­breux titres de presse et des fonds d’agence pho­to­gra­phique, qui pour­raient être rap­pro­chés de manière automatisée.

Gal­li­ca Images s’inscrit dans la conti­nui­té d’expérimentations enga­gées dès le début des années 2010 à la Biblio­thèque : les pre­miers pro­jets de recherche menés dans ce domaine avec plu­sieurs labo­ra­toires ont été l’occasion d’approfondir les res­sources de la numé­ri­sa­tion et d’évaluer l’apport des algo­rithmes en matière d’indexation. En 2016, Gal­li­ca­Pix, pro­to­type de moteur de recherche séman­tique réa­li­sé à par­tir des API de récu­pé­ra­tion des conte­nus de Gal­li­ca, des don­nées et d’outils d’intelligence arti­fi­cielle (dont IBM Wat­son Visual Recog­ni­tion, Google Cloud Vision, OpenCV), a pu satis­faire des situa­tions clas­siques de recherche par mot clé, par type ou par thème dans des cor­pus d’images. D’autres expé­ri­men­ta­tions ont déve­lop­pé l’usage de moteurs de recherche visuelle favo­ri­sant une recherche de simi­la­ri­tés entre deux images, tel Gal­li­caS­noop, déve­lop­pé avec l’Inria et l’Ina à par­tir du moteur Snoop, uti­li­sé par l’application PlantNet.

“Cela fait une vingtaine d’années que la BnF explore les nombreux champs d’application de l’IA.”

Gal­li­ca Images sera lan­cé en 2023 avec le sou­tien du Pro­gramme d’investissements d’avenir (France 2030). Il a pour objec­tif d’étendre ces tra­vaux à l’ensemble de Gal­li­ca. Il s’agit de rendre toutes les images lar­ge­ment acces­sibles en indus­tria­li­sant une tech­no­lo­gie de seg­men­ta­tion (repé­rage des images à l’intérieur des livres, presse et revues numé­ri­sées à l’aide du pro­to­cole IIIF, Inter­na­tio­nal Image Inter­ope­ra­bi­li­ty Fra­me­work) et de carac­té­ri­sa­tion (for­mat, cou­leurs, typo­lo­gie…) par intel­li­gence artificielle.

Pilo­té par la BnF, la Biblio­thèque natio­nale et uni­ver­si­taire (BNU) de Stras­bourg et l’Institut natio­nal de l’histoire de l’art (INHA), ce pro­jet sou­lève quelques ques­tions majeures : tout d’abord le trai­te­ment de volumes aus­si impor­tants (le nombre total d’images qui seront ain­si dis­tin­guées dans Gal­li­ca est esti­mé à plus de 100 mil­lions) sup­pose une puis­sante machine ad hoc, et donc une approche rai­son­née des entraîne­ments néces­saires et du volume de nou­velles don­nées générées.

De plus, pour garan­tir la juste com­pré­hen­sion des résul­tats des recherches futures, la BnF met­tra l’accent non seule­ment sur les tests préa­lables, mais aus­si sur l’interface uti­li­sa­teur et sur l’environnement docu­men­taire des résul­tats. Elle y veille déjà en ce qui concerne l’OCR : Gal­li­ca indique le taux de recon­nais­sance atteint pour tel ou tel docu­ment et un lien est pré­sent pour ceux qui sou­haitent en savoir plus.

Ce sou­ci relève de la lit­té­ra­tie ou « habi­le­té numé­rique » : l’objectif est d’inviter les uti­li­sa­teurs à prendre conscience des biais inhé­rents aux res­sources et à com­plé­ter leurs approches. Enfin, quelle que soit la solu­tion tech­nique rete­nue, le res­pect des don­nées per­son­nelles et des conte­nus pro­té­gés par la pro­prié­té intel­lec­tuelle sera essen­tiel (comme il l’est actuel­le­ment), a for­tio­ri dans le cas où ces tech­no­lo­gies seront appli­quées à la col­lec­tion du dépôt légal numé­rique dans Gal­li­ca intra muros.

La reconnaissance de l’écriture manuscrite (HTR)

Si les carac­tères impri­més font à pré­sent l’objet d’une recon­nais­sance indus­tria­li­sée grâce à des tech­no­lo­gies matures (OCR), il n’en va pas de même des écri­tures moins stan­dar­di­sées ou plus rares (écri­tures manus­crites de dif­fé­rentes époques, mais aus­si impri­més anciens, tapus­crits, textes en langues rares…) : le repé­rage d’un lieu, d’un nom de per­sonne ou d’un simple mot cou­rant dans les manus­crits de Gal­li­ca passe sur­tout, aujourd’hui, par une lec­ture cur­sive des textes et non par des outils de recherche plein texte. Pre­nons l’un des plans que fit Charles Gar­nier du grand esca­lier de son opé­ra : avec ses dif­fé­rents titres, avec ses mesures et anno­ta­tions ver­ti­cales, il pose quelques défis à l’HTR.

Comme le pro­jet de fouille d’images, le pro­jet d’HTR s’appuie sur les expé­ri­men­ta­tions des années 2010. Il s’agit d’entraîner un sys­tème à par­tir d’un échan­tillon repré­sen­ta­tif d’un cor­pus homo­gène en lui four­nis­sant une trans­crip­tion manuelle, puis d’étendre la trans­crip­tion à l’ensemble du cor­pus de manière auto­ma­ti­sée en s’appuyant sur l’IA. Plu­sieurs pla­te­formes – en par­ti­cu­lier eScrip­to­rium et Trans­kri­bus – peuvent aujourd’hui être uti­li­sées à ces fins. Chaque type d’écriture (voire chaque main) ayant ses spé­ci­fi­ci­tés, la four­ni­ture de la pre­mière trans­crip­tion peut néces­si­ter des com­pé­tences poin­tues en paléo­gra­phie ou en liai­son avec le conte­nu. En plus des ques­tions éthiques sou­le­vées par le pro­jet de fouille d’images, qu’il par­tage, le pro­jet d’HTR nous invite donc à consi­dé­rer avec atten­tion la phase d’entraînement des algo­rithmes, qui néces­site un impor­tant tra­vail humain.

Charles Garnier, Grand escalier : corniche rampante au-dessus des arcs.
Charles Gar­nier, Grand esca­lier : cor­niche ram­pante au-des­sus des arcs. Réfé­rences et source de l’image : https://c.bnf.fr/Qn6

L’assistance au catalogage

La BnF gère quo­ti­dien­ne­ment l’arrivée de cen­taines de docu­ments de toute nature, dont la des­crip­tion est essen­tielle à la visi­bi­li­té des res­sources dis­po­nibles et à la satis­fac­tion des besoins docu­men­taires des uti­li­sa­teurs, à com­men­cer par les cher­cheurs. Ce tra­vail biblio­gra­phique des cata­lo­gueurs ali­mente un éco­sys­tème de don­nées de qua­li­té dont pro­fitent les moteurs de recherche, ain­si qu’un dia­logue fécond avec de nom­breuses struc­tures, en par­ti­cu­lier avec les indus­tries cultu­relles et créa­tives. L’intelligence arti­fi­cielle ali­mente l’espoir d’un gain de pro­duc­ti­vi­té impor­tant dans ce domaine. Il est par exemple pos­sible d’imaginer que, en ana­ly­sant le fichier d’un docu­ment numé­rique, on aide le cata­lo­gage tant du docu­ment numé­rique que du docu­ment impri­mé arri­vés tous deux par la voie du dépôt légal. Cepen­dant, l’introduction de l’IA dans des pro­ces­sus de cata­lo­gage com­plexes n’est pas simple.

“Le numérique apparaît comme une véritable culture.”

Les deux prin­ci­pales ques­tions éthiques qui se posent ici sont celle de l’ouverture (com­ment, dès le début, envi­sa­ger la pers­pec­tive de mettre à la dis­po­si­tion d’autres uti­li­sa­teurs des algo­rithmes spé­ci­fi­que­ment déve­lop­pés pour ou par la BnF) et celle de l’implication de l’humain dans le pro­ces­sus, afin de garan­tir les res­pon­sa­bi­li­tés en cas de défaillance de l’algorithme (ce qui sup­pose par exemple des pro­to­coles de vali­da­tion), afin de favo­ri­ser le tra­vail col­la­bo­ra­tif et sur­tout afin de limi­ter la « frac­ture numé­rique », qui peut être consi­dé­rée selon deux angles : celui des com­pé­tences, de l’aisance face aux outils, et celui de l’identité pro­fes­sion­nelle dès lors qu’une par­tie des acti­vi­tés se voit assis­tée par la machine et que les tâches habi­tuelles se déplacent.


Lire aus­si : Accul­tu­rer l’entreprise à l’intelligence arti­fi­cielle : l’efficacité du jeu sérieux


La recommandation personnalisée dans Gallica

Enfin, un pro­jet de recom­man­da­tion per­son­na­li­sée pour­rait venir pal­lier les insuf­fi­sances du moteur de Gal­li­ca, occa­sion­nées notam­ment par le choix fait de ne pas uti­li­ser les don­nées des uti­li­sa­teurs (his­to­riques de recherche, etc.). L’intelligence arti­fi­cielle pour­rait com­plé­ter la puis­sance du moteur par un dis­po­si­tif de recherche inédit dans un cadre qui res­pecte la déon­to­lo­gie actuelle. Ain­si, le tra­vail de délé­ga­tion à l’IA de cer­taines tâches ou fonc­tion­na­li­tés se ferait avec toutes les garan­ties, par exemple en pro­po­sant aux uti­li­sa­teurs de choi­sir s’ils veulent recou­rir ou non à la fonc­tion­na­li­té de recom­man­da­tion personnalisée.

Une question d’éthique

De même que, au-delà des seules ques­tions tech­niques, le numé­rique doit être consi­dé­ré dans toutes ses com­po­santes et appa­raît comme une véri­table culture, source d’une patri­mo­nia­li­sa­tion d’un genre nou­veau à la BnF, de même l’intelligence arti­fi­cielle trouve dans les biblio­thèques un espace de déve­lop­pe­ment natu­rel, au croi­se­ment des huma­ni­tés et des tech­no­lo­gies. Les prin­cipes éthiques liés à l’introduction de l’IA – trans­pa­rence, expli­ca­bi­li­té, jus­tice (équi­té, éga­li­té) et sobrié­té – ne sont pas éloi­gnés des valeurs fon­da­men­tales de la BnF, qui depuis des décen­nies ali­mentent la confiance des usa­gers dans l’institution.


Références


Image de cou­ver­ture : Une pho­to de l’agence Rol et un jour­nal dans lequel elle a été publiée. Les appa­rie­ments aujourd’hui réa­li­sés à la main dans le cadre de pro­jets ponc­tuels pour­raient être auto­ma­ti­sés grâce à l’IA. Réfé­rences et source de l’image : https://c.bnf.fr/Qn3

Poster un commentaire