La puissance du multimédia au service de l’apprentissage des langues étrangères

Dossier : Le MultimédiaMagazine N°550 Décembre 1999
Par Nagi SIOUFI (79)

Des méthodes traditionnelles vers les méthodes multimédias

Depuis le début des années 90, l’ap­pren­tis­sage des langues étran­gères subit de pro­fondes trans­for­ma­tions du fait de l’a­vè­ne­ment du mul­ti­mé­dia. L’ap­port des tech­no­lo­gies nou­velles dans ce domaine rend les outils tra­di­tion­nels de plus en plus obso­lètes, et ceci bien plus que dans les autres domaines. Cela explique le suc­cès com­mer­cial des CD-ROM d’ap­pren­tis­sage des langues qui repré­sentent aujourd’­hui plus de 30 % du mar­ché des CD-ROM éducatifs.

Les outils tra­di­tion­nels s’ap­puient soit sur un sup­port papier (livre, dic­tion­naire, ency­clo­pé­die, etc.), soit sur un sup­port audio (cas­sette, CD audio, etc.), soit sur un sup­port vidéo (films en ver­sion ori­gi­nale, CNN, etc.).

Ces dif­fé­rents sup­ports res­tent répan­dus et uti­li­sés là où l’or­di­na­teur ne peut être pré­sent. Mais la minia­tu­ri­sa­tion des com­po­sants et le déve­lop­pe­ment des dif­fé­rentes formes d’or­di­na­teurs iti­né­rants raré­fient ces situations.

L’exemple des labo­ra­toires de langues à base de cas­settes est signi­fi­ca­tif de cette évo­lu­tion. Ces équi­pe­ments néces­si­taient des inves­tis­se­ments éle­vés et conti­nuaient à être ins­tal­lés jus­qu’au milieu des années 90. Leur rem­pla­ce­ment par des solu­tions à base d’or­di­na­teurs en réseau, équi­pés des logi­ciels adé­quats, est deve­nu irré­ver­sible. Ces labo­ra­toires mul­ti­mé­dias incluent toutes les fonc­tions de leurs pré­dé­ces­seurs, en offrent des cen­taines d’autres sup­plé­men­taires, s’ap­puient sur des archi­tec­tures stan­dard et évo­lu­tives et coûtent moins cher du fait de la baisse des prix du maté­riel informatique.

Les cours avec un pro­fes­seur par­ti­cu­lier sont sou­vent très effi­caces mais deviennent très rapi­de­ment exces­si­ve­ment coû­teux. Les tarifs peuvent bais­ser si le nombre de par­ti­ci­pants s’é­lève, mais il est prou­vé que l’ef­fi­ca­ci­té est inver­se­ment pro­por­tion­nelle à ce nombre.

De plus, les cours imposent une contrainte géo­gra­phique et tem­po­relle : l’ap­pre­nant doit se dépla­cer dans un lieu qui ne l’ar­range pas tou­jours, et ceci à une heure déter­mi­née et selon une fré­quence qui lui conviennent rare­ment lors­qu’il exerce une acti­vi­té professionnelle.

Le mul­ti­mé­dia fusionne tous les sup­ports exis­tants et ajoute l’in­te­rac­ti­vi­té. Son inci­dence sur l’ap­pren­tis­sage devient consi­dé­ra­ble­ment plus éle­vée de ce fait. La tran­si­tion des méthodes de langues vers le mul­ti­mé­dia a cepen­dant don­né lieu à trois géné­ra­tions successives.

Lors de la pre­mière géné­ra­tion, les pre­miers bal­bu­tie­ments sont appa­rus sous forme de trans­fert de conte­nus péda­go­giques d’un ou de plu­sieurs sup­ports tra­di­tion­nels vers le sup­port mul­ti­mé­dia. Par exemple, au cours du trans­fert d’une méthode sur cas­settes et du livret d’ac­com­pa­gne­ment vers le cd-rom, un logi­ciel de navi­ga­tion plus ou moins per­for­mant pou­vait don­ner l’im­pres­sion d’une explo­ra­tion facile du contenu.

Cer­tains exer­cices péda­go­giques trans­fé­rés du sup­port papier, comme le texte com­por­tant des « trous » ou l’exer­cice d’as­so­cia­tion de syno­nymes, appor­taient une pre­mière inter­ac­ti­vi­té avec la cor­rec­tion auto­ma­tique par l’or­di­na­teur de l’ac­ti­vi­té de l’ap­pre­nant. Le trans­fert de la fonc­tion « enre­gis­trez-vous » des méthodes sur cas­settes vers l’or­di­na­teur ren­dait la mani­pu­la­tion bien plus com­mode sans pour autant appor­ter une grande valeur ajou­tée péda­go­gique. De même, les méthodes d’En­sei­gne­ment assis­té par ordi­na­teur (EAO) à base de vidéo­disques se sont dif­fu­sées à cette période. Elles per­met­taient essen­tiel­le­ment de vision­ner un film en ver­sion ori­gi­nale et de béné­fi­cier de tout un ensemble de fonc­tions faci­li­tant la com­pré­hen­sion de l’ap­pre­nant : avant, arrière, stop, pause, avance rapide, tra­duc­tion, sous-titres, expli­ca­tions, etc.

La deuxième géné­ra­tion de pro­duits a dépas­sé ce stade du trans­fert de sup­port et a com­men­cé à uti­li­ser toute la puis­sance des nou­velles tech­no­lo­gies. L’u­ti­li­sa­tion de la recon­nais­sance vocale pour aider l’ap­pre­nant dans l’ap­pren­tis­sage de l’ex­pres­sion orale et de la pro­non­cia­tion a consti­tué une véri­table révo­lu­tion dans la mesure où l’ou­til obte­nu per­met­tait d’ap­por­ter une solu­tion effi­cace à un pro­blème mal réso­lu jusque-là. La tech­no­lo­gie de la recon­nais­sance vocale qui est détaillée dans la suite de ce docu­ment est d’ailleurs vite deve­nue la tech­no­lo­gie clé dans l’ap­pren­tis­sage des langues.

De la même façon, d’autres pro­duits ont exploi­té la puis­sance de l’or­di­na­teur pour appor­ter une solu­tion à un besoin péda­go­gique spé­ci­fique. Les outils inté­grant des cor­rec­teurs ortho­gra­phiques et gram­ma­ti­caux ont aidé les moins novices à mieux rédi­ger en repé­rant les fautes les plus évi­dentes. Les logi­ciels de sui­vi ont per­mis de gar­der une trace du com­por­te­ment de l’ap­pre­nant, de l’é­va­luer et de défi­nir pro­gres­si­ve­ment des ensei­gne­ments indi­vi­dua­li­sés adap­tés aux besoins de chacun.

La troi­sième géné­ra­tion est la plus récente. Elle com­porte des méthodes com­plètes qui couvrent tout le pro­ces­sus d’ap­pren­tis­sage d’une langue étran­gère : expres­sion orale, expres­sion écrite, com­pré­hen­sion orale, com­pré­hen­sion écrite, gram­maire, voca­bu­laire. Elles s’a­daptent à tous les niveaux, du débu­tant à l’é­lève confir­mé, et exploitent toutes les der­nières avan­cées tech­no­lo­giques : recon­nais­sance vocale, vidéo MPEG, accès Inter­net, diag­nos­tic intel­li­gent, etc.

Évolution de l’apprentissage des langues étrangères à l’oral

L’ap­pren­tis­sage des langues étran­gères à l’o­ral a connu dif­fé­rents stades de déve­lop­pe­ment majeurs.

Au tout début, l’ap­pre­nant avait un seul moyen à sa dis­po­si­tion pour se per­fec­tion­ner à l’o­ral : repro­duire le plus fidè­le­ment pos­sible la voix de son pro­fes­seur.

Puis il a eu la pos­si­bi­li­té d’enre­gis­trer sa propre voix et de se réécou­ter. D’a­na­lo­gique l’en­re­gis­tre­ment devint numé­rique, mais mal­gré une amé­lio­ra­tion qua­li­ta­tive, cette tech­nique res­tait limi­tée par la per­cep­tion audi­tive du sujet.

Au début des années 90, la socié­té Aura­log a intro­duit pour la pre­mière fois la tech­no­lo­gie de la recon­nais­sance vocale dans ses méthodes, per­met­tant ain­si à l’ap­pre­nant de dia­lo­guer libre­ment avec l’or­di­na­teur, sans mani­pu­la­tion du cla­vier ni de la sou­ris, et d’ob­te­nir une éva­lua­tion auto­ma­tique de sa prononciation.

Définition et classification de la reconnaissance vocale

La recon­nais­sance vocale désigne l’en­semble des tech­no­lo­gies per­met­tant à une machine de recon­naître la parole. Les tech­no­lo­gies de recon­nais­sance vocale modernes sont basées sur une ana­lyse des pho­nèmes de la phrase prononcée.

Trois cri­tères per­mettent de dis­tin­guer les moteurs de recon­nais­sance vocale.

1. Le pre­mier est le type de dis­cours recon­nu (mot à mot ou parole conti­nue) par le logiciel :
– soit les mots sont pro­non­cés iso­lé­ment, c’est-à-dire sépa­rés par des périodes de silence,
– soit le dis­cours se fait en conti­nu et per­met ain­si une pro­non­cia­tion naturelle.

2. Le deuxième cri­tère dis­tingue les moteurs de recon­nais­sance vocale fonc­tion­nant uni­que­ment sur les mots, de ceux fonc­tion­nant sur les phrases com­plètes.

3. Le troi­sième cri­tère est le degré de dépen­dance vis-à-vis du locuteur :
– sys­tème mono­lo­cu­teur : sys­tème adap­té ou adap­table grâce à un pro­ces­sus d’en­traî­ne­ment à un locu­teur par­ti­cu­lier (« spea­ker dependent »),
– sys­tème mul­ti­lo­cu­teurs (« spea­ker inde­pendent ») : recon­nais­sance vocale fonc­tion­nant pour tout un groupe de locu­teurs, ce groupe pou­vant, à l’ex­trême, inté­grer n’im­porte quelle per­sonne par­lant la langue apprise (indé­pen­dam­ment de son âge, de son sexe, du timbre de sa voix…).

Les meilleurs CD-ROM du mar­ché uti­lisent les moteurs de recon­nais­sance vocale les plus sophis­ti­qués : l’ap­pre­nant peut per­fec­tion­ner sa pro­non­cia­tion sur des mots ou des phrases com­plètes, au rythme qu’il désire. De plus, les logi­ciels de type « spea­ker inde­pendent » sont immé­dia­te­ment uti­li­sables par tous les locu­teurs, sans entraî­ne­ment préalable.

La reconnaissance vocale : vingt ans d’évolution technologique

La tech­no­lo­gie de la recon­nais­sance vocale a évo­lué, pas­sant du hard­ware (cartes) au soft­ware. Aujourd’­hui, l’ap­pre­nant pro­nonce libre­ment une phrase et le logi­ciel note la qua­li­té de la pro­non­cia­tion par une ana­lyse com­plexe des phonèmes.

Voi­ci la chro­no­lo­gie des dif­fé­rentes étapes du déve­lop­pe­ment de la recon­nais­sance vocale sur les vingt der­nières années.

Début des années 1980

Les pre­miers sys­tèmes mono­lo­cu­teurs de recon­nais­sance vocale sont appli­qués sur des machines industrielles.

1985

C’est envi­ron à cette date qu’ap­pa­raissent les pre­mières cartes équi­pées de DSP (Digi­tal Signal Pro­ces­sor), per­met­tant d’im­plé­men­ter une tech­no­lo­gie de recon­nais­sance vocale sur un PC. Ces tech­no­lo­gies sont très com­plexes à mettre en œuvre (test sur un panel signi­fi­ca­tif de locu­teurs). Ces cartes ne sont pas dif­fu­sées au grand public.

1991

La pre­mière appli­ca­tion d’ap­pren­tis­sage de langues fon­dée sur la recon­nais­sance vocale est créée.

1994

C’est l’ar­ri­vée des cartes DSP grand public (sous Win­dows™).

1995

Des solu­tions logi­cielles issues de la tech­no­lo­gie des cartes font leur appa­ri­tion. Le pre­mier logi­ciel grand public sous Win­dows™ est lan­cé avec un sys­tème de recon­nais­sance vocale mul­ti­lo­cu­teurs fonc­tion­nant sur des phrases com­plètes. La recon­nais­sance vocale per­met au logi­ciel d’a­na­ly­ser la pro­non­cia­tion de l’ap­pre­nant et de l’é­va­luer grâce à un sys­tème d’é­va­lua­tion sophistiqué.

1996

La recon­nais­sance vocale est exploi­tée dif­fé­rem­ment selon son uti­li­sa­tion : méthode de langues ou logi­ciel de dic­tée vocale.

Paral­lè­le­ment au mar­ché des langues, les pre­miers logi­ciels de dic­tée vocale sont lan­cés sur le mar­ché. Le prin­ci­pal édi­teur est alors Dra­gon­Sys­tems. La recon­nais­sance vocale se fait mot à mot.

1998

Des méthodes com­plètes de langues sont lan­cées, dans les­quelles, pour la pre­mière fois, la recon­nais­sance vocale est appli­quée aux exer­cices linguistiques.

Sur le mar­ché de la dic­tée vocale appa­raissent les pre­miers logi­ciels auto­ri­sant la dic­tée en conti­nu.

1999

Une inno­va­tion tech­no­lo­gique révo­lu­tion­naire, SETS (Spo­ken Error Tra­cking Sys­tem) appa­raît et per­met de loca­li­ser les défauts de prononciation.

La recon­nais­sance vocale fonc­tion­nait déjà de façon conti­nue sur des phrases com­plètes et indé­pen­dam­ment du locu­teur. Res­tait encore un pro­blème qu’au­cune équipe de déve­lop­pe­ment n’a­vait réso­lu jus­qu’à pré­sent : iden­ti­fier l’élé­ment mal pro­non­cé dans une phrase complète.

Après plu­sieurs années de recherche, des ingé­nieurs ont mis au point une tech­no­lo­gie qui per­met de détec­ter auto­ma­ti­que­ment l’er­reur de pro­non­cia­tion dans une phrase. Cette tech­no­lo­gie exclu­sive, bap­ti­sée SETS (Spo­ken Error Tra­cking Sys­tem), fait l’ob­jet d’un dépôt de bre­vet. En repé­rant les points faibles dans la pro­non­cia­tion de l’ap­pre­nant, SETS repré­sente une avan­cée déci­sive dans l’ap­pren­tis­sage d’une langue étran­gère sur ordinateur.

Exploitation de la reconnaissance vocale dans les méthodes de langues

1. Le dialogue interactif

Grâce à la tech­no­lo­gie avan­cée de la recon­nais­sance vocale, l’u­ti­li­sa­teur engage un véri­table dia­logue avec son PC. Les réponses de l’u­ti­li­sa­teur orientent la conversation.

Sui­vant son niveau, l’ap­pre­nant para­mètre la recon­nais­sance vocale pour la rendre plus tolé­rante ou plus exi­geante quant à la qua­li­té de sa prononciation.

2. La prononciation de la phrase ou du mot

L’u­ti­li­sa­teur s’en­traîne à pro­non­cer une phrase ou un mot et obtient une note (score) lui per­met­tant d’é­va­luer la qua­li­té de son accent, de sa pro­non­cia­tion et de son intonation.

3. L’affichage de la phrase ou du mot prononcé

Le logi­ciel offre – en plus de l’é­va­lua­tion – la pos­si­bi­li­té de visua­li­ser pré­ci­sé­ment sa pro­non­cia­tion et son into­na­tion. Deux types de repré­sen­ta­tions (un graphe et une courbe) sont dis­po­nibles. L’u­ti­li­sa­teur peut les affi­cher simul­ta­né­ment ou séparément.

Le graphe vocal indique l’am­pli­tude de la voix en fonc­tion du temps (notion d’éner­gie). Il repré­sente l’in­ten­si­té sonore de la voix et donne des indi­ca­tions sur la struc­ture de la prononciation.

La courbe de la fré­quence fon­da­men­tale repro­duit les varia­tions de la fré­quence de la voix en fonc­tion du temps (notion de hau­teur). Cette courbe, com­plé­men­taire du graphe vocal, per­met à l’ap­pre­nant de com­pa­rer pré­ci­sé­ment son into­na­tion à celle du modèle (aigu/grave).

Les meilleurs logi­ciels pro­posent des fonc­tions qui éva­luent et per­mettent de visua­li­ser la pro­non­cia­tion et l’in­to­na­tion aus­si bien pour des phrases com­plètes que pour des mots.

4. Les animations de phonèmes en 3D

Grâce à des ani­ma­tions pho­né­tiques en images de syn­thèse, l’ap­pre­nant peut visua­li­ser avec une grande pré­ci­sion les mou­ve­ments arti­cu­la­toires pour mieux les reproduire.

Cette tech­no­lo­gie d’ex­cep­tion aide à com­prendre le fonc­tion­ne­ment arti­cu­la­toire de la pro­duc­tion de cer­tains sons et à les mémo­ri­ser, afin de mieux les reproduire.

Des exemples d’application

Glos­saire

  • Speech recog­ni­tionRecon­nais­sance vocale
    Ensemble des tech­no­lo­gies per­met­tant à une machine de recon­naître la parole.
  • Dif­fi­cul­ty level of the speech recog­ni­tionNiveau de dif­fi­cul­té de la recon­nais­sance vocale
    Niveau à par­tir duquel l’or­di­na­teur accepte un mot ou une phrase comme suf­fi­sam­ment bien pro­non­cé. Les pro­duits Aura­log per­mettent à l’u­ti­li­sa­teur de modu­ler ce niveau, afin d’a­dap­ter la dif­fi­cul­té de prononciation.
  • SETS (Spo­ken Error Tra­cking Sys­tem)Tech­no­lo­gie SETS
    Tech­no­lo­gie exclu­sive d’Au­ra­log per­met­tant de détec­ter auto­ma­ti­que­ment l’er­reur de pro­non­cia­tion dans une phrase complète.
  • Wave­form - Graphe vocal
    Repré­sen­ta­tion gra­phique de l’am­pli­tude de la voix en fonc­tion du temps. Ce graphe donne une indi­ca­tion sur la struc­ture de la prononciation.
  • Pitch curveCourbe de la fré­quence fondamentale
    Repré­sen­ta­tion gra­phique per­met­tant de visua­li­ser les varia­tions de la fré­quence de la voix en fonc­tion du temps et ain­si d’a­mé­lio­rer l’intonation.
  • Word-by-word speech recog­ni­tionRecon­nais­sance vocale mot à mot
    Pour être recon­nus par l’or­di­na­teur, les mots doivent être pro­non­cés iso­lé­ment, c’est-à-dire entre­cou­pés de silences.
  • Conti­nuous speech recog­ni­tionRecon­nais­sance vocale en continu
    Carac­té­rise les moteurs de recon­nais­sance vocale les plus évo­lués. Le dis­cours avec l’or­di­na­teur peut se faire en continu.
  • Spea­ker-dependent sys­temSys­tème monolocuteur
    Sys­tème de recon­nais­sance vocale adap­té ou adap­table via un pro­ces­sus d’en­traî­ne­ment à un locu­teur particulier.
  • Spea­ker-inde­pendent sys­temSys­tème multilocuteurs
    Recon­nais­sance vocale fonc­tion­nant pour tout un groupe de locu­teurs, ce groupe pou­vant, à l’ex­trême, inté­grer n’im­porte quelle per­sonne par­lant la langue apprise.
  • DSP (Digi­tal Signal Pro­ces­sor)Pro­ces­seur de signal
    Pro­ces­seur per­met­tant d’im­plé­men­ter une tech­no­lo­gie de recon­nais­sance vocale dans un micro-ordi­na­teur. Il a été rem­pla­cé par des solu­tions logi­cielles de recon­nais­sance vocale. (le prin­ci­pal logi­ciel est IBM ViaVoice)

Le nou­vel aéro­port de Hong-Kong, Chek Lap Kok, uti­lise des CD-ROM Sky­talk avec recon­nais­sance vocale pour son centre de for­ma­tion au contrôle du tra­fic aérien. Ces CD-ROM per­mettent aux pilotes et aux aiguilleurs du ciel de per­fec­tion­ner leur expres­sion orale en anglais. Sky­talk invite l’u­ti­li­sa­teur à jouer le rôle d’un pilote ou d’un aiguilleur du ciel en pre­nant part à un dia­logue inter­ac­tif, ins­pi­ré d’un réel échange radio. Les conver­sa­tions, basées sur des échanges et des situa­tions très carac­té­ris­tiques, per­mettent à l’ap­pre­nant de se fami­lia­ri­ser avec le voca­bu­laire propre à l’aviation.

Grâce à la recon­nais­sance vocale, qui favo­rise un appren­tis­sage per­son­na­li­sé, l’or­di­na­teur joue le rôle de pro­fes­seur par­ti­cu­lier : il pose des ques­tions à l’u­ti­li­sa­teur, réagit en fonc­tion de ses réponses et éva­lue sa pro­non­cia­tion au fil de la conver­sa­tion. Dans l’exer­cice de pro­non­cia­tion, celui-ci s’en­traîne à pro­non­cer les expres­sions dif­fi­ciles et sur­monte ain­si rapi­de­ment ses hési­ta­tions. Très inter­ac­tive, cette méthode enseigne aux appre­nants à com­prendre et à réagir rapi­de­ment dans des situa­tions très diverses, fac­teur pri­mor­dial pour garan­tir la sécu­ri­té des com­mu­ni­ca­tions sol/air.

Pour bon nombre d’or­ga­nismes, la com­mu­ni­ca­tion en anglais entre les pilotes et les aiguilleurs du ciel est deve­nue une pré­oc­cu­pa­tion majeure. L’u­ti­li­sa­tion de ces outils s’ins­crit donc, pour ces centres de for­ma­tion, dans un effort conti­nu d’a­mé­lio­ra­tion de la sécu­ri­té aérienne. D’autres orga­nismes uti­lisent la même méthode, tels que la Sin­ga­pore Avia­tion Aca­de­my et l’or­ga­nisme de for­ma­tion ita­lien, la Ente Nazio­nale di Assis­ten­za al Volo.

En France, le minis­tère de l’É­du­ca­tion natio­nale a équi­pé la tota­li­té des Ins­ti­tuts uni­ver­si­taires de for­ma­tion des maîtres (IUFM) et des Centres régio­naux de docu­men­ta­tion péda­go­gique (CRDP) en CD-ROM Tell me More. De la même façon, en Espagne, la Jun­ta de Anda­lu­cia a acquis plus de 500 licences afin de cou­vrir l’en­semble du sys­tème sco­laire secon­daire d’Andalousie.

De nom­breuses entre­prises s’in­té­ressent éga­le­ment à ces méthodes, qui consti­tuent un outil de for­ma­tion per­for­mant pour leurs sala­riés : citons Mer­cedes-Benz, qui équipe la tota­li­té de son groupe avec plus de 2 000 licences ou l’U­nion des Banques suisses, avec plus de 500 licences.

Der­nier équi­pe­ment en date, la com­pa­gnie aérienne natio­nale Air France vient d’ac­qué­rir 1 000 licences de CD-ROM : 900 licences « clas­siques » seront répar­ties dans les centres de for­ma­tion ou dans les antennes d’Air France du monde entier, et 100 licences « dépor­tées » per­met­tront aux employés de la com­pa­gnie d’é­qui­per leurs propres micro-ordinateurs.

L’u­ti­li­sa­tion de licences dépor­tées per­met­tra donc aux appre­nants de pour­suivre leur appren­tis­sage à domi­cile ou lors de fré­quents dépla­ce­ments. Cet équi­pe­ment porte sur les 6 langues d’ap­pren­tis­sage prin­ci­pales (anglais bri­tan­nique, anglais amé­ri­cain, espa­gnol, alle­mand, ita­lien, fran­çais langue étran­gère), selon tous les niveaux (débu­tant, moyen, confir­mé, affaires).

Poster un commentaire