Lettre de ligason :

Seleccionatz vòstra lenga

ReVOc

Revoc - Lo Congrès

La reconeissença vocala es l'esplech qu'analisa la votz e que la transcriu jos la forma d'un tèxt escrich. Fa partida de las tecnologias de tractament de la paraula que permeton als umans d'escambiar oralament amb las maquinas, gràcias a las interfàcias vocalas.

La reconeissença vocala es indispensabla per realizar d'espleches coma lo sostitolatge automatic de videos, las aplicacions de dictada vocala o los assistents personals intelligents.

"Dotar l'occitan d'un esplech
de reconeissença vocala"

lo Congrès permanent de la lenga occitana participa a un programa transfrontalièr tercenal amb l'objectiu de dotar l'occitan (per sas varietats gascona e lengadociana) d'aquela tecnologia.

ReVOc

Trabalha en associacion amb la Rolde d'Estudios Aragoneses (que desvolopa la meteissa tecnologia per la lenga aragonesa), la fondacion basca Elhuyar (ne carga de la partida tecnica del programa) e mantuna estructura que produson dels contenguts multimédias en occitan.

Perqué la reconeissença vocala en occitan ?

Las tecnologias de la lenga – reconeissença vocala, sintèsi vocala, traduccion automatica o encara analisi semantica – son un enjòc vital per las lengas minorizadas. Per se projectar cap a una societat de mai en mai numerizada, devon dispausar de ressorsas e dels espleches necessaris per que los locutors escàmbien dins lor pròpria lenga per d'interfàcias. Mantun programa es estat realizat en aquel sens per la lenga occitana : Linguatec (traduccion automatica e sintèsi vocala), BaTelOc (basa textuelle occitana), ROLF (clavièrs predictius).

"la reconeissença vocala
permet la transcripcion de la votz en tèxt"

la reconeissença vocala permet la transcripcion de la votz en tèxt, una tecnologia qu'es uèi largament difusada dins d'aplicacions grand public, sustot pels assistents personals (Siri d'Apple, Google Home o encara Alexa d'Amazon pels mai coneguts) e pel sostitolatge automatic de videos. 

Sostitolatge de videos (captura OcTélé)

Exemples d'utilizacion de la reconeissença vocala

Assistents personals


« Òc ben, Google ! » Lo desvolopament de la reconeissença vocala permetrà de passar los assistents personals en occitan !

Sostitolatge de videos


Un programa de reconeissença vocala permetrà lo sostitolatge automatic de videos dins mantuna lenga.

Transcripcion automatica


Un modul de transcripcion automatica basat sus la reconeissença vocala ajudarà lo trabalh dels lingüistas.

Demostracion

Demostracions de la reconeissença vocala basca e espanhòla d'Elhuyar

Veire la demostracion

La plataforma de contribucion

Per recoltar una quantitat granda d'enregistrament transcriches, e que sián representatius de la diversitat dels locutors de l'occitan, Lo Congrès a desvolopat un esplech de contribucion per la comunautat. Sus aquela plataforma, cadun pòt enregistrar de frasas que seràn ajustadas al còrpus bastit amb los partenaris.

ReVOc

La plataforma de collècta del Congrès

Anar a la plataforma

La reconeissença vocala, coma aquò marcha ?

La reconeissença vocala utiliza l'intelligéncia artificiala (las rets neuronalas) per transcriure automaticament la votz en tèxt escrich.

Abans d'o poder far, cal entrainar l'IA amb de frasas audios ja transcrichas. I a donc besonh d'un grand còrpus audio transcrich, es a dire una quantitat granda de tèxt amb los enregistraments audios correspondents.

Cal egalament « noirir » la maquina amb de grands còrpus de tèxt sol. Atal, pòt aprene qualas formas son frequentas, qual mot apareis sovent al costat de tal autre...

Enfin, cal desvolopar de programas :

  • Un per passar en letras los nombres, los simbòls, las abreviacions, las unitats de mesura... abans de balhar un tèxt a la maquina.
  • Un « abréviateur » que fa l'invèrs, per rendre mai legibles los tèxtes prepausats als utilizators.
  • Un phonétiseur per obtenir la prononciacion en alfabet fonetic internacional d'un mot.
  • Un programa per aver totes los mots que correspondon a una prononciacion.

Las etapas de l'entrainament e de la transcripcion

Lo calendari

2020 : Definicion de las exigéncias, especificacions foncionalas e constitucion del còrpus

Una primièra etapa consistirà a descriure las exigéncias tecnicas, aital coma las especificacions foncionalas.

D'un ponch de vista tecnica, los desvolopaments per l'occitan seràn realizats dins l'estat de l'art, a saber per l'utilizacion de rets neuronalas (Intelligéncia Artificiala). Mas aquela tecnologia de poncha necessita un nombre plan important de donadas. Sol un còrpus ric, voluminós e variat garantirà un resultat de qualitat en fin de cadena.

Per aquò far, lo Congrès a engatjat una associacion amb mantun productor de contenguts textuels multimédias en occitan : institucions, mèdias, editors, productors de contenguts audiovisuals...

Es per aquò qu'aquela primièra fasa serà essencialament consacrada a un trabalh de collècta, de tractament (alinhament tèxt/sa) e d'estocatge de còrpus textuels e audios per l'occitan. S'estima a 200 oras mai o mens lo besonh de transcripcions e a 500 milions de mots lo còrpus textuel per cada varietat. L'occitan essent una lenga encara tròp pauc dotada, compensarem per l'utilizacion de còrpus gigants del francés e de l'espanhòl en obtenent, gràcias a la traduccion automatica, dels còrpus textuels occitans importants.

2021 : Finalizacion e desvolopament tecnologic

Una partida granda del projècte serà realizada pendent aquela fasa : acabar la collècta de las donadas necessàrias, realizar tres dels quatre lòts de trabalh mai tecnics per arribar a una version avançada del desvolopament. Concretament, prevesèm almens una començada avançada dels moduls seguents :

  • Creacion del modèl lingüistic.
  • Creacion del modèl acostic.
  • Desvolopament del transcriptor.

2022 : Desvolopament final e validacion

Dins la primièra partida d'aquela darrièra fasa, totes los desvolopaments tecnologics del projècte seràn acabats. La fasa de construccion dels transcriptors serà egalament acabada. Un còp integrats totas las compausantas tecnologicas, seràn somesas a una seria de tèstes intensius d'avaloracion.

Los actors

Membres e sostens

ReVOc es un programa novèl de desvolopament de la reconeissença vocala en occitan (varietats gascona e lengadociana) engatjat pel Congrès permanent de la lenga occitana. Aquel programa tercenal (2020-2022) se debana dins l'encastre d'una associacion transfrontalièra qu'assòcia l'institucion aragonesa Rolde d'Estudios Aragoneses (que desvoloparà la meteissa tecnologia per la lenga aragonesa) e la fondacion basca Elhuyar (ne carga de la partida tecnica del programa). Es sostengut financièrament per la Region Novèla Aquitània, la Region Occitània e lo Departament de Pirenèus Atlantics (apèls a projèctes transfrontalièrs).

Lo Congrès
Elhuyar
Rolde de estudios aragoneses
Eurorégion Nouvelle-Aquitaine - Euskadi - Navarre
Région Nouvelle-Aquitaine
Région Occitanie
Departament des Pyrénées-Atlantiques

L'associacion per la constitucion dels còrpus

Per entrainar l'intelligéncia artificiala, cal de grandas quantitats de donadas. L'occitan, lenga dicha « pauc dotada », a generalament pas aqueles ensembles grands de donadas. Per constituïr lo còrpus audio e lo còrpus textuel necessaris al desvolopament de la reconeissença vocala, Lo Congrès podiá pas obrar sol.

Una associacion, d'una envergadura inedita pertocant l'occitan, a donc estiu bastit per constituïr una basa audio e textuelle a la quala mantuna estructura es venguda portar lor contribucion.

A Hum
Altair VIDEO
Aprene
Auba Novela
Bartavèl
CARLADÉS ABANS !
Carnaval Vath Vielha
CFPÒC Nouvelle-Aquitaine
CFPÒC Occitanie
CIRDOC
Conta'm
CORDAE La Talvera
Diu Negre
Edite-moi !
LES ÉDITIONS CAPI
Eraldica occitana
Escòla Gaston Febus
Eth Ostau Comengés
IEO12 Institut d'Estudis Occitans d'Avairon
Jornalet
Le Lecteur du Val
 Letras d'òc
LA PASSEM !
POCTEFA
Atlas sonore des langues régionales de France
Lo Diari
MARA FILMS
MedievalOc
Menestrèrs Gascons
Novelum
Oc tele
Office public de la langue occitane
OSTAU BIARNES
Parpalhon Blau
Per Noste
Pirenèus
radio de gascogne de capsús a capvath
Ràdio Lengadòc
Ràdio País
Edicions RECLAMS
Sapiéncia
Tè Vé Òc

E tanben

  • Miquèu Baris
  • Bernat Bergé
  • Danís Chapduèlh
  • David Escarpit
  • David Grosclaude
  • Gérard Sabadèl
  • Lo Blòg Hadiu