Lettre de ligason :

Seleccionatz vòstra lenga

Còrpus

Lo Congrès - Projet Corpus

Lo projècte Còrpus del Congrès a per objectiu la constitucion d'un ensemble de còrpus pel desvolopament d'espleches de tractament automatic del lengatge. A un doble objectiu de quantitat (per poder entrainar d'intelligéncias artificialas) e de representativitat de la diversitat de l'espaci lingüistic occitan. Sos tèxtes son formatats segon los estandards del Congrès per la nòrma TEI.

Mai de 60 partenaris an fornit de donadas per bastir aquela impausanta ressorsa. De mèdias, dels editors, dels organismes de formacion, de las institucions, dels particulars, de las associacions culturalas... an balhat al Congrès dels contenguts tan variats coma de libres, de las emissions de ràdio e de television, de las videos sostitoladas, dels articles de premsa, dels contenguts de sits web, dels compte-tornats o documents de comunicacion... S'i son aponduts mantun contengut liure de dreches (Wikipédia, traduccions de logicials liures...). Las donadas venon de tot lo territòri e son tanben fòrça escrichas qu'oralas.

"mai de 60 partenaris
an fornit de donadas"

Actualament, la basa del projècte Còrpus conten :

  • Un còrpus monolingüe de mai d'8,5 milions de mots
  • Un còrpus parallèl occitan-francés de mai d'un milion de mots
  • De pichons còrpus parallèls de l'occitan cap a d'autras lengas, per un total de mai de 300 000 mots
  • Un còrpus audio alinhat de mai de 250 oras per quasi 1,5 milion de mots

Los còrpus audio e escriches servisson a entrainar l'intelligéncia artificiala del futur esplech de reconeissença vocala dins l'encastre del projècte ReVoc. De sòus-còrpus son egalament estats utilizats per testar lo traductor automatic Revirada e seleccionar de frasas a enregistrar per la sintèsi vocala Votz.