Lo Congrès a primièr utilizat la nòrma TEI dins l'encastre de son projècte Lexics, qu'a per tòca de formatar totes sos lexics (flexionals, bilingües, toponimics, especializats...) en XML per los tornar interopérables e legibles per las maquinas. S'i es puèi apondut lo formatage de còrpus textuels pel projècte Còrpus que vòl constituïr una basa de tèxtes per bastir d'espleches de TAL. Per menar aqueles dos obradors, a definit dels estandards de balisatge en TEI P5 adaptats al formatage de lexics e de còrpus occitans.
de lexics e de còrpus occitans"
la nòrma TEI, qué es ?
La nòrma TEI (Text encoding iniciativa) es un jos-lengatge del XML (Extensible Markup Language) que permet, gràcias a de balisas, d'indicar la natura de cada element d'un tèxt (mot, frasa, morfèma...). Es pensat per tornar los tèxtes legibles per las maquinas, en particular dins los domenis de la lingüistica e de las sciéncias umanas e socialas.
Se volètz comprene melhor çò qu'es lo format TEI, saber perqué lo Congrès l'a causit e descobrir las possibilitats de desvolopament qu'ofrís, trobaretz dins la video çai jos las explicacions d'Aure Séguier, responsabla del pòl TAL del Congrès :
Causida de DTD
Las possibilitats qu'ofrís la nòrma TEI son plan larjas e variadas. Las preconizacions daissan la plaça a l'interpretacion per poder respondre a de besonhs tan diferents coma l'etiquetatge de diccionaris, la descripcion de manuscrits, la transcripcion de l'oral o l'anotacion de còrpus. Lo Congrès a donc degut causir qualas balisas èran adaptadas al material que voliá anotar (diccionaris bilingües pensats per l'edicion papièr, lexics flexionals per la construccion d'espleches TAL, còrpus textuels e audio...) e las especificitats de la lenga occitana (gestion de la varietat...).
En parallèl, a calgut definir dels estandards d'etiquetatge de mantuna donada, coma las informacions d'usatge, las zònas geograficas o las categorias gramaticalas. Per aquestas, caliá que l'estandard siá compatible tanben plan pel francés que per l'occitan, e aisidament convertible dins los diferents jòcs d'etiquetas utilizats dins lo TAL (Eagles, Grace...).
Los estandards definits son descriches dins los documents seguents :
Standard TEI pel formatage de lexics occitans
Preconizacions del Congrès permanent de la lenga occitana
Standard TEI pel formatage de còrpus occitans
Preconizacions del Congrès permanent de la lenga occitana
Jòc d'etiquetas de categorias gramaticalas
Etiquetas de PoS utilizadas pel Congrès
Ne saber mai
Per ne saber mai sus la nòrma TEI en general :