Lettre de ligason :

Seleccionatz vòstra lenga

Formatage TEI

Lo Congrès a primièr utilizat la nòrma TEI dins l'encastre de son projècte Lexics, qu'a per tòca de formatar totes sos lexics (flexionals, bilingües, toponimics, especializats...) en XML per los tornar interopérables e legibles per las maquinas. S'i es puèi apondut lo formatage de còrpus textuels pel projècte Còrpus que vòl constituïr una basa de tèxtes per bastir d'espleches de TAL. Per menar aqueles dos obradors, a definit dels estandards de balisatge en TEI P5 adaptats al formatage de lexics e de còrpus occitans.

"d'estandards adaptats al formatage
de lexics e de còrpus occitans"

la nòrma TEI, qué es ?

La nòrma TEI (Text encoding iniciativa) es un jos-lengatge del XML (Extensible Markup Language) que permet, gràcias a de balisas, d'indicar la natura de cada element d'un tèxt (mot, frasa, morfèma...). Es pensat per tornar los tèxtes legibles per las maquinas, en particular dins los domenis de la lingüistica e de las sciéncias umanas e socialas.

Se volètz comprene melhor çò qu'es lo format TEI, saber perqué lo Congrès l'a causit e descobrir las possibilitats de desvolopament qu'ofrís, trobaretz dins la video çai jos las explicacions d'Aure Séguier, responsabla del pòl TAL del Congrès :

Causida de DTD

Las possibilitats qu'ofrís la nòrma TEI son plan larjas e variadas. Las preconizacions daissan la plaça a l'interpretacion per poder respondre a de besonhs tan diferents coma l'etiquetatge de diccionaris, la descripcion de manuscrits, la transcripcion de l'oral o l'anotacion de còrpus. Lo Congrès a donc degut causir qualas balisas èran adaptadas al material que voliá anotar (diccionaris bilingües pensats per l'edicion papièr, lexics flexionals per la construccion d'espleches TAL, còrpus textuels e audio...) e las especificitats de la lenga occitana (gestion de la varietat...).

En parallèl, a calgut definir dels estandards d'etiquetatge de mantuna donada, coma las informacions d'usatge, las zònas geograficas o las categorias gramaticalas. Per aquestas, caliá que l'estandard siá compatible tanben plan pel francés que per l'occitan, e aisidament convertible dins los diferents jòcs d'etiquetas utilizats dins lo TAL (Eagles, Grace...).

Los estandards definits son descriches dins los documents seguents :

Standard TEI pel formatage de lexics occitans

Preconizacions del Congrès permanent de la lenga occitana

Veire lo document

Standard TEI pel formatage de còrpus occitans

Preconizacions del Congrès permanent de la lenga occitana

Veire lo document

Jòc d'etiquetas de categorias gramaticalas

Etiquetas de PoS utilizadas pel Congrès

Veire lo document

Ne saber mai

Per ne saber mai sus la nòrma TEI en general :

Ne saber mai

Formatage TEI

Lo Congrès utiliza la nòrma TEI dins l'encastre de son projècte Lexics, qu'a per tòca de formatar totes sos lexics

Veire la pagina

Codes IANA de varietats

Codes estandardizats per tal d'identificar las lengas, lors varietats, lors grafias e lors alfabets.

Veire la pagina

Etiquettes de POS

Jòc d'etiquetas gramaticalas adaptat a la lenga occitana.

Veire la pagina