Zaar Guidelines
#
UPOS
#
Distribution of upos
in SUD_Zaar-Autogramm:
pattern { X [upos] }
X.upos
PUNCT
#
The PUNCT
upos is used to encode prosodic elements in the transcription.
pattern { X [upos=PUNCT] }
X.form
PART
#
The PART
upos is used with many lemmas in the Zaar treebank.
pattern { X [upos=PART] }
X.lemma
All PART
have a feature PartType
:
pattern { X [upos=PART] }
X.PartType
Comment convertir en UD. Pour UD
PART doit être utilisé de façon très restrictive. Il doit n’y avoir qu’un petit nombre de lemmes, qu’il faut déclarer (comme pour les AUX).
En fonction des PartType
les PART
sont presque toujours tête ou feuille:
https://universal.grew.fr/?custom=68e29e3f5b1c3 → regarder les exceptions.
AUX
#
The AUX
tag is used with many lemmas:
pattern { X [upos=AUX] }
X.lemma
54 lemmes différents pour les AUX
(avec count). Problème pour la conversion UD où on doit déclarer chaque lemme séparément.
NB: pour le moment, on enlève les lemmes des AUX à la conversion pour esquiver le validateur là-dessus !
Quelques AUX qui ne sont pas dans une structure syntaxique attendue:
https://universal.grew.fr/?custom=68e2a11dc1dda