Zaar

Zaar Guidelines #

UPOS #

Distribution of upos in SUD_Zaar-Autogramm:

pattern { X [upos] }
  X.upos 

PUNCT #

The PUNCT upos is used to encode prosodic elements in the transcription.

pattern { X [upos=PUNCT] }
  X.form 

PART #

The PART upos is used with many lemmas in the Zaar treebank.

pattern { X [upos=PART] }
  X.lemma 

All PART have a feature PartType:

pattern { X [upos=PART] }
  X.PartType 

Comment convertir en UD. Pour UD PART doit être utilisé de façon très restrictive. Il doit n’y avoir qu’un petit nombre de lemmes, qu’il faut déclarer (comme pour les AUX).

En fonction des PartType les PART sont presque toujours tête ou feuille: https://universal.grew.fr/?custom=68e29e3f5b1c3 → regarder les exceptions.

AUX #

The AUX tag is used with many lemmas:

pattern { X [upos=AUX] }
  X.lemma 

54 lemmes différents pour les AUX (avec count). Problème pour la conversion UD où on doit déclarer chaque lemme séparément.

NB: pour le moment, on enlève les lemmes des AUX à la conversion pour esquiver le validateur là-dessus !

Quelques AUX qui ne sont pas dans une structure syntaxique attendue: https://universal.grew.fr/?custom=68e2a11dc1dda