Z2-Tagger

Achtung: Die Dokumentation (diese Seite) und das eigentliche Programm werden im Augenblick nicht aktiv gepflegt!

Der Z2-Tagger ist ein Java-Tool, um TEI-codierte Texte zu taggen, d.h. konkret getaggte Einheiten mit Attributen zu versehen (= zu Anntoieren). Die zu bearbeitenden XML-Dateien müssen für diesen Tagger eine Struktur aufweisen, in der mindestens zwei Hierarchieebenen vorliegen: Über den zu annotiertenden Elementen muss mindestens eine weitere Hierarchieebene liegen:

<TEI.2>
 <teiHeader>
  (...)
 </teiHeader>
 <text>
  <body>
   <s no="0100.01">
     <w type="u">S</w>
     <c type="EndS">.</c>
     <w type="u">Luce</w>
     <w type="u">Euangelium</w>
   </s>
   <s no="0100.02">
     <w type="u">FÖRSTA</w>
     <w type="u">CAPITEL</w>
   </s>
     (...)
  </body>
 </text>
</TEI.2>

Die zu annotierenden Elemente waren in diesem Fall <w>, die übergeordneten Elemente <s>.

Download

Die aktuellste Version des Z2-Taggers lässt sich auf der Downloads-Seite herunterladen.


Wie funktioniert der Z2Tagger?

Der Z2Tagger durchsucht Texte, die nach den o.a. Parametern codiert sind, nach Formen aus einer bestimmten Liste von Formen ("wordlist"). Wird eine dieser Formen gefunden, kann der Anwender sie mit einem Attribut aus einer selber erstellten Liste versehen.

Programm starten

Bei ordnungsgemäß installierter Java-Umgebung sollte sich der Z2Tagger mit einem Doppelklick auf die .jar-Datei starten lassen.

Dateiauswahl

Wenn bereits eine tagoptions-Datei und eine TEI-konforme XML-Datei vorliegen, so lassen sich diese direkt öffnen und mit dem Taggen beginnen. Die zuletzt benutzten Dateien lassen sich im Datei-Menü direkt auswählen.

Neues Projekt

Um ein neues Projekt zu beginnen, laden sie zunächst die TEI-Datei (die TEI-Dateien lassen sich nicht im Tagger erstellen oder editieren - sie müssen bereits vorliegen). Wurde die Datei erfolgreich geladen, erscheint in der Statuszeile (direkt unter der Menüleiste) ein "OK" und im TEI-Header-Informationsfenster (oben rechts) die Informationen aus dem TEI-Header, sofern eingegeben.

Anwendung: Ein einfaches Beispiel

Angenommen, sie wollten ein bestimmtes Wort in einem ungetaggten Text mit einem bestimmten Attribut-Wert-Paar versehen. Nachdem sie den entsprechenden TEI-Text geladen haben, wählen Sie auf der rechten Seite den Reiter "Wordlist" an und geben sie das entsprechende Wort ein. Die zu suchenden Wörter werden Zeilenweise als Regular Expressions eingegeben: mit der hier abgebildeten Wortlist würde nach den Wörtern Och und Og gesucht, jeweils in Klein- oder Großschreibung. Wenn Sie die Wordlist fertig zusammengestellt haben, klicken Sie auf "accept changes".

wordlist

Anschliessend müssen Sie die tagoptions festlegen. Klicken Sie auf den entsprechenden Reiter. Zunächst müssen Sie eingeben, welchen Tag sie überhaupt mit Attributen versehen möchten ("tag what"). Es handelt sich um einen XPath-Ausruck, der komplexere Suchen ermöglicht. In unserem Fall suchen wir innerhalb aller <w>-Tags im Text. Der entsprechende XPath-Ausdruck hierfür ist "//w". Wenn Sie jetzt auf "accept changes" klicken, färbt sich das Eingabefeld grün. Sollte es sich rot färben, ist der XPath-Ausruck fehlerhaft. Wenn im Text Vorkommen der Suchwärter innerhalb von <w>-Tags gefunden wurden, färbt sich die Statuszeile grün und gibt die Anzahl der gefundenen Vorkommen an. Jetzt lässt sich bereits mit den "<<" und ">>"-Schaltflächen am unteren Rand durch die Suchergebnisse manövrieren.

Um tatsächlich Attribute setzen zu können, müssen die Felder unter "tag options" ausgefüllt werden. Unter att.name tragen Sie den Namen des Attributes ein (z.B. "pos" für part of speech), unter "new value" tragen Sie einen möglichen Wert ein. Nach einem Klick auf "accept changes" erscheinen zwischen den Navigationsschaltflächen am unteren Rand weitere Schaltflächen mit den entsprechenden Werten in verschiedenen Farben. Nun können Sie sich mit den Schaltflächen durch den Text bewegen. Wenn Sie auf ein Wort treffen, dass mit dem entsprechenden Attribut versehen werden soll, klicken Sie auf die Schaltfläche. Das Wort nimmt daraufhin die Farbe der Schaltfläche an um zu signalisieren, dass es bereits getaggt ist.

Wortlisten-Editor

Hat man noch keine Wortliste erstellt, so kann man das nach obiger Anleitung in einem beliebigen XML- oder Texteditor von Hand erledigen oder über den Button "new" eine neue erstellen. Man gelangt in den Wortlisten-Editor.

Im Feld "forms to search for" werden die Formen eingetragen, nach denen gesucht werden soll. Diese Formen müssen im Text in dem Tag stehen, das bei "tag name" angegeben wird. "attribute to set" gibt den Namen des Attributes an, das gesetzt werden soll, in den "attribute options(key)" stehen die möglichen Werte für das Attribut, gefolgt von einem Buchstaben in Klammern, der das Tastaturkürzel angibt, mit dem sich der Wert setzen lässt. Mit einem Klick auf "saveas" kann man die Datei unter einem neuen Namen speichern.
Taggen

Das eigentliche Taggerfenster sieht etwa so aus:

tagger

In der Mitte des Fensters kann man eine Fundstelle im Text sehen. Die gefundene Form wird gefettet und unterstrichen dargestellt. Ist der Form bereits ein Attributwert zugeordnet, erscheint sie farbig, und zwar in der gleichen Farbe wie die Schaltfläche, mit der man den entsprechenden Wert zuordnet. Zusätzlich steht der Wert noch einmal in eckigen Klammern hinter der gefundenen Form.
Alle Attribute, die diesem Tag zugeordnet sind, stehen noch einmal links in der Tabelle unter "found tag". Darunter, unter "parent tag", stehen die Attributwerte zum der gefundenen Form übergeordneten Tag - dieser Tag bestimmt, was im mittleren Fenster ausgegeben wird.

Unter dem Ausgaberahmen ist ein Schieberegler ("progress"), mit dem man sich innerhalb der Suchergebnisse bewegen kann. Dieser Schieberegler verhält sich linear zu den insgesamt gefundenen Tags, nicht zu den tatsächlich gefundenen Formen aus der Wortliste. D.h.: wenn im Text 2.000 <w>-Tags vorkommen, aber nur zwei eine gesuchte Form enthalten, so bildet der Schieberegler zwar 2.000 Einheiten ab, rastet aber nur an zwei Stellen ein. Das kann hilfreich sein, um die ungefähre Position der gefundenen Form im Text zu erkennen.

Mit der Fundstellen-Anzeige unter dem Schieberegler verhält es sich genauso. Um schnell an bestimmte Stellen springen zu können, kann man in dieses Feld auch eine Zahl eingeben und anschließend Enter / Return drücken - der Tagger springt dann an die Fundstelle, die dem eingegeben Tag am nächsten liegt.

Die Schaltflächen am unteren Rand des Fensters übernehmen das eigentliche Taggen: Die << und >> Buttons springen jeweils zur vorigen bzw. nächsten Fundstelle. Die Schaltflächen dazwischen entsprechen den in der Wortliste festgelegten Attribut-Optionen. Drückt man eine von ihnen, wird der gefundenen Form der sntsprechende Attributwert zugeordnet. Ist das entsprechende Attribut bereits vorhanden und gesetzt, so wird es geändert. Ist das Attribut noch nicht vorhanden, wird es hinzugefügt und gesetzt. Ist am oberen Rand des Fensters die Option "auto move next" gesetzt, so springt der Tagger nach drücken einer solchen Schaltfläche automatisch zur nächsten Fundstelle. Statt mit der Maus auf die Schaltflächen zu klicken, kann man auch die in der Wortliste angegebenen Tastaturkürzel benutzen: Wurde in der Wortliste z.B. varx(x) angegeben, so kann man mit Alt + x das Attribut entsprechend setzen.

Weitere Optionen

Im File-Menu finden sich die Optionen save (speichert das Dokument), save as (speichert unter neuem Namen), save as filename_tagged.xml (speichert unter dem angezeigten Namen: der Name des Dokumentes + _tagged) und "attach stylesheet": Hat man ein zur Dokumentdatei passendes Stylesheet, so kann man es mit dieser Option angeben.

Unter der Toolbar finden sich folgende Enstellmöglichkeiten:

Bekannte Probleme

* möglicherweise erscheint das Taggerfenster überhaupt nicht, wenn keine Formen gefunden werden;
* Bei Java-Versionen vor 1.4 auf dem Mac erscheinen die Schaltflächen möglicherweise nicht farbig;