StartSeite | Neues | TestSeite | Teilnehmer | Projekte | Kategorien | Index | Einstellungen | Ändern
Veränderung (letzte Korrektur)
(Änderung, Normalansicht)
Verändert: 27c27
* 'type of rules' enthaelt Regeln zur Beugung der einzelnenW orte. Das Format der Eintraege ist <i>Worttyp</i>, <i>Name</i>, <i>Regeln</i>
|
* 'type of rules' enthaelt Regeln zur Beugung der einzelnen Worte. Das Format der Eintraege ist <i>Worttyp</i>, <i>Name</i>, <i>Regeln</i>
|
Das Datenaustausch-Format dient dem Import und Export der
internen Datenbasis. Es handelt sich hierbei um ein reines
ASCII-Format, wodurch diese Dateien auch mit einem einfachen Editor und diversen Filtern bearbeitet werden können.
Das Format untergliedert sich in verschiedene Bereiche, die durch [<i>name</i>] unterteilt werden. Zur Zeit kann name folgende Werte annehmen:
- 'definitions' enthält verschiedene Variablen, die in der Form <i>variable</i>=<i>wert</i> zugewiesen werden.
- variable kann folgende Werte annehmen:
- 'language' ist der Name der Sprache
- 'foreignlanguage' ist der Name der Fremdprache
- 'characterset ' gibt den verwendeten Zeichensatz bei der jeweiligen Sprache an.
- Im Moment gibt es folgende Zeichensaetze:
- 'ASCII-8', 'ASCII-7', 'UTF-8', 'UTF-7', 'Unicode' und den 'Transport-Code'. Der 'Transportcode' entspricht meiner Notation fuer Eingaben von Zeichen, die nicht dem 'ASCII-7'-Zeichensatz entsprechen, also z.B. '\ao' fuer das kleine schwedische Angström.
- Der Zeichensatz sollte so gewählt werden, dass die Datenbasis so klein wie möglich wird, also z.B. 'ASCII-7' bei Englisch, 'ASCII-8' bei Deutsch, 'Unicode', 'UTF-7' oder 'UTF-8' bei asiatischen Sprachen ...
- Siehe auch: CharSets
- 'checksum' enthält eine CRC über den Datenbereich. Datensätze mit einer ungültigen Checksumme erhalten die niedrigste Qualitätsstufe und die ID wird nicht interpretiert.
- 'type of words' enthält eine Liste von Worttypen in der Form <i>Kurzform</i>, <i>Name</i>
- 'type of rules' enthaelt Regeln zur Beugung der einzelnen Worte. Das Format der Eintraege ist <i>Worttyp</i>, <i>Name</i>, <i>Regeln</i>
- Worttyp ist die Kurzform des entsprechenden Worttyps
- Name ist eine prägnante Bezeichnung für die Worte, die mit dieser Regel gebeugt werden
- Regeln ist eine ','-separierte Liste mit Transformationsregeln
- Eine Transformationsregel hat die Form [~][<i>Text</i>][<i>number</i>]%<i>parameter</i>[<i>number</i>][<i>Text</i>]
- '[' und ']' umgeben optionale Teile der Regel.
- '~' gibt an, ob die Regel invers eingesetzt werden soll
- Text steht für einen beliebigen Text, der an die jeweilige Position gesetzt wird
- number ist die Anzahl von Buchstaben, die von dem zu beugenden Wort abgeschnitten werden.
- parameter ist eine Ziffer, die angibt, welches Wort aus einer Wortliste mit der Regel genau gebeugt wird. Die Wortliste kann bis zu 10 Worte enthalten und wird ebenfalls durch diese Regel ais einem Basiswort gebildet
- Bei inverser Anwendung der Regel wird der mittlere Teil des Wortes herausgeschnitten
- Bei jeder Regel gibt es eine Basis-Regel mit Name 'basic'. Diese dient dazu, bei Frontends den Struktur der durch Regeln transformierten Worte anzuzeigen. Die durch die Regeln gebildeten Worte können als Tabelle betrachtet werden. Die 'basic'-Regel s, basic, 4, 2, S, P, N, G, D, A stellt eine Tabelle mit der folgenden Form dar:
S | P
N| x | x
G| x | x
D| x | x
A| x | x
- Ferner gibt es noch die Regel 'order', die standardisierte Kürzel für die jeweilige Form der Flexion des Wortes an dieser Position angibt. Die z.Zt. definierten Kürzel findet man unter FlexionsFormen.
- 'type of dialects' enthält eine Liste mit den in der Datei verwendeten Dialekten. Die Form der Einträge ist analog zu den Einträgen der Worttypen
- 'local attributes' spezifiert die Eigenschaften eines Wortes näher, die abhängig von der Sprache sind, wie z.B. das Geschlecht bei Substantiven. Die Form ist <i>Worttyp</i>, <i>Kürzel</i>, <i>Name</i>
- Worttyp ist Kurzform des Wortyps,
- Kuerzel ist die Kurzform der Eigenschaft und
- Name ist die Eigenschaft
- Auch hier gibt es 'basic'-Einträge für die Frontends, wobei die Eigenschaften als Bitfelder interpretiert werden.
- 'global attributes' gibt die globalen Eigenschaften des Grundwortes an, die unabhängig von der Sprache sind, wie z.B. daß ein Verb transitiv ist. Das Format gleicht dem Format der lokalen Attribute.
- 'classified words' enthält die Worte, die in der Datenbasis enthalten sind. Jeder Eintrag hat mindestens zwei Elemente der Form <i>Kuerzel</i>: <i>Inhalt</i>, wobei die Elemente durch '|' voneinander getrennt sind. Die zur Zeit verwendeten Kürzel finden sich auf DefinierteElemente. Bei den Einträgen ist folgendes zu beachten:
- Alternative Schreibweisen werden durch '/' voneinander getrennt, wobei es für jede Schreibweise eine eigene lokale Attribute, Basisregeln und Regeln geben muß, die ebenfalls durch '/' voneinander getrennt werden
- Gibt es alternative Beugungsformen, so werden diese durch ein '!' voneinander getrennt. dem %0!dem%0e erzeugt aus dem Basiswort 'Greis' die beiden Formen 'dem Greis' und 'dem Greise'
Kommentare werden durch ein '#' eingeleitet, ungewollte Zeilenumbrüche mit '\' maskiert. Alternative Worte werden durch ein '/' getrennt, wobei für jede Alternative ein eigener Regelsatz angegeben werden muß.
Es müssen nicht alle Informationen, die in der Datei enthalten sind, verwendet werden. Es muss aber sichergestellt sein, daß alle Informationen, die vor einem Import in der Datei standen, nach einem Export wieder in der Datei enthalten sind. Es darf also bei einem erneuten Export kein Informationsverlust entstehen.
Non german speakers can translate this page with 'babelfish', which can be found at http://babelfish.altavista.com/translate.dyn.
Siehe AustauschFormatDiskussion, AustauschFormatBeispiel FlexionsFormen DefinierteElemente
KategorieAustauschformat
StartSeite | Neues | TestSeite | Teilnehmer | Projekte | Kategorien | Index | Einstellungen | Ändern
Text dieser Seite ändern (zuletzt geändert: 19. April 2003 21:26 (diff))