StartSeite | Neues | TestSeite | Teilnehmer | Projekte | Kategorien | Index | Einstellungen | Ändern
Das Austauschformat enthält zur Zeit folgende Element:
- 'wo' ist das Wort in der eigenen Sprache
- 'ty' ist die Kurzform des Worttyps
- 'ar' ist der Bereich, in dem das Wort verwendet wird
- 'ab' enthält die Abkürzung für dieses Wort
- 'bl' gibt die Stammsprache des Wortes an, z.B. französisch bei Portemonnaie
- 'di' enthält die Kurzform des Dialektes, in dem das Wort gebräuchlich ist
- 'br' ist die Basisregel, aus der die Wortlisten für die Regeln generiert werden, durch ',' separiert
- 'ru' verweist auf die Hauptregeln
- 'fw' ist ein Fremdwort, das dem Wort 'wo' entspricht
- 'la' enthält die lokalen Attribute, durch ',' separiert
- 'ga' enthält die globalen Attribute, durch ',' separiert
- 'de' enthält eine Beschreibung des Wortes, durch die dieses Wort eindeutig gemacht wird
- 'ud' dasselbe wie 'de' in Englisch
- 'id' ist die Nummer des Wortes, welche der Metasprache entspricht
- 'qu' gibt die Qualität des Wortes ein Stufen von 0 bis 15 an.
- 0: ungeprüftes Wort
- 1: automatisch klassifiziert
- 2: grob überarbeitet
- 3 -
- 12: von mehreren nicht Muttersprachlern mit der entsprechenden Qualifikation bearbeitet
- 13: von einem Muttersprachler geprüft
- 14: die mehrsprachige Verkettung wurde von mehreren Muttersprachlern geprüft (mindestens 3)
- 15: Das Wort wurde mit der höchsten Genauigkeit klassifiziert
- 'so' enthält die Quellenangabe des Wortes, z.B. http://www.freedict.de (Freedict Datenbank)
- 'ed' gibt den letzten Editor des Wortes an, z.B. rae@widat.de <Ralf Ebert>
- 'ph' enthält 'wo' in einer phonetisch reduzierten Form
- 'pr' enthält 'wo' in der internationalen Lautschrift
Ich weiß nicht so recht, was ich mit dem Feld 'id' gedanklich anfangen soll. Könntest du etwas über die TranslatorMetaSprache? schreiben? Besteht deine Metasprache nur aus numerischen Einheiten, verwendest du eine bestehende Sprache (wie Esperanto od Loglan) oder hast du ein System eigener Worte entwickelt? --hl
Da ist eigentlich nichts zu erklären, was ich nicht bereits schon gesagt habe. Der Begriff Metasprache ist für mich ein Synonym für die Sprache, die auf den lexikalischen Begriffen der Datenbank basiert in Verbindung mit einer einheitlichen grammatikalischen Grundstruktur (die in programmiertechnischer Ausprägung zu sehen ist). Da ich zu faul bin, mir eigene Worte zu überlegen, nehme ich einfach anstelle von Worten deren numerische ID, die in dem Feld 'id' angegeben ist. Diese 'id' verweist auf den entsprechenden Eintrag in der lexikalischen Datei.
Neben der Möglichkeit, sowohl mit einer zentralen Datenbank als auch mit verschiedenen lokalen Untermengen zu arbeiten, hat diese Vorgehensweise noch ein paar andere für Übersetzungen brauchbare Vorteile. -- rae
Ralf, du musst davon ausgehen, dass die Datenbankorganisation im Wb3 nicht identisch sein wird wie bei dir. Der Wb3 wird immer alle Wortinformationen in einer einzigen Datei halten, unabhängig davon, wieviele Sprachen unterstützt werden. Es wird keine physikalische Trennung (in verschiedenen Files) zwischen lexikalischen und nichtlexikalischen Worten geben. All das muss sich in den Feldinformationen wiederspiegeln. Das bedeutet aber wiederum, dass eine numerische ID Probleme aufwerfen kann (Eindeutigkeit in verteilter Umgebung, Eindeutigkeit über Sprachgrenzen hinweg etc.). Das ist eine Sache, die seit den Urzeiten des WB-Projektes zu erbitterten Auseinandersetzungen geführt hat. Nicht zuletzt habe ich den WB3 geschrieben, um zu zeigen, dass ein System ohne solche numerischen IDs auskommen kann. Den Gegenbeweis eines funktionierenden Systems auf Basis einer relational zergliederten Datenbankstruktur sind die jeweiligen Protagonisten schuldig geblieben (nicht, dass es nicht möglich wäre, aber der Aufwand ist zu hoch). -- hl
Ich habe mich da wohl etwas missverständlich ausgedrückt ...
- Ich gehe grundsätzlich davon aus, dass sich die Datenbasen der einzelnen Projekte stark voneinander unterscheiden werden, da jede Datensammlung eine eigene Aufgabe haben wird. Mein Bestreben mit der Seite Wb3UndAustauschFormat ist es, die minimale Vereinigungsmenge der in unseren Datenbanken enthaltenen Informationen zu finden, damit Daten zwischen den einzelnen Projekten verlustfrei ausgetauscht werden können. Parallel dazu versuche ich, das Austauschformat eventuell etwas kompakter zu machen. Die Realisierung der einzelnen Datenbanken ist davon nicht betroffen.
- Die Diskussion um die IDs habe ich mitbekommen (ich habe mich damals nicht grundlos entschlossen, mich drei Monate durch das Mail-Archiv zu wühlen ;-) ). Für deinen Anwendungsfall ist eine numerische ID nicht nötig, da du Teile der Daten als eindeutigen Schlüssel heranziehst. Bei mir ist die ID definitiv notwendig, da ich andernfalls die Definition des Wortes in jeder Sprache mitschleppen müsste. Dadurch würde ich mir aber die Möglichkeit nehmen, die Definitionen der Worte im nachhinein zu verfeinern, da ich andernfalls jeden Datensatz der Sprachdateien, der sich auf das Wort bezieht, anpassen müsste --- das wäre bei dem System, so wie ich es angedacht habe, ein ziemlicher Aufwand. Deswegen bezeichne ich die von mir verwendete ID auch als Metawort oder lexikalischen Begriff.
Folgende Situation wäre zur Zeit möglich (ich bitte um Nachsicht, was die näheren Beschreibungen angeht):
lexikalische Datei:
Record# | Typ | nähere Beschreibung |
123 | Substantiv | auf dem Land lebendes Säugetier mit aufrechtem Gang und das sich als Krone der Schöpfung bezeichnet |
271 | Substantiv | im Wasser lebendes Tier |
321 | Substantiv | im Wasser lebendes Säugetier |
344 | Verb | Eigenschaft von Materie mit einem Stoffwechsel |
|
deutsche Wortliste:
Wort | id | lokales Attribut |
Fisch | 271 | männlich ohne geschlechtliche Ausprägung |
leben | 344 | |
Mann | 123 | männlich |
Mensch | 123 | männlich ohne geschlechtliche Ausprägung |
Wal | 321 | männlich ohne geschlechtliche Ausprägung |
|
englische Wortliste:
Wort | id | lokales Attribut |
fish | 271 | Artikel 'a' |
human | 123 | Artikel 'a' |
life | 344 | |
man | 123 | Artikel 'a' |
whale | 321 | Artikel 'a' |
|
In einer späteren Version könnte es dann so aussehen:
lexikalische Datei:
Record# | Typ | nähere Beschreibung |
123 | Substantiv | auf dem Land #344 #1025 mit aufrechtem Gang und das sich als Krone der Schöpfung bezeichnet |
271 | Substantiv | im Wasser #344 #1000 mit Kiemen und Flossen |
321 | Substantiv | im Wasser #344 #1025 |
344 | Verb | Eigenschaft von organischer Materie mit einen Stoffwechsel |
1000 | Substantiv | sich selbst fortbewegendes Lebewesen |
1024 | Substantiv | im Wasser #344 Lebewesen mit Lunge |
1025 | Substantiv | welches #344 Nachkommen gebärendes #1000 |
|
deutsche Wortliste:
Wort | id | lokales Attribut |
Wal | 321 | männlich ohne keine geschlechtliche Ausprägung |
Fisch | 271 | männlich ohne keine geschlechtliche Ausprägung |
Mensch | 123 | männlich ohne keine geschlechtliche Ausprägung |
Mann | 123 | männlich |
leben | 344 | |
Amphibie | 1024 | weiblich ohne geschlechtliche Ausprägung |
Säugetier | 1025 | neutrum ohne geschlechtliche Ausprägung |
Tier | 1000 | neutrum ohne geschlechtliche Ausprägung |
|
englische Wortliste:
Wort | id | lokales Attribut |
amphibian | 1024 | Artikel 'an' |
animal | 1000 | Artikel 'an' |
whale | 321 | Artikel 'a' |
fish | 271 | Artikel 'a' |
human | 123 | Artikel 'a' |
man | 123 | Artikel 'a' |
life | 344 | |
mammal | 1025 | Artikel 'a' |
|
Hierbei handelt es sich bei der Beschreibung um einen Mischmode, bei dem die bekannten Worte bereits in die Metaworte umgesetzt wurde. Die entgültige Form skizziere ich, sobald ich mir uber die grammatikalische Grundstruktur im klaren bin, da diese noch ein paar unübliche Elemente wie z.B. die Zeit, in der der Satz geschrieben wurde, enthalten wird.
Zurück zum AustauschFormat.
KategorieAustauschformat
StartSeite | Neues | TestSeite | Teilnehmer | Projekte | Kategorien | Index | Einstellungen | Ändern
Text dieser Seite ändern (zuletzt geändert: 1. März 2001 8:07 (diff))