Deutsch-tschechisches Parallelkorpus

Geschichte und Gegenwart

Bis zum Jahr 2000 hatte es noch kein funktionsfähiges deutsch-tschechisches Parallelkorpus gegeben, aber da der Bedarf nach einem derartigen Korpus für Forschungs- und Unterrichtszwecke immer dringlicher wurde, initiierte der Lehrstuhl für deutsche Sprache und Literatur an der Pädagogischen Fakultät der Masaryk-Universität in Brünn ein entsprechendes Projekt.

Die Idee zum Aufbau eines deutsch-tschechischen Parallelkorpus reicht bis in den Herbst 2000 zurück, erste konkrete Schritte erfolgten im Juni 2001. Auf dem AURORA-Server der Fakultät für Informatik der Masaryk-Universität wurde das Korpus im Jahr 2002 intern zugänglich gemacht. Damals umfasste es 58 parallele Texte unterschiedlicher Genres (19 literarische Werke, 23 publizistische Texte überwiegend aus dem Internet und 16 Fachtexte). Insgesamt zählte das Korpus 435 947 Wörter allein im tschechischen Teil. (Die deutschen wurden nie gezählt, so dass sich nur schätzen lässt, dass die erste funktionsfähige Version des Korpus insgesamt knapp eine Million Wörter enthielt.)

Der tschechische Teil des Korpus wuchs anschließend alljährlich um rund 200 000 Wörter (mit entsprechendem Zuwachs natürlich auch bei der deutschen Entsprechung) erweitert, bis Ende 2005 der heutige Umfang erreicht war.

Das Korpus ist voll funktionsfähig, wird aber derzeit nicht erweitert.

Parameter

Die Zusammenstellung und die Funktionen des Korpus unterliegen Kriterien, die sich nach Zweck und Verwendung richten. Das deutsch-tschechische Parallelkorpus ist ein synchrones Korpus. Dies bedeutet, dass es ausschließlich Texte enthält, die im Idealfall nach 1910 publiziert wurden. Die überwiegende Mehrzahl der Texte ist jedoch erst nach 1950 entstanden, im Falle der nichtbelletristischen Texte stammen alle aus der Zeit nach 1990.

Bei der Auswahl der Texte galt der Grundsatz der Zweisprachigkeit, d. h. einer der parallelen Texte ist stets der Originaltext, der andere dagegen eine Übersetzung ebendieses Originals. Das Verhältnis von tschechischen und deutschen Originaltexten sollte idealerweise 1 : 1 betragen, tatsächlich jedoch sind die tschechischen Originale mit 63 % überrepräsentiert.

Das Korpus ist nicht spezifisch und allgemein, d. h es enthält Texte aller verfügbaren Typen und Stilebenen. In dieser Hinsicht haben wir uns auch um prozentuale Ausgewogenheit bemüht: 25 % publizistische Texte, 25 % Fachtexte und 50 % Belletristik. Tatsächlich wurde folgendes Verhältnis erreicht: 63 % Belletristik, 17 % Publizistik, 20 % Fachtexte.

Übersicht der Parameter:

  • Korpusmanager: bonito
  • Zahl der enthaltenen Texte: 184
  • Zahl der Positionen:
  • tschechische Parallelversion: 3 637 825
  • deutsche Parallelversion: 4 202 887
  • Alignment:
    ja (manuell, auf Satzebene)
  • Lemmatisierung:
    ja (in beiden Parallelversionen)
  • Tagging (morphologische Markierung):
    tschechischer Teil (automatisch): ajka (vollständige morphologische Informationen)
    deutscher Teil (automatisch): TreeTagger (nur Wortarten)
  • Desambiguierung (Eindeutigmachung von Homonymen):
    nein
  • Metainformationen (Informationen zu den enthaltenen Texten):
    ja (siehe Katalog der Texte)
  • Verfügbarkeit:
    online nur intern
    CD (Version 2003)
  • Katalog der enthaltenen Texte: hier

 

Zugang

Das Korpus wurde ausschließlich für wissenschaftliche und pädagogische Zwecke erstellt.
Es befindet sich auf dem Server der Fakultät für Informatik der Masaryk-Universität in Brünn und ist nur intern zugänglich.
Die meisten Texte des deutsch-tschechischen Parallelkorpus wurden inzwischen in das multilinguale Korpus INTERCORP aufgenommen.

Nutzung

Bereits seit der ersten Version (2002) wird das Korpus zu Forschungs- wie zu Unterrichtszwecken genutzt. Seither sind basierend auf den im Korpus enthaltenen Daten etliche Arbeiten entstanden, von denen wir hier nur diejenigen angeben, die uns bekannt sind und die nicht elektronisch zugänglich sind (z. B. über das Informationssystem der Masaryk-Universität).

Partner

Von Anfang an wurde die Erstellung des Korpus moralisch, später teils auch finanziell unterstützt durch das Institut des Tschechischen Nationalkorpus an der Philosophischen Fakultät der Prager Karls-Universität.

Das Korpus ist entstanden mit der finanziellen Unterstützung des Ministeriums für Schule, Jugend und Sport im Rahmen der Entwicklungsprojekte ROZV/31/2002 Elektronisches tschechisch-deutsches Parallelkorpus und des Programms AKTION Tschechische Republik – Österreich

Weiter beteiligte Institutionen (auch im Rahmen von Projekten):

Andere Korpora mit deutschen Anteilen

Korpora anderer Sprachen (Link zur Homepage des Instituts des Tschechischen Nationalkorpus)

More info