Česko-německý paralelní korpus

Historie a současnost

Jelikož neexistoval žádný fungující česko-německý paralelní korpus a jeho potřeba ve výzkumu a výuce byly stále naléhavější, iniciovala katedra německého jazyka a literatury Pedagogické fakulty Masarykovy univerzity v Brně jeho vznik.

Myšlenka vytvořit česko-německý paralelní korpus vznikla na podzim 2000, konkrétní budování začalo v červnu 2001. Na serveru AURORA Fakulty informatiky Masarykovy univerzity byl korpus interně zpřístupněn v roce 2002. Tehdy obsahoval korpus 58 textů paralelních textů různých žánrů (19 literárních děl, 23 publicistických textů – hlavně z internetu a 16 textů odborných). Dohromady měl 435 947 pozic jen v české části. (Počet německých jsme neevidovali, proto lze jen odhadnout, že celkem bylo v první funkční verzi korpusu dohromady něco pod milion slov.)

Dále se korpus rozrůstal ročně o zhruba 200.000 slov v české části (a k tomu pochopitelně odpovídající počet v německé paralele), až ke konci roku 2005 získal dnešní podobu.

Korpus je plně funkční, ale v současné době se nerozšiřuje.

Parametry

Sestavení i funkce korpusu podléhají kritériím podle účelu a využití korpusu. Česko-německý paralelní korpus je korpus synchronní. Znamená to, že jsou v něm zařazeny pouze texty publikované ideálně po roce 1910. Převážná většina textů však vznikla až po roce 1950, v případě nebeletristických textů pak všechny po roce 1990.

Pro výběr textů platila zásada dvojjazyčnosti, tzn., že jedna z paralel byla originální text a druhá paralela překlad právě tohoto originálu. Poměr originálů českých k originálům německým měl být 1 : 1. Ve skutečnosti není ideálně vyrovnaný (českých originálů je 63 %).

Korpus je nespecifický, obecný, tedy obsahující texty všech dostupných stylových rovin a typů textů. Z tohoto pohledu jsme se také snažili o procentuelní vyváženost: 25 % textů publicistických, 25 % odborných a 50 % beletrie. Ve skutečnosti je poměr následující: 63 % beletrie, 17 % publicistika, 20 % odborné texty.

Parametry v přehledu:

  • Korpusový manažer: bonito
  • Počet zařazených textů: 184
  • Počet pozic:
  • česká paralela: 3 637 825
  • německá paralela: 4 202 887
  • Alignment (zarovnání):
    ano (ruční; na úroveň věty)
  • Lemmatizace:
    ano (v obou paralelách)
  • Tagging (morfologické značkování):
    česká část (automaticky): ajka (úplné morfologické informace)
    německá část (automaticky): TreeTagger (pouze slovní druhy)
  • Desambiguace (zjednoznačnění homonym):
    ne
  • Metainformace (informace o zařazených textech):
    ano (viz katalog textů)
  • Dostupnost:
    on-line pouze interně
    CD (verze 2003)
  • Katalog zařazených textů: zde

Přístupnost

Korpus byl sestaven a je určen pouze a striktně pro vědecké a výukové účely.
Je umístěn na serveru Fakulty informatiky Masarykovy univerzity v Brně a je přístupný pouze interně.
Většina textů ČNPK je v současnosti zařazena v multijazykovém korpusu INTERCORP.

Využití

Již od první verze (2002) se korpus využíval k výzkumu i výuce. Od té doby za pomocí jeho dat vznikla řada prací, z nichž vybíráme jen ty, které jsou nám známy a nejsou na dálku dostupné (např. prostřednictvím Informačního systému MU

  • Syntaktische und semantische Analyse der deutschen und tschechischen Präpositionen (série ročníkových a diplomových prácí zabývajících se spojeními s předložkami an, auf, bei, für, in, mit, durch, von, um a jejich českými ekvivalenty)
  • Infinitivkonstruktionen als Transformationen der deutschen Nebensätze mit der Konjunktion dass und deren äquivalente Strukturen im Tschechischen (diplomová práce)
  • Das Pronomen „Es“, seine syntaktischen Funktionen und Äquivalente im Tschechischen (diplomová práce)
  • Übersetzung von Okkasionalismen im Werk „Fimfarum“ (diplomová práce)
  • Einige tschechische Ortsnamen und ihre deutschen Äquivalente im ČNKP (bakalářská práce)
  • Das Präfix und Präfixoid „Haupt-„ und ihre Äquivalente im Tschechischen (bakalářská práce)
  • Suffixoide (z.B. „–werk“ und „-zeug“) und ihre Äquivalente im Tschechischen (bakalářská práce)
  • Komposita mit der Basis „-maschine“ und ihre Äquivalente im Tschechischen (bakalářská práce)
  • Překladatelské postupy při řešení překladu vlastních jmen (zatím zadaná bakalářská práce)
  • Frequenz der deutschen und tschechischen Satzbaupläne (závěrečná práce)
  • Gründe für unterschiedliche Länge der deutschen und tschechischen Texte (závěrečná práce)
  • Ausdruck der Vorzeitigkeit in den deutschen und tschechischen Temporalsätzen (ročníková práce)
  • Stellung der Partikeln im Deutschen und im Tschechischen (ročníková práce)
  • Das Subjekt im Deutschen und im Tschechischen (ročníková práce)

Partneři

Od začátku byla tvorba korpusu morálně, později částečně i finanční podporována Ústavem Českého národního korpusu Filozofické fakulty University Karlovy v Praze.

Korpus vznikl za finanční podpory Ministerstva školství, mládeže a tělovýchovy v rámci rozvojových projektů ROZV/31/2002 Elektronický paralelní česko-německý korpus a programu AKTION Česká republika – Rakousko

Další podílející se instituce (i v rámci projektů):

Fakulta informatiky Masarykovy univerzity

Fakulta informačních technologií VUT v Brně

Institut für Slavistik, Universität Wien

Jiné korpusy s němčinou

DeReKo (nejrozsáhlejší korpus německého jazyka)

DWDS

Wortschatz-Portal

Mittelhochdeutsche Begriffsdatenbank (databáze středověkých německých textů)

Multext

Korpusy jiných jazyků (odkaz na stránku Ústavu Českého národního korpusu)

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.

Další info