Historie a současnost
Jelikož neexistoval žádný fungující česko-německý paralelní korpus a jeho potřeba ve výzkumu a výuce byly stále naléhavější, iniciovala katedra německého jazyka a literatury Pedagogické fakulty Masarykovy univerzity v Brně jeho vznik.
Myšlenka vytvořit česko-německý paralelní korpus vznikla na podzim 2000, konkrétní budování začalo v červnu 2001. Na serveru AURORA Fakulty informatiky Masarykovy univerzity byl korpus interně zpřístupněn v roce 2002. Tehdy obsahoval korpus 58 textů paralelních textů různých žánrů (19 literárních děl, 23 publicistických textů – hlavně z internetu a 16 textů odborných). Dohromady měl 435 947 pozic jen v české části. (Počet německých jsme neevidovali, proto lze jen odhadnout, že celkem bylo v první funkční verzi korpusu dohromady něco pod milion slov.)
Dále se korpus rozrůstal ročně o zhruba 200.000 slov v české části (a k tomu pochopitelně odpovídající počet v německé paralele), až ke konci roku 2005 získal dnešní podobu.
Korpus je plně funkční, ale v současné době se nerozšiřuje.
Parametry
Sestavení i funkce korpusu podléhají kritériím podle účelu a využití korpusu. Česko-německý paralelní korpus je korpus synchronní. Znamená to, že jsou v něm zařazeny pouze texty publikované ideálně po roce 1910. Převážná většina textů však vznikla až po roce 1950, v případě nebeletristických textů pak všechny po roce 1990.
Pro výběr textů platila zásada dvojjazyčnosti, tzn., že jedna z paralel byla originální text a druhá paralela překlad právě tohoto originálu. Poměr originálů českých k originálům německým měl být 1 : 1. Ve skutečnosti není ideálně vyrovnaný (českých originálů je 63 %).
Korpus je nespecifický, obecný, tedy obsahující texty všech dostupných stylových rovin a typů textů. Z tohoto pohledu jsme se také snažili o procentuelní vyváženost: 25 % textů publicistických, 25 % odborných a 50 % beletrie. Ve skutečnosti je poměr následující: 63 % beletrie, 17 % publicistika, 20 % odborné texty.
Parametry v přehledu:
- Korpusový manažer: bonito
- Počet zařazených textů: 184
- Počet pozic:
- česká paralela: 3 637 825
- německá paralela: 4 202 887
- Alignment (zarovnání):
ano (ruční; na úroveň věty) - Lemmatizace:
ano (v obou paralelách) - Tagging (morfologické značkování):
česká část (automaticky): ajka (úplné morfologické informace)
německá část (automaticky): TreeTagger (pouze slovní druhy) - Desambiguace (zjednoznačnění homonym):
ne - Metainformace (informace o zařazených textech):
ano (viz katalog textů) - Dostupnost:
on-line pouze interně
CD (verze 2003) - Katalog zařazených textů: zde
Přístupnost
Korpus byl sestaven a je určen pouze a striktně pro vědecké a výukové účely.
Je umístěn na serveru Fakulty informatiky Masarykovy univerzity v Brně a je přístupný pouze interně.
Většina textů ČNPK je v současnosti zařazena v multijazykovém korpusu INTERCORP.
Využití
Již od první verze (2002) se korpus využíval k výzkumu i výuce. Od té doby za pomocí jeho dat vznikla řada prací, z nichž vybíráme jen ty, které jsou nám známy a nejsou na dálku dostupné (např. prostřednictvím Informačního systému MU
- Syntaktische und semantische Analyse der deutschen und tschechischen Präpositionen (série ročníkových a diplomových prácí zabývajících se spojeními s předložkami an, auf, bei, für, in, mit, durch, von, um a jejich českými ekvivalenty)
- Infinitivkonstruktionen als Transformationen der deutschen Nebensätze mit der Konjunktion dass und deren äquivalente Strukturen im Tschechischen (diplomová práce)
- Das Pronomen „Es“, seine syntaktischen Funktionen und Äquivalente im Tschechischen (diplomová práce)
- Übersetzung von Okkasionalismen im Werk „Fimfarum“ (diplomová práce)
- Einige tschechische Ortsnamen und ihre deutschen Äquivalente im ČNKP (bakalářská práce)
- Das Präfix und Präfixoid „Haupt-„ und ihre Äquivalente im Tschechischen (bakalářská práce)
- Suffixoide (z.B. „–werk“ und „-zeug“) und ihre Äquivalente im Tschechischen (bakalářská práce)
- Komposita mit der Basis „-maschine“ und ihre Äquivalente im Tschechischen (bakalářská práce)
- Překladatelské postupy při řešení překladu vlastních jmen (zatím zadaná bakalářská práce)
- Frequenz der deutschen und tschechischen Satzbaupläne (závěrečná práce)
- Gründe für unterschiedliche Länge der deutschen und tschechischen Texte (závěrečná práce)
- Ausdruck der Vorzeitigkeit in den deutschen und tschechischen Temporalsätzen (ročníková práce)
- Stellung der Partikeln im Deutschen und im Tschechischen (ročníková práce)
- Das Subjekt im Deutschen und im Tschechischen (ročníková práce)
Partneři
Od začátku byla tvorba korpusu morálně, později částečně i finanční podporována Ústavem Českého národního korpusu Filozofické fakulty University Karlovy v Praze.
Korpus vznikl za finanční podpory Ministerstva školství, mládeže a tělovýchovy v rámci rozvojových projektů ROZV/31/2002 Elektronický paralelní česko-německý korpus a programu AKTION Česká republika – Rakousko
Další podílející se instituce (i v rámci projektů):
Fakulta informatiky Masarykovy univerzity
Fakulta informačních technologií VUT v Brně
Institut für Slavistik, Universität Wien
Jiné korpusy s němčinou
DeReKo (nejrozsáhlejší korpus německého jazyka)
Mittelhochdeutsche Begriffsdatenbank (databáze středověkých německých textů)
Korpusy jiných jazyků (odkaz na stránku Ústavu Českého národního korpusu)