Výzkumný tým vede ředitel Ústavu pro jazyk český Akademie věd ČR Karel Oliva.

Výzkumný tým vede ředitel Ústavu pro jazyk český Akademie věd ČR Karel Oliva. | foto: iDNES.cz

Vzniká banka slov moderní češtiny. S bezzubou myší a bez kalamáře

  • 141
U slova "myš" si dnešní děti spíše než malého hlodavce představí zařízení k počítači, říká jazykovědec Karel Oliva. Pod jeho vedením finišuje sedmiletá práce na elektronické databázi slovní zásoby současné češtiny. Sleduje proměny významů slov a poslouží jako materiál pro velký výkladový slovník.

V čem práce na databázi, kterou vytváří Ústav pro jazyk český Akademie věd, spočívá?
Díváme se, jak se vyvinul význam slov od dřívějších zpracování. Stará slova dostávají nové významy a objevují se i slova zcela nová, často přejímky z angličtiny a slova nově utvořená. Také sledujeme frekvenci výskytu, kdy si vezmeme spoustu textů v elektronické podobě a v těch stovkách milionů slov hledáme, kolikrát se tam určité slovo vyskytuje.

Když si vezmeme třeba slovo "stůl", jak bude vypadat heslo v databázi?
Bude obsahovat jeho význam, tedy že je to kus nábytku, a dále starší a přenesené významy. Bude tam také dlouhá řada dokladů, v jakých typických kontextech se dnes slovo používá, což byla největší práce na databázi. Naši předchůdci v době takříkajíc předpočítačové měli pro výrobu slovníků velmi málo dat a museli všechno dělat ručně. Dnes jsme se přehoupli do situace opačné, kdy je potřeba si z obrovského množství elektronických textů vyzobat taková slovní spojení, která přinášejí zajímavou informaci. Například "jednat u kulatého stolu" nebo "rozhodnout od zeleného stolu", ale ne třeba "dřevěný" nebo "skleněný stůl".

Plánovaný slovník

Hotová databáze se využije pro přípravu moderního výkladového slovníku češtiny, který vznikne v elektronické podobě.

Jeho pracovní název je Lexikon 21.

Zatím je k dispozici Příruční slovník jazyka českého (1935-1957), Slovník spisovného jazyka českého (1. vydání 1960-1971, 2. vydání 1989) a Slovník spisovné češtiny (1. vydání 1978, současná verze 2010).

Měla by databáze obsáhnout všechna česká slova?
Pokud možno ano, ale má to své hranice. Nesledujeme například argoty a všechny nesmysly, které si někdo vymyslí na chatu, to se snad ani sledovat nedá. Položky v databázi jsou ale spíš první skicou než hotovým slovníkovým heslem.

Kolik tedy bude mít databáze položek?
Naplánovali jsme si zhruba 120 tisíc, ale myslím, že to překročíme tak na 150 tisíc. Pak bude potřeba vytvořit koncepci, jak z databáze udělat slovníková hesla a vytvořit celý slovník. To bude složitější práce a úkol na léta.

Jak rychle se proměňují významy slov?
Jazyk je velmi živý organismus a mění se sám od sebe. Nová slova vznikají s novými pojmy, se starými pojmy slova zanikají. Stačí se podívat na slovo "počítač". Ještě ve Slovníku spisovného jazyka českého, který vycházel v 60. letech, znamená něco jako "účetní". Také se vyvinulo slovo "myš". Zatímco pro mě je primární význam pořád zvíře, dnešní děti už daleko více znají jinou myš.

Jedna početnější elektronická databáze už ale funguje...
Ano, v jiné, ale jen velmi jednoduché databázi máme zhruba 800 tisíc českých slov, ale tam jsou shromážděna slova od roku 1770 až do víceméně současné doby. Na některá můžete narazit třeba ve starých vydáních Boženy Němcové, ale jejich frekvence v dnešních textech - knihách, časopisech či novinách - je často nulová. Třeba slovo "kalamář" bychom hledali velmi těžko. V nové databázi zastoupeno nebude, protože chceme vytvořit slovník češtiny, kterou se dnes opravdu mluví. Dáváme na internet k dispozici i staré slovníky, takže když někdo bude hledat význam slova "kalamář", tak si ho najde.

Bude databáze přístupná i pro veřejnost?
To zatím není rozhodnuté. Práce se blíží ke konci a vedou se o tom velké debaty. Na jednu stranu to děláme za veřejné peníze, takže bychom to měli předvést. Lidé by měli mít přístup k tomu, jak čeština dnes vypadá. Pokud z toho ale chceme udělat slovník, tak bychom ještě měli na datech pracovat, protože to je jen polotovar. Když dáte nepoučeným laikům, a tím nechci nikoho urážet, do rukou nedodělané věci, může se udělat více škody než užitku. A naše snaha je češtině prospívat.

Kolik lidí se na projektu podílí?
Celkem asi třicet lidí, ale ne všichni mají plný úvazek. Jsou to především lexikografové z našeho ústavu, několik studentů, kteří vyhledávají nová slova, a počítačová podpora. Na elektronizaci spolupracujeme s Fakultou informatiky Masarykovy univerzity v Brně, kde působí jedno z nejlepších světových pracovišť v oblasti podpory tvorby slovníků.


Eurovolby 2024

Volby do Evropského parlamentu se v Česku uskuteční v pátek 7. a v sobotu 8. června 2024. Čeští voliči budou vybírat 21 poslanců Evropského parlamentu. Voliči v celé Evropské unii budou rozhodovat o obsazení celkem 720 křesel

Video