Klávesové zkratky na tomto webu - základní­
Přeskočit hlavičku portálu

Vzniká banka slov moderní češtiny. S bezzubou myší a bez kalamáře

  18:41aktualizováno  18:41
U slova "myš" si dnešní děti spíše než malého hlodavce představí zařízení k počítači, říká jazykovědec Karel Oliva. Pod jeho vedením finišuje sedmiletá práce na elektronické databázi slovní zásoby současné češtiny. Sleduje proměny významů slov a poslouží jako materiál pro velký výkladový slovník.

Výzkumný tým vede ředitel Ústavu pro jazyk český Akademie věd ČR Karel Oliva. | foto: iDNES.cz

V čem práce na databázi, kterou vytváří Ústav pro jazyk český Akademie věd, spočívá?
Díváme se, jak se vyvinul význam slov od dřívějších zpracování. Stará slova dostávají nové významy a objevují se i slova zcela nová, často přejímky z angličtiny a slova nově utvořená. Také sledujeme frekvenci výskytu, kdy si vezmeme spoustu textů v elektronické podobě a v těch stovkách milionů slov hledáme, kolikrát se tam určité slovo vyskytuje.

Když si vezmeme třeba slovo "stůl", jak bude vypadat heslo v databázi?
Bude obsahovat jeho význam, tedy že je to kus nábytku, a dále starší a přenesené významy. Bude tam také dlouhá řada dokladů, v jakých typických kontextech se dnes slovo používá, což byla největší práce na databázi. Naši předchůdci v době takříkajíc předpočítačové měli pro výrobu slovníků velmi málo dat a museli všechno dělat ručně. Dnes jsme se přehoupli do situace opačné, kdy je potřeba si z obrovského množství elektronických textů vyzobat taková slovní spojení, která přinášejí zajímavou informaci. Například "jednat u kulatého stolu" nebo "rozhodnout od zeleného stolu", ale ne třeba "dřevěný" nebo "skleněný stůl".

Plánovaný slovník

Hotová databáze se využije pro přípravu moderního výkladového slovníku češtiny, který vznikne v elektronické podobě.

Jeho pracovní název je Lexikon 21.

Zatím je k dispozici Příruční slovník jazyka českého (1935-1957), Slovník spisovného jazyka českého (1. vydání 1960-1971, 2. vydání 1989) a Slovník spisovné češtiny (1. vydání 1978, současná verze 2010).

Měla by databáze obsáhnout všechna česká slova?
Pokud možno ano, ale má to své hranice. Nesledujeme například argoty a všechny nesmysly, které si někdo vymyslí na chatu, to se snad ani sledovat nedá. Položky v databázi jsou ale spíš první skicou než hotovým slovníkovým heslem.

Kolik tedy bude mít databáze položek?
Naplánovali jsme si zhruba 120 tisíc, ale myslím, že to překročíme tak na 150 tisíc. Pak bude potřeba vytvořit koncepci, jak z databáze udělat slovníková hesla a vytvořit celý slovník. To bude složitější práce a úkol na léta.

Jak rychle se proměňují významy slov?
Jazyk je velmi živý organismus a mění se sám od sebe. Nová slova vznikají s novými pojmy, se starými pojmy slova zanikají. Stačí se podívat na slovo "počítač". Ještě ve Slovníku spisovného jazyka českého, který vycházel v 60. letech, znamená něco jako "účetní". Také se vyvinulo slovo "myš". Zatímco pro mě je primární význam pořád zvíře, dnešní děti už daleko více znají jinou myš.

Jedna početnější elektronická databáze už ale funguje...
Ano, v jiné, ale jen velmi jednoduché databázi máme zhruba 800 tisíc českých slov, ale tam jsou shromážděna slova od roku 1770 až do víceméně současné doby. Na některá můžete narazit třeba ve starých vydáních Boženy Němcové, ale jejich frekvence v dnešních textech - knihách, časopisech či novinách - je často nulová. Třeba slovo "kalamář" bychom hledali velmi těžko. V nové databázi zastoupeno nebude, protože chceme vytvořit slovník češtiny, kterou se dnes opravdu mluví. Dáváme na internet k dispozici i staré slovníky, takže když někdo bude hledat význam slova "kalamář", tak si ho najde.

Bude databáze přístupná i pro veřejnost?
To zatím není rozhodnuté. Práce se blíží ke konci a vedou se o tom velké debaty. Na jednu stranu to děláme za veřejné peníze, takže bychom to měli předvést. Lidé by měli mít přístup k tomu, jak čeština dnes vypadá. Pokud z toho ale chceme udělat slovník, tak bychom ještě měli na datech pracovat, protože to je jen polotovar. Když dáte nepoučeným laikům, a tím nechci nikoho urážet, do rukou nedodělané věci, může se udělat více škody než užitku. A naše snaha je češtině prospívat.

Kolik lidí se na projektu podílí?
Celkem asi třicet lidí, ale ne všichni mají plný úvazek. Jsou to především lexikografové z našeho ústavu, několik studentů, kteří vyhledávají nová slova, a počítačová podpora. Na elektronizaci spolupracujeme s Fakultou informatiky Masarykovy univerzity v Brně, kde působí jedno z nejlepších světových pracovišť v oblasti podpory tvorby slovníků.

Autor:


Hlavní zprávy

Nejčtenější



Další z rubriky

VIDEA TÝDNE: Pašeračka heroinu, nakládačka od hokejisty a zpomalovací práh

Nová nástraha pro řidiče: pod auty se propadne zem

Na mezinárodním letišti v pákistánském velkoměstě Láhaur byla zadržena dívka, která pašovala devět kilogramů heroinu....

Většina trápení se odehrává jen v hlavě. Rady přicházejí přes Facebook

studentka, ilustrace

Deprese, únava, stres. Spousta studentů se potýká s psychickými potížemi. Odborníci z lékařské fakulty Masarykovy...

Je třeba se zbavit Sobotky a více zdanit velké firmy, radí Paroubek ČSSD

Jiří Paroubek na konferenci v hotelu Ambassador, kde radí sociální demokracii,...

Expremiér Jiří Paroubek, který se od minulého roku neúspěšně snaží vrátit do řad členů ČSSD, pořádal v neděli...

Najdete na iDNES.cz