Most mezi papírovým a elektronickým světem

- Ceny skenerů v posledních letech neuvěřitelně klesly. Zejména jednodušší kancelářské přístroje pro načítání dokumentů do počítače nebo pro faxování pomocí modemu už se dají koupit... no, za babku ještě ne, ale lacino už ano. A tak vynalézavá česká duše vymýšlí, jak toto zařízení využít i jinak.

Leckoho asi napadne, zda by počítač neuměl načtené předlohy také přečíst - tedy převést do podoby textového souboru, kdy by je šlo běžnými způsoby dál editovat.

PÍSMO A JEHO OBRAZ
Novopečeného majitele skeneru obvykle zaskočí, že když si v tomto přístroji nasnímá třeba dopis nebo jiný text, nemůže už do něj v počítači zasahovat tak, jak je zvyklý při práci s textovým editorem: opravovat, mazat písmena či slova, přehazovat části textu a podobně. Soubor, který skener vytvoří z popsaného papíru, jímž jste jej "nakrmili", není textovým souborem, i když tak na první pohled vypadá. Zdánlivě tu sice jsou písmenka, slova i odstavce, ve skutečnosti to však je jenom obraz jejich určitého seskupení. Pro počítač je v takovém případě zcela lhostejné, zda čmáranice, kterou převedl do digitální podoby, je objednávka nového traktoru nebo Leonardova Madona ve skalách.
Je samozřejmě možné ukládat psané dokumenty i v této podobě, má to ale řadu nevýhod. Vedle již zmíněné nemožnosti editace to jsou především podstatně větší rozměry grafického souboru ve srovnání s textovým - obrázek v paměti zabere i několikanásobně víc místa, než stejně dlouhý text napsaný editorem.
Chtělo by to tedy, aby počítač uměl to, co člověk: obrázek textu přečíst, v duchu rozpoznat, že grafické značky určitého tvaru jsou symbolem pro konkrétní písmena a na jejich místa pak dosazovat počítačové kódy, které pro tato písmena používá příslušný textový editor.

OPTICKÉ ROZPOZNÁVÁNÍ ZNAKŮ
Takové programy skutečně už pár let existují. Říká se jim OCR (Optical Character Recognita - programy pro optické rozpoznávání znaků). Jedním z nejznámějších a nejrozšířenějších je produkt Recognita Select, existují ovšem i jiné (a obvykle také levnější).
Ve skutečnosti to však je s tím rozpoznáváním dost složité. Každé písmeno má téměř neomezené množství podob - vyskytuje se jako malé, velké, psací, tiskací, existují různé druhy a různé rozměry písem a co teprve, když se k tomu přidá ještě rukopis, který má každý člověk jiný. Počítačové čtení tedy klade na zařízení dost velké nároky. Skutečně pokročilý software OCR pracuje s prvky umělé inteligence a patří k nejsložitějším běžně užívaným programům vůbec.
Přesto neočekávejte, že do skeneru strčíte nečitelný rukopis podobný záznamu seizmografu a na monitoru se objeví dokonale přečtený. Úspěšnost čtení není nikdy stoprocentní, podíl správně rozpoznaných znaků je tím menší, čím vzdálenější je předloha od průměrného tiskacího písma.
V praxi to znamená chybně rozpoznané znaky ručně opravovat a doplňovat. Přestože je to pořádná otrava, zejména u dlouhých textů jde i tak o značnou úsporu času a nákladů. Krátké a ještě ke všemu špatně čitelné či jinak atypické originály je ovšem obvykle lepší si přepsat ručně.

METRÁKOVÝ ARCHIV DO KAPSY
Možnosti využití OCR jsou nepřeberné. Jen namátkou: i rozměrný a těžký archiv (technickou dokumentaci, knihovnu příruček, bedny výstřižků, skříň plnou výsledků mnoha let vlastní předchozí práce a podobně) můžete změnit v přehledný adresář počítačových souborů, který nic neváží a můžete jej tedy nosit všude sebou - ať už v notebooku, nebo v podobě CD-ROM, disku Zip, LS-120, Jaz nebo jiné "kapesní" paměti. Chtěli byste pracovat třeba v klidu na chalupě, jenže s sebou nemůžete vláčet, a pak nechávat na pospas myším a zlodějům desítky kilogramů podkladů a literatury? Žádný problém - naskenujte si je.
Kvalitní programy OCR sice lácí právě nevynikají, často však bývají dodávány bezplatně s kancelářskými skenery. U lepších přístrojů si pak může zákazník podle svého zaměření vybrat, zda mu k výrobku přibalí OCR, nebo program pro úpravy obrazu (grafický editor). Ne vždy je ovšem takto dodávaný software v plné nebo nejnovější verzi.
Zajímavou myšlenkou je dodávat OCR v rámci kancelářských balíků - tedy souborů několika vzájemně provázaných programů určených pro běžnou agendu vedenou na počítači (textový editor, tabulkový procesor, plánovací kalendář, programy pro vedení korespondence a podobně). Když je zde i OCR, máte záruku, že je kompatibilní s textovým editorem. V případě českého (a překvapivě levného) kancelářského balíku 602 pro PC pak navíc i bezpečně víte, že vyhovuje češtině. U samostatných programů OCR je potřeba si bezproblémovou kompatibilitu s vaším textovým editorem a s českým jazykem ověřit.


Eurovolby 2024

Volby do Evropského parlamentu se v Česku uskuteční v pátek 7. a v sobotu 8. června 2024. Čeští voliči budou vybírat 21 poslanců Evropského parlamentu. Voliči v celé Evropské unii budou rozhodovat o obsazení celkem 720 křesel.

Video