Kódování znaků internetových stránek může způsobit potíže

-
internet pro pokročilé XI.

Snad každý uživatel někdy otevřel ve svém prohlížeči stránku, na které se místo písmen s českou diakritikou objevily geometrické symboly nebo znaky abeced cizích jazyků. Tyto problémy způsobuje v drtivé většině případů špatné nebo chybějící nastavení znakové sady neboli kódování v HTML kódu stránky nebo v menu prohlížeče. Znaková sada je množina znaků, kterých se užívá při psaní na počítači v daném jazyce. Pomocí kódování je každý znak přesně určen jedinou číslicí (většinou z intervalu od 0 do 255). Normy dávají takto definovaným znakům přesná jména. S výrazem "kódování" se uživatelé internetu setkávají velmi často. Řada webů obsahuje zpravidla hned na úvodní stránce volbu znakové sady, která zamezí chybnému zobrazení písmen dané (v našem případě české) abecedy. Při vytváření webové stránky se užívá přesně určených sekvencí znaků k tomu, aby bylo dosaženo určitého efektu (barva pozadí, velikost či řez písma atd.). Stejně tak si musí tvůrce internetové prezentace uvědomit, že při užití textů v internetových dokumentech je nutné ošetřit stránku tak, aby použité znaky dokázal program na straně příjemce správně interpretovat. V případě HTML dokumentů se tohoto efektu docílí vložením tagu do záhlaví stránky, do něhož se kromě dalších údajů vloží označení požadované kódovací normy.

UTF-16 obsahuje přes milion znaků

Nejobsáhlejší je kódování Unicode UTF-8. Zahrnuje totiž všechny v současnosti používané znaky, tj. 49 194 písmen světových abeced, matematické operátory i několik grafických symbolů. Toto kódování je možné dokonce rozšířit na UTF-16, které dovoluje zakódovat více než milion znaků a stačí pro všechny znaky použité v textech v celých lidských dějinách. Jako univerzální lze v určitém smyslu chápat starší a jednodušší kódování ASCII, dovolující pouze zobrazení textu bez diakritiky. Na českém internetu je tato norma poměrně rozšířená, jazyk však výrazně ochuzuje nehledě na to, že při absenci háčků a čárek může v textech velmi snadno docházet k významovým posunům. Mezinárodní normu pro jazyky Střední Evropy ISO-8859-2 (též označována jako ISO Latin 2) by měl korektně zobrazit každý prohlížeč, řada umí i další rozšířená kódování, jako je např. kódování bratří Kamenických.

Různá zobrazení kódování

Problém s kódováními řeší odborníci dvěma způsoby. Jedním z nich je snaha zobrazovat dokumenty pouze v abecedě domácího jazyka dané země (označovaná jako l10n - zkratka z anglického localization), druhým pak pokusy o vytváření dokumetů s texty, které bude možné zobrazovat ve více znakových sadách (tzv. i18n - z anglického internationalization). Tyto snahy vyznívají v současné době spíše naprázdno a většina zahraničních stránek nezobrazuje dobře. Může dojít např. k tomu, že ačkoli bude prohlížeč schopen zobrazit cizí jazykovou normu, nemusí to být nutně ta, kterou konkrétní cizí dokument ve stejném jazyce používá.

Normy a globalizace

Problémy s kódováním češtiny potvrzuje i současný stav na českém internetu. Stejně jako v mnoha jiných oblastech informačních technologií, vyskytují se i zde znatelné rozdíly mezi odlišnými platformami. Zatímco Microsoft používá "svou" sadu znaků CP1250 (též Windows-1250) vzniknuvší z normy ISO-8859-2, firma Apple preferuje kódování MAC a společnost IBM uznává nejvíce normu CP852 (PC Latin 2). Globalizace virtuálního prostředí vyžaduje univerzální kódování. Tou by se v Česku měla stát norma ISO-8859-2, zatím je hodně používaná i sada CP1250, protože je součástí značně rozšířeného systému Windows. Ostatní znakové sady jsou využívány mnohem méně. Řešení současné situace představuje důsledná preference jediné znakové sady tvůrci internetových stránek.



Eurovolby 2024

Volby do Evropského parlamentu se v Česku uskuteční v pátek 7. a v sobotu 8. června 2024. Čeští voliči budou vybírat 21 poslanců Evropského parlamentu. Voliči v celé Evropské unii budou rozhodovat o obsazení celkem 720 křesel.

Video