Indexace webových stránek

4. 3. 2026

V předchozím článku o webových crawlerech jsme si vysvětlili, co jsou vyhledávací roboti a jak procházejí internet. Crawling je však jen první krok. Aby se vaše stránka vůbec mohla zobrazit ve výsledcích vyhledávání, musí projít druhým, neméně důležitým procesem, indexací. Právě ten rozhoduje, zda a jak bude váš obsah dostupný milionům uživatelů.

Co je indexace a jak navazuje na crawling

Zatímco crawling (procházení) znamená, že vyhledávací robot stránku navštíví a stáhne její obsah, indexace je proces, při němž se tento obsah analyzuje, zpracuje a uloží do databáze tzv. indexu. Teprve ze záznamu v indexu se pak generují výsledky vyhledávání, které vidí uživatel.

Crawler je něco jako knihovník, který prochází regály a bere knihy do ruky. Indexace je pak okamžik, kdy knihovník o každé knize zapíše do katalogu, jaké má téma, o čem pojednává, která klíčová slova obsahuje a kde ji v knihovně najdete. Bez záznamu v katalogu kniha prakticky neexistuje, nikdo ji nenajde.

Důležité je pochopit, že crawling a indexace nejsou totéž. Vyhledávací robot může stránku navštívit, ale přesto ji nezaindexovat , například pokud je obsah nekvalitní, stránka je duplikátem jiné, nebo samotný provozovatel indexaci zakáže.

Jak indexace technicky funguje

Poté, co robot stáhne obsah stránky, začíná samotný proces zpracování, který probíhá přibližně v těchto fázích.

Parsování HTML

Vyhledávač nejprve zpracuje HTML kód stránky a identifikuje strukturu dokumentu, nadpisy, odstavce, obrázky, meta tagy a interní i externí odkazy. Moderní crawlery jako Googlebot navíc dokáží renderovat JavaScript, což jim umožňuje číst i dynamicky generovaný obsah.

Extrakce a analýza obsahu

Z obsahu jsou extrahovány klíčová slova, témata, entity (osoby, místa, pojmy) a jejich vzájemné vztahy. Algoritmy hodnotí kontext jednotlivých slov, nejen jejich výskyt, ale i jejich sémantický význam. Google k tomu využívá modely jako BERT nebo MUM, které rozumí přirozenému jazyku.

Invertovaný index

Zpracované informace jsou uloženy do invertovaného indexu, datové struktury, která ke každému slovu nebo frázi přiřazuje seznam URL adres, kde se dané slovo vyskytuje. Právě díky tomu dokáže Google odpovědět na váš dotaz během zlomku sekundy i mezi stovkami miliard zaindexovaných stránek.

Deduplikace a kanonizace

Ještě před uložením vyhledávač kontroluje, zda stejný nebo velmi podobný obsah již v indexu neexistuje. Pokud ano, vybere kanonickou verzi stránky tu, která bude reprezentovat celou skupinu duplicit, a ostatní varianty ze záznamu vyloučí nebo jim přiřadí nižší prioritu.

Co ovlivňuje, zda bude stránka zaindexována

Existuje zásadní rozdíl mezi tím, zda vyhledávač stránku může procházet (crawlability), a tím, zda ji zaindexuje (indexability). Stránka musí být nejdřív nalezena a crawlována, teprve pak může být zaindexována.

Soubor robots.txt

Soubor robots.txt v kořenovém adresáři webu určuje, které části webu robot nesmí navštívit. Blokování v robots.txt zabraňuje crawlingu, ale ne indexaci, pokud na blokovanou stránku odkazují jiné weby, Google ji v indexu ponechá, jen bez obsahu. Pokud chcete stránku skutečně vyřadit z indexu, nestačí ji blokovat v robots.txt.

Meta tag noindex

Tag <meta name="robots" content="noindex"> říká vyhledávači: stránku klidně procházej, ale do indexu ji nezapisuj. To je správný nástroj pro stránky, které nechcete zobrazovat ve výsledcích vyhledávání, například děkovné stránky po odeslání formuláře, interní vyhledávání, administrace nebo stránky pro přihlášené uživatele.

HTTP status kódy

Odpověď serveru přímo ovlivňuje, co se s URL adresou v indexu stane:

Kód 200 OK znamená, že stránka existuje a bude zpracována.
Kód 301 přesměrování způsobí, že Google přenese hodnotu na cílovou URL a původní ze záznamu odstraní.
Kód 404 značí, že stránka neexistuje a postupně bude odstraněna z indexu.
Kód 410 Gone říká, že stránka byla záměrně odstraněna — Google na něj reaguje rychleji než na 404.
Kód 503 (dočasně nedostupno) způsobí, že robot zkusí stránku znovu, nemaže ji okamžitě.

Kanonické URL (rel=canonical)

Pokud existuje více URL adres se stejným nebo velmi podobným obsahem (například https://example.com/produkt a https://example.com/produkt?sort=cena), je nutné pomocí tagu <link rel="canonical" href="..."> určit, která je ta hlavní. Bez kanonizace vyhledávač ztrácí čas zpracováním duplicit a správná verze stránky nemusí dosáhnout plného hodnocení.

Kvalita obsahu

Google indexuje stránky selektivně, obsah musí splňovat minimální standard kvality. Stránky s velmi krátkým textem bez přidané hodnoty (tzv. thin content), prázdné stránky nebo stránky sestávající pouze z reklam mohou být z indexu vyloučeny nebo jim bude přiřazena nízká priorita.

Rychlost indexace, jak urychlit zaindexování nového obsahu

Nová stránka se do indexu Googlu nedostane ze dne na den. Existuje však několik způsobů, jak proces urychlit.

XML sitemap

Soubor sitemap.xml je přehledná mapa všech důležitých URL adres na vašem webu. Odesláním sitemapy skrz Google Search Console nebo Bing Webmaster Tools dáte vyhledávačům přímý pokyn, které stránky mají zpracovat. U obsáhlých webů je sitemap nezbytností.

Interní prolinkování

Pokud z již zaindexovaných stránek odkazujete na nový obsah, robot ho snáze objeví. Čím více interních odkazů na novou stránku ukazuje, tím rychleji bude zaindexována a tím vyšší signál důležitosti ji vyhledávač přiřadí. Stránky bez interních odkazů jsou pro roboty prakticky neviditelné.

Protokol IndexNow

IndexNow je otevřený protokol, který umožňuje webům okamžitě informovat vyhledávače (Bing, Yandex a další) o nových nebo změněných stránkách. Google zatím IndexNow nepodporuje, nicméně jako doplněk ke standardním metodám se osvědčil pro rychlejší zpracování obsahu v ostatních vyhledávačích.

Ruční žádost v Google Search Console

V Google Search Console můžete zadat libovolnou URL do nástroje Kontrola URL a kliknutím na „Požádat o indexování" dát Googlu přímý impuls ke zpracování. Tato metoda je vhodná pro individuální stránky, pro hromadné zpracování se používá sitemap.

Jak monitorovat stav indexace vašeho webu

Operátor site: ve vyhledávači

Nejrychlejší způsob, jak zjistit, kolik stránek vašeho webu je zaindexováno, je zadat do Google vyhledávání site:example.cz. Výsledek je přibližný, ale poskytne vám rychlý přehled o rozsahu indexace.

Google Search Console, přehled pokrytí

Klíčovým nástrojem pro detailní analýzu indexace je sekce Indexování → Stránky v Google Search Console. Ukazuje přesný počet zaindexovaných stránek a rozděluje nezaindexované URL do kategorií s vysvětlením důvodu, například:

zjištěno, ale momentálně není v indexu,
procházeno, ale nezaindexováno,
duplicitní stránka bez kanonické verze,
vyloučeno direktivou noindex,
blokováno souborem robots.txt, nebo chyba 404.

Pravidelná kontrola tohoto přehledu odhalí technické problémy dříve, než začnou negativně ovlivňovat viditelnost webu.

Časté problémy s indexací a jejich řešení

Stránky, které nechceme indexovat

Ne každá stránka webu patří do indexu. Typické příklady stránek, které byste měli explicitně vyloučit pomocí noindex:

košík a pokladna e-shopu,
stránky s interním vyhledáváním,
filtry produktů generující stovky kombinací URL,
profily a nastavení přihlášených uživatelů nebo děkovné stránky po registraci.

Duplicitní obsah

Duplicity vznikají z různých příčin, které si provozovatelé mnohdy ani neuvědomují:

www vs. non-www verze webu (obě přístupné bez přesměrování),
HTTP vs. HTTPS verze,
URL s parametry a bez nich,
stránky s paginací bez správné kanonizace nebo obsah přístupný přes více různých cest.

Řešením je konzistentní používání rel=canonical a 301 přesměrování na preferovanou verzi URL.

JavaScript rendering a zpožděná indexace

Weby postavené na moderních JavaScript frameworcích (React, Vue, Angular) mohou mít s indexací problémy. Google sice JavaScript renderuje, ale s výrazným zpožděním, renderování je výpočetně nákladné, proto ho Google odkládá. Pokud váš obsah existuje pouze po vykonání JavaScriptu, může uplynout i několik týdnů, než bude zaindexován. Řešením je Server-Side Rendering (SSR) nebo Static Site Generation (SSG), kde je obsah dostupný rovnou v HTML.

Obsah za přihlášením

Stránky dostupné pouze po přihlášení nebo za paywallem vyhledávací roboti standardně neuvidí. Pokud chcete takový obsah zaindexovat, je nutné implementovat speciální řešení, například zobrazit robotovi ukázku obsahu nebo využít strukturovaná data pro paywallový obsah.

Indexace různých typů obsahu

Obrázky

Aby byly obrázky správně zaindexovány pro Google Obrázky, je klíčový alt text, textový popis, který robotovi říká, co je na obrázku zobrazeno. Dále pomáhá popisný název souboru (cervene-jablko.jpg místo IMG_4521.jpg) a u produktů také strukturovaná data Schema.org.

Videa

Pro indexaci videí využijte VideoObject schema, uveďte název, popis, datum nahrání a URL náhledového obrázku. Videa hostovaná na YouTube jsou přirozeně lépe dostupná pro Googlebot, zatímco videa z vlastního hostingu vyžadují pečlivější technické nastavení.

PDF soubory

Google umí indexovat textový obsah PDF souborů. Aby byly dobře zaindexovány, měly by být přístupné přes stabilní URL, obsahovat textový layer (ne sken) a mít relevantní metadata, název dokumentu a popis. Ideálně by ke každému PDF existovala i HTML verze obsahu.

Crawl budget, proč je důležitý pro větší weby

Každý web má přidělen crawl budget, přibližný počet URL, které je vyhledávač ochoten zpracovat za určitý časový úsek. U malých webů (do stovek stránek) je to zpravidla zanedbatelný faktor. U velkých e-shopů, zpravodajských portálů nebo katalogů s desetitisíci URL je však správné řízení crawl budgetu kriticky důležité.

Crawl budget ovlivňují zejména celková autorita domény (weby s více zpětnými odkazy dostávají větší budget), rychlost serveru, počet stránek a frekvence jejich aktualizace a množství chybových odpovědí (404, 5xx).

Crawl budget lze optimalizovat blokováním nepotřebných URL v robots.txt (filtry, parametry, duplikáty), opravováním 404 chyb, omezením řetězů přesměrování, zrychlením serveru a vyřazením nezaindexovatelných stránek ze sitemapový.

Závěr

Indexace je klíčový krok mezi crawlingem a samotným zobrazením ve výsledcích vyhledávání. Bez záznamu v indexu neexistuje žádná organická návštěvnost, bez ohledu na to, jak kvalitní váš obsah je.

Nejdůležitější body k zapamatování:

crawling a indexace nejsou totéž a stránka může být navštívena, ale přesto nezaindexována,
správné použití robots.txt a noindex rozhoduje o tom, co se do indexu dostane,
kanonizace duplicitního obsahu je důležitá u každého webu,
Google Search Console je váš hlavní nástroj pro sledování a řešení problémů s indexací,
JavaScript obsah se indexuje se zpožděním, proto zvažte SSR nebo SSG,
u velkých webů věnujte pozornost crawl budgetu a eliminujte zbytečné URL.

Jakmile je stránka zaindexována, nastupuje třetí fáze celého procesu — hodnocení a řazení výsledků. To je téma, kterému se budeme věnovat v příštím článku.

Pro vkládání komentářů se musíte přihlásit

Pokud by jste chtěli nové webové stránky a nebo redesign současných, zavolejte mi na mobil: +420 608 23 33 34, nebo mi pošlete zprávu na email: jiri.wolf@jw.cz.

Můžete taky využít tento formulář