Co je indexace a jak navazuje na crawling
Zatímco crawling (procházení) znamená, že vyhledávací robot stránku navštíví a stáhne její obsah, indexace je proces, při němž se tento obsah analyzuje, zpracuje a uloží do databáze tzv. indexu. Teprve ze záznamu v indexu se pak generují výsledky vyhledávání, které vidí uživatel.
Crawler je něco jako knihovník, který prochází regály a bere knihy do ruky. Indexace je pak okamžik, kdy knihovník o každé knize zapíše do katalogu, jaké má téma, o čem pojednává, která klíčová slova obsahuje a kde ji v knihovně najdete. Bez záznamu v katalogu kniha prakticky neexistuje, nikdo ji nenajde.
Důležité je pochopit, že crawling a indexace nejsou totéž. Vyhledávací robot může stránku navštívit, ale přesto ji nezaindexovat , například pokud je obsah nekvalitní, stránka je duplikátem jiné, nebo samotný provozovatel indexaci zakáže.
Jak indexace technicky funguje
Poté, co robot stáhne obsah stránky, začíná samotný proces zpracování, který probíhá přibližně v těchto fázích.
Parsování HTML
Vyhledávač nejprve zpracuje HTML kód stránky a identifikuje strukturu dokumentu, nadpisy, odstavce, obrázky, meta tagy a interní i externí odkazy. Moderní crawlery jako Googlebot navíc dokáží renderovat JavaScript, což jim umožňuje číst i dynamicky generovaný obsah.
Extrakce a analýza obsahu
Z obsahu jsou extrahovány klíčová slova, témata, entity (osoby, místa, pojmy) a jejich vzájemné vztahy. Algoritmy hodnotí kontext jednotlivých slov, nejen jejich výskyt, ale i jejich sémantický význam. Google k tomu využívá modely jako BERT nebo MUM, které rozumí přirozenému jazyku.
Invertovaný index
Zpracované informace jsou uloženy do invertovaného indexu, datové struktury, která ke každému slovu nebo frázi přiřazuje seznam URL adres, kde se dané slovo vyskytuje. Právě díky tomu dokáže Google odpovědět na váš dotaz během zlomku sekundy i mezi stovkami miliard zaindexovaných stránek.
Deduplikace a kanonizace
Ještě před uložením vyhledávač kontroluje, zda stejný nebo velmi podobný obsah již v indexu neexistuje. Pokud ano, vybere kanonickou verzi stránky tu, která bude reprezentovat celou skupinu duplicit, a ostatní varianty ze záznamu vyloučí nebo jim přiřadí nižší prioritu.
Co ovlivňuje, zda bude stránka zaindexována
Existuje zásadní rozdíl mezi tím, zda vyhledávač stránku může procházet (crawlability), a tím, zda ji zaindexuje (indexability). Stránka musí být nejdřív nalezena a crawlována, teprve pak může být zaindexována.
Soubor robots.txt
Soubor robots.txt v kořenovém adresáři webu určuje, které části webu robot nesmí navštívit. Blokování v robots.txt zabraňuje crawlingu, ale ne indexaci, pokud na blokovanou stránku odkazují jiné weby, Google ji v indexu ponechá, jen bez obsahu. Pokud chcete stránku skutečně vyřadit z indexu, nestačí ji blokovat v robots.txt.
Meta tag noindex
Tag <meta name="robots" content="noindex"> říká vyhledávači: stránku klidně procházej, ale do indexu ji nezapisuj. To je správný nástroj pro stránky, které nechcete zobrazovat ve výsledcích vyhledávání, například děkovné stránky po odeslání formuláře, interní vyhledávání, administrace nebo stránky pro přihlášené uživatele.
HTTP status kódy
Odpověď serveru přímo ovlivňuje, co se s URL adresou v indexu stane:
- Kód 200 OK znamená, že stránka existuje a bude zpracována.
- Kód 301 přesměrování způsobí, že Google přenese hodnotu na cílovou URL a původní ze záznamu odstraní.
- Kód 404 značí, že stránka neexistuje a postupně bude odstraněna z indexu.
- Kód 410 Gone říká, že stránka byla záměrně odstraněna — Google na něj reaguje rychleji než na 404.
- Kód 503 (dočasně nedostupno) způsobí, že robot zkusí stránku znovu, nemaže ji okamžitě.
Kanonické URL (rel=canonical)
Pokud existuje více URL adres se stejným nebo velmi podobným obsahem (například https://example.com/produkt a https://example.com/produkt?sort=cena), je nutné pomocí tagu <link rel="canonical" href="..."> určit, která je ta hlavní. Bez kanonizace vyhledávač ztrácí čas zpracováním duplicit a správná verze stránky nemusí dosáhnout plného hodnocení.
Kvalita obsahu
Google indexuje stránky selektivně, obsah musí splňovat minimální standard kvality. Stránky s velmi krátkým textem bez přidané hodnoty (tzv. thin content), prázdné stránky nebo stránky sestávající pouze z reklam mohou být z indexu vyloučeny nebo jim bude přiřazena nízká priorita.
Rychlost indexace, jak urychlit zaindexování nového obsahu
Nová stránka se do indexu Googlu nedostane ze dne na den. Existuje však několik způsobů, jak proces urychlit.
XML sitemap
Soubor sitemap.xml je přehledná mapa všech důležitých URL adres na vašem webu. Odesláním sitemapy skrz Google Search Console nebo Bing Webmaster Tools dáte vyhledávačům přímý pokyn, které stránky mají zpracovat. U obsáhlých webů je sitemap nezbytností.
Interní prolinkování
Pokud z již zaindexovaných stránek odkazujete na nový obsah, robot ho snáze objeví. Čím více interních odkazů na novou stránku ukazuje, tím rychleji bude zaindexována a tím vyšší signál důležitosti ji vyhledávač přiřadí. Stránky bez interních odkazů jsou pro roboty prakticky neviditelné.
Protokol IndexNow
IndexNow je otevřený protokol, který umožňuje webům okamžitě informovat vyhledávače (Bing, Yandex a další) o nových nebo změněných stránkách. Google zatím IndexNow nepodporuje, nicméně jako doplněk ke standardním metodám se osvědčil pro rychlejší zpracování obsahu v ostatních vyhledávačích.
Ruční žádost v Google Search Console
V Google Search Console můžete zadat libovolnou URL do nástroje Kontrola URL a kliknutím na „Požádat o indexování" dát Googlu přímý impuls ke zpracování. Tato metoda je vhodná pro individuální stránky, pro hromadné zpracování se používá sitemap.
Jak monitorovat stav indexace vašeho webu
Operátor site: ve vyhledávači
Nejrychlejší způsob, jak zjistit, kolik stránek vašeho webu je zaindexováno, je zadat do Google vyhledávání site:example.cz. Výsledek je přibližný, ale poskytne vám rychlý přehled o rozsahu indexace.
Google Search Console, přehled pokrytí
Klíčovým nástrojem pro detailní analýzu indexace je sekce Indexování → Stránky v Google Search Console. Ukazuje přesný počet zaindexovaných stránek a rozděluje nezaindexované URL do kategorií s vysvětlením důvodu, například:
- zjištěno, ale momentálně není v indexu,
- procházeno, ale nezaindexováno,
- duplicitní stránka bez kanonické verze,
- vyloučeno direktivou noindex,
- blokováno souborem robots.txt, nebo chyba 404.
Pravidelná kontrola tohoto přehledu odhalí technické problémy dříve, než začnou negativně ovlivňovat viditelnost webu.
Časté problémy s indexací a jejich řešení
Stránky, které nechceme indexovat
Ne každá stránka webu patří do indexu. Typické příklady stránek, které byste měli explicitně vyloučit pomocí noindex:
- košík a pokladna e-shopu,
- stránky s interním vyhledáváním,
- filtry produktů generující stovky kombinací URL,
- profily a nastavení přihlášených uživatelů nebo děkovné stránky po registraci.
Duplicitní obsah
Duplicity vznikají z různých příčin, které si provozovatelé mnohdy ani neuvědomují:
- www vs. non-www verze webu (obě přístupné bez přesměrování),
- HTTP vs. HTTPS verze,
- URL s parametry a bez nich,
- stránky s paginací bez správné kanonizace nebo obsah přístupný přes více různých cest.
Řešením je konzistentní používání rel=canonical a 301 přesměrování na preferovanou verzi URL.
JavaScript rendering a zpožděná indexace
Weby postavené na moderních JavaScript frameworcích (React, Vue, Angular) mohou mít s indexací problémy. Google sice JavaScript renderuje, ale s výrazným zpožděním, renderování je výpočetně nákladné, proto ho Google odkládá. Pokud váš obsah existuje pouze po vykonání JavaScriptu, může uplynout i několik týdnů, než bude zaindexován. Řešením je Server-Side Rendering (SSR) nebo Static Site Generation (SSG), kde je obsah dostupný rovnou v HTML.
Obsah za přihlášením
Stránky dostupné pouze po přihlášení nebo za paywallem vyhledávací roboti standardně neuvidí. Pokud chcete takový obsah zaindexovat, je nutné implementovat speciální řešení, například zobrazit robotovi ukázku obsahu nebo využít strukturovaná data pro paywallový obsah.
Indexace různých typů obsahu
Obrázky
Aby byly obrázky správně zaindexovány pro Google Obrázky, je klíčový alt text, textový popis, který robotovi říká, co je na obrázku zobrazeno. Dále pomáhá popisný název souboru (cervene-jablko.jpg místo IMG_4521.jpg) a u produktů také strukturovaná data Schema.org.
Videa
Pro indexaci videí využijte VideoObject schema, uveďte název, popis, datum nahrání a URL náhledového obrázku. Videa hostovaná na YouTube jsou přirozeně lépe dostupná pro Googlebot, zatímco videa z vlastního hostingu vyžadují pečlivější technické nastavení.
PDF soubory
Google umí indexovat textový obsah PDF souborů. Aby byly dobře zaindexovány, měly by být přístupné přes stabilní URL, obsahovat textový layer (ne sken) a mít relevantní metadata, název dokumentu a popis. Ideálně by ke každému PDF existovala i HTML verze obsahu.
Crawl budget, proč je důležitý pro větší weby
Každý web má přidělen crawl budget, přibližný počet URL, které je vyhledávač ochoten zpracovat za určitý časový úsek. U malých webů (do stovek stránek) je to zpravidla zanedbatelný faktor. U velkých e-shopů, zpravodajských portálů nebo katalogů s desetitisíci URL je však správné řízení crawl budgetu kriticky důležité.
Crawl budget ovlivňují zejména celková autorita domény (weby s více zpětnými odkazy dostávají větší budget), rychlost serveru, počet stránek a frekvence jejich aktualizace a množství chybových odpovědí (404, 5xx).
Crawl budget lze optimalizovat blokováním nepotřebných URL v robots.txt (filtry, parametry, duplikáty), opravováním 404 chyb, omezením řetězů přesměrování, zrychlením serveru a vyřazením nezaindexovatelných stránek ze sitemapový.
Závěr
Indexace je klíčový krok mezi crawlingem a samotným zobrazením ve výsledcích vyhledávání. Bez záznamu v indexu neexistuje žádná organická návštěvnost, bez ohledu na to, jak kvalitní váš obsah je.
Nejdůležitější body k zapamatování:
- crawling a indexace nejsou totéž a stránka může být navštívena, ale přesto nezaindexována,
- správné použití robots.txt a noindex rozhoduje o tom, co se do indexu dostane,
- kanonizace duplicitního obsahu je důležitá u každého webu,
- Google Search Console je váš hlavní nástroj pro sledování a řešení problémů s indexací,
- JavaScript obsah se indexuje se zpožděním, proto zvažte SSR nebo SSG,
- u velkých webů věnujte pozornost crawl budgetu a eliminujte zbytečné URL.
Jakmile je stránka zaindexována, nastupuje třetí fáze celého procesu — hodnocení a řazení výsledků. To je téma, kterému se budeme věnovat v příštím článku.
- Pro vkládání komentářů se musíte přihlásit