Jak zjistit míru zaindexování

Operátor site: - Googel supplemental index - Google webmaster tools - Co je databáze a co index

Operátor site:

Dotaz se pokládá do vyhledávače (Google, Seznam) a zapisuje se s operátorem site:

site:www.example.com

kde example.com je doména, u níž chci zjistit, kolik stránek má zaindexovaných. Vyhledávač vypíše, kolik ve svém indexu našel odkazů (a které). Postupem času můžete zjišťovat, jak se zaindexování domény mění. Operátor site: funguje ve všech důležitých vyhledávačích (Google, Bing, Yahoo, Seznam).

Máte-li na L2 doméně více subdomén, je třeba rozlišovat mezi zápisy

site:example.com
site:www.example.com
a site:subdoména.example.com

V prvním případě se hledá všechno, co je na celé L2 doméně včetně všech subdomén. Zkuste si na Googlu site:jakpsatweb.cz

Ve druhém případě (site:www.example.com) se prohledává pouze subdoména www.example.com, nikoli celé example.com. Zkuste si na Googlu site:www.jakpsatweb.cz. (Seznam má s tímto druhým zápisem problém a neumí jej správně zpracovat, zpracovává jej stejně jako první zápis.)

Ve třetím zápisu se prohledává jen ta která subdoména. Zkuste na Googlu site:diskuse.jakpsatweb.cz

Google obvykle najde odkazů hodně, protože má hodně svižného robota a protože si do indexu dává skoro všechno, co má v databázi. Také si občas vymýšlí a počet nalezených odkazů nadsazuje (zejména je-li číslo vyšší než tisíc; už to ale dělá méně než v minulosti, zejména nadsazoval kolem let 2005 a 2006). Seznam nacházel odkazů na doméně obvykle méně než Google, protože ne všechny stránky z databáze měl také v indexu. Jyxo a Morfeo mají stránek méně než Google a Seznam, hlavně protože už od roku 2006 nemají dost peněz. Jeden čas (2008) už Seznam i na počet českých stránek vyhrával i nad Googlem.

Tisíc výsledků je maximum

Když si budete chtít všechny ty výsledky prohlédnout, tak váš žádný vyhledávač nepustí nad tisícovku. To je hlavně kvůli výkonu, seřadit tisíc položek už je tak dost těžké a řadit jich víc by byla pro vyhledávač ještě těžší (a hlavně zbytečná) práce.

Operátor link: na odkazy

V Googlu funguje operátor link:, za kterým se uvede url. Například:

link:https://www.jakpsatweb.cz/seo/zaindexovani.html

zjistí, z jakých důležitých stránek vede odkaz na uvedenou stránku. Obvykle je to informace značně filtrovaná a pořádně se z toho nedá nic usuzovat. Podobný operátor má Bing.

Operátor info: na kontrolu zaindexování

V Googlu funguje operátor info:, za kterým se uvede url. Například:

info:https://www.jakpsatweb.cz/seo/zaindexovani.html

zjistí, zda je uvedená adresa v indexu Googlu.

Testování snippetů pomocí info:

Pokud chcete zjistit, jak přesně bude vypadat snippet ve výsledcích vyhledávání pro danou stránku a daný dotaz, dá se na to použít operátor info tak, že se za operátor info a adresu ještě zapíše zkoumaný dotaz. Například budu zkoumat dotaz seznam webmaster:

info:https://www.jakpsatweb.cz/seo/zaindexovani.html seznam webmaster

Může se to hodit například na to, abyste zjistili, zda Google dobře akceptuje meta description.

Google supplemental index

Google má takovou zvláštní věc a tou je supplemental index, což by se dalo přeložit jako dodatečný index. V supplemental indexu se uchovávají stránky, které mají špatný rank, jsou si podobné a jsou obecně o ničem. Google pro ně nechodí tak často, prostě je někdy potkal a nechce se mu je mazat. Ovšem o tom, že jsou nějaké stránky v supplemental indexu, se nijak nedozvíte. Dříve (2007) Google výsledky ze supplemental indexu označoval (v angličtině to bylo "supplemental result"), ale dnes (2009, 2010) už je neoznačuje.

Jak funguje supplemental index:

Když je na nějaký dotaz hodně výsledků, do supplemental indexu se nejde.
Když je na nějaký dotaz málo výsledků, Google prohledá i svůj supplemental index. Potom najednou zázračně vrátí víc výsledků.
Do supplemental indexu Google chodí také v případě, kdy vidí nějaký komplikovaný dotaz, typicky vylučující operátor.

Vysvětlím příkladem na naší diskusi, který jsem podniknul 19. září 2010

dotaz do vyhledávače google	počet výsledků	komentář
google site:diskuse.jakpsatweb.cz	33 200	prohledává se normální index
google site:diskuse.jakpsatweb.cz -xfdx	102 000	normální + supplemental index dotaz znamená: všechny stránky z domény, na kterých se nevyskytuje slovo xfdx.
google site:diskuse.jakpsatweb.cz -asdf	32 000	jenom normální index jak vidíte, záleží na tom, jaké vylučující slovo se zvolí. "asdf" v tomto případě prohledávání supplemental indexu nezpůsobí
dotaz do vyhledávače Seznam	počet výsledků	komentář
seznam site:diskuse.jakpsatweb.cz	127 801	index Seznamu není rozdělený na normální a supplemental

Závěr: Google na vašich stránkách může znát mnohem víc URL, než kolik jich vypíše při normálním hledání přes operátor site.

Google Search Console

Další hezkou hračkou je Google webmaster tools, což je webová aplikace od Googlu. (V roce 2015 přejmenovaná na Google Search Console.) Stačí se do ní přihlásit googláckým účtem a na svůj web nahrát soubor určitého názvu (to se dozvíte vevnitř v té aplikaci), aby bylo jasné, že ten web patří vám. Tím proběhne ověření a dá se koukat na data.

Google webmaster tools má relativně velké množství nástrojů.

Já v nich sleduju hlavně chybné odkazy, které mi Google vypisuje.
Dá se zjistit, jak přesně Google pochopil můj soubor robots.txt
Můžu si nastavit kanonizaci, tedy preferovanou hlavní stránku nebo rychlost, s jakou bude Google můj web crawlovat.
Nastavit si sitemapu.

A další věci jako je zjišťování odkazů a hledaných slov, což ale u menších a středně velkých webů často hází blbosti nebo to nefunguje. Snad se to zlepší (psáno 2009). Zlepšilo (kontrolováno 2010). Dokonce tam jsou i pozice, na kterých se odkaz průměrně zobrazuje. Dále je tam analýza chyb stránek jako jsou duplicitní titulky, duplicitní descriptions atd.

Některé jiné vyhledávače mají také svoje "webmaster tools", konkrétně Yahoo a Bing. Zmiňuju je ve článku o hledání odkazů.

Co je databáze a co index

Databáze vyhledávače (též databáze robota) je datová struktura, ve které jsou uloženy informace o existujících URL.
Index vyhledávače je datová struktura, ve které jsou uloženy informace o všech slovech a jejich vztahy k dokumentům. Do indexu též patří zdroje pro popisky vyhledávání, informace o odkazech a metadata.

V indexu se vyhledává, když uživatelé zadávají dotaz. Databáze slouží zejména na řízení robota.

Podstatné je, že URL může existovat v databázi, ale z nějakého důvodu nemusí být v indexu. Jaké jsou důvody pro bytí v databázi, ale nebytí v indexu:

URL je příliš mladé, takže je robot našel, ale obsah stránky ještě nestihnul nasosat
robotovi se moc nelíbí sousedství nebo původ stránky (duplicity, spam, mladá doména), a tak ji zná, ale nechce sosnout
server měl při poslední návštěvě robota nějaký výpadek nebo problém. Pak vyhledávač může aktualizované URL dočasně vyřadit z indexu (ale nevyhodí ji kvůli tomu zatím z databáze). "Dočasně" znamená do příští pravidelné návštěvy.
URL je přesměrováno jinam. Robot si zaznamená cíl, ale obsah původního URL neexistuje, takže jej nelze indexovat.
URL je zakázáno v robots.txt. Robot pak nesmí obsah stránky stahovat, ale nic mu nebrání udržovat o ní informace v databázi.

Reklama

www.webhosting-c4.cz, extra rychlý SSD webhosting s doménou v ceně