Operátor site: - Googel supplemental index - Google webmaster tools - Co je databáze a co index
Dotaz se pokládá do vyhledávače (Google, Seznam) a zapisuje se s operátorem site:
site:www.example.com
kde example.com je doména, u níž chci zjistit, kolik stránek má zaindexovaných. Vyhledávač vypíše, kolik ve svém indexu našel odkazů (a které). Postupem času můžete zjišťovat, jak se zaindexování domény mění. Operátor site: funguje ve všech důležitých vyhledávačích (Google, Bing, Yahoo, Seznam).
Máte-li na L2 doméně více subdomén, je třeba rozlišovat mezi zápisy
V prvním případě se hledá všechno, co je na celé L2 doméně včetně všech subdomén. Zkuste si na Googlu site:jakpsatweb.cz
Ve druhém případě (site:www.example.com) se prohledává pouze subdoména www.example.com, nikoli celé example.com. Zkuste si na Googlu site:www.jakpsatweb.cz. (Seznam má s tímto druhým zápisem problém a neumí jej správně zpracovat, zpracovává jej stejně jako první zápis.)
Ve třetím zápisu se prohledává jen ta která subdoména. Zkuste na Googlu site:diskuse.jakpsatweb.cz
Google obvykle najde odkazů hodně, protože má hodně svižného robota a protože si do indexu dává skoro všechno, co má v databázi. Také si občas vymýšlí a počet nalezených odkazů nadsazuje (zejména je-li číslo vyšší než tisíc; už to ale dělá méně než v minulosti, zejména nadsazoval kolem let 2005 a 2006). Seznam nacházel odkazů na doméně obvykle méně než Google, protože ne všechny stránky z databáze měl také v indexu. Jyxo a Morfeo mají stránek méně než Google a Seznam, hlavně protože už od roku 2006 nemají dost peněz. Jeden čas (2008) už Seznam i na počet českých stránek vyhrával i nad Googlem.
Když si budete chtít všechny ty výsledky prohlédnout, tak váš žádný vyhledávač nepustí nad tisícovku. To je hlavně kvůli výkonu, seřadit tisíc položek už je tak dost těžké a řadit jich víc by byla pro vyhledávač ještě těžší (a hlavně zbytečná) práce.
V Googlu funguje operátor link:, za kterým se uvede url. Například:
link:https://www.jakpsatweb.cz/seo/zaindexovani.html
zjistí, z jakých důležitých stránek vede odkaz na uvedenou stránku. Obvykle je to informace značně filtrovaná a pořádně se z toho nedá nic usuzovat. Podobný operátor má Bing.
V Googlu funguje operátor info:, za kterým se uvede url. Například:
info:https://www.jakpsatweb.cz/seo/zaindexovani.html
zjistí, zda je uvedená adresa v indexu Googlu.
Pokud chcete zjistit, jak přesně bude vypadat snippet ve výsledcích vyhledávání pro danou stránku a daný dotaz, dá se na to použít operátor info tak, že se za operátor info a adresu ještě zapíše zkoumaný dotaz. Například budu zkoumat dotaz seznam webmaster:
info:https://www.jakpsatweb.cz/seo/zaindexovani.html seznam webmaster
Může se to hodit například na to, abyste zjistili, zda Google dobře akceptuje meta description.
Google má takovou zvláštní věc a tou je supplemental index, což by se dalo přeložit jako dodatečný index. V supplemental indexu se uchovávají stránky, které mají špatný rank, jsou si podobné a jsou obecně o ničem. Google pro ně nechodí tak často, prostě je někdy potkal a nechce se mu je mazat. Ovšem o tom, že jsou nějaké stránky v supplemental indexu, se nijak nedozvíte. Dříve (2007) Google výsledky ze supplemental indexu označoval (v angličtině to bylo "supplemental result"), ale dnes (2009, 2010) už je neoznačuje.
Jak funguje supplemental index:
Vysvětlím příkladem na naší diskusi, který jsem podniknul 19. září 2010
dotaz do vyhledávače google | počet výsledků | komentář |
---|---|---|
google site:diskuse.jakpsatweb.cz | 33 200 | prohledává se normální index |
google site:diskuse.jakpsatweb.cz -xfdx | 102 000 | normální + supplemental index dotaz znamená: všechny stránky z domény, na kterých se nevyskytuje slovo xfdx. |
google site:diskuse.jakpsatweb.cz -asdf | 32 000 | jenom normální index jak vidíte, záleží na tom, jaké vylučující slovo se zvolí. "asdf" v tomto případě prohledávání supplemental indexu nezpůsobí |
dotaz do vyhledávače Seznam | počet výsledků | komentář |
seznam site:diskuse.jakpsatweb.cz | 127 801 | index Seznamu není rozdělený na normální a supplemental |
Závěr: Google na vašich stránkách může znát mnohem víc URL, než kolik jich vypíše při normálním hledání přes operátor site.
Další hezkou hračkou je Google webmaster tools, což je webová aplikace od Googlu. (V roce 2015 přejmenovaná na Google Search Console.) Stačí se do ní přihlásit googláckým účtem a na svůj web nahrát soubor určitého názvu (to se dozvíte vevnitř v té aplikaci), aby bylo jasné, že ten web patří vám. Tím proběhne ověření a dá se koukat na data.
Google webmaster tools má relativně velké množství nástrojů.
A další věci jako je zjišťování odkazů a hledaných slov, což ale u menších a středně velkých webů často hází blbosti nebo to nefunguje. Snad se to zlepší (psáno 2009). Zlepšilo (kontrolováno 2010). Dokonce tam jsou i pozice, na kterých se odkaz průměrně zobrazuje. Dále je tam analýza chyb stránek jako jsou duplicitní titulky, duplicitní descriptions atd.
Některé jiné vyhledávače mají také svoje "webmaster tools", konkrétně Yahoo a Bing. Zmiňuju je ve článku o hledání odkazů.
V indexu se vyhledává, když uživatelé zadávají dotaz. Databáze slouží zejména na řízení robota.
Podstatné je, že URL může existovat v databázi, ale z nějakého důvodu nemusí být v indexu. Jaké jsou důvody pro bytí v databázi, ale nebytí v indexu:
Jak psát web píše Yuhů, Dušan Janovský. Kontakt.