Vyhledávače

jak přibližně fungují

Co jsou vyhledávače - Jak pracují vyhledávače - Robot prochází internetem - Jak přilákat roboty - Indexování - Klíčová slova - Vyhledávání - Čeština - Příklady vyhledávačů - Další informace

Co jsou vyhledávače

Třeba Google, Seznam, Bing nebo třeba Yahoo.com. Servery, které mají velikou databázi stránek s informacemi o tom, která stránka internetu obsahuje jaké slovo. Protože takové vyhledávače umějí hledat v celém textu stránek, říká se jim fulltextové. Takových serverů existují řádově stovky. Nepleťte si prosím fulltextové vyhledávače s katalogy (Yahoo, katalog Seznamu), ačkoli poslední dobou (2012) už pořádné katalogy skoro neexistují.

Programům, které procházejí web a schraňují pro vyhledávače informace, se říká roboti, boti nebo crawleři.

Na české stránky přichází nejvíce uživatelů přes fulltext Seznamu. Světově nejdůležitější vyhledávač je Google. Více informací o Google. Údaje uvedené níže platí ale pro všechny fulltextové vyhledávače.

Jak pracují vyhledávače

Ve třech krocích:

  1. Robot (crawler) sbírá data
  2. Pak se to zpracuje do indexu (indexování)
  3. Nakonec se to zpřístupní návštěvníkům, aby mohli klást dotaz (vlastní hledání).

Robot prochází internetem

Většinou někde začne, třeba v nějakém katalogu. Najde odkaz a sleduje ho. Nalezenou stránku si stáhne pro zaindexování, zároveň hledá další odkazy, které případně opět sleduje, aby si to zase postahoval.

Z toho vyplývá, že robot může odhalit pouze stránku, na kterou vede nějaký odkaz. Musí přitom jít o klasický odkaz (na to obzvláště upozorňuji milovníky různých JavaScriptových parádiček). Pokud na vaše stránky nebudou roboti chodit, žádný čtenář ty stránky nemůže najít fulltextovým vyhledávačem.

V praxi ale roboti najdou jenom část stránek, které existují, protože to prostě všechno nestíhají. 

Jak přilákat indexovací roboty

Někteří přijdou sami poté, co se vaše stránka objeví na nějaké stránce. Jiné roboty musíte popohnat. Většinou je potřeba na stránkách vyhledávače někde najít nenápadný odkaz přidej odkaz, add a link, submit site, add site a podobně. Zadá se URL adresa (doporučuji kontrolovat), to je vše. Roboti časem přijdou. Znám takhle stránky na přidání do Google a do Seznamu.

Google a další moderní roboti prý přijdou na stránku teprve tehdy, když najdou určité množství odkazů, které na stránku míří. Proto je třeba mít zajímavý obsah, aby jiní autoři na moje stránky odkazovali.

Bacha na automaty

Osobně jsem velmi skeptický k programům, které slibují, že přidají odkaz do spousty vyhledávačů.

Opravdu důležitých dobrých vyhledávačů je jen málo, není třeba být ve všech špatných.

Jak zakázat roboty

Pomocí standardu robots.txt nebo pomocí meta tagů robots. Napsal jsem o tom samostatnou stránku o robots.txt (původně byla součástí tohoto textu). Tamtéž píšu o meta tagu robots a o atributu rel=nofollow.

Indexování

Čili zpracování dat do databáze. Každý vyhledávač si žvýká nasbírané informace po svém. Nejčastěji si vypisuje všechna slova, počítá jejich váhu a dává je do relace s adresou stránky.

Váha (důležitost)

Při hledání slova vyplivne vyhledávač první adresy stánek, na kterých má hledané slovo velkou váhu. Jak se váha počítá? Aneb jak se pozná, zda je slovo pro stránku charakteristické? Především tak, že se dané slovo vyskytuje v titulku stránky, v klíčových slovech, v popisu a v nadpisech. Je nutno poznamenat, že každý vyhledávač to počítá jinak

Co vyhledávače sledují Jak je to v HTML Důležitost (váha)
titulek <title>text titulku</title> obrovská
klíčová slova <meta name=keywords
content="slovo, slovo">
značná,
někdy žádná (Google)
popis (description) <meta name=description
content="Stručný popis">
různá
nadpis 1. úrovně <H1>Nadpis</h1> značná
ostatní nadpisy <Hn>Nadpis</hn> sporná
začátek stránky <body>Několik prvních slov ... větší než malá
adresa URL jméno souboru včetně cesty různá
text odkazů mířících na tu stránku z jiného serveru <a href="adresa">text odkazu</a> u některých vyhledávačů obrovská (Google, Seznam)
alty u obrázků <img alt="zástupný text" ...> malá
text stránky prostě text malá
katalogový popisek co zadáte do případného spřízněného katalogu různá (pouze na Seznamu)

V tabulce jsem nastínil pouze nejčastější kritéria. Ještě jednou musím zdůraznit, že se různé vyhledávače v počítání relevance opravdu velmi liší. Například Google prý zcela ignoruje klíčová slova (meta keywords). Nebo existují specializovaní roboti, kteří hledají třeba jenom obrázky nebo počet odkazů.

Klíčová slova

Velký význam býval připisován klíčovým slovům (keywords) a popisu (description). Zapisují se jako meta tagy. V zásadě se dá říci, že keywords by měl být seznam slov charakteristických pro danou stránku. Například zápis klíčových slov pro tuto stránku:

<meta name="keywords" content="vyhledávač,indexování,meta,keywords,description,robot,robots.txt, user-agent, disallow, altavista, google">

Význam klíčových slov v poslední době (myšleno 2004) zcela upadl, protože spousta lidí do nich píše nesmysly a marketingové žvásty. Autoři vyhledávačů to vědí, a tak význam keywords v kritériích snižují. Například Google nebo Seznam již klíčová slova ignorují zcela. Dnes mají keywords větší význam pouze pro interní vyhledávače (například Atomz).

Description = popisek

Naopak určitý význam si uchovává meta tag description. Všechny důležité vyhledávače (pokud vím) jej berou v úvahu.

<meta name="description" content="Jak zakázat robotům přístup na web nebo jak zlepšit výsledky vyhledávání">

Google zobrazuje popisek pod titulkem vyhledávání v případě, že popisek obsahuje hledané slovo (domnívám se, že s description pracuje stejně jako s nadpisem nejvyšší úrovně).

Vyhledávání

Podoba výsledků

Je zajímavé popřemýšlet, jak se moje nalezená stránka zobrazí. Jako klikací odkaz se vypisuje titulek stránky (obsah tagu <title></title>), pod ním tři různé věci:

  1. Buďto obsah meta tagu description,
  2. nebo prvních několik slov ze začátku stránky
  3. nebo kusy textu kolem hledaného výrazu.

Nejčastěji to býval právě description (takže je dobré jej zadávat), poslední dobou vítězí kusy textu kolem hledaného výrazu (zejm. Google). Hlavně je ale třeba mít správně zadaný titulek stránky.

Řazení výsledků

Různé vyhledávače řadí výsledky různě. Obecně se dá říci, že čím více se hledaná slova na stránce vyskytují a čím mají významnější pozici (titulky, nadpisy), tím je stránka řazena výše. Sleduje se i text odkazů mířících na stránku, zda obsahuje hledané slovo. Algoritmy ale nikdo přesně nezná a liší se nejen od vyhledávače k vyhledávači, ale např. na Google prý každý měsíc. Proto nemá cenu psát sem víc, než odkaz na archiv české konference SEO (search engine optimalization).

Page Rank

Další metodou je takzvaný PageRank (PR), který používá Google (GPR) a poslední dobou (míněno 2005) mnoho jiných vyhledávačů. PR vyjadřuje něco jako věrohodnost nebo důležitost stránky. Page Rank ovlivňuje řazení výsledků, nikdo ale přesně neví jak (asi podstatně). Jaké mají vaše stránky Page Rank, se můžete dozvědět, pokud si stáhnete a nainstalujete Google Toolbar, což je taková lištička do prohlížeče.

GPR se počítá podle toho, kolik stránek danou stránku odkazuje -- čím více, tím lepší PageRank. Navíc odkazy ze stránek s vyšším PR mají větší váhu. Google Page Rank se počítá postupným přepočítáváním (iterací). Existuje na to vzoreček. Více o Google.

Čeština

Dříve to byla magie, ale dnes (2005) už je docela pohoda, protože všechno funguje, jak má. S češtinou jsou spojeny dvě zásadní otázky, které spolu nesouvisejí:

  1. Jak vyhledávat háčkovaná a čárkovaná slova?
  2. Jak pozná vyhledávač, že je stránka česky? (Třeba Altavista nebo Google to umí poznat)

Háčky a čárky

Dříve bylo nutno zadávat dotaz dvakrát. Jednou bez diakritiky, podruhé s ní. Vyskytují-li se navíc ve slově znaky ž, š a ť, bylo třeba opakovat hledání v jiném kódování. Dnes (2005) už to není potřeba, všechny moderní vyhledávače rozumějí češtině. Umějí rozeznat všechny hlavní znakové sady iso-8859-2, windows-1250 i UTF-8.

Některé málo rozšířené hloupější zahraniční vyhledávače kódování češtiny ignorují a zapisují slova tak, jak je vidí v ascii kódu. To znamená, že třeba písmenko š si zapíšou jednou jako $185, jindy jako $154. Většina moderních vyhledávačů si texty ale převádí do unicode.

Rozpoznání jazyka

Jak vyhledávače poznají, v jakém jazyce je text?

Protože počítání slov není vždy spolehlivé, není divu, že se vyhledávače občas v rozpoznání jazyka pletou. Google má (myslím) navíc nějaké rozbité slovníky, protože mezi českými výsledky často nacházím turecké a maďarské stránky.

Příklady vyhledávačů

České:

Aktualizováno v březnu 2005 a v srpnu 2010.

Anglické:

Další informace

Něco z toho, co jsem psal na této stránce, je do určité míry nejisté. Aby zabránili podvodům, autoři vyhledávačů důležité informace tají (sám mám prsty ve fulltextu Seznamu, a tak taky neřeknu nic víc, než chci).

Zdroje na další informace naleznete v mém katalogu odkazů na SEO. Nejlepší zdroj je asi stránka www.vyhledavace.info.

 

Reklama

www.webhosting-c4.cz, webhosting s doménou v ceně. 20GB
o tvorbě, údržbě a zlepšování internetových stránek

Návody HTML CSS JavaScript Články Ostatní

Základy Prvky stránek Tvorba webu

Jak psát web píše Yuhů, Dušan Janovský. Kontakt.