Vyhledávače

jak přibližně fungují

Co jsou vyhledávače - Jak pracují vyhledávače - Robot prochází internetem - Jak přilákat roboty - Indexování - Klíčová slova - Vyhledávání - Čeština - Příklady vyhledávačů - Další informace

Co jsou vyhledávače

Třeba Google, Seznam, Bing nebo třeba Yahoo.com. Servery, které mají velikou databázi stránek s informacemi o tom, která stránka internetu obsahuje jaké slovo. Protože takové vyhledávače umějí hledat v celém textu stránek, říká se jim fulltextové. Takových serverů existují řádově stovky. Nepleťte si prosím fulltextové vyhledávače s katalogy (Yahoo, katalog Seznamu), ačkoli poslední dobou (2012) už pořádné katalogy skoro neexistují.

Programům, které procházejí web a schraňují pro vyhledávače informace, se říká roboti, boti nebo crawleři.

Na české stránky přichází nejvíce uživatelů přes fulltext Seznamu. Světově nejdůležitější vyhledávač je Google. Více informací o Google. Údaje uvedené níže platí ale pro všechny fulltextové vyhledávače.

Jak pracují vyhledávače

Ve třech krocích:

Robot (crawler) sbírá data
Pak se to zpracuje do indexu (indexování)
Nakonec se to zpřístupní návštěvníkům, aby mohli klást dotaz (vlastní hledání).

Robot prochází internetem

Většinou někde začne, třeba v nějakém katalogu. Najde odkaz a sleduje ho. Nalezenou stránku si stáhne pro zaindexování, zároveň hledá další odkazy, které případně opět sleduje, aby si to zase postahoval.

Z toho vyplývá, že robot může odhalit pouze stránku, na kterou vede nějaký odkaz. Musí přitom jít o klasický odkaz (na to obzvláště upozorňuji milovníky různých JavaScriptových parádiček). Pokud na vaše stránky nebudou roboti chodit, žádný čtenář ty stránky nemůže najít fulltextovým vyhledávačem.

V praxi ale roboti najdou jenom část stránek, které existují, protože to prostě všechno nestíhají.

Aby se nezdržovali blouděním, mají ve zvyku sledovat odkazy v témž webu jen do určité úrovně (1 až 2) nebo do určitého počtu.
Roboti si pamatují, kde už byli, aby tam nemuseli znovu. Čas od času se robot na stránky vrací, aby se podíval, jak se změnily.
Roboti skoro vůbec nestahují pomocné soubory jako obrázky nebo stylopisy.
Někteří roboti se prý nedokáží nebo nechtějí prokousat rámovou strukturou (vizte problémy rámů).

Jak přilákat indexovací roboty

Někteří přijdou sami poté, co se vaše stránka objeví na nějaké stránce. Jiné roboty musíte popohnat. Většinou je potřeba na stránkách vyhledávače někde najít nenápadný odkaz přidej odkaz, add a link, submit site, add site a podobně. Zadá se URL adresa (doporučuji kontrolovat), to je vše. Roboti časem přijdou. Znám takhle stránky na přidání do Google a do Seznamu.

Google a další moderní roboti prý přijdou na stránku teprve tehdy, když najdou určité množství odkazů, které na stránku míří. Proto je třeba mít zajímavý obsah, aby jiní autoři na moje stránky odkazovali.

Bacha na automaty

Osobně jsem velmi skeptický k programům, které slibují, že přidají odkaz do spousty vyhledávačů.

Jednak jde o vyhledávače zahraniční -- ty nejsou tak důležité jako české.
Druhak se říká, že ty programy stejně jenom schraňují informace o zadavateli, aby to mohli prodat.

Opravdu důležitých dobrých vyhledávačů je jen málo, není třeba být ve všech špatných.

Jak zakázat roboty

Pomocí standardu robots.txt nebo pomocí meta tagů robots. Napsal jsem o tom samostatnou stránku o robots.txt (původně byla součástí tohoto textu). Tamtéž píšu o meta tagu robots a o atributu rel=nofollow.

Indexování

Čili zpracování dat do databáze. Každý vyhledávač si žvýká nasbírané informace po svém. Nejčastěji si vypisuje všechna slova, počítá jejich váhu a dává je do relace s adresou stránky.

Váha (důležitost)

Při hledání slova vyplivne vyhledávač první adresy stánek, na kterých má hledané slovo velkou váhu. Jak se váha počítá? Aneb jak se pozná, zda je slovo pro stránku charakteristické? Především tak, že se dané slovo vyskytuje v titulku stránky, v klíčových slovech, v popisu a v nadpisech. Je nutno poznamenat, že každý vyhledávač to počítá jinak

Co vyhledávače sledují	Jak je to v HTML	Důležitost (váha)
titulek	<title>text titulku</title>	obrovská
klíčová slova	<meta name=keywords content="slovo, slovo">	značná, někdy žádná (Google)
popis (description)	<meta name=description content="Stručný popis">	různá
nadpis 1. úrovně	<H1>Nadpis</h1>	značná
ostatní nadpisy	<Hn>Nadpis</hn>	sporná
začátek stránky	<body>Několik prvních slov ...	větší než malá
adresa URL	jméno souboru včetně cesty	různá
text odkazů mířících na tu stránku z jiného serveru	<a href="adresa">text odkazu</a>	u některých vyhledávačů obrovská (Google, Seznam)
alty u obrázků	<img alt="zástupný text" ...>	malá
text stránky	prostě text	malá
katalogový popisek	co zadáte do případného spřízněného katalogu	různá (pouze na Seznamu)

V tabulce jsem nastínil pouze nejčastější kritéria. Ještě jednou musím zdůraznit, že se různé vyhledávače v počítání relevance opravdu velmi liší. Například Google prý zcela ignoruje klíčová slova (meta keywords). Nebo existují specializovaní roboti, kteří hledají třeba jenom obrázky nebo počet odkazů.

Klíčová slova

Velký význam býval připisován klíčovým slovům (keywords) a popisu (description). Zapisují se jako meta tagy. V zásadě se dá říci, že keywords by měl být seznam slov charakteristických pro danou stránku. Například zápis klíčových slov pro tuto stránku:

Význam klíčových slov v poslední době (myšleno 2004) zcela upadl, protože spousta lidí do nich píše nesmysly a marketingové žvásty. Autoři vyhledávačů to vědí, a tak význam keywords v kritériích snižují. Například Google nebo Seznam již klíčová slova ignorují zcela. Dnes mají keywords větší význam pouze pro interní vyhledávače (například Atomz).

Description = popisek

Naopak určitý význam si uchovává meta tag description. Všechny důležité vyhledávače (pokud vím) jej berou v úvahu.

Google zobrazuje popisek pod titulkem vyhledávání v případě, že popisek obsahuje hledané slovo (domnívám se, že s description pracuje stejně jako s nadpisem nejvyšší úrovně).

Vyhledávání

Podoba výsledků

Je zajímavé popřemýšlet, jak se moje nalezená stránka zobrazí. Jako klikací odkaz se vypisuje titulek stránky (obsah tagu <title></title>), pod ním tři různé věci:

Buďto obsah meta tagu description,
nebo prvních několik slov ze začátku stránky
nebo kusy textu kolem hledaného výrazu.

Nejčastěji to býval právě description (takže je dobré jej zadávat), poslední dobou vítězí kusy textu kolem hledaného výrazu (zejm. Google). Hlavně je ale třeba mít správně zadaný titulek stránky.

Řazení výsledků

Různé vyhledávače řadí výsledky různě. Obecně se dá říci, že čím více se hledaná slova na stránce vyskytují a čím mají významnější pozici (titulky, nadpisy), tím je stránka řazena výše. Sleduje se i text odkazů mířících na stránku, zda obsahuje hledané slovo. Algoritmy ale nikdo přesně nezná a liší se nejen od vyhledávače k vyhledávači, ale např. na Google prý každý měsíc. Proto nemá cenu psát sem víc.

Page Rank

Další metodou je takzvaný PageRank (PR), který používá Google (GPR) a poslední dobou (míněno 2005) mnoho jiných vyhledávačů. PR vyjadřuje něco jako věrohodnost nebo důležitost stránky. Page Rank ovlivňuje řazení výsledků, nikdo ale přesně neví jak (asi podstatně). Jaké mají vaše stránky Page Rank, se můžete dozvědět, pokud si stáhnete a nainstalujete Google Toolbar, což je taková lištička do prohlížeče.

GPR se počítá podle toho, kolik stránek danou stránku odkazuje -- čím více, tím lepší PageRank. Navíc odkazy ze stránek s vyšším PR mají větší váhu. Google Page Rank se počítá postupným přepočítáváním (iterací). Existuje na to vzoreček. Více o Google.

Čeština

Dříve to byla magie, ale dnes (2005) už je docela pohoda, protože všechno funguje, jak má. S češtinou jsou spojeny dvě zásadní otázky, které spolu nesouvisejí:

Jak vyhledávat háčkovaná a čárkovaná slova?
Jak pozná vyhledávač, že je stránka česky? (Třeba Altavista nebo Google to umí poznat)

Háčky a čárky

Dříve bylo nutno zadávat dotaz dvakrát. Jednou bez diakritiky, podruhé s ní. Vyskytují-li se navíc ve slově znaky ž, š a ť, bylo třeba opakovat hledání v jiném kódování. Dnes (2005) už to není potřeba, všechny moderní vyhledávače rozumějí češtině. Umějí rozeznat všechny hlavní znakové sady iso-8859-2, windows-1250 i UTF-8.

Některé málo rozšířené hloupější zahraniční vyhledávače kódování češtiny ignorují a zapisují slova tak, jak je vidí v ascii kódu. To znamená, že třeba písmenko š si zapíšou jednou jako $185, jindy jako $154. Většina moderních vyhledávačů si texty ale převádí do unicode.

Rozpoznání jazyka

Jak vyhledávače poznají, v jakém jazyce je text?

provádějí heuristickou analýzu: čtou text a snaží se počítat slova charakteristická pro ten který jazyk (pro češtinu např. "se", "ale" nebo "je"). To je základní a nejpoužívanější metoda.
Výjimečně se orientují se podle generické domény (.cz), hledají meta deklaraci jazyka: <meta http-equiv="Content-Language" content="cs"> nebo hledají atribut lang=cs v jakémoli tagu. Tyto metody jsou ale vysoce nespolehlivé, a tak se (pokud vím) nepoužívají.

Protože počítání slov není vždy spolehlivé, není divu, že se vyhledávače občas v rozpoznání jazyka pletou. Google má (myslím) navíc nějaké rozbité slovníky, protože mezi českými výsledky často nacházím turecké a maďarské stránky.

Příklady vyhledávačů

České:

www.jyxo.cz bývalo kolem let 2002 nejrychleji vyvíjeným českým fulltextem, mělo největší index. Poskytovalo výsledky vyhledávání mnoha jiným českým serverům. V roce 2008 Jyxo koupila Nova, v roce 2010 jej zahrnula do svého webu a v roce 2013 vypnula.
www.morfeo.cz (dříve webfast) používalo jej Centrum, má velmi obsáhlý index. Centrum primárně vyhledává v katalogu odkazů a fulltextovým Morfeem výsledky pouze doplňovalo. Od roku 2008 používá na doplňování výsledků Google.
výchozí vyhledávání na www.seznam.cz je od jara 2005 vlastní fulltextová technologe (obecně nepojmenovaná). Seznam dříve používal Jyxo nebo Google; nyní (2005) už ale Seznam Jyxo nevyužívá. Na vyhledávání ve světě používal Seznam vyhledávání od Google a od roku 2009 používá Bing. Ve vývoji interního seznamáckého fulltextu mám notně namočené prsty.
www.atlas.cz míval vlastní fulltext, potom používal Jyxo, primárně vyhledával v katalogu firem a v katalogu odkazů. Později koupen Centrem a de facto jako vyhledávač zrušen.
www.megatext.cz nefunguje, používal jej např. Quick (ten používá Jyxo)
www.empyreum.cz bývalo v r. 2002 používáno Seznamem, potom se dlouho nevyvíjelo. Dnes je z něj obskurní technologie ccubee. Jeden z původních autorů Empyrea později naprogramoval Jyxo.

Aktualizováno v březnu 2005 a v srpnu 2010.

Anglické:

www.google.com,
www.bing.com je fulltext vyvíjený Microsoftem
www.yahoo.com spustilo svůj vlastní fulltextový vyhledávač, ale v roce 2010 se jej rozhodlo uzavřít a do budoucna používat bing.
www.alltheweb.com už samostatně neexistuje, koupen firmou Yahoo.com
www.altavista.com taktéž odkoupen Yahoo,
www.ask.com se drží jako samostatný vyhledávač
www.lycos.com,
www.hotbot.com,
a stovky dalších historických.

Další informace

Něco z toho, co jsem psal na této stránce, je do určité míry nejisté. Aby zabránili podvodům, autoři vyhledávačů důležité informace tají (sám mám prsty ve fulltextu Seznamu, a tak taky neřeknu nic víc, než chci).

Zdroje na další informace naleznete v mém katalogu odkazů na SEO. Nejlepší zdroj je asi stránka www.vyhledavace.info.

Reklama

www.webhosting-c4.cz, extra rychlý SSD webhosting s doménou v ceně