Yuhůův weblog o webu

v úterý 21. června 2005

Jak Google doplňuje diakritiku

Dříve Google českou diakritiku nerozlišoval. Nyní už asi tři týdny při hledání slov bez háčků a čárek diakritiku doplňuje. Takže když hledám kocka, tak mi Google najde také kočka.

Možná si říkáte, že doplňování diakritiky v Googlu není zas takovou novinkou. Ono se to už objevilo kolem dvacátého dubna, jenomže jenom na dva dny a fungovalo to tehdy jinak než dnes. Doplňování diakritiky se na Google opět spustilo někdy začátkem června.

Ostatní české fulltexty (Jyxo, Morfeo, Seznam) umějí česká slova navíc také ohýbat (kočka bez kočky ke kočce), to Google zatím nezkouší. Také narozdíl od českých fulltextů Google při hledání háčky a čárky z dotazu neodstraňuje, pouze je doplňuje:

Zajímavé je, že Google doplňuje diakritiku pouze určitým slovům, která nějakým způsobem zná, nedělá to automaticky u všech slov. Když například hledám slovo nurredův, najdou se jedny moje staré legendy. Když ale hledám nurreduv bez ů, nenajde se nic -- do neznámého slova Google diakritiku nedoplní. Stejně tak se nedoplňuje na nesmyslná slova -- při hledání kocicka by se nenašla kocička.

Google na to doplňování evidentně nemá žádný přesný slovník. Jestli něco je nebo není české slovo, určuje poněkud nepřesně, pravděpodobně z počtu "českých" dokumentů, ve kterých se slovo nachází. Například umí doplnit diakritiku u nesmyslného slova rucovicky na řůčovičky, protože se na tuhle blbost onehdá dost optimalizovalo.

Nenajdou se česká slova v URL

Google při hledání slov s diakritikou nijak nezohlední česká slova v adrese stránky psaná bez diakritiky. To je trochu škoda, protože to by pro standardní české stránky bylo nejužitečnější. Když budu hledat kotě a stránka bude mít v url třeba /kote/, tak se to nenajde. Je to tím, že -- jak už jsem zmínil -- diakritika se z dotazu neodstraňuje, pouze se doplňuje.

Pár triků

Jestliže mi Google diakritiku doplní chybně a mně to vadí, můžu si pomoci vylučujícím slovem s mínusem. Například dotaz ostravaci mě zcela chybně vyhledá slovo ostraváci :-) Proto je třeba se ptát dotazem

ostravaci -ostraváci

nebo překvapivě stačí operátor plus (vynucený výskyt):

+ostravaci

Pravděpodobný algoritmus

Tohle jsem nevymyslel -- naopak, původně jsem uvažoval úplně špatně. Na správnou stopu mě přivedl až Michal Illich v SEO diskusi. Google to dělá takhle:

Při čtení (indexaci) stránek si u "známých" slov odstraní diakritiku a slovo zaindexuje dvakrát -- jednou normálně s diakritikou (tak to dělal dosud) a podruhé jako slovo bez diakritiky (to je novinka). Potom:

Nyní vás nechám, moji milí čtenáři, uvažovat nad nesmrtelností kočky. Zkuste si tento dotaz: kocka -kocka. Znaménko mínus před slovem znamená, že se toto slovo nemá hledat.

Nakonec jedna ukázka, proč si myslím, že si programátor téhle vychytávky s češtinou moc netyká: sut namísto suť najde shut.

trvalý odkaz

Yuhůův weblog píše Yuhů Yuhů. Kontakt. Weblog patří pod Jak psát web.