Podvodné optimalizační techniky

Evidentně podvodné techniky - Jak je to s penalizací - Za co by se penalizovat nemělo - Většina problémů není způsobena penalizací - Co tedy dělat

Každý, kdo důkladně chápe, jak fungují moderní vyhledávače (zejména fulltextové), je schopen navrhnout techniky, kterými by své stránky ve výsledcích vyhledávání mohl posunout trochu výše.

Oproti tomu vyhledávače se obecně snaží nabídnout uživateli odkazy na takové stránky, které mu budou nejužitečnější, nikoli na stránky podvodně upravené. A tak se má obecně za to, že vyhledávače stránky, které používají podvodné techniky, různě penalizují.

Abyste nebyli penalizováni, je dobré vědět, co se obecně považuje za nesprávné, jinak řečeno co se nesmí. Jestli opravdu budete penalizováni, pokud něco takového použijete, je otázka jiná. Níže vypsané termíny spolu často souvisejí, techniky se kombinují a někdy bývá například problém rozhodnout, jestli se ještě jedná o dorway page nebo o cloaking.

Evidentně podvodné techniky

Cloaking

Poskytování různého obsahu různým typům klientů. Typicky se dělá to, že se podstrčí

jiná stránka pro Googlebota a pro ostatní roboty
a jiná stránka pro normálního uživatele.

To podstrčení se provádí nějakým serverovým skriptem. Robot pak dostává vysoce optimalizovanou stránku, ze které by normální uživatel rychle utekl. Uživatel dostává jinou, nablýskanější verzi stránky.

Doorway page

Stránka vytvořená speciálně a pouze za účelem zisku vysokého hodnocení ve vyhledávačích. Většinou se jedná o uměle seskládanou stránku obsahující desítky opakovaných klíčových slov. K čemu to je:

Uživateli se buďto ukáže stránka tak, jak je, a přidá se kontextová reklama, výrazný odkaz na jinou stránku či skrytý iframe s klientskou stránkou,
nebo se do stránky umisťuje javacriptový redirect na nějakou jinou, normální stránku.

Doorway pages se také často označují jako "entry pages", "bridge pages" nebo "gateway pages". Srozumitelný překlad do češtiny neznám. Doorway pages souvisejí s klamným přesměrováváním a s odkazovými farmami.

Klamné přesměrování (deceptive redirect)

Po příchodu na vyhledanou stránku je uživatel (nejčastěji javascriptem) přesměrován na jinou stránku, která nemusí odpovídat tomu, co uživatel hledal. Jedná se o častý doplněk k doorway page.

Proč se přesměrovává javascriptem: protože kdyby se přesměrovávalo http hlavičkou (301 removed), tak si toho vyhledávací robot snadno všimne. Pokud se přesměrovává meta tagem refresh, tak toho si zase snadno všimne parser. Javascriptové přesměrování může robotovi i parseru uniknout. Tím, že se uživatel nakonec dostává jinam, než chtěl, se v zásadě jedná o jistou formu cloakingu.

Opakovaná a matoucí slova

Normální text stránky je uměle doplněn o mnoho výskytů klíčových slov. Třeba si někdo do textu o ledničkách napíše nesmyslně toto:

Kupte si ledničky ledničky zdarma ledničky free ledničky.

Na rozdíl od doorway page se jedná o normální stránku, pouze trochu "vylepšenou". Pokud někdo přidává související slova, tak to ještě pochopím jako zajímavou strategii. Jsou ale lidi, kteří si do textu o ledničkách napíšou třeba "Ester Ládová". Tam pak ale můžou dostat pouze návštěvníky, kteří hledají něco jiného než ledničky (to vede ke zvyšování návštěvnosti, nikoli zisku).

Skrytý obsah

Normální stránka obsahuje oblast, ve které se vyskytují klíčová slova. Navíc je tato oblast nějakým způsobem skrytá(nejčastěji pomocí CSS stylů), takže uživatel ji nevidí. Potom ovšem uživatel zpravidla vidí jiný obsah, než pro který si z vyhledávače přišel, a je nespokojen. O tom, do jaké míry vyhledávače dokáží skrytý obsah ignorovat, se vedou spory. Skrytý obsah je typově podobný opakovaným slovům.

Odkazové farmy

Dost se to podobá doorway page. Webmaster připraví několik stovek, tisícovek nebo milionů stránek, které umístí nejčastěji na nějaké subdoméně. Teoreticky by to mělo fungovat tak, že robot ty stovky stránek najde, zaindexuje a protože jsou provázané odkazy, měl by jim započítat vysoké hodnocení (dejme tomu PageRank). Potom se takové stránky používají na dva účely:

objevují se ve vyhledávání a klikající uživatelé se pomocí přesměrování (zmíněno výše) lifrují na stránky klienta.
umístí se na ně odkazy na stránku klienta, kteréžto odkazy by měly zvyšovat klientově stránce hodnocení (dejme tomu třeba PageRank).

Proč se to dělá na subdoméně: aby nebyl problém tu subdoménu zahodit, kdyby vyhledávač podvod odhalil a subdoménu penalizoval. Těmto doménám se říká throwaway domains.

Pokud si mohu dovolit radu, tak na takové pochybné domény nikdy neodkazujte. Říká se, že třeba Google do penalizovaného balíku přidává všechny stránky, které na podvodné stránky odkazují. Naopak -- pokud je z podvodných stránek okazována stránka moje, tak by mi to teoreticky nemělo ublížit.

Vyhledávací obsahové farmy

(Aktualizace 2008.) Tisícovky stránek se vygenerují z nějakého seznamu hledaných dotazů (třeba se vysosá seznamácký našeptávač) a navzájem se prolinkuje. Obsah takových stránek se potom tvoří vyhledáváním v nějaké databázi (třeba se vykradou RRSka a wikipedie). Z výsledků vyhledávání se nějak sestaví stránka. To je oproti klasickým odkazovým farmám vylepšení, protože:

uživatele takové stránky zajímají (proklikávají na ně z vyhledávačů), protože stránky jsou tvořeny právě častými uživatelskými dotazy
robot méně často najde duplicity, protože se obsah stránek navzájem liší (každou tvoří hledání něčeho jiného)
administrátoři robota hůře takovou farmu odhalují, protože stránka vypadá normálně, aktuálně a často i trochu k věci.

Na rozdíl od klasických linkfarem se tyhle věci nedělají kvůli odkazům, ale kvůli návštěvnosti, která přichází z vyhledávačů. Nasadí se tam reklama (s AdSense bývá problém, ale AdFox snese všechno) a vydělává se.

Ale nedoporučuju trávit čas výstavbou takové věci. Je to na penalizaci jako cokoliv jiného.

Seznamy hledaných slov

Nedělal bych to ani v malém měřítku. Ono to vypadá nevinně, prostě si na stránku přidám seznam toho, co lidé hledají. Pak bych měl mít teoreticky šanci, že když to někdo bude hledat znovu, přijde ke mně na web, i když u mě na webu o tom nic není.

No... kdyby to takhle fungovalo, tak by vyhledávače přišly brzo na buben. Chytré vyhledávače naopak budou penalizovat, pokud na stránce takový seznam najdou (a dá se najít i automaticky).

Výsledky vyhledávání nenechte indexovat

Kdybych dělal na svém webu vyhledávání nějakou vlastní aplikací, tak bych výsledky vyhledávání asi nenechal indexovat. Primitivní logika ovšem říká, že by to pro vyhledávače mohlo být pěkné žrádlo, protože na výsledcích vyhledávání se přirozeně ve velkém množství vyskytuje hledaný dotaz.

Opět jde o to, že moderní vyhledávače nejsou pitomé a poznají, co jsou výsledky vyhledávání. A dokážou za ně trochu penalizovat celou doménu nebo subdoménu. Obzvlášť dobře poznají, pokud se na stránku umístí jejich vlastní výsledky vyhledávání.

Jak je to s penalizací

Těžko byste hledali v lidském vědění oblast (snad kromě vymítání ďábla), která je více opředena mýty a nejistotou, než je penalizace stránek ve vyhledávačích. Obecně se dá říci pouze to, že v případě použití podvodné techniky můžete být penalizováni.

Rozpoznávání podvodů

Všechny vyhledávače bojují s podvodnými technikami dvěma způsoby:

automatickým rozpoznáváním
ručním rozpoznáváním

Ve chvíli, kdy je stránka rozpoznána jako podvodná, se navíc může stát spousta různých věcí. Já o tom moc nevím, ale předpokládám, že se stránce může oslabit hodnocení, může být zakázána (tomu se říká banování), případně může být zabanována celá doména nebo okolí podvodné stránky. Teoreticky může penalizace trvat nastálo, ale teoreticky může být penalizace pouze přechodná. Jak vidíte, moc o tom nevím (a v případech, kdy vím, jsem smluvně vázán, abych nic podstatného neprozradil).

Automatické rozpoznávání

Existuje několik jednoduchých způsobů, jak mohou konstruktéři vyhledávače odhalit cloaking. Prostě se napíše ještě jeden robot, zamaskuje se za user-agenta Mozillu a pak si roboti porovnají výsledky. Stránky, které se hodně liší, se automaticky zabanují nebo se pošlou nějakému člověku k proklikání.

S dorway stránkami to vyhledávače mají těžší. Obecně je myslím zatím nedokážou efektivně rozpoznat. Je to taky tím, že se doorway obecně dost špatně definuje. Co se dá rozpoznat lépe, je nějaké přesměrování. Najít v kódu stránky meta přesměrování je pro parser vyhledávače triviální. Také se dají rozpoznat jednoduché konstrukce typu location="adresa", ale pokud to trochu zkomplikujete přes eval nebo přes nějaké proměnné a navážete třeba na onmouseover, tak to žádný automat nemá moc šanci rozpoznat.

Co se týká stránek využívajících opakovaného textu, tak také není zas takový problém je rozpoznat. Na to je test hustoty klíčového slova (a vysoká hustota je podezřelá). Se skrytým textem je to horší, parser by musel umět bezvadně interpretovat CSS styly, aby poznal, co na stránce vidět je a co není. Obecně se soudí, že vyhledávače třeba pochopí, že co je v oblasti označené in-line stylem display: none;, tak to že mají ignorovat. V praxi ovšem žádný příklad takového ignorování neznám.

Ruční penalizace

Teoreticky není problém, aby se na každou podezřelou stránku (pokud se to stihne) podíval živý člověk a posoudil, zda je podvodná nebo ne. Tipy dostávají admini fulltextů jednak od automatů zmíněných výše, jednak od jiných živých uživatelů.

Google na to například má bonzovací formulář. Zrovna ale co se Google týká, tak mám pocit, že to nějak nestíhají zpracovávat nebo že to nečte nikdo, kdo by byl schopen českým stránkám rozumět.

Podobně funguje hlášení spamu na Seznam, tam to ovšem admini čtou pravidelně.

Za co by se penalizovat nemělo

Komentářový spam

Když někdo do různých diskusí uvádí odkaz na svoji superstránku bez toho, aby měl ten odkaz pro čtenáře nějakou hodnotu, říká se tomu komentářový spam. Lidé to dělají, aby měli zpětné odkazy a aby se tím zvedlo hodnocení jejich superstránky. Je to děsně otravná věc, ale v principu za komentářový spam nelze cílovou superstránku penalizovat, protože to teoreticky mohl do komentářů zadávat konkurent.

Duplicitní obsah

Pokud máte na dvou různých URL (nebo typicky na dvou různých doménách) naprosto stejný obsah, tak to vyhledávač nemá rád. Když vyhledávač takovou situaci objeví, tak se (nějak) rozhodne, která adresa (doména) je důležitější, a tu druhou přestane indexovat. Tomu prostě neříkám penalizace, tomu říkám duplicita, případně to ještě nazývám jako blbost autora. Pokud máte více domén, na kterých chcete uživatelům poskytovat stejný obsah, tak je všechny přesměrujte (na straně serveru hlavičkou 301) na jedinou vyvolenou adresu. Všechny mně známé vyhledávače by to pak měly respektovat a stránkám hodnocení sčítat.

Jiná věc je obsah ukradený, za to by se penalizovat mělo. Ale těžko říct zda se tak děje.

Podobnosti

Ještě jiná věc je obsah podobný, nikoli stoprocentně stejný. Pokud vyhledávač takové podobné stránky nalezne, měl by si je nechat v indexu obě a tu méně důležitou vyhazovat až při hledání. Jinak řečeno ta méně důležitá stránka by stále měla být k nalezení.

Většina problémů není způsobena penalizací

Jestliže nejste v nějakém vyhledávači se svou stránkou k nalezení na určitá slova, tak to ani zdaleka nemusí znamenat, že jste penalizovaní. Na to si většinou stěžují majitelé špatných stránek, na které nechce nikdo odkazovat (takže pak mají nízké hodnocení).

Když si myslíte, že jste penalizováni, pravděpodobně jsou důvody jiné:

na stránky vede málo odkazů
vyhledávač si nevšimnul, že stránka existuje (to by měly také vyřešit zpětné odkazy)
stránky jsou příliš mladé (nemá cenu šílet nad stránkami, které jsou jenom dva měsíce staré, a tak ve výsledcích ještě poskakují)
vyskytujete se v příliš konkurenčním sektoru, kde jsou tisíce relevantních stránek, takže mezi nimi ta vaše nijak nevyniká
Google si hraje a vaše stránka přitom má smůlu. Doporučuji prostudovat si termíny jako Sandbox, Everflux nebo Google dance (více o Google).

Co tedy dělat

Dělejte stránky pro uživatele, nikoliv pro vyhledávače. Ujistěte se, že na každou stránku vede alespoň jeden odkaz ze stránky, kterou už vyhledávač zná. Používejte správné titulky stránek. Všechno ostatní přijde samo.

Reklama

www.webhosting-c4.cz, extra rychlý SSD webhosting s doménou v ceně