Jak se dostat do vyhledávače

Možnost vyhledání webu je nesmírně důležitá. Pokud web nikdo nenajde, jako by nebyl. Na této stránce popíšu, jak dostat web do databáze vyhledávače a jak zařídít, aby byl správně zaindexován.

Vyhledávání

Vyhledávání v internetu zajišťují tzv. fulltextové vyhledávače (neboli zcela česky řečeno plnotextové vyhledávače). Vyhledávač vytváří jakousi velkou databázi stránek v Internetu.

Indexování

Stránky pro vyhledávače shromažďují a indexují tzv. roboti. Jsou to stroje, které se pohybují Internetem pomocí hypertextových odkazů. Pohybuje se vlastně podobně jako uživatel, který kliká na odkazy a přemisťuje se tak ze stránky na stránku. To mimo jiné znamená, že stránku, na kterou neexistuje žádný odkaz robot nenajde. Taková stránka se pak nedostane do vyhledávače a tudíž ji není možné vyhledat.

Poté, co robot stránku zaindexuje je možné ji pomocí příslušného vyhledávače vyhledat (každý vyhledávač má vlastního robota). Vyhledávání bude úspěšné (stránka bude nalezena) pokud se zadané výrazy shodují s těmi v textu stránek (resp. v zaindexované části textu stránek, vyhledávače nemusí zaindexovat stránku celou, ale jen její část několik kilobajtů od začátku).

Hledaný text nemusí být ale jen v textu stránky, klíčová slova mohou být obsažena jen v textových odkazech a web na ně bude také vyhledatelný. Dokonce stačí, aby na web vedly nějaké odkazy z tématicky zaměřených webů a web bude vyhledatelný i na jejich klíčová slova.

Zpětné odkazy

Běžné způsoby jak získat tzv. zpětné odkazy na svou stránku jsou prakticky vzato dva (pomíjím možnosti jako diskuzní fóra či odkazové farmy). První možností je dohodnout se s nějakým vlastníkem webu o umístění odkazu, třeba formou „výměnné reklamy”. Druhou možnost nabízí tzv. katalogy (rozcestníky). Internetový katalog (např. seznam.cz) je vlastně stránka, na které si můžete svůj odkaz zaregistrovat do vybrané sekce podle zaměření webu. Tuto nabídku obvykle naleznete pod souslovím „přidat odkaz”. Tyto služby jsou poskytovány obvykle zdarma, ale také placeně, čehož se hojně využívá především u komerčních webů.

Pokud tedy odkaz na stránku již existuje (obecně platí čím více, tím lépe), nezbývá vlastně nic jiného než čekat na návštěvu robota. To může trvat několik dní až týdnů, ale s trochou štěstí to může být hned zítra. Větší šanci na brzkou návštěvu robota zřejmě budeme mít, pokud se odkaz na ní bude nacházet přímo na vstupní stránce (popř. jiné stránce na kterou existují přímé odkazy z jiných webů). Robot totiž ne vždy zaindexuje a prochází celý web.

Váha slov

Vyhledávače přikládají různým slovům různou váhu, podle důležitosti jejich výskytu v textu. Vyšší váhu mají slova obsažená v titulku dokumentu (title), v URL adrese či nadpisu nejvyšší úrovně (h1).

Klíčová slova

Klíčová slova (keywords) zadaná v metatagu keywords nemají na vyhledání dokumentu zdaleka takový vliv, jak si hodně lidí myslí. Podobné je to s metatagem description. Vyhledávače jim obvykle nepřidávají příliš velkou váhu (obvykle je berou jako běžný výskyt v textu), některé vyhledávače klíčová slova dokonce zcela ignorují. Je to především z důvodu zneužití těchto metatagů ze strany tvůrců webu, kteří zadávají slova, která se neshodují s obsahem webu, aby zvýšili návštěvnost webu. (Snad nemusím vysvětlovat, jaké weby mají nejvyšší návštěvnost a kterými výrazy jsou vyhledávány.)

Nevyhledání

Nenalezení relevantního dokumentu na dotaz může způsobit několik faktorů.

Chyby v syntaxi HTML

Velmi časté jsou chyby v HTML stránkách i jejich HTTP hlavičkách. Robotu, potažmo vyhledávači je sice jedno, jestli jsou stránky validní nebo ne, některé chyby však mohou robotu část textu znepřístupnit.

  • neuzavřený komentář – text je od začátku komentáře do konce stránky ignorován
  • chybějící koncové uvozovky u hodnoty atributu – text je chápán jako atribut (tudíž je ignorován) až do té doby, dokud se neobjeví další uvozovky
  • stránky s rámci bez odkazu na obsah pro alternativní prohlížeče – pokud stránka v rámcích v tagu noframe neobsahuje smyslupný text, nebude zřejmě správně zaindexována (mnoho titulních stránek se dá ve vyhledávači najít s textem typu „Máte špatný prohlížeč, nainstalujte si jiný”)
  • chybějící ALT text u obrázku – nezpůsobí sice nezaindexování části textu, ale pro vyhledávače je důležitý, zvláště pokud se jedná o obrázek, který zároveň slouží jako odkaz.

Informace o znakové sadě

Robot potřebuje správnou informaci o znakové sadě. Musí být správně vyplněna položka content-type v metatagu v hlavičce stránky včetně atributu charset.

Robot nevidí vše

Jestli se dá o robotovi říct,– že používá prohlížeč, tak používá ten úplně nejjednodušší, nejstarší a prostě jen textový. Obvykle robot zná jen HTML (XHTML). Nevidí:

  • skripty – robot neinterpretuje JavaScript, Java applety, ani VBScript
  • obrázky – pokud máte místo všech možných nadpisů a menu obrázky, robot je nepřečte, i když je na nich jen text; přečíst může pouze jejich atribut alt, kde by se měl popis obrázku vyskytovat. Totéž platí i pro flash, proto pozor především na flashové menu, v takovém případě robot nemá šanci stránkou vůbec projít. A pokud se už nechcete toho nádherného animovaného menu vzdát, tak aspoň přidělějte nějakou klasickovou textově odkazovou alternativu.

Penalizace webu

Snaha některých autorů webů o co možná nejlepší umístění ve vyhledávači vede v některých případech až k podvodům. Podvodem je zjednodušeně řečeno vytváření odlišného webu pro robota a pro člověka. Člověk vidí, to co je na obrazovce, robot vidí to, co je v kódu. Podvodem je například tzv. „neviditelný text”, což je text barvy pozadí. Robot není hloupý a pozná podvodníky. A taky je za podvádění trestá. Pokud autor takto uvádí klíčová slova nesouvisející s obsahem stránky, popř. nadměrný počet klíčových slov, může být penalizován. Pro web může taková penalizace znamenat zhoršení pozice ve vyhledávači, ale i vyřazení z databáze indexovaných webů.