O co se jedná?
Google Sitemaps jsou prostředkem pro komunikaci mezi webmasterem a Googlem. Vstupem od webmastera je sitemap soubor (mapa webu), který může být v různém formátu, ale asi nemá cenu použít nic jiného než Sitemap protokol od Googlu. Jedná se o XML soubor, který obsahuje seznam adres na vašem webu a volitelně další užitečné informace. Pro velmi velké projekty je možné použít i indexový Sitemap soubor, který odkazuje na několik Sitemap souborů.
Na straně Googlu je k dispozici webové rozhranní, pomocí kterého sitemapu zaregistrujeme a získáváme různé užitečné informace o našem webu.
K čemu to je?
Prioritně sdělíme Googlu, jaké stránky bychom chtěli indexovat a toto indexování můžeme i určitým způsobem optimalizovat (například, aby se stále dokola neindexovala stará stránka). Takže až nás příště navštíví Crawler od Googlu (sběrač dat se jménem Googlebot) může se řídit uvedenými pokyny. Jak uvádí Google u této služby, berou ji pouze jako doporučení.
Na druhém místě nám pak Google sděluje několik zajímavých informací:
- nejvíce vyhledávaná klíčová slova
- klíčová slova s největším proklikem
- rozložení pageranku
- chyby a nenalezené stránky
- jednoduchou analýzu klíčových slov na webu
- návody na zlepšení rankingu (pořadí na Google)
- sledování jak mne google bot navštěvuje
Jak na to?
Nejprve potřebujeme sitemap soubor (jde to i bez něj, ale přijdeme o hlavní výhodu). Ten můžeme vytvořit několika způsoby. Ruční vytváření a údržba je v praxi asi nepoužitelné (pouze pokud nám jde jen o pár stránek), takže na řadu přichází generování souboru dynamicky. V podstatě se jedná o to samé jako RSS či Atom Feed (inspiraci můžete najít v článku Jak vytvořit RSS kanál v PHP). Podle toho jak často se budou data měnit (přibývat), tak jej můžeme generovat nějakým skriptem jako statický soubor nebo vytvářet dynamicky při každém zavolání souboru. Další možností je použít Google Sitemap Generátor, což je Python skript, nebo generátory třetích stran.
Následně přistoupíme na stránku Google Sitemaps a přihlásíme se (pokud nemáte žádný účet u Googlu, tak je třeba se zaregistrovat). Zde můžeme přidat řadu serverů a k nim sitemapy. Abychom získali přístup k informacím o zaregistrované sajtě, tak je třeba ověřit, že jsme jejími vlastníky. Provádí se to buď nahráním speciálního souboru na web nebo (nově) přidáním parametru do metadat.
Formát XML souboru sitemap.xml
Formát souboru je dán Sitemap protokolem. Jelikož se jedná o XML soubor, je třeba uvést platný typ dokumentu. Soubor musí být v kódování UTF-8 a entity musí být escapovány (př: místo & píšeme &).
<?xml version='1.0' encoding='UTF-8'?>
Vlastní data jsou uzavřena v tagu urlset
s určením verze (v této cestě se nachází XML schéma). Tyto data jsou seznamem jednotlivých linků na web, reprezentovaných elementem url
.
<urlset xmlns='https://www.google.com/schemas/sitemap/0.84'> <url>
Uvnitř je povinný tag
loc
- (jako location), který obsahuje URL adresu stránky
a tři nepovinné elementy
lastmod
- datum poslední změny stránky (aby se zbytečně nestahovaly již indexované stránky)
changefreq
- jak často se daná stránka obměňuje (tedy jak často by se na ni měl robot podívat)
priority
- priorita v rámci webu od 0.0 do 1.0 (můžeme určit, že například stránka s celým článkem je přednější než index článků)
<loc>https://www.samuraj-cz.com/</loc> <lastmod>2006-05-10</lastmod> <changefreq>daily</changefreq> <priority>0.3</priority>
Uzevřeme element url
a většinou vkládáme další. Na konci uzavřeme kořenový element urlset
.
</url> </urlset>
Zatím zde nejsou žádné komentáře.