Complete Uitleg Over Robots.txt voor Webshops
Iedere webshop zou een robots.txt bestand moeten hebben.
Niet alleen kan je hier heel veel belangrijke dingen instellen voor SEO, ook kan het invloed hebben op de snelheid van je webshop.
Hieronder vind je de complete uitleg over wat dit bestand is, waarom het zo belangrijk is en hoe je dit inzet voor SEO.
Let vooral op als je het volgende probleem hebt: Google pikt veranderingen heel traag op. Wanneer je iets wijzigt in je webshop, nieuwe producten toevoegt of producten verwijdert, duurt het erg lang voordat deze wijzigingen ook in Google terug te vinden zijn.
Dat is een teken dat Google je webshop niet goed crawlt. Crawlen is het verkennen van websites door zoekmachinesoftware. In het geval van Google heet die software de Google Bot. Je robots.txt bestand is cruciaal voor het goed laten crawlen van je webshop door Google, zoals je hieronder kan lezen.
Je kan dit bijvoorbeeld controleren door in te loggen op je Google Webmaster Tools en te bekijken hoeveel pagina’s Google in de index heeft staan door te klikken op Google-index > indexeringsstatus.
Wat je ook kan doen is in Google zoeken op de volgende zoekopdracht: site:website.nl, bijvoorbeeld site:zalando.nl.
Je ziet dan hoeveel pagina’s er zijn opgenomen in de index van Google.
Wat is een Robots.txt?
Als het goed is heeft jouw webshop een robots.txt bestand. Je kan dit bestand voor elke website vinden door naar de volgende url te gaan:
www.mijnurl.nl/robots.txt . Bijvoorbeeld www.zalando.nl/robots.txt.
Hier kan je aangeven welke bots (Bijvoorbeeld de Google crawlbot die jouw webshop doorloopt om deze te indexeren en je zoekwoordpositie te bepalen) toegang hebben tot je website en tot welk gedeelte van je website.
Belangrijker nog, je kan aangeven welke bots geen toegang hebben tot bepaalde gedeeltes van je webshop.
Zo ziet het robots.txt bestand van Zalando er bijvoorbeeld uit:
Door hierin aan te geven waar Google geen toegang tot heeft weet je zeker dat jouw crawl budget niet verspild wordt aan pagina’s die er niet toe doen.
Voor iets ingewikkelds als een webshop is dat een enorm sterk wapen.
Je kan Google dus letterlijk sturen naar waar jij wilt dat ze heengaan.
In een robots.txt bestand kan je de volgende gegevens plaatsen:
User-agent
De naam van het stukje crawl software. De user-agent van Google heet: Googlebot. Ieder bedrijf of software heeft zijn eigen user-agents met een eigen naam.
Disallow
Dit zorgt ervoor dat de bot geen toegang heeft tot deze pagina’s. Achter dit commando schrijf je altijd een URL, zonder het gehele domein te vermelden. Bijvoorbeeld /linkbuilding/, maar niet www.klikproces.nl/linkbuilding/
Wanneer er gebruik wordt gemaakt van het teken * betekent dit: ongeacht wat hier staat.
In het voorbeeld hierboven van Zalando staat bijvoorbeeld *?*sale=*
Dat betekent dat elke URL die de elementen ? en sale= hebben niet gecrawld mag worden.
Bijvoorbeeld:
iets?sale=0
?nogietssale=
iets?ietsanderssale=48
En elke andere versie die je maar kan bedenken.
Allow
Hetzelfde als de disallow code, maar dan betekent het dat een bot wel toegang heeft tot deze pagina’s.
Crawl-delay
Kan gebruikt worden om prioriteiten te geven aan bepaalde URL’s. Echter negeert Google dit commando.
Sitemap
Hiermee kan je de Googlebot direct vertellen waar deze jouw XML sitemap kan vinden. Hierdoor gaat de bot direct door naar jouw sitemap en crawlt zo jouw shop zo effectief mogelijk.
#
Wanneer er in robots.txt een # (hekje) aan het begin van de regel staat wordt deze regel door de bots genegeerd. Dit zijn aantekeningen voor mensen. Bijvoorbeeld een uitleg waarom dit gedeelte van de webshop geblokkeerd wordt.
Sommige bedrijven doen daar wel grappig dingen mee, zoals Nike
Of je kan er een baan mee vinden! Bijvoorbeeld bij Tripadvisor
Wat erg belangrijk is om duidelijk te krijgen: met het robots.txt bestand kan je duidelijk maken welke pagina’s Google niet mag crawlen en daardoor niet indexeert. Maar wanneer een pagina eenmaal in de index van Google staat, haalt Google deze er niet uit door je robots.txt bestand. Het enige wat gebeurd is dat Google niet nogmaals de pagina bezoekt.
Wil je pagina’s uit de Google index verwijderd hebben, dan moet je dat op een andere manier doen.
Hoe Je Jouw Robots.txt Bestand Effectief Inzet voor de SEO van Jouw Webshop
De allerbelangrijkste manier waarop je robots.txt kan inzetten voor SEO is door de Googlebot pagina’s te ontzeggen die deze niet mag crawlen. Dit zorgt er namelijk voor dat je de Googlebot concentreert op de pagina’s die er wel toe doen. Elke webshop krijgt maar een beperkt crawlbudget van Google, dus moet Google zich vooral bezighouden met de voor jou belangrijke pagina’s.
Pagina’s die veelal in robots.txt worden opgenomen, omdat ze er niet toe doen voor SEO:
- winkelwagen
- account pagina’s zoals verlanglijstje
- Filterpagina’s
- Sorteerpagina’s
Om dit te bereiken voer je de volgende codes in, in je robots.txt bestand (let op dat dit voorbeeld URL’s zijn, je moet bij jouw webshop controleren wat jouw URL’s zijn).
Voor de winkelwagen en de verlanglijstje pagina’s:
- disallow:/winkelwagen/*
- disallow: /verlanglijstje/*
Het toevoegen van alle gefilterde pagina’s is wat lastiger, omdat dit sterk verschilt per webshop.
Hieronder de uitleg hoe je dit voor jouw webshop kan vinden.
Ga naar een categorie pagina en noteer de URL. Bijvoorbeeld https://www.fietsenwinkel.nl/fietsen/-/damesfiets/
Klik vervolgens op een filter. In dit voorbeeld de manier van sorteren
structureren. stappen
In dit geval selecteer eens de filter prijs oplopend.
De URL verandert dan in de volgende: https://www.fietsenwinkel.nl/fietsen/-/damesfiets/?dir=asc&order=price
Het stuk ?dir=asc&order=price is aan de URL toegevoegd.
Klik daarna op prijs aflopend en er ontstaat de volgende URL: https://www.fietsenwinkel.nl/fietsen/-/damesfiets/?dir=desc&order=price
?dir=desc&order=price wordt aan de URL toegevoegd.
Tenslotte selecteer je de laatste sorteer mogelijkheid: meeste korting.
De URL wordt dan https://www.fietsenwinkel.nl/fietsen/-/damesfiets/?dir=desc&order=percentage_discount
?dir=desc&order=percentage_discount wordt aan de URL toegevoegd.
In dit geval is een patroon te zien dat iedere sorteermogelijkheid het stukje toevoegt: ?dire=
Dus je kan aan het robots.txt bestand toevoegen:
disallow: *?dire=*
Ga zo alle sorteermogelijkheden af, totdat je alle mogelijkheden hebt gevonden en de patronen hebt uitgesloten, zodat Google deze pagina’s niet meer crawlt. Ga daarna door naar de filteropties. Hierbij doe je hetzelfde.
In het geval van de website fietsenwinkel.nl maakt de website de volgende URL wanneer ik 5 filters aanklik:
Hierbij moet je nagaan wat je wilt dat gecrawld wordt. Is deze pagina van voldoende SEO waarde om hier crawlbudget voor te gebruiken?
Stel je voor dat je weet dat niemand zoekt op motorpositie: voorwiel en je weet dat deze filter zorgt voor heel veel extra pagina’s.
Dan kan je deze pagina uitsluiten door de code toe te voegen:
disallow: */voorwiel_/*
Op deze manier worden alle pagina’s met de filter voorwiel erin niet meer gecrawld.
Op deze manier moet je op alle categorie pagina’s alle filters nalopen, totdat je tevreden bent.
Een hele klus, maar dit komt het indexeren van je webshop enorm ten goede.
Robots.txt Bestand Testen
Google heeft een hele handige functie gemaakt in de Google Webmaster Tools om jouw robots.txt bestand te testen.
Klik op crawlen en op robots.txt tester.
Hier krijg je direct jouw huidige robots.txt bestand te zien.
Daaronder is de mogelijk om een URL in te voeren en te controleren of deze geblokkeerd is of niet voor de Googlebot.
Zodat je zeker weet dat het goed gaat.
That’s it.
Als je dit goed instelt, doet het wonderen voor je SEO, het oppakken van wijzigingen in je webshop en voor je totale vindbaarheid.
Heeft dit jou geholpen met het instellen van je robots.txt bestand? Pakt Google wijzigingen in je webshop sneller op? Heb je nog vragen of opmerkingen? Laat hieronder een reactie achter.