Leestijd 3 minuten
Vanaf 1 september 2019 zullen websites op een andere wijze worden geïndexeerd door Google. Indexatie van een website zorgt ervoor dat de website organisch vindbaar is in de zoekresultaten. Google heeft officieel aangekondigd dat GoogleBot niet langer zal voldoen aan de Noindex Robots.txt-richtlijn met betrekking tot indexering. Een belangrijke wijziging voor iedereen die met zoekmachine optimalisatie bezig is.
Websites die afhankelijk zijn van de robots.txt noindex hebben tot 1 september 2019 de tijd om deze te verwijderen en een alternatief te gebruiken. Benieuwd wat dit voor jou kan betekenen? Lees verder!
Wat is een Robots.txt?
Het robots.txt-bestand wordt voornamelijk gebruikt om aan te geven welke delen van jouw website moeten worden gecrawld door webcrawlers (spiders). Een Robots.txt kan verschillende regels voor verschillende webcrawlers specificeren.
Googlebot is een voorbeeld van een webcrawler. De bot bekijkt pagina voor pagina op een website totdat alle pagina’s zijn geïndexeerd. Het wordt door Google ingezet om het internet te doorzoeken en informatie over websites vast te leggen, zodat het weet hoe hoog verschillende websites in zoekresultaten gerangschikt moeten worden.
Het gebruik van een robots.txt-bestand is inmiddels een standaard onderdeel van een website. De webcrawlers zoeken naar het robots.txt-bestand in de host- of hoofdmap van jouw website. Dit tekstbestand heeft altijd de naam ‘robots.txt’. Je kunt jouw robots.txt-bestand vinden door in een browser te gaan naar: jouwwebsite.com/robots.txt.
Robots.txt Noindex Onofficieel
De reden dat de noindex-robots.txt-richtlijn niet wordt ondersteund, is omdat het geen officiële richtlijn is. Google heeft in het verleden deze robots.txt-richtlijn wel ondersteund, maar heeft besloten dit niet meer te doen. De noindex in robots.txt was behoorlijk effectief, maar nooit honderd procent gegarandeerd succesvol.
Dit is de officiële tweet van Google:
“Vandaag nemen we afscheid van ongedocumenteerde en niet-ondersteunde regels in robots.txt. Als u op deze regels vertrouwde, lees dan meer over uw opties in onze blogpost”.
Wat moet je doen met deze veranderingen?
De officiële blogpost van Google somde vijf manieren op om indexatie na deze verandering te beheren:
- Een noindex-metatag direct in de HTML-code van de pagina: zowel ondersteund in de HTTP-response headers als in HTML, is de noindex-richtlijn de meest effectieve manier om URL’s uit de index te verwijderen.
- 404 en 410 HTTP-statuscodes: beide statuscodes betekenen dat de pagina niet bestaat, waardoor dergelijke URL’s uit de index van Google worden verwijderd zodra ze zijn gecrawld en verwerkt.
- Wachtwoord beveiliging: tenzij markup wordt gebruikt om abonnements- of paywall-inhoud aan te geven, zal het verbergen van een pagina achter een login deze meestal verwijderen uit de index van Google.
- Disallow in robots.txt: zoekmachines kunnen alleen pagina’s indexeren die ze kennen, dus het blokkeren van de pagina voor het crawlen betekent meestal dat de inhoud niet wordt geïndexeerd. Hoewel de zoekmachine ook een URL kan indexeren op basis van links van andere pagina’s zonder de inhoud zelf te bekijken, probeert Google dergelijke pagina’s in de toekomst minder zichtbaar te maken.
- Search Console URL verwijder tool: De tool is een snelle en eenvoudige methode om een URL tijdelijk uit de zoekresultaten van Google te verwijderen.
Voor vragen over wat dit voor je website kan betekenen, neem dan contact op met je webbouwer.
Misschien vind je dit ook interessant:
• Welk social media kanaal kies je?
• 5 manieren om je concurrentie een stap voor te blijven
• Website migratie? Wie, wat, wanneer en waarom?