Was ist Robots.txt?
Die robots.txt Datei ist eine einfache Textdatei, die im Stammverzeichnis Ihrer Website platziert wird und den Suchmaschinen-Crawlern mitteilt, auf welche Seiten oder Ordner sie zugreifen können und auf welche nicht. Sie ist eine der wichtigsten Dateien zur Verwaltung des Crawling-Verhaltens.
Warum Robots.txt wichtig ist
- Crawl-Kontrolle: Verhindert, dass Crawler Zeit mit irrelevanten Seiten verschwenden.
- Datenschutz: Hält private oder sensible Inhalte aus den Suchergebnissen fern.
- Optimierung: Konzentriert das Crawl-Budget auf wertvolle Inhalte.
Wie Robots.txt funktioniert
Wenn ein Crawler Ihre Seite besucht, überprüft er zuerst yourdomain.com/robots.txt. Die Datei enthält Anweisungen wie Allow, Disallow und User-agent, um anzugeben, welche Crawler auf welche Pfade zugreifen können.
Best Practices für Robots.txt
- Blockieren Sie keine Seiten, die Sie indiziert haben möchten.
- Fügen Sie Links zu XML-Sitemaps mit der
Sitemap: Anweisung hinzu.
- Testen Sie Ihre Datei mit dem Robots.txt Tester-Tool von Google.
Beispiel für eine Robots.txt Datei
User-agent: *
Disallow: /admin/
Allow: /blog/
Sitemap: https://example.com/sitemap.xml