Voraussetzungen
Bevor du mit der Konfiguration beginnst, stelle sicher, dass folgende Punkte erfüllt sind:
- Zugriff auf das Root-Verzeichnis deiner Website (via FTP, SFTP oder das Dateimanager-Panel deines Hosters)
- Ein Texteditor wie VS Code, Notepad++ oder ein einfacher Online-Editor
- Ein verifiziertes Property in der Google Search Console
- Grundkenntnisse über die Struktur deiner Website: Welche Verzeichnisse sollen gecrawlt werden, welche nicht?
- Optional: Zugang zu deinem CMS (WordPress, Shopify etc.), falls du die robots.txt dort verwaltest
Schritt-für-Schritt Anleitung
Schritt 1: Prüfe, ob bereits eine robots.txt existiert
Rufe in deinem Browser folgende URL auf:
https://deinedomain.de/robots.txtSiehst du eine Textdatei mit Direktiven, existiert bereits eine robots.txt. Siehst du einen 404-Fehler, musst du die Datei neu erstellen. Notiere dir den aktuellen Inhalt, bevor du Änderungen vornimmst.
Schritt 2: Erstelle oder öffne die robots.txt Datei
Verbinde dich per FTP/SFTP mit deinem Server und navigiere in das Root-Verzeichnis deiner Website (dort, wo auch die index.html oder index.php liegt). Erstelle eine neue Datei mit dem Namen robots.txt (kleingeschrieben, ohne Leerzeichen). Öffne sie in deinem Texteditor.
Wichtig für WordPress-Nutzer: Gehe zu Einstellungen → Lesen und prüfe, ob „Suchmaschinen davon abhalten, diese Website zu indexieren" aktiviert ist. Falls ja, deaktiviere diese Option zuerst.
Schritt 3: Verstehe die grundlegende Syntax
Eine robots.txt besteht aus sogenannten Records. Jeder Record beginnt mit einem User-agent und enthält Allow- oder Disallow-Direktiven:
User-agent: *
Disallow: /verzeichnis/
Allow: /verzeichnis/ausnahme/User-agent: *— gilt für alle CrawlerUser-agent: Googlebot— gilt nur für Googles CrawlerDisallow: /pfad/— sperrt diesen Pfad für den CrawlerAllow: /pfad/— erlaubt explizit einen Pfad (überschreibt Disallow)Crawl-delay: 10— Pause zwischen Crawl-Anfragen in Sekunden (nicht von Google unterstützt)Sitemap: https://deinedomain.de/sitemap.xml— gibt die Sitemap-URL an
Schritt 4: Konfiguriere die robots.txt für deinen Anwendungsfall
Hier sind die häufigsten Konfigurationsszenarien mit konkreten Beispielen:
Szenario A — Alles erlauben (Standard):
User-agent: *
Disallow:
Sitemap: https://deinedomain.de/sitemap.xmlSzenario B — Bestimmte Verzeichnisse sperren:
User-agent: *
Disallow: /wp-admin/
Disallow: /checkout/
Disallow: /danke/
Disallow: /intern/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://deinedomain.de/sitemap.xmlSzenario C — Nur bestimmte Crawler sperren:
User-agent: AhrefsBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: *
Disallow: /wp-admin/
Sitemap: https://deinedomain.de/sitemap.xmlSzenario D — E-Commerce mit Facetten-URLs sperren:
User-agent: *
Disallow: /suche/
Disallow: /*?farbe=
Disallow: /*?groesse=
Disallow: /warenkorb/
Disallow: /kasse/
Sitemap: https://deinedomain.de/sitemap.xmlSchritt 5: Füge die Sitemap-Direktive hinzu
Am Ende jeder robots.txt sollte die URL deiner XML-Sitemap stehen. Das hilft Crawlern, deine Inhalte effizienter zu finden:
Sitemap: https://deinedomain.de/sitemap.xmlFalls du mehrere Sitemaps hast (z. B. für Bilder oder Videos), füge jede in einer eigenen Zeile ein:
Sitemap: https://deinedomain.de/sitemap.xml
Sitemap: https://deinedomain.de/sitemap-bilder.xmlSchritt 6: Lade die Datei auf den Server hoch
Speichere die Datei als robots.txt im UTF-8-Format (ohne BOM). Lade sie per FTP/SFTP in das Root-Verzeichnis deiner Domain hoch. Die Datei muss unter https://deinedomain.de/robots.txt erreichbar sein — nicht unter einem Unterverzeichnis wie /blog/robots.txt.
Rufe nach dem Upload die URL im Browser auf und prüfe, ob der Inhalt korrekt angezeigt wird.
Häufige Fehler
Fehler 1: Die gesamte Website versehentlich gesperrt
Die gefährlichste Konfiguration ist:
User-agent: *
Disallow: /Diese Zeile sperrt alle Crawler von allen Seiten. Das passiert häufig, wenn Entwickler die Staging-Konfiguration auf die Live-Website übertragen. Prüfe nach jedem Deployment die robots.txt.
Fehler 2: robots.txt liegt nicht im Root-Verzeichnis
Die Datei muss zwingend unter https://deinedomain.de/robots.txt erreichbar sein. Eine Datei unter /blog/robots.txt oder /de/robots.txt wird von Crawlern ignoriert.
Fehler 3: Disallow mit robots.txt statt noindex verwechseln
Ein häufiges Missverständnis: Disallow verhindert das Crawlen, nicht das Indexieren. Wenn eine Seite bereits indexiert ist und du sie aus dem Index entfernen möchtest, nutze den noindex-Meta-Tag oder die URL-Entfernung in der Google Search Console. Eine gesperrte Seite kann trotzdem im Index erscheinen, wenn andere Websites darauf verlinken.
Fehler 4: Wichtige Ressourcen gesperrt (CSS, JS, Bilder)
Wenn du Verzeichnisse wie /wp-content/ oder /assets/ sperrst, kann Google deine Seiten nicht korrekt rendern. Das verschlechtert das Crawling und kann Rankings negativ beeinflussen. Sperre niemals CSS- oder JavaScript-Dateien, die für das Rendering wichtig sind.
Fehler 5: Syntaxfehler durch falsche Formatierung
Jede Direktive muss in einer eigenen Zeile stehen. Kommentare beginnen mit #. Zwischen zwei Records muss eine Leerzeile stehen. Beispiel für korrekte Formatierung:
# Alle Crawler
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
# Sitemap
Sitemap: https://deinedomain.de/sitemap.xmlVerifizierung
Nachdem du die robots.txt konfiguriert und hochgeladen hast, verifiziere die Konfiguration mit diesen Methoden:
Google Search Console — robots.txt Tester
- Öffne die Google Search Console und wähle deine Property aus.
- Navigiere zu Einstellungen → robots.txt (oder nutze das URL-Inspektions-Tool).
- Gib einzelne URLs ein, die du gesperrt oder freigegeben hast, und prüfe, ob der Status korrekt ist.
Manueller Browser-Test
Rufe https://deinedomain.de/robots.txt direkt im Browser auf. Der HTTP-Status-Code muss 200 sein. Ein 404 bedeutet, die Datei wurde nicht gefunden. Ein 500 deutet auf einen Server-Fehler hin.
Drittanbieter-Tools
- Google Search Console URL-Inspektion: Prüft, ob eine spezifische URL gecrawlt werden kann.
- Screaming Frog SEO Spider: Simuliert das Crawling und zeigt gesperrte URLs an.
- robots.txt Checker von SEO Review Tools: Kostenloser Online-Validator für Syntaxfehler.
Regelmäßige Überprüfung
Plane eine monatliche Überprüfung deiner robots.txt ein — besonders nach CMS-Updates, Relaunchs oder dem Hinzufügen neuer Verzeichnisse. Viele CMS-Plugins überschreiben die robots.txt automatisch, was zu unerwarteten Sperrungen führen kann.