How-To

Wie du robots.txt richtig konfigurierst — mit Beispielen

Eine falsch konfigurierte robots.txt kann dazu führen, dass Google deine gesamte Website nicht indexiert — oder dass sensible Bereiche versehentlich gecrawlt werden. In dieser Anleitung lernst du, wie du robots.txt konfigurierst: von der Erstellung der Datei über die wichtigsten Direktiven bis hin zur Verifikation im Google Search Console. Am Ende hast du eine funktionierende robots.txt, die Crawler gezielt steuert, unnötige Crawl-Budget-Verschwendung verhindert und deine Indexierungsstrategie unterstützt.
5 Min Lesezeit ·
Inhaltsverzeichnis
  1. Voraussetzungen
  2. Schritt-für-Schritt Anleitung
  3. Häufige Fehler
  4. Verifizierung

Voraussetzungen

Bevor du mit der Konfiguration beginnst, stelle sicher, dass folgende Punkte erfüllt sind:

  • Zugriff auf das Root-Verzeichnis deiner Website (via FTP, SFTP oder das Dateimanager-Panel deines Hosters)
  • Ein Texteditor wie VS Code, Notepad++ oder ein einfacher Online-Editor
  • Ein verifiziertes Property in der Google Search Console
  • Grundkenntnisse über die Struktur deiner Website: Welche Verzeichnisse sollen gecrawlt werden, welche nicht?
  • Optional: Zugang zu deinem CMS (WordPress, Shopify etc.), falls du die robots.txt dort verwaltest

Schritt-für-Schritt Anleitung

Schritt 1: Prüfe, ob bereits eine robots.txt existiert

Rufe in deinem Browser folgende URL auf:

https://deinedomain.de/robots.txt

Siehst du eine Textdatei mit Direktiven, existiert bereits eine robots.txt. Siehst du einen 404-Fehler, musst du die Datei neu erstellen. Notiere dir den aktuellen Inhalt, bevor du Änderungen vornimmst.

Schritt 2: Erstelle oder öffne die robots.txt Datei

Verbinde dich per FTP/SFTP mit deinem Server und navigiere in das Root-Verzeichnis deiner Website (dort, wo auch die index.html oder index.php liegt). Erstelle eine neue Datei mit dem Namen robots.txt (kleingeschrieben, ohne Leerzeichen). Öffne sie in deinem Texteditor.

Wichtig für WordPress-Nutzer: Gehe zu Einstellungen → Lesen und prüfe, ob „Suchmaschinen davon abhalten, diese Website zu indexieren" aktiviert ist. Falls ja, deaktiviere diese Option zuerst.

Schritt 3: Verstehe die grundlegende Syntax

Eine robots.txt besteht aus sogenannten Records. Jeder Record beginnt mit einem User-agent und enthält Allow- oder Disallow-Direktiven:

User-agent: *
Disallow: /verzeichnis/
Allow: /verzeichnis/ausnahme/
  • User-agent: * — gilt für alle Crawler
  • User-agent: Googlebot — gilt nur für Googles Crawler
  • Disallow: /pfad/ — sperrt diesen Pfad für den Crawler
  • Allow: /pfad/ — erlaubt explizit einen Pfad (überschreibt Disallow)
  • Crawl-delay: 10 — Pause zwischen Crawl-Anfragen in Sekunden (nicht von Google unterstützt)
  • Sitemap: https://deinedomain.de/sitemap.xml — gibt die Sitemap-URL an

Schritt 4: Konfiguriere die robots.txt für deinen Anwendungsfall

Hier sind die häufigsten Konfigurationsszenarien mit konkreten Beispielen:

Szenario A — Alles erlauben (Standard):

User-agent: *
Disallow:

Sitemap: https://deinedomain.de/sitemap.xml

Szenario B — Bestimmte Verzeichnisse sperren:

User-agent: *
Disallow: /wp-admin/
Disallow: /checkout/
Disallow: /danke/
Disallow: /intern/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://deinedomain.de/sitemap.xml

Szenario C — Nur bestimmte Crawler sperren:

User-agent: AhrefsBot
Disallow: /

User-agent: SemrushBot
Disallow: /

User-agent: *
Disallow: /wp-admin/

Sitemap: https://deinedomain.de/sitemap.xml

Szenario D — E-Commerce mit Facetten-URLs sperren:

User-agent: *
Disallow: /suche/
Disallow: /*?farbe=
Disallow: /*?groesse=
Disallow: /warenkorb/
Disallow: /kasse/

Sitemap: https://deinedomain.de/sitemap.xml

Schritt 5: Füge die Sitemap-Direktive hinzu

Am Ende jeder robots.txt sollte die URL deiner XML-Sitemap stehen. Das hilft Crawlern, deine Inhalte effizienter zu finden:

Sitemap: https://deinedomain.de/sitemap.xml

Falls du mehrere Sitemaps hast (z. B. für Bilder oder Videos), füge jede in einer eigenen Zeile ein:

Sitemap: https://deinedomain.de/sitemap.xml
Sitemap: https://deinedomain.de/sitemap-bilder.xml

Schritt 6: Lade die Datei auf den Server hoch

Speichere die Datei als robots.txt im UTF-8-Format (ohne BOM). Lade sie per FTP/SFTP in das Root-Verzeichnis deiner Domain hoch. Die Datei muss unter https://deinedomain.de/robots.txt erreichbar sein — nicht unter einem Unterverzeichnis wie /blog/robots.txt.

Rufe nach dem Upload die URL im Browser auf und prüfe, ob der Inhalt korrekt angezeigt wird.

Häufige Fehler

Fehler 1: Die gesamte Website versehentlich gesperrt

Die gefährlichste Konfiguration ist:

User-agent: *
Disallow: /

Diese Zeile sperrt alle Crawler von allen Seiten. Das passiert häufig, wenn Entwickler die Staging-Konfiguration auf die Live-Website übertragen. Prüfe nach jedem Deployment die robots.txt.

Fehler 2: robots.txt liegt nicht im Root-Verzeichnis

Die Datei muss zwingend unter https://deinedomain.de/robots.txt erreichbar sein. Eine Datei unter /blog/robots.txt oder /de/robots.txt wird von Crawlern ignoriert.

Fehler 3: Disallow mit robots.txt statt noindex verwechseln

Ein häufiges Missverständnis: Disallow verhindert das Crawlen, nicht das Indexieren. Wenn eine Seite bereits indexiert ist und du sie aus dem Index entfernen möchtest, nutze den noindex-Meta-Tag oder die URL-Entfernung in der Google Search Console. Eine gesperrte Seite kann trotzdem im Index erscheinen, wenn andere Websites darauf verlinken.

Fehler 4: Wichtige Ressourcen gesperrt (CSS, JS, Bilder)

Wenn du Verzeichnisse wie /wp-content/ oder /assets/ sperrst, kann Google deine Seiten nicht korrekt rendern. Das verschlechtert das Crawling und kann Rankings negativ beeinflussen. Sperre niemals CSS- oder JavaScript-Dateien, die für das Rendering wichtig sind.

Fehler 5: Syntaxfehler durch falsche Formatierung

Jede Direktive muss in einer eigenen Zeile stehen. Kommentare beginnen mit #. Zwischen zwei Records muss eine Leerzeile stehen. Beispiel für korrekte Formatierung:

# Alle Crawler
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

# Sitemap
Sitemap: https://deinedomain.de/sitemap.xml

Verifizierung

Nachdem du die robots.txt konfiguriert und hochgeladen hast, verifiziere die Konfiguration mit diesen Methoden:

Google Search Console — robots.txt Tester

  1. Öffne die Google Search Console und wähle deine Property aus.
  2. Navigiere zu Einstellungen → robots.txt (oder nutze das URL-Inspektions-Tool).
  3. Gib einzelne URLs ein, die du gesperrt oder freigegeben hast, und prüfe, ob der Status korrekt ist.

Manueller Browser-Test

Rufe https://deinedomain.de/robots.txt direkt im Browser auf. Der HTTP-Status-Code muss 200 sein. Ein 404 bedeutet, die Datei wurde nicht gefunden. Ein 500 deutet auf einen Server-Fehler hin.

Drittanbieter-Tools

  • Google Search Console URL-Inspektion: Prüft, ob eine spezifische URL gecrawlt werden kann.
  • Screaming Frog SEO Spider: Simuliert das Crawling und zeigt gesperrte URLs an.
  • robots.txt Checker von SEO Review Tools: Kostenloser Online-Validator für Syntaxfehler.

Regelmäßige Überprüfung

Plane eine monatliche Überprüfung deiner robots.txt ein — besonders nach CMS-Updates, Relaunchs oder dem Hinzufügen neuer Verzeichnisse. Viele CMS-Plugins überschreiben die robots.txt automatisch, was zu unerwarteten Sperrungen führen kann.

Häufige Fragen

Was passiert, wenn ich keine robots.txt habe? +
Ohne robots.txt crawlen Suchmaschinen deine gesamte Website ohne Einschränkungen. Das ist für viele kleine Websites in Ordnung, kann aber bei größeren Projekten zu Crawl-Budget-Verschwendung führen. Sensible Bereiche wie Admin-Panels oder Checkout-Seiten sollten explizit gesperrt werden. Es ist empfehlenswert, immer eine robots.txt zu erstellen — auch wenn sie nur eine Sitemap-Direktive enthält.
Kann ich mit robots.txt verhindern, dass meine Seite bei Google erscheint? +
Nein, nicht zuverlässig. Disallow verhindert das Crawlen, aber nicht das Indexieren. Google kann eine Seite trotzdem im Index führen, wenn externe Links darauf verweisen — nur ohne Snippet. Um eine Seite vollständig aus dem Index zu entfernen, nutze den noindex-Meta-Tag im HTML-Header oder das URL-Entfernungstool in der Google Search Console.
Wie oft wird die robots.txt von Google gecrawlt? +
Google cached die robots.txt in der Regel für 24 Stunden. Änderungen werden also nicht sofort wirksam. Du kannst in der Google Search Console das URL-Inspektionstool nutzen und eine erneute Indexierung beantragen, um den Prozess zu beschleunigen. Bei dringenden Änderungen — etwa wenn versehentlich die gesamte Website gesperrt wurde — sollte man zusätzlich das URL-Entfernungstool verwenden.
Gilt die robots.txt auch für Subdomains? +
Nein. Jede Subdomain benötigt eine eigene robots.txt. Die Datei unter deinedomain.de/robots.txt gilt nicht für blog.deinedomain.de. Du musst für jede Subdomain eine separate robots.txt im jeweiligen Root-Verzeichnis erstellen und dort die entsprechenden Direktiven hinterlegen.
Was ist der Unterschied zwischen Disallow und noindex? +
Disallow in der robots.txt verhindert, dass Googlebot eine Seite crawlt — sie kann aber trotzdem indexiert werden. Der noindex-Meta-Tag im HTML-Head einer Seite verhindert die Indexierung, erlaubt aber das Crawlen. Für maximale Kontrolle: Nutze noindex für Seiten, die gecrawlt, aber nicht indexiert werden sollen. Nutze Disallow, um Crawl-Budget zu sparen — aber nicht als Ersatz für noindex.

Du hast den Artikel gelesen.
Jetzt umsetzen?

Wir analysieren in 5 Minuten wo deine Website strukturell unsichtbar ist — kostenlos, ohne Verkaufsdruck.

Kostenlose Analyse starten