Technical SEO

Robots.txt richtig konfigurieren — die häufigsten Fehler vermeiden

Die robots.txt ist eine der einfachsten Dateien einer Website — und gleichzeitig eine der folgenreichsten. Ein einziger falsch gesetzter Disallow-Eintrag kann dazu führen, dass Google ganze Verzeichnisse nicht mehr crawlt, Seiten aus dem Index fallen oder die XML-Sitemap nicht gefunden wird. Dabei ist die Syntax überschaubar. Das Problem liegt meist nicht im Verständnis der Datei selbst, sondern in falschen Annahmen darüber, was sie tut — und was nicht. Dieser Artikel zeigt, wie eine saubere robots.txt aussieht, welche Fehler in der Praxis am häufigsten auftreten und wie man sie systematisch vermeidet.
6 Min Lesezeit ·
Inhaltsverzeichnis
  1. Was die robots.txt tut — und was nicht
  2. Syntax-Grundlagen: Was Crawler tatsächlich lesen
  3. Die häufigsten Fehler in der robots.txt
  4. Crawl-Budget: Wann robots.txt wirklich hilft
  5. Robots.txt bei mehrsprachigen Websites
  6. Robots.txt prüfen und dauerhaft monitoren
  7. Eine saubere Basis-Konfiguration

Was die robots.txt tut — und was nicht

Die robots.txt liegt im Root-Verzeichnis einer Domain (z.B. https://example.com/robots.txt) und gibt Crawlern Anweisungen, welche Bereiche der Website gecrawlt werden dürfen und welche nicht. Das Protokoll dahinter heißt Robots Exclusion Protocol und ist seit den 1990er-Jahren etabliert.

Zwei Missverständnisse sind besonders verbreitet:

  • Disallow verhindert keine Indexierung. Wenn eine Seite über externe Links erreichbar ist, kann Google sie trotz Disallow-Eintrag in den Index aufnehmen — nur ohne den Seiteninhalt gecrawlt zu haben. Das Ergebnis: eine Indexierung ohne Meta-Daten, ohne Title, ohne Description.
  • Robots.txt ist kein Sicherheitsmechanismus. Wer sensible Bereiche schützen möchte, braucht eine Authentifizierung — nicht einen Disallow-Eintrag. Böswillige Bots ignorieren die Datei ohnehin.

Wer diese Grundannahmen verinnerlicht, trifft bessere Entscheidungen bei der Konfiguration. Für Seiten, die nicht indexiert werden sollen, aber gecrawlt werden dürfen, ist ein Canonical Tag oder ein noindex-Meta-Tag die richtige Lösung — nicht robots.txt.

Syntax-Grundlagen: Was Crawler tatsächlich lesen

Eine robots.txt besteht aus sogenannten Records. Jeder Record beginnt mit einem User-agent-Eintrag und enthält anschließend Allow- oder Disallow-Direktiven.

User-agent: *
Disallow: /admin/
Disallow: /intern/
Allow: /

User-agent: Googlebot
Disallow: /staging/

Sitemap: https://example.com/sitemap.xml

Wichtige Regeln der Syntax:

  • Ein leeres Disallow: bedeutet: alles erlaubt.
  • Disallow: / bedeutet: alles gesperrt — ein häufiger Fehler bei Staging-Umgebungen, der versehentlich in Produktion landet.
  • Pfade sind case-sensitiv: /Admin/ und /admin/ sind unterschiedliche Einträge.
  • Wildcards (*) und das Dollarzeichen ($) werden von Google unterstützt, aber nicht von allen Crawlern.
  • Kommentare beginnen mit # und werden ignoriert.

Google dokumentiert die unterstützte Syntax in der Google Search Central ausführlich. Es lohnt sich, diese Referenz einmal vollständig zu lesen.

Die häufigsten Fehler in der robots.txt — und ihre Konsequenzen

1. Versehentlich alles gesperrt

Der gefährlichste Fehler ist gleichzeitig der häufigste: Disallow: / für alle User-Agents. Dieser Eintrag blockiert Googlebot vollständig. Websites, die von einem CMS oder Entwicklungsumgebung auf Produktion migriert werden, tragen diesen Eintrag manchmal aus der Staging-Konfiguration mit. Google Search Console zeigt in solchen Fällen eine Warnung — aber nur, wenn man aktiv nachschaut.

Sofortmaßnahme: robots.txt nach jedem Deployment prüfen. Viele Teams vergessen das, weil die Datei selten angefasst wird.

2. CSS und JavaScript blockiert

Ältere SEO-Empfehlungen rieten dazu, CSS- und JavaScript-Verzeichnisse zu sperren, um Crawl-Budget zu schonen. Das ist heute kontraproduktiv. Google rendert Seiten wie ein Browser — wenn Ressourcen nicht gecrawlt werden können, sieht Googlebot eine unvollständige Seite. Das betrifft besonders JavaScript-lastige Anwendungen. Mehr dazu im Artikel zu JavaScript SEO und Crawler-Problemen.

3. Sitemap-Verweis fehlt

Die robots.txt ist der ideale Ort, um die XML-Sitemap zu referenzieren. Viele Konfigurationen verzichten darauf. Der Eintrag Sitemap: https://example.com/sitemap.xml hilft Crawlern, die Sitemap zuverlässig zu finden — unabhängig davon, ob sie in der Search Console eingetragen ist. Wie eine saubere Sitemap aussieht, beschreibt der Artikel XML Sitemap erstellen — was Google wirklich braucht.

4. Falsche Reihenfolge von Allow und Disallow

Wenn ein Pfad sowohl von einem Allow- als auch einem Disallow-Eintrag erfasst wird, gilt bei Google die spezifischere Regel. Bei gleicher Spezifität gewinnt Allow. Andere Crawler können das anders interpretieren. Wer komplexe Regeln schreibt, sollte sie mit dem robots.txt-Tester in der Google Search Console validieren.

5. URL-Parameter nicht berücksichtigt

Facettierte Navigation, Session-IDs oder Tracking-Parameter erzeugen oft Tausende von URL-Varianten, die gecrawlt, aber nicht indexiert werden sollen. Robots.txt kann helfen, diese Pfade zu sperren — aber nur, wenn die Parameterstruktur konsistent ist. Alternativ bieten sich Canonical Tags an, um Duplicate Content strukturell zu verhindern.

6. Subdomains vergessen

Eine robots.txt gilt nur für die Domain, auf der sie liegt. example.com/robots.txt hat keine Wirkung auf blog.example.com oder shop.example.com. Jede Subdomain braucht eine eigene Datei. Wer internationale Subdomains betreibt, sollte das im Kontext von Hreflang-Konfigurationen für DACH mitdenken.

Crawl-Budget: Wann robots.txt wirklich hilft

Crawl-Budget ist für die meisten mittelgroßen Websites kein kritisches Thema. Google crawlt Seiten basierend auf ihrer Popularität und dem Crawl-Limit, das der Server zulässt. Für Websites mit hunderttausenden URLs — etwa große E-Commerce-Plattformen oder Nachrichtenportale — kann robots.txt jedoch sinnvoll eingesetzt werden, um Crawler von unwichtigen Bereichen fernzuhalten.

Typische Kandidaten für Disallow-Einträge:

  • Admin- und Backend-Bereiche (/wp-admin/, /admin/)
  • Interne Suchseiten (/search?)
  • Druckversionen (/print/)
  • Staging- oder Testverzeichnisse, die nicht in Produktion gehören
  • Duplicate-Content-Pfade, die nicht per Canonical gelöst werden können

Was nicht gesperrt werden sollte: Seiten, die im Index erscheinen sollen, aber aus irgendeinem Grund als „unwichtig" gelten. Wer Seiten aus dem Index entfernen möchte, nutzt noindex — nicht robots.txt.

Robots.txt bei mehrsprachigen und internationalen Websites

Wer eine Website für den DACH-Markt betreibt und mit Sprachverzeichnissen (/de/, /at/, /ch/) arbeitet, sollte sicherstellen, dass keine dieser Verzeichnisse versehentlich gesperrt ist. Das klingt trivial, passiert aber regelmäßig bei Relaunchs oder CMS-Migrationen.

Gleichzeitig sollte die robots.txt auf alle relevanten Sitemaps verweisen — auch auf sprachspezifische Sitemaps, falls vorhanden. Ein Beispiel:

Sitemap: https://example.com/sitemap-de.xml
Sitemap: https://example.com/sitemap-at.xml
Sitemap: https://example.com/sitemap-ch.xml

Die korrekte Auszeichnung der Sprachvarianten selbst ist Aufgabe der Hreflang-Tags, nicht der robots.txt.

Robots.txt prüfen und dauerhaft monitoren

Eine einmalige Konfiguration reicht nicht. Robots.txt-Einträge können durch CMS-Updates, Plugin-Installationen oder Deployments überschrieben werden. Folgende Maßnahmen helfen, Probleme frühzeitig zu erkennen:

  • Google Search Console: Unter „Crawling" → „robots.txt-Tester" lässt sich die aktuelle Datei prüfen und simulieren, welche URLs geblockt werden.
  • Screaming Frog: Beim Crawl werden blockierte URLs markiert. So sieht man sofort, ob relevante Seiten betroffen sind.
  • Ahrefs / Semrush: Beide Tools warnen in ihren Site-Audits, wenn wichtige Seiten durch robots.txt blockiert sind.
  • Monitoring: Die robots.txt sollte in ein regelmäßiges technisches Audit eingebunden sein — idealerweise als Teil einer umfassenden Technical-SEO-Checkliste.

Wer die Performance der Website im Blick hat, sollte auch prüfen, ob blockierte Ressourcen die Ladezeit beeinflussen — etwa wenn Drittanbieter-Skripte oder Schriftarten gesperrt sind. Das hängt eng mit Core Web Vitals zusammen, da Render-Blocking-Ressourcen den LCP-Wert direkt beeinflussen können.

Eine saubere Basis-Konfiguration als Ausgangspunkt

Die folgende Konfiguration eignet sich als Ausgangspunkt für die meisten B2B-Websites. Sie sperrt typische Backend-Bereiche, verweist auf die Sitemap und lässt alle relevanten Inhalte für Googlebot offen:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /search
Disallow: /intern/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://example.com/sitemap.xml

Der Allow: /wp-admin/admin-ajax.php-Eintrag ist bei WordPress-Installationen notwendig, weil viele Frontend-Funktionen diese URL nutzen. Ohne diesen Eintrag kann es zu Darstellungsproblemen kommen, die Googlebot beim Rendering sieht.

Jede Konfiguration sollte auf die konkrete Seitenstruktur angepasst werden. Eine generische robots.txt, die blind kopiert wird, kann mehr schaden als nützen.

Häufige Fragen

Was passiert, wenn eine Seite per robots.txt gesperrt, aber trotzdem verlinkt ist? +
Google kann die Seite trotzdem in den Index aufnehmen — aber ohne den Inhalt gecrawlt zu haben. Das Ergebnis ist eine Indexierung ohne Title, Description oder strukturierte Daten. Wer eine Seite vollständig aus dem Index entfernen möchte, muss ein noindex-Meta-Tag setzen und gleichzeitig sicherstellen, dass die Seite gecrawlt werden kann — sonst sieht Google das noindex-Signal nicht.
Wie oft sollte die robots.txt überprüft werden? +
Mindestens nach jedem größeren Deployment, CMS-Update oder Relaunch. Viele CMS-Systeme überschreiben die robots.txt automatisch. Empfehlenswert ist außerdem ein monatliches technisches Audit, bei dem die Datei explizit geprüft wird. Tools wie Screaming Frog oder die Google Search Console zeigen blockierte URLs und helfen, ungewollte Sperren schnell zu identifizieren.
Kann robots.txt das Crawl-Budget verbessern? +
Ja, aber nur bei Websites mit sehr vielen URLs — typischerweise ab mehreren zehntausend Seiten. Für mittelgroße B2B-Websites ist Crawl-Budget selten ein kritisches Problem. Sinnvoll ist es, interne Suchseiten, Druckversionen oder Parameter-URLs zu sperren, die keinen indexierbaren Mehrwert bieten. Wichtige Inhaltsseiten sollten nie aus Crawl-Budget-Gründen gesperrt werden.
Gilt die robots.txt auch für andere Crawler als Googlebot? +
Das Robots Exclusion Protocol ist ein freiwilliger Standard. Seriöse Crawler wie Bingbot, Applebot oder der Crawler von Ahrefs halten sich daran. Böswillige Bots ignorieren die Datei. Für sicherheitsrelevante Bereiche ist robots.txt daher kein geeigneter Schutz — dafür braucht es eine Authentifizierung auf Server-Ebene.

Du hast den Artikel gelesen.
Jetzt umsetzen?

Wir analysieren in 5 Minuten wo deine Website strukturell unsichtbar ist — kostenlos, ohne Verkaufsdruck.

Kostenlose Analyse starten