81% deines Bot-Traffics ist gefälscht. Prüf deine Logs.
Was in Server-Logs als AI-Traffic auftaucht, ist zu einem erschreckend großen Teil schlicht gelogen. Auf einer brandneuen Website ohne jegliche Promotion zeigte sich: Von 33 Requests die vorgaben, von AI-Assistenten zu kommen, waren nur 6 verifizierbar echt. Die restlichen 27 kamen nicht von OpenAI-IPs. Spoof-Rate: 81,8 Prozent. Und die Requests die sich als Googlebot ausgaben, waren noch dramatischer: 692 von 799 kamen nicht von Google. Das ist keine Ausnahme, das ist der Normalzustand.
Das eigentlich Alarmierende ist nicht die Zahl selbst, sondern was die Fakes wollten. Während echte AI-Assistenten eine Seite abrufen um eine Nutzeranfrage zu beantworten, gingen die gespooften Requests auf Suche nach .env.production, secrets.yaml und config.json. Keine Nutzeranfrage der Welt braucht Zugriff auf Umgebungsvariablen. Das waren Credential-Scanner, die sich hinter vertrauenswürdigen Bot-Namen verstecken um Sicherheitsfilter zu umgehen.
Die Prüfmethode ist simpel und seit Jahren bekannt, wird aber kaum genutzt: Alle großen Bot-Betreiber veröffentlichen ihre echten IP-Ranges als öffentliche JSON-Dateien. OpenAI, Anthropic, Perplexity, Google, Common Crawl. Ein Request ist nur dann legitim, wenn der angegebene Bot-Name mit einer IP aus der offiziellen Range übereinstimmt. Der Name im User-Agent ist eine Behauptung. Die IP ist der Beweis.
Daneben zeigt die Analyse einen wichtigen Unterschied den viele vermischen: AI-Assistenten die live während einer Nutzersession fetchen (ChatGPT-User, Claude-User) sind eine andere Population als die Hintergrund-Crawler die für Indexierung oder Training zuständig sind (GPTBot, ClaudeBot). Retrieval-Crawler bestimmen ob du diese Woche in einer Antwort auftauchst. Training-Crawler legen fest ob du in zukünftigen Modellen verankert bist. Beide spielen für GEO-Sichtbarkeit eine Rolle, aber auf völlig unterschiedlichen Zeitskalen.
1. Lade deine Server-Logs der letzten 30 Tage herunter und filtere alle Requests heraus die Googlebot, ChatGPT-User, Claude-User oder Perplexity-User im User-Agent tragen. Das ist deine Ausgangsmenge.
2. Gleiche die Quell-IPs dieser Requests gegen die offiziellen IP-Ranges ab. Die JSON-Dateien findest du direkt bei den Betreibern: openai.com/chatgpt-user.json, claude.com/crawling/bots.json, perplexity.com/perplexity-user.json, developers.google.com/static/crawling/ipranges/common-crawlers.json. Requests deren IP nicht in der jeweiligen Range liegt, sind gefälscht.
3. Prüfe bei den gefälschten Requests welche URLs sie angefragt haben. Requests auf .env, secrets.yaml, config.json, .htaccess oder wp-config.php sind aktive Angriffe. Blockiere diese IPs sofort auf Server-Ebene und prüfe ob deine Firewall-Regeln solche Pfade grundsätzlich sperren.
4. Trenne in deiner Analyse AI-Assistenten (User-Suffix) von AI-Crawlern (Bot-Suffix). GPTBot und ClaudeBot sind Indexierungs- und Trainingscrawler. ChatGPT-User und Claude-User sind Live-Fetches während echter Nutzersessions. Nur letztere zeigen dir ob du gerade in AI-Antworten auftauchst. Wenn du GEO-Sichtbarkeit messen willst, brauchst du diese Trennung.
5. Richte eine robots.txt-Regel ein die klar definiert welche Crawler du erlaubst und welche nicht. Für Crawler die du blockieren willst (z.B. reine Training-Crawler), nutze den offiziellen Bot-Namen aus der jeweiligen Dokumentation, nicht den User-Agent-String der in deinen Logs auftaucht, denn der kann gefälscht sein.
Original-Artikel auf Search Engine Journal:
81.8% Of My ‘AI Assistant’ Traffic Was Fake. The Googlebot Number Was Worse via @sejournal, @DuaneForrester ↗Mehr lesen
Steht deine Website auch in ChatGPT?
Buch dir einen 15-Min Call — wir zeigen dir live wo deine Seite in Google + AI Search aktuell unsichtbar ist.