Zum Inhalt springen
Technisch · GEO

robots.txt & KI-Crawler – Konfigurationsanleitung

Februar 2026 ⏱ 8 Min. Lesezeit ️ GEO, LLMO, KI-SEO

Warum die robots.txt für KI entscheidend ist

Diese Konfigurationsanleitung zeigt, wie Sie KI-Crawler gezielt steuern. Ihre robots.txt ist die erste Datei, die ein KI-Crawler auf Ihrer Website prüft. Steht dort ein Disallow: / für GPTBot, kann ChatGPT Ihre Website nicht crawlen – Ihre Inhalte werden dann bei Empfehlungen und Antworten nicht berücksichtigt.

Das Problem: Viele Websites blockieren KI-Crawler, ohne es zu wissen. Manche Hosting-Anbieter setzen pauschale Sperren, manche CMS-Updates fügen neue Regeln hinzu, und manche SEO-Plugins blockieren standardmäßig „unbekannte" Bots. Das Ergebnis: Ihre Marke existiert für KI-Assistenten schlicht nicht.

Wussten Sie? Über 30% der Top-Websites blockieren mindestens einen KI-Crawler in ihrer robots.txt – oft unbeabsichtigt durch Wildcard-Regeln.

Alle 13 KI-Crawler im Überblick

Es gibt mittlerweile über ein Dutzend KI-Crawler, die Websites durchsuchen. Jeder gehört zu einem anderen Anbieter und hat unterschiedliche Zwecke:

CrawlerBetreiberZweckEmpfehlung
GPTBotOpenAITraining + Browsing Erlauben
ChatGPT-UserOpenAILive-Browsing in Chat Erlauben
Google-ExtendedGoogleGemini-Training Erlauben
GooglebotGoogleSuche + AI Overviews Essentiell
anthropic-aiAnthropicClaude-Training Erlauben
ClaudeBotAnthropicClaude-Browsing Erlauben
PerplexityBotPerplexityEchtzeit-Suche Erlauben
Applebot-ExtendedAppleApple Intelligence Erlauben
Meta-ExternalAgentMetaMeta AI Training Abwägen
BytespiderByteDanceTikTok AI Abwägen
CCBotCommon CrawlOffenes Archiv Abwägen
cohere-aiCohereEnterprise-KI Erlauben
AmazonbotAmazonAlexa + Shopping Erlauben

Blockieren oder erlauben? Entscheidungshilfe

Ansatz 1: Alles erlauben (empfohlen für Shops)

Wenn KI-Assistenten Ihre Produkte empfehlen sollen, erlauben Sie alle Crawler. Für Online-Shops und Dienstleister der beste Ansatz. Jeder blockierte Crawler ist ein KI-System, das Ihre Marke nicht kennt.

Ansatz 2: Selektiv erlauben

Erlauben Sie die wichtigsten Crawler (GPTBot, ClaudeBot, PerplexityBot, Googlebot) und blockieren Sie, was Sie nicht benötigen – sinnvoll bei Server-Last-Bedenken.

Ansatz 3: Training blockieren, Browsing erlauben

Erlauben Sie Live-Browsing (ChatGPT-User, PerplexityBot), blockieren Sie Trainings-Crawler (GPTBot, Google-Extended). So sind Sie in Echtzeit-Antworten sichtbar, ohne dass Inhalte ins Modell-Training fließen.

⚠️ Für Shop-Betreiber: Blockieren Sie GPTBot und ClaudeBot, können diese KI-Systeme Ihre Produkte nicht empfehlen – selbst mit perfekter llms.txt. Die robots.txt hat Vorrang.

Praxis: robots.txt richtig konfigurieren

Alle KI-Crawler erlauben (Standard)

# Alle Suchmaschinen und KI-Crawler erlauben User-agent: * Allow: / # Nur interne Bereiche sperren Disallow: /admin/ Disallow: /warenkorb/ Disallow: /checkout/ Sitemap: https://www.ihre-domain.de/sitemap.xml

Training blockieren, Browsing erlauben

# Trainings-Crawler blockieren User-agent: GPTBot Disallow: / User-agent: Google-Extended Disallow: / # Browsing-Crawler erlauben User-agent: ChatGPT-User Allow: / User-agent: PerplexityBot Allow: / User-agent: ClaudeBot Allow: /

5 häufige Fehler bei der KI-Konfiguration

1. Wildcard blockiert alles

User-agent: * / Disallow: / blockiert alle Bots – auch KI-Crawler. Dieses Setup war bei manchen Hostern Standard und ist heute fatal für die KI-Sichtbarkeit.

2. Veraltete robots.txt nach CMS-Update

Manche CMS-Updates überschreiben die robots.txt oder fügen neue Regeln hinzu. Prüfen Sie nach jedem Update, ob Ihre KI-Crawler-Regeln intakt sind.

3. Groß-/Kleinschreibung beim User-Agent

User-Agent-Namen sind case-sensitive. GPTBot ist nicht dasselbe wie gptbot. Verwenden Sie immer die offizielle Schreibweise.

4. Keine robots.txt vorhanden

Keine robots.txt ist besser als eine schlecht konfigurierte – ohne Datei sind alle Crawler erlaubt. Aber Sie verpassen die Chance, interne Bereiche zu schützen.

5. CDN/Firewall blockiert Bots

Cloudflare, Sucuri und andere WAFs können KI-Bots auf Server-Ebene blockieren, bevor die robots.txt gelesen wird. Prüfen Sie die Bot-Management-Einstellungen.

So prüfen Sie Ihre robots.txt jetzt

Statt die robots.txt manuell zu lesen und 13 Crawler einzeln zu prüfen, nutzen Sie unser kostenloses Tool:

robots.txt AI-Crawler Check

Prüft in Sekunden, welche der 13 KI-Crawler Ihre Website crawlen dürfen – mit visueller Statusanzeige und konkreten Empfehlungen.

Jetzt kostenlos prüfen →

Keine Anmeldung nötig · Ergebnis in Sekunden

Zusammenspiel: robots.txt + llms.txt

robots.txt und llms.txt arbeiten zusammen: Die robots.txt regelt den Zugang – wer darf crawlen? Die llms.txt liefert den Inhalt – was soll die KI über Sie wissen? Ohne erlaubten Zugang nützt die beste llms.txt nichts.

Der optimale 5-Schritte-Ablauf:

  1. robots.txt prüfen – KI-Crawler erlauben (→ Checker)
  2. KI-Sichtbarkeit messen – Wo stehen Sie? (→ Visibility Check)
  3. Schema.org prüfen – Strukturierte Daten vollständig? (→ Schema Checker)
  4. llms.txt generieren – KI-optimierte Dateien erstellen (→ Generator)
  5. Validieren – Sind alle Dateien korrekt? (→ Validator)

Bereit für maximale KI-Sichtbarkeit?

Starten Sie mit dem robots.txt Check – danach führt unser Funnel Sie Schritt für Schritt durch alle Optimierungen.

robots.txt jetzt prüfen →