01 Was ist robots.txt?
robots.txt ist eine Textdatei im Root-Verzeichnis Ihrer Domain, die Web-Crawlern mitteilt, welche URLs sie abrufen dürfen. Sie ist das älteste und einfachste Werkzeug im SEO-Werkzeugkasten — und auch das, das die meisten Websites bei Fehlkonfiguration zerstört.
Die Datei liegt unter https://ihredomain.de/robots.txt. Es gibt keinen anderen gültigen Speicherort. Wenn ein Crawler sie nicht abrufen kann (404, 5xx, Timeout), geht er in der Regel davon aus, „keine Regeln" vorhanden und crawlt frei — manche Crawler behandeln einen 5xx aber als „alles blockieren".
02 Syntax-Grundlagen
Das Format ist denkbar einfach: Regelgruppen, jede beginnend mit User-agent: (welcher Crawler), gefolgt von Allow:- und Disallow:-Regeln.
User-agent: *
Disallow: /admin/
Disallow: /tmp/
Allow: /tmp/public/
User-agent: Googlebot
Allow: /
Sitemap: https://example.com/sitemap.xml
User-agent: *gilt für alle Crawler.Disallow: /pfadblockiert jede URL, die mit/pfadbeginnt.Allow:kann ein breiteresDisallowüberschreiben.Sitemap:verweist Crawler auf Ihre XML-Sitemap. Immer einschließen.
03 Häufige Muster
Staging oder Entwicklungsumgebungen blockieren
User-agent: *
Disallow: /
Das blockiert die gesamte Website. Auf Staging verwenden — niemals auf Produktiv. (Dazu gleich mehr.)
Admin-Bereich blockieren
User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Facettensuche und interne Suche blockieren
User-agent: *
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /search?
CSS und JavaScript erlauben
User-agent: *
Allow: /*.css$
Allow: /*.js$
Googlebot braucht CSS und JS, um Seiten zu rendern — blockieren Sie sie niemals.
04 Der katastrophale Fehler
Jeder erfahrene SEO hat das schon einmal gesehen:
User-agent: *
Disallow: /
Das ist die Staging-robots.txt. Sie blockiert alles. Wenn ein Entwickler die Staging-Codebasis auf Produktiv kopiert, ohne die Datei zu aktualisieren, beginnt Google innerhalb von Stunden, Seiten aus dem Index zu löschen. In der nächsten Woche ist der organische Traffic eingebrochen.
Die teuerste Zeile Code in SEO ist
Disallow: /auf Produktiv.
/robots.txt ändert, erhalten Sie eine Slack-Benachrichtigung. Diesen Fehler innerhalb einer Stunde zu entdecken statt erst nach dem nächsten Crawl-Zyklus ist der Unterschied zwischen einem Nicht-Ereignis und einem Quartal Erholung.05 robots.txt vs. noindex
Diese zwei Werkzeuge sehen ähnlich aus, tun aber völlig verschiedene Dinge. Sie zu verwechseln ist der zweithäufigste SEO-Fehler.
| robots.txt Disallow | noindex Meta-Tag | |
|---|---|---|
| Was es tut | Blockiert Crawling | Erlaubt Crawling, blockiert Indexierung |
| Entfernt aus dem Index? | Nein (paradoxerweise) | Ja |
| Spart Crawl-Budget? | Ja | Nein |
| Verwenden wenn… | Sie Crawler aus ganzen Bereichen heraushalten wollen | Sie eine Seite aus der Suche entfernen wollen |
Das Paradoxon: Wenn Sie eine URL in robots.txt disallown, kann Google sie nicht crawlen — was bedeutet, es kann kein noindex-Tag darauf sehen. Die URL bleibt indexiert (oft mit einem „keine Beschreibung verfügbar"-Snippet), bis Sie das Disallow entfernen.
Der Fix: Um eine URL aus dem Index zu entfernen, verwenden Sie noindex. Nachdem Google die Seite recrawlt und das noindex verarbeitet hat, können Sie ein robots.txt-Disallow hinzufügen, wenn Sie weiteres Crawling stoppen möchten.
06 Crawl-Budget und robots.txt
Für die meisten Websites ist Crawl-Budget kein echtes Problem — Google hat genug Kapazität für eine 5.000-Seiten-Website. Aber für große E-Commerce- oder Publisher-Websites mit Millionen von URLs wird robots.txt zu einem scharfen Werkzeug, um Googlebot dorthin zu lenken, wo es wichtig ist.
Häufige Budget-Sparer:
- Facetten-Navigations-URLs blockieren (
?sort=,?filter=,?page=) - Kalender und datumsgenerierte Archivseiten blockieren
- Interne Suchergebnisseiten blockieren (
/search?) - Login-, Konto- und Checkout-Seiten blockieren
07 Ihre robots.txt validieren
Google Search Console bietet ein robots.txt-Testtool unter „Einstellungen" → „robots.txt". Es zeigt Ihnen, ob Googlebot eine spezifische URL crawlen darf oder nicht — und warum.
Was Smart SEO Audit bei jedem Audit prüft:
- robots.txt gibt einen 200-Status zurück (nicht 404 oder 5xx).
Disallow: /ist nicht für Googlebot gesetzt (die berüchtigte Katastrophe).- Die robots.txt enthält mindestens eine
Sitemap:-Direktive. - CSS- und JS-Ressourcen sind nicht blockiert.
? Häufige Fragen
Verhindert robots.txt, dass eine Seite indexiert wird?
Nein — das ist der häufigste robots.txt-Fehler. Disallow blockiert nur das Crawlen, nicht die Indexierung. Eine blockierte URL kann weiterhin in den Suchergebnissen erscheinen (oft ohne Beschreibung), wenn andere Seiten darauf verlinken. Um eine Seite aus dem Index zu halten, erlauben Sie das Crawlen und nutzen ein noindex-Meta-Tag oder schützen sie per Authentifizierung.
Wo muss die robots.txt-Datei liegen?
Sie muss im Stammverzeichnis Ihrer Domain liegen — example.com/robots.txt. Crawler schauen nur dort; eine robots.txt in einem Unterverzeichnis wird ignoriert. Jede Subdomain braucht ihre eigene robots.txt, und auch das Protokoll zählt (https und http werden getrennt behandelt).
Sollte ich CSS und JavaScript in robots.txt blockieren?
Nein. Google muss Ihr CSS und JS laden, um die Seite so zu rendern, wie Nutzer sie sehen. Das Blockieren dieser Ressourcen kann dazu führen, dass Google Layout, Mobilfreundlichkeit und Inhalt falsch einschätzt, was dem Ranking schadet. Erlauben Sie Render-Ressourcen und sperren Sie nur wirklich private oder wertarme Pfade.
→ Verwandte Guides
Tiefer einsteigen — diese Guides behandeln verwandte Themen.