Meta-Robots-Tag

Meta-Robots-Tag – Wie nutze ich es richtig?

Das Meta-Robots-Tag auf einer Website dient der Steuerung der Suchmaschinen-Crawler und befindet sich im <head>-Bereich der einzelnen Seiten. In diesem Beitrag möchte ich Dir erklären, wie Du mit diesem Tag umgehst und was Du damit erreichen kannst.

Robots-Tag – was ist das eigentlich?

Das Robots-Tag, oder auch Meta-Tag „Robots“, ist ein Quellcode, welcher im Kopfbereich (<head>) Deiner Website ausgegeben wird. Er wird daher nur von der Software (Crawler/Bots, Browser), nicht aber vom Besucher Deiner Website gesehen. (Es sei denn, er sieht sich den Quellcode Deiner Seite an).

Grundlagen: Was ist ein Meta-Tag?

Das Meta-Robots-Tag ist eine Form der HTML Meta-Tags. Metadaten sind quasi Daten (Informationen) über Daten. Und in den HTML Meta-Tags geben wir Meta-Informationen zu dem aufgerufenen HTML-Dokument aus.

Diese Meta-Informationen in den Meta-Tags werden nicht auf der sichtbaren Webseite angezeigt, sind aber für Crawler und andere Software les- und verarbeitbar.

Es gibt verschiedene Arten von HTML Meta-Tags. Untenstehend eine kleine Auswahl, die ich aber nicht näher erläutern werde, da wir uns in diesem Beitrag auf das Robots-Meta-Tag konzentrieren werden.

<head>
    <meta charset="UTF-8">
    <meta name="description" content="Ich werde nachher in den Google-Suchergebnissen angezeigt. Wenn's denn gut läuft...">
    <meta name="keywords" content="NICHT MEHR NUTZEN">
    <meta name="author" content="Christian Hänsel">
    <meta name="robots" content="index,follow">
    <title>Der Titel</title>
</head>

Wozu brauche ich das Meta Robots-Tag?

Das Meta-Robots-Tag ist ein für Suchmaschinenoptimierer sehr wichtiges Tag, denn damit teilen wir den Suchmaschinen mit, welche Seiten wir indexiert haben wollen – und welche nicht. Wir geben dem Google-Crawler damit Anweisungen, wie er mit der aufgerufenen Seite umzugehen hat.

Dabei gibt es verschiedene Arten von Anweisungen, die wir dem Crawler – auch Bot genannt – geben können.

Was passiert, wenn ich das Meta-Robots-Tag weglasse?

Im Falle des Nichtvorhandenseins dieses Tags gilt für die Crawler: Diese Seite ist voll indexierbar. Da entspricht genau den folgenden Angaben:

<meta name="robots" content="index,follow">

oder alternativ

<meta name="robots" content="all">

Die Angabe all entspricht also der Angabe index, follow. Will man dem Crawler keine weiteren Anweisungen mitgeben, kann man das Meta-Robots-Tag also auch direkt weglassen.

Was bedeutet die Anweisung index, follow?

Die Anweisung index, follow in dem Meta-Robots-Tag weist den Crawler an, die aufgerufene Seite zu indexieren und den darin enthaltenen Links zu folgen.

Welche Kombinationen von (no)index und (no)follow möglich sind und was diese bedeuten siehst Du hier:

all oder
index, follow
Diese Seite soll indexiert werden.
Den Links auf dieser Seite (intern u. extern) soll der Crawler folgen.
none oder
noindex, nofollow
Diese Seite soll nicht indexiert werden und damit nicht in den Suchergebnissen erscheinen.
Den Links auf dieser Seite soll nicht gefolgt werden.
index, nofollowDiese Seite soll indexiert werden.
Den Link auf dieser Seite soll nicht gefolt werden.
noindex, followDiese Seite soll nicht indexiert werden.
Den Link auf dieser Seite soll gefolgt werden.

Indexierung ist nicht Crawling

Wichtig ist, dass Du verstehst, dass mit der Angabe noindex nicht das Crawling unterbunden wird.

Mit der Anweisung noindex sagst Du lediglich, dass der Inhalt der Seite nicht in den Index der Suchmaschine aufgenommen werden soll – und somit nicht in den Suchergebnissen erscheinen.

Willst Du das Crawlen der Seite verbieten, kannst Du ein Disallow in die Datei robots.txt schreiben. Die robots.txt liegt im Hauptverzeichnis Deiner Website. Sollte sie dort nicht vorhanden sein, kannst Du mit einem Texteditor Deiner Wahl einfach eine erstellen und hochladen.

Disallow: /bitte-nicht-crawlen.html

Mit dieser Zeile in Deiner robots.txt weist Du die Suchmaschine an, die Datei mit dem Namen bitte-nicht-crawlen.html im Stammverzeichnis Deiner Website nicht zu crawlen. Der Crawler wird diese Datei beim Crawl-Vorgang überspringen und kennt ihre Inhalte nicht.

Google ignoriert Noindex & Nofollow in robots.txt

Google hat verlauten lassen, dass Noindex und Nofollow in der Datei robots.txt in Zukunft ignoriert werden. Folgender Inhalt in der robots.txt ist also nicht gültig (und war er offiziell auch nie).

# FALSCH
User-agent: *
Noindex: /admin/
Noindex: /avatare/
Noindex: /templates*
Noindex: /kundenportal/

Wenn Du bestimmte Seiten Deiner Website aus dem Index halten möchtest, machst Du dies mit der noindex-Angabe im Meta-Robots-Tag oder aber per HTTP-Header.

Noindex mit dem X-Robots-Tag im HTTP-Header

Mit dem Meta-Robots-Tag kannst Du bei einer normalen HTML-Seite Anweisungen an den Crawler geben. Solange Du einen HTML-Header sendest, in dem Du die Meta-Angaben unterbringen kannst ist also alles gut.

Was aber, wenn Du möchtest, dass zum Beispiel PDF-Dokumente nicht indexiert werden sollen? Oder die Avatare Deiner Website-User?

Wenn es darum geht, das gesamte Crawling zu unterbinden, sieh Dir weiter oben noch einmal die Zeile für das Disallow bestimmter Verzeichnisse oder einzelner Dokumente mit Hilfe der robots.txt an.

Indexierung von Dokumenten bzw. bestimmten Dateitypen verhindern

Aber wenn Google Deine PDFs crawlen und den Links in dem PDF-Dokument folgen soll, bleibt Dir nichts anderes übrig als die Anweisungen mit dem HTTP-Header zu senden. Das hört sich schwieriger an als es eigentlich ist.

Hier ist ein Beispiel für eine .htaccess-Datei, um Dateien mit den Dateiendungen .doc und .pdf mit einem X-Robots-Tag zu versehen, und zwar mit dem Inhalt „noindex, noarchive, nosnippet“.

<FilesMatch ".(doc|pdf)$">
Header set X-Robots-Tag "noindex, follow, noarchive, nosnippet"
</FilesMatch>

Was diese Anweisungen genau bedeuten? Google hat da eine ganz tolle Aufschlüsselung der einzelnen Values für das Meta-Robots-Tag und das X-Robots-Tag im HTTP-Header.

Wichtig: Du kannst im X-Robots-Tag alle Anweisungen mitgeben, die Du auch im Meta-Robots-Tag mitgeben kannst.

Meta-Robots-Tag mit WordPress und Yoast

Noindex und Nofollow und noch mehr

Gehörst Du zu den Tausenden von Menschen, die eine Website auf WordPress-Basis betreiben und zur „Suchmaschinenoptimierung“ Yoast SEO nutzen? Dann ist es für Dich relativ einfach, einzelne Beiträge und Seiten mit (no)index und/oder (no)follow zu versehen.

Öffne dazu einfach den entsprechenden Beitrag oder die entsprechende Seite im Editier-Modus und gehe zu Deinen Yoast-Settings für den Post.

Dort siehst Du dann im Reiter „Erweitert“ die Einstellungen für das Meta-Robots-Tag.

Das Meta-Robots-Tag mit Hilfe des Yoast SEO Plugins anpassen.

Natürlich kannst Du hier nicht deinen X-Robots-Tag im HTTP-Header anpassen – das geht nur auf Server-Seite.

Ich hoffe, dass Dir dieser kurze Exkurs zum Thema Robots-Meta-Tag gefallen und weitergeholfen hat. Wenn Du noch Fragen hast, kannst Du mir gerne einen Kommentar hinterlassen :)

Veröffentlicht von

Christian Hänsel

Web-Entwickler, SEO-Experte. Ich liebe technisches SEO, die Entwicklung von neuen Ideen und alles rund um das Internet... ja, ich habe mein Hobby zum Beruf gemacht und gehe auch Montags gerne zur Arbeit.

Ein Gedanke zu „Meta-Robots-Tag – Wie nutze ich es richtig?“

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.