WordPress & robots.txt

[Aktualisierung!]

Vorsicht, die Methode mit der robots.txt & den feeds funktioniert nicht mehr:

User-agent: *
Disallow: */feed/
Allow: /feed/

Es wird nur noch der Disallow-Teil beachtet und somit wird der Feed nicht mehr in der Google-Blog-Suche gelistet.
Ich habe dementsprechend jetzt die Lösung per “nofollow” gewählt.

Die ganze letzte Woche habe ich mich mit diesem Thema auseinandergesetzt und die optimale Lösung gesucht, um doppelten Inhalt (double content) so gut wie möglich zu verhindern.
Es gibt eine Menge Artikel dazu, aber keinen, der einen Anfänger wirklich weiterbringt…
Man ist immer noch gezwungen, sich durch das ganze Material zu kämpfen und selbst die optimale Lösung für die eigene Seite zu finden.
Nicht, daß ich dem ablehnend gegenüberstehe, denn wenn man sich ernsthaft damit auseinandersetzen will, ist das mit Sicherheit der beste Weg.
Aber nicht jeder hat Lust, zig Artikel zu lesen und dann immer noch ohne copy&paste-Lösung dazustehen! ;)

Empfehlenswerte Lektüre findet sich an vielen Stellen, welche meistens dann auch noch mal weiterleiten. Vieles ist in englisch, was grundsätzlich heutzutage kein Problem mehr darstellen sollte, allerdings finden sich auch immer wieder Fachbegriffe, die man mit seinem Schulenglisch erstmal nicht versteht.

Wie auch immer, doppelter Inhalt ist böse, wenn man gefunden werden will. Wenn nicht, dann kann man sich den ganzen Schmonzes sowieso sparen!

Bei WordPress stoßen wir erstmal auf einen Vorschlag zur robots.txt, der uns bei den Recherchen immer mal wieder über den Weg läuft.
So schlecht kann dieser Vorschlag als Grundlage also nicht sein! Man sollte die Datei aber noch um das eine oder andere Verzeichnis erweitern, von dem man der Meinung ist, daß ein Crawler darin nichts verloren hat. Das können Server-Log-Files oder chCounter-Verzeichnisse sein, evtl sogar das WordPress-upload-Verzeichnis oder das Impressum. Ganz wie man möchte.
Für Seiten allerdings, wie zB das Impressum eine ist, bieten sich auch Meta-Tags an, eine Übersicht solcher ist hier zu finden.
Einfache Lösungen, jene Tags schnell einzubinden gibt es zB hier oder da.

So, nun mal Tacheles:
Ich für meinen Teil habe die Plugins “Simple Tags” & “Meta Robots” installiert, um das Problem für mich zu lösen. Ob es optimal ist, wird sich erst noch zeigen müssen. Warum ich nicht die Interne Tag-Funktion nutze, ist recht schnell geklärt: Man kann mit “Simple Tags” problemlos Tags auf “nofollow” setzen, was Suchmaschinen davon abhalten soll, dem Link zu folgen und die erreichte Seite/den Beitrag erneut zu indizieren.
robots meta tagsDas geniale an “Meta Robots” ist, daß man für seine Seiten & Beiträge einzeln die follow und index-Attribute setzen kann. Man hat zudem auch noch die Möglichkeit, die robots.txt und die .htaccess durch dieses Plugin zu bearbeiten!

Warum man das tun sollte, anstatt die Seiten einfach in der robots.txt zu sperren, ist relativ simpel:
Man kann so festlegen, daß eine Seite/ein Beitrag nicht indexiert wird, den darauf erwähnten Links aber trotzdem gefolgt wird. Das geht mit der robots.txt nicht. Meiner Meinung nach ist das zB recht wünschenswert in Archiven, Kategorien oder Suchergebnissen.

Zum Schluß noch was zu den RSS-Feeds, die ja ebenfalls doppelter Inhalt sind, natürlich.
Allerdings wäre es nicht ganz so toll, diese komplett von der Suchmaschine auszusperren, denn dann müßte auch Googles Blogsuche draußen bleiben! Ich habe mich für die Lösung per robots.txt entschieden, welche auf mich den besten Eindruck macht. Aber da gibt es ja auch den Spruch mit den Meinungen und den Arschlöchern… ;)

Wichtig ist es in jedem Fall Google Sitemaps zu nutzen, um die Einstellungen ab&zu mal überprüfen zu können. Das geht am einfachsten mit dem Google (XML) Sitemaps Generator, bei dem man auch ganz einfach die Seiten eintragen kann, die man ausschließen möchte.
Außerdem sollte man sich eine Google-Konto zulegen, um die Webmaster-Tools nutzen zu können, mit denen man die Wirkung seiner Einstellungen der robots.txt prüfen kann.
Nebenbei gibt es noch die eine oder andere Statistik, an der man sich erfreuen kann. XD

Wenn ich mit meinen Ausführungen falsch liegen sollte oder mir jemand eine bessere Lösung vorschlagen möchte, so habe ich nichts gegen einen Kommentar oder eine Mail einzuwenden.
(Davon abgesehen kann eh jeder, der möchte, seinen Senf hier hinterlassen…)

  • Facebook
  • Twitter
  • Google Bookmarks
  • LinkedIn
  • StumbleUpon
  • del.icio.us
  • Digg
  • RSS
  • Add to favorites
  • email
  • Print
  • PDF

Ähnliche Artikel:

Anmerkung schreiben

Die E-Mail-Adresse wird nicht veröffentlicht. - Benötigte Felder sind mit einem * markiert.

*

Zur Formatierung des Textes dienen:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>