Indexierungssteuerung: Was gehört in den Google Index und was nicht?

//Indexierungssteuerung: Was gehört in den Google Index und was nicht?

Seiten im Google Index die da nicht hingehören? Beim Bau einer neuen Website wird die Indexierungssteuerung häufig außer Acht gelassen und so geraten immer wieder Seiten in den Google Index, die gar nicht für Nutzer bestimmt sind. Dabei gilt: Alles was Google kennt, kann auch gefunden werden.  

Welche Seiten kennt Google von meiner Website?

Da viele Content Management Systeme automatisch Seiten produzieren, die der Nutzer bewusst gar nicht angelegt hat, ist es wichtig zu überprüfen, welche Seiten Google eigentlich von einer Website kennt. Nur so kann man anschließend Maßnahmen ergreifen und Seiten, die nicht für den Google Index bestimmt sind, von diesem auszuschließen.

Über den Site-Befehl von Google erfährt man, welche URLs Google von einer Domain kennt. Dazu gibt man in das Google Suchfeld den Begriff „site:“ und die Domain an.

Anschließend listet Google alle URLs inklusive Google Snippet auf. Meta Title und Meta Description können so auch überprüft werden.

Warum man Google nicht alle Seiten zeigen sollte

Es gibt mehrere Gründe, warum man Google einige Seiten nicht zeigen sollte und diese auch vom Google Index ausschließen sollte.

Unschöne Meta Descriptions

Seiten, die eigentlich nicht für die Website-Zielgruppe bestimmt sind, haben häufig unschöne Meta Descripitons. Häufig werden diese Seiten automatisch von System erzeugt, wie z.B. der Login ins Backend oder 404-Fehler-Seiten, die den Status 200 haben.

Duplicate Content & Parameter-URLS

Bei Shops sind häufig Parameter-URLs ein Problem. Diese entstehen z.B. durch Sortierungsmöglichkeiten oder Kategorie-Einordnungen bei Produkten. Neben der unschönen Parameter-URL sowie dem dazugehörigen Snippet, entsteht hier auch häufig schädlicher Duplicate Content.

Dem kann jedoch durch strategische Indexierungssteuerung entgegengewirkt werden.

Im Falle von Duplicate Content müssen die Duplicate entfernt werden oder als solche gekennzeichnet werden. Letzteres kann man durch das Hinzufügen von Canonical-Tags erreichen. Dafür entscheidet man sich welche Version die Origial-Version sein soll und fügt auf beiden Seiten folgenden Code ein.

<link rel=“canonical“ href=“http://www.beispiel.de/beispielseite.htm“/>

Die URL stellt die Original-Version dar. Damit verweist das Duplicat auf die Original-Version.

Bei paginierten (nummerierten) Seiten, die auch häufig Duplicate Content darstellen, sollten jedoch anstelle des Canonical-Tags die HTML-Elemente rel=”next” und rel=”prev” verwendet werden.

Unnötiger Verbrauch des Crawlbudget

URLs die eigentlich gar nicht für Nutzer bestimmt sind verbrauchen trotzdem das Crawlbudget von Google. Google weist jeder Domain ein gewisses Crawlbudget zu, ist es verbraucht, bricht der Crawler den Websitecrawl ab. Dies ist insbesondere bei großen Seiten mit hoher Aktualität gefährlich. Verirrt sich der Crawler in Seiten und Verzeichnissen, die für Google und den Nutzer keinen Mehrwert bieten, werden die wirklich wichtigen Seiten weniger stark berücksichtigt.

Wie verberge ich URLs vor Google?

Es gibt verschiedene Möglichkeiten Google nicht alles von seiner Website zu zeigen.

Meta-Tag: Noindex

Mithilfe des Meta-Tags „noindex“ kann man die Aufnahme einer Seite in den Google Index verhindern. Dazu muss nur die folgende Zeile in den Head-Bereich einer Webseite eingefügt werden:

<meta name=“robots“ content=“noindex“>

WordPress-Nutzer können den Meta-Tag „noindex“ mit dem Plugin „Yoast SEO for WordPress“ sehr einfach steuern.

Crawlersteuerung per Robots.txt

Möchte man ganze Verzeichnisse von der Indexierung ausschließen, sollte man diese per robots.txt vom Crawling ausschließen. Das Robots-Exclusion-Standard-Protokoll steuert Webcrawler und wird von diesen bei einem Crawl zuerst gelesen.

Sind Seiten eines Verzeichnisses jedoch bereits indexiert, sollte man diese zunächst per „noindex“ von der Indexierung ausschließen. Sperrt man anschließend das gesamte Verzeichnis per robots.txt lässt sich Crawlbudget sparen, da der Crawler die Seiten anschließend gar nicht mehr aufrufen muss, um festzustellen, ob diese indexiert werden sollen oder nicht.

Bei Anpassungen an der robots.txt sollte man jedoch darauf achten, nicht ausversehen die gesamte Website für Suchmaschinen zu sperren. So könnte die Website plötzlich gar nicht mehr im Web aufzufinden sein.

URLs aus dem Index entfernen mit der Google Search Console

Sind bereits nicht für den Index bestimmte Seiten in Google auffindbar, kann man diese auch über die Google Search Console entfernen lassen. Unter dem Punkt „Google Index“ -> „URLs entfernen“ lassen sich URLs eingeben, die entfernt werden sollen.

Fazit

Die Indexierungssteuerung ist ein wichtiges Instrument für technisches SEO und sollte insbesondere bei größeren Seiten angewendet werden, damit Google den Fokus auf die wirklich wichtigen Seiten legen kann.

 

Von |2018-03-16T14:54:02+00:009. Juni 2017|SEO|