Was ist der Googlebot?
Google ist vorrangig eine Suchmaschine, auch wenn der Konzern bereits in vielen verschiedenen Bereichen tätig ist und längst nicht mehr nur eine Suchmaschine. Damit Google als Suchmaschine funktionieren kann, wird ein Crawler benötigt. Bei Google wird dieser eben Googlebot genannt, da dieser sehr viel macht. Er crawlt die verschiedenen Webseiten und deren Unterseiten und schreibt sie in die Datenbank von Google.
Damit untersucht die Suchmaschine verschiedene Webseiten, analysiert und bewertet diese. So entstehen schlussendlich die Rankings der verschiedenen Seiten und URLs für die verschiedenen Suchbegriffe.
Wie arbeitet der Googlebot?
Der Googlebot greift alle paar Sekunden einmal auf die Webseite zu um den Inhalt dieser herunterzuladen und anschließen in die Datenbank zu speichern. Der Googlebot greift solange auf die Webseite zu, bis diese komplett heruntergeladen ist, also auch die Unterseiten.
Allerdings wird er – je nachdem wie viele Credits ihm zugesagt sind und wie fehlerfrei deine Webseite ist – nicht die gesamte Seite auf einmal schaffen. Vielmehr wird er es in mehreren Etappen machen.
Je nach Aktualität und Frequenz der Veröffentlichung von Artikeln, kommt der Googlebot einige Male pro Monat oder Woche, sodass der Inhalt in der Google Datenbank aktualisiert werden kann. Du kannst das Crawling in der Regel in der Google Search Console manuell anstoßen.
Das heißt, wenn du eine Anfrage eines Crawlings stellst, wird er in der nächsten Zeit – oder gar sofort – deine Webseite besuchen und analysieren. Der Bot sieht dann deine Webseite in reiner Code Form. Er kann diesen jedoch interpretieren, sodass er es aus Sicht eines Users sieht.
Das wiederum ermöglicht es ihm, bestimmte Black Hat SEO Methoden aufzuspüren.
Googlebot aussperren
Möchte man vermeiden, dass der Googlebot oder auch ein anderer Bot auf die eigene Internetpräsenz zugreift oder auf einen bestimmten Bereich, dann kann man diesen Bot komplett sperren oder den Zugriff zu diesem Bereich. In der Regel funktioniert das Aussperren eines Bots oder eines bestimmten Bereichs mittels der robots.txt Datei. In dieser ist definiert, welche Crawler, Spider und Bots darauf zugreifen können oder eben nicht.
Wenn du den Googlebot oder auch einen anderen aussperrst, dann kann dieser deine Webseite nicht mehr richtig crawlen und somit nicht in den Index aufnehmen. Damit verbaust du dir von anderen gefunden zu werden.
Es gibt aber bestimmte Unterseiten und vor allem Bereiche, welche von den Crawlern nicht gecrawlet werden sollen. Bei bestimmten Bereichen kannst du dies über die robots.txt aussperren, bei bestimmten Seiten solltest du lieber “noindex” wählen.
Mit der robots.txt kannst du dies also tun und entweder entsprechende Seiten, Bots, Clients (Browser) etc. zulassen und aussperen. So hast du die volle Kontrolle, wer auf welche Bereiche deiner Webseite darf und wer und wohin eben nicht.
Googlebot zufriedenstellen
Wenn du den Googlebot möglichst zufriedenstellen möchtest, dann solltest du darauf achten, dass deine Webseite möglichst frei von Fehlern ist und deine PageSpeed möglichst niedrig ist. Das heißt, weder die User, noch der Googlebot wollen lange warten.
Denn, der Google Algorithmus hat das Ziel, den Usern immer möglichst relevanten Content zu liefern, der ihnen gefällt. Denn, wenn die User zufrieden sind, so ist es in der Regel der Googlebot ebenfalls. Dieser wird deine Seite in gewissen Abständen crawlen. Da er nur eine begrenzte Zeit hat, kann er auch nicht deine gesamte Seite crawlen, sondern er macht das in Abständen.
Aus diesem Grund sollte deine Seite möglichst schnell sein. Wenn du WordPress als CMS verwendest, gibt es verschiedene Möglichkeiten, wie du deine Webseite deutlich schneller machst.
Wenn der Crawler von Google in derselben Zeit mehr Seiten schafft als bei einer Konkurrenz in derselben Zeit, weil sich der Server deines Webhosting Providers schneller meldet und weil deine Webseite schnell lädt, dann wird er dich bevorzugen, bzw. du bekommst Bonuspunkte.