buy-textlinks.de Ihr Partner in Sachen SEO und Content

Site menu:

Links:

 

October 2008
M T W T F S S
« Aug    
 12345
6789101112
13141516171819
20212223242526
2728293031  

Site search

Categories

Archives

Meta

Friends

SEO versus Suchmaschinen Spider/Betreiber

Können Sie sich 2,5 Milliarden Web-Seiten vorstellen? Wissen Sie, wie viel 20 Terabyte Daten sind? Grob überschlagen entspricht dies einem Lexikon mit zwei Millionen Bänden. Die dafür benötigte Schrankwand wäre 100 Kilometer lang. Genau diese Datenmenge haben die derzeit größten Suchmaschinen, Google und Alltheweb, auf ihren Rechnern gespeichert. Doch wie schaffen es die Suchmaschinen, aus einer derartigen Datenflut in nicht einmal einer Sekunde die passenden Fundstellen zu liefern und diese auch noch sinnvoll zu sortieren? So beeindruckend die dazu erforderliche Rechen-Power ist, das Grundprinzip lässt sich relativ leicht nachvollziehen.

 
Die Arbeitsweise: Dass es nicht möglich ist, erst im Moment einer Suchanfrage die einzelnen Web-Seiten zu kontaktieren, dürfte auf der Hand liegen. Dies geschieht vielmehr in einem mehr oder weniger regelmäßigen Rhythmus. Dazu wird einem Programm, Spider, Crawler oder Robot genannt, eine Liste von Web-Adressen vorgegeben, die es der Reihe nach besucht. Der HTML-Code jeder besuchten Seite wird zur späteren Bearbeitung in einer Datenbank (Repository) abgelegt. Ein anderes Programm bearbeitet nun die im Repository abgelegten Seiten. Dabei werden u.a. Links, die auf noch nicht bekannte Seiten verweisen, extrahiert und in eine Liste zu besuchender URLs eingefügt. Der Spider wird nun bei der nächsten Aktualisierung auch diese neu gefundenen Seiten anfragen und den erhaltenen HTML-Code wiederum im Repository ablegen. Jetzt werden vielleicht auch die Namen Spider oder Crawler verständlicher: Wie eine Spinne in ihrem Netz krabbelt auch der Spider einer Suchmaschine auf die oben dargestellte Weise durch das Web. Durch die vielfache Verlinkung der einzelnen Sites untereinander kann so im Prinzip das ganze WWW erfasst werden.

 
Probleme in der Praxis: So weit zur Theorie. In der Praxis ergeben sich bereits bei diesem recht einfach anmutenden Prozess eine ganze Reihe von Problemen, da das Web alles andere als statisch ist: Seiten werden gelöscht, Webserver sind vorübergehend nicht erreichbar, Web-Seiten enthalten fehlerhaftes HTML oder vielfache Weiterleitungen, womöglich sogar „im Kreis herum“. Hat man diese Fallen gemeistert, stellt sich das nächste Problem: die schier unfassbare Datenmenge. Allein um die Daten, die Google verwaltet, zu speichern, sind 200 heute erhältlicher 100-GByte-Festplatten nötig. Natürlich passen diese nicht in einen einzigen Rechner; deshalb arbeiten alle großen Suchmaschinen heute mit einem Verbund (Cluster) vieler kleiner Rechner, auf denen die immensen Datenmengen verteilt werden. Doch allein mit der Speicherung der Daten ist es nicht getan, schließlich sollen die gefundenen Web-Seiten auch durchsucht werden können. Doch selbst die schnellsten Rechner sind nicht in der Lage, die Inhalte von 200 Festplatten in weniger als einer Sekunde zu durchforsten. Erinnern wir uns an den eingangs erwähnten Vergleich mit einem Lexikon. Warum finden wir dort meist recht schnell die gewünschten Informationen? Klar, weil die Einträge alphabetisch sortiert sind. Wollten wir aber einen Begriff finden, der keinen eigenen Eintrag hat, sondern lediglich in einer Erklärung vorkommt, müssten wir das gesamte Lexikon von vorn bis hinten durchlesen.

 
Fazit: Suchmaschinenspider sind längst nicht ausgereift.

 
So gestalten sich die Anforderungen an ein Web Design für die eigene Homepage zunehmend schwieriger. Auch so mancher SEO (Search Engine Optimization) hat so seine kleinen Probleme mit den großen Suchmaschinen. Ein SEO muss sich ständig den Neuerungen der Suchmaschinenbetreibern anpassen und entsprechende Strategien für die eignen Kunden entwickeln.

Write a comment