Arbeitsweise von Searchengines


Man unterscheidet zwei verschiedene Typen von Suchmaschinen. Die sog. "Spider" und die "Directories" (auch "Verzeichnis" oder "Index" genannt). Während ein Spider alle Informationen aus dem Dokument selbst entnimmt, werden bei den Directories bei der Anmeldung zum Dienst Eingaben des Anwenders erwartet. Auch Mischformen sind möglich.

Spider

Spider holen sich die gesamten Informationen zur Positionierung und der Bewertung einer Seite aus dem Dokument selbst heraus. Hierbei werden, mit der Ausnahme von Excite, überall Meta-Tags unterstützt bzw. interpretiert.
Spider wichten ihre Einträge nach folgenden Kriterien:

 

Title-Tag

Der zwischen <Title> und </Title> eingetragene Text, wird nicht nur in der Kopfzeile Ihres Windows angezeigt, sondern wird von das Spidern bei der Gewichtung der Schlagworte besonders stark berücksichtigt und unter diesem Eintrag auch angezeigt.
TIPP: Der Titel ist deshalb besonders wichtig bei der Positionierung Ihrer Seite und sollte immer einen sinnvollen, suchbaren Text beinhalten! Der Eintrag <TITLE>Meine Homepage</TITLE> ist hierfür wohl nicht sonderlich gut geeignet!
 

Meta-Tags

Zu dem Thema "Meta-Tags" habe ich eine eigene Seite verfaßt.
 

Worte am Anfang der Seite

Auch die ersten 200 - 250 Worte einer Seite werden für die Positionierung einer Page besonders gewichtet. Dies ist vor allem dann der Fall, wenn keine Meta-Tags in einem Dokument vorhanden sind. Häufig wird dieser Text auch als Zusammenfassung/ Inhaltsangabe angezeigt.
TIPP: Sie sollten daher darauf achten, daß Sie nicht zu viel (am besten keine) Werbung/ Banner mit entsprechenden Texten ("Click here" oder "Member of Ringelpietz-Bannertausch") im Anfangsbereich Ihrer Seite stehen haben. Beachten Sie auch, daß der ALT-Text in Bildern (<IMG SRC>) von den Spidern gelesen werden (das kann negativ sein, kann sich aber natürlich auch positiv auswirken!).
 

Vorkommen/ Verhältnis im gesamten Dokument/Text

Die Spider berücksichtigen i.a. jedoch auch das Vorkommen/ die Häufigkeit von bestimmten Begriffen im Verhältnis zum Gesamttext. Dies gilt vor allen Dingen für Excite, der ja keine Meta-Tags benutzt und sich nur unter Berücksichtigung des Gesamttextes "ein Bild" von Ihrem Dokument macht.
TIPP: Achten Sie darauf, daß Sie nicht zu viele Füllworte auf Ihrer Seite haben und daß nicht die Begriffe die "Oberhand" gewinnen, die mit dem eigentlichen Inhalt der Seite nichts zu tun haben bzw. nach denen nie gesucht werden würde!
Achten Sie auch darauf, daß auf stark grafik-lastigen Seiten, die ALTernativen Texte beim IMG-Tag einen sprechenden Text beinhalten!
 

Name des Files

Auch der Name des Files oder des Pfades wird häufig bei der Bewertung einer Seite berücksichtigt (und zwar gar nicht so wenig).
TIPP: Wählen Sie also einen (ent-)sprechenden File und/ oder Pfadnamen.
 

Anzahl der Verweise auf das Dokument

Ein weiteres Beurteilungskriterium, das vor allen Dingen vom WebCrawler berücksichtigt wird, ist die Anzahl der Verweise (Links) auf Ihr Dokument, die sich in der Datenbank befinden. In vielen Suchmaschinen können Sie sogar danach suchen (z.B. in Alta Vista oder Fireball mit dem Suchbegriff "link:URL").
TIPP: Setzen Sie so viele Links wie möglich zwischen Ihren einzelnen Dokumenten (oder wenigstens auf die Hauptseite). Beachten Sie hierbei bitte, daß die Suchmaschinen nur die volle URL (also z.B. http:www.tcp-ip-info.de berücksichtigen. Tragen Sie sich aber auch in möglichst vielen Gästebüchern und Indices ein. Überhaupt: Nutzen Sie jede Möglichkeit, eine Spur von Ihrer Seite im Web zu hinterlassen!

Page Rank

Google hat ein weiteres Kriterium eingeführt. Den Page Rank (PR). Hierbei wird nicht nur die Verlinkung der Seiten im Internet berücksichtigt (und zwar in beide Richtungen!), sondern jeder Seite wird eine Wertigkeit (Page Rank) zugewiesen. Dieser wird bei der Ermittlung des Page Rank der eigenen Seite mit berücksichtigt.
Der höchste erreichbare Wert des Page Ranks ist 10.
Zur Orientierung: google.de selbst hat den PR 8 - ebenso wie yahoo.de, spiegel.de oder pc-welt.de. Die einzige Seite mit einem Page Rank > 8 ist cnn.com mit PR 9.

Den Page Rank erfährt man über entsprechende Seiten - oder über den Google-Toolbar (Google Toolbar für Firefox bzw. für MS IE), der aber aus Privacy-Gründen mit Vorsicht zu genießen ist. Der Page Rank ungefähr alle 30 Tage neu berechnet.
Weiterführende Informationen zum Page Rank gibt es beim Suchmaschinen-Doktor.
TIPP: Der Page Rank ist eine Weiterentwicklung der "Verweiszählung". Deswegen gelten prinzipiell dieselben Tipps wie dort. Allerdings ist die Sesibilität für Betrugs/ SPAM-Versuche gestiegen. Deswegen sind z.B. Link-Listen oder Backlink-Communities zu meiden.


Directory, Index

Die Directories bestehen im allgemeinen aus verschiedenen Kategorien, in denen die Verweise abgelegt werden. Hier wird i.a. bereits beim Eintrag nach einer Beschreibung und nach Schlüsselworten gefragt. Sie kommen in dieser "reinen" Form kaum vor und haben relativ wenig Bedeutung. Die meisten Indices können auch durchsucht (engl. searchable)werden und verwenden neben den beim Eintrag eingegebenen Beschreibungen und Suchbegriffen die oben geschilderten Methoden. Der bekannteste und beste suchbare Index ist der Yahoo!.


Links

Eine Übersicht deutscher Suchmaschinen finden Sie hier!


Beispiel 

Ein Negativbeispiel finden Sie in der Story über den Sozialgericht Bremen Blog.


Bei Fragen und Problemen posten Sie bitte in meinem Internet- und Security-Forum.
In besonderen Fällen erreichen Sie mich auch per E-Mail!
Und bitte vergessen Sie nicht, sich in meinem Gästebuch einzutragen?

Homepage [zurück zur TCP/IP-Seite]

(Diese Seite wurde erstellt am 12.01.1998,
der letzte Update fand statt am 07.01.2007)


Dieses Angebot ist erreichbar über http://www.tcp-ip-info.de, http://www.trojaner-und-sicherheit.de, http://www.internet-und-sicherheit.de und http://www.tcp-ip.de.gg