Informationsbeschaffung im Internet

Wieso erscheint eine Seite nicht im Index?

Es folgt eine Liste mit den wichtigsten Gründen, weshalb ein Dokument nicht im Index eines Suchdienstes auftaucht.

Isolierte Seiten

Seiten ohne Verweis von einem anderen Dokument und ohne explizite Anmeldung bei einem Suchdienst tauchen nicht im Index auf.

Dynamische Seiten

Viele Webseiten sind statischer Natur. Diese statischen Webseiten sind als Dateien gespeichert und bleiben unverändert, bis jemand die Dateien bearbeitet. Es gibt aber auch dynamische Webseiten, die bei jedem Aufruf neu erstellt werden und normalerweise jedes Mal einen neuen Inhalt aufweisen. Viele Web-Roboter ignorieren dynamische Webseiten, weil sie die dahinter liegenden Programme nicht ansprechen können oder weil sie sich die Sisyphusarbeit bei diesen stets ändernden Seiten ersparen möchten. Im ersten Kapitel wurde ein Programm besprochen, das bei jedem Aufruf die aktuelle Uhrzeit liefert. Der Web-Roboter würde folglich bei jedem Besuch eine neue Seite vorfinden und immer wieder im Index aktualisieren.

Robot Exclusion

Die Betreiberinnen von Web-Servern können Web-Robotern den Zugriff zu ihren Seiten verwehren. Der Robot-Exclusion-Standard legt fest, wie dabei vorzugehen ist. Der Standard ist nicht verbindlich, doch die meisten Roboter halten sich daran. Das gehört zum Internet-Knigge.

Aber wieso sollte man überhaupt einen Suchdienst daran hindern wollen, bestimmte Seiten anzubieten? Beispiel 1: Ein Roboter fällt durch schlechtes Benehmen auf, indem er auf eine Webseite viel zu häufig zugreift. Beispiel 2: Manche Web-Sites bieten neben den öffentlichen auch private Bereiche an. Nur befugte Personen können die privaten Seiten anschauen. Also lässt man auch Web-Roboter nur im öffentlichen Bereich zu.

Mangelnde Qualität

Dokumente können von einem Suchdienst ignoriert werden, weil sie bestimmte Qualitätsmerkmale nicht erfüllen. Vielleicht ist die Rechtschreibung mangelhaft, oder die Seite wurde zu lange nicht mehr aktualisiert. Es gibt auch Suchsysteme, die Webseiten mit problematischem Inhalt (zum Beispiel Pornografie, übertriebene Gewalt oder politisch extreme Meinungen) nicht berücksichtigen. Dabei werden beispielsweise Dokumente gesperrt, die Problembegriffe in einer bestimmten Häufigkeit und Kombination enthalten.

Beschränkung durch Suchdienst

Gewisse Web-Roboter legen es gar nicht erst darauf an, tatsächlich alle Webseiten zu finden. Stattdessen werden ihnen von den Betreibern bestimmte Beschränkungen vorgegeben. Es gibt zwei gängige Methoden: (1) Der Web-Roboter darf - ausgehend von einer Homepage - höchstens bis zu einer maximalen Linktiefe (zum Beispiel drei) weitere Seiten in den Index aufnehmen. (2) Es kann auch vorgeschrieben werden, dass von einer Web-Site nur eine bestimmte Höchstzahl von Webseiten in den Index aufgenommen werden darf. Sobald solche Maximalwerte erreicht sind, werden keine weiteren Seiten von der entsprechenden Web-Site akzeptiert.

Einem Suchdienst ist es übrigens auch freigestellt, wie vollständig er die gefundenen Seiten indexiert. Es gibt Suchdienste, die nur den Titel oder die ersten paar Zeilen eines Dokuments in den Index aufnehmen. Andere Systeme indexieren den vollständigen Text. Entsprechende Hinweise finden sich üblicherweise in den Hilfeseiten.