Informationsbeschaffung im Internet

Kapitel 4
Funktionsweise von Suchsystemen

In den frühen 1960ern unterzeichneten zwölf Staaten das Antarktisabkommen. Dutzende weiterer Staaten schlossen sich unterdessen dem Vertrag an. Damit ist die Antarktis der einzige Kontinent, der vollständig durch ein internationales Abkommen regiert wird.

Ich suche gerade nach dem genauen Vertragstext des Antarktisabkommens. Dazu benutze ich NewsSeeker und die Anfrage Antarktisabkommen Frieden Umweltschutz Artikel. Gleich beim ersten Versuch stosse ich in der Rangliste auf einen sehr viel versprechenden Eintrag: «Die 14 Artikel des Antarktisabkommens». Voller Vorfreude wähle ich den Link an, und was geschieht?

Page not found!

Mit dieser Fehlermeldung beglückt mich mein Browser. Das ist nicht das erste Mal, dass mir so etwas passiert, und jedes Mal ärgere ich mich etwas mehr. Wollen die Suchdienste mich als Benutzer auf den Arm nehmen? Wieso wird mir eine viel versprechende Seite mit perfekter Beschreibung angeboten, die dann offenbar gar nicht mehr existiert?

Ein ähnlich frustrierendes Erlebnis: Ich suche nach den aktuellen Fussballresultaten in der britischen Liga. Ich versuche mein Glück mit OmniSearch und finde rasch einige relevante Dokumente. Eine Webseite liegt auf dem Server einer englischen Zeitung und hat dort die Adresse sports/headline.html. Gemäss Titel geht es um den Sieg von Manchester United gegen Arsenal. Das interessiert mich, also klicke ich auf den Link und lande erfolgreich auf der Seite. Doch dort finde ich kein Wort über Fussball - stattdessen werde ich mit der Schlagzeile «Tour de France with new leader» überrumpelt.

Immer wieder habe ich den Eindruck, dass diese Suchdienste völlig willkürliche Resultate liefern. Irgendwie ist es ja auch gar nicht möglich, dass die Systeme ihre Arbeit wirklich sorgfältig erledigen! OmniSearch behauptet, etwa 200 Millionen Webseiten zu durchsuchen. Es ist doch schlicht unmöglich, dass jede einzelne Seite heruntergeladen und durchsucht wird. Immerhin erhalte ich meine Antwort jeweils innert Sekunden!


Zur Erklärung dieser eigenartigen Phänomene und der aufgeworfenen Fragen müssen wir uns zunächst mit der Funktionsweise von Suchsystemen auseinander setzen ...





Zwei der Komponenten eines Suchsystems haben wir bereits ausführlich besprochen. Für den Anfrage-Dokumentenvergleich stützt sich das Suchsystem auf gewisse Rangierungsprinzipien, so wie wir sie im zweiten Kapitel beschrieben haben, und produziert eine Rangliste, die an den Benutzer geschickt wird. Eine mögliche Indexierung wurde in Kapitel drei vorgestellt. Es verbleiben zwei ungeklärte Fragen: Wie beschafft sich das Suchsystem die Dokumente aus dem Internet, wie funktioniert der Web-Roboter? Und: Wieso kann ein Suchsystem innert Sekunden eine Rangliste ermitteln, auch wenn die Kollektion Millionen von Dokumenten enthält? Antwort: Der Index ist der Hauptgrund für die enorme Schnelligkeit bei der Beantwortung von Anfragen an das System. Wie aber ist der Index aufgebaut?