Informationsbeschaffung im Internet

Der Web-Roboter

Es gibt Millionen von Web-Servern, die Hunderte von Millionen von Webseiten anbieten. Irgendwann entsteht auf irgendeinem dieser Server eine neue Seite, oder es wird eine der bestehenden Seiten geändert. Wie bringt OmniSearch all dies in Erfahrung?

Hier kommt der Web-Roboter (auch Spider oder Crawler genannt) ins Spiel. Der Web-Roboter ist ein Programm mit der Aufgabe, Webseiten zu finden. Dazu nützt der Roboter die Eigenschaft des World Wide Web aus, dass die Dokumente über Hyperlinks miteinander verbunden oder eben verwoben sind.

Damit ist das Vorgehen eigentlich klar:

  1. In einer Tabelle legt eine für den Suchdienst verantwortliche Person die Startpunkte für die Suche nach Webseiten fest.

  2. Der Web-Roboter geht durch diese Liste mit URLs und bezieht die zugehörigen Seiten aus dem Internet. Dann wird jede Seite nach weiterführenden Verweisen (Hyperlinks) untersucht.

  3. Die gefundenen Hyperlinks landen ebenfalls in der Tabelle mit den URLs, damit der Web-Roboter über die schon besuchten Seiten Bescheid weiss. Später werden auch die neu eingetragenen Seiten nach weiteren Verweisen untersucht. Auf diese Weise arbeitet sich der Web-Roboter immer weiter in die Tiefen des WWW vor.

  4. Der Web-Roboter muss die entstandene URL-Tabelle regelmässig neu durcharbeiten und die entsprechenden Webseiten begutachten. Nur so kann er herausfinden, ob sich der Inhalt einer Seite geändert hat.

Früher oder später findet der Web-Roboter somit alle Seiten, die auf irgendeinem Weg von den Startseiten aus erreicht werden können. Oder umgekehrt: Er findet keine isolierten Seiten.

Ein Beispiel

NewsSeeker bietet eine vertikale Dokumentenkollektion bestehend aus internationalen Nachrichtenmeldungen an. Wir gehen davon aus, dass die Meldungen von insgesamt drei fiktiven Anbietern im WWW stammen: NewsAtOnce, WorldWideNews, und NewsNow. Also muss der Web-Roboter von NewsSeeker die zugehörigen Web-Server besuchen und möglichst alle Dokumente finden:





In der URL-Tabelle stehen zunächst nur die Einstiegsseiten der drei Web-Server. Die Adressen der neu gefundenen Seiten trägt der Roboter ebenfalls in die Tabelle ein, zum Beispiel den URL http://www.newsatonce.com/world.html. Falls jemand vergisst, eine Webseite mit einer neuen Meldung durch eine bestehende zu referenzieren, so entsteht eine isolierte Seite, die nicht gefunden wird.

Das Kleingedruckte

Web-Roboter dürfen sich nicht völlig frei im Internet bewegen. Die Suchsystembetreiber können dem Roboter gewisse Regeln vorschreiben, an die er sich zu halten hat. Diese Vorschriften sehen je nach Verwendung des Suchsystems anders aus. Ein Beispiel, wie das bei NewsSeeker aussehen könnte:

  INCLUDE_PATTERN http://www.newsatonce.com/*
  INCLUDE_PATTERN http://www.worldwidenews.com/*
  INCLUDE_PATTERN http://www.newsnow.com/*
  ...             ...
  EXCLUDE_PATTERN *.gif
  EXCLUDE_PATTERN *.jpg
  ...             ...
  EXCLUDE_PATTERN *.wav
  EXCLUDE_PATTERN *.mpg
  ...             ...


Wie erwähnt konzentriert sich NewsSeeker auf das Angebot von drei Web-Servern. Deshalb wird hier für jeden Hyperlink verlangt, dass eine der drei Server-Adressen im URL vorkommt. Es werden keine Verweise weiterverfolgt, die zu anderen Web-Servern führen. Bei horizontalen Dokumentenkollektionen wie derjenigen von OmniSearch fällt diese Restriktion weg, weil möglichst alle Seiten im Web angeboten werden sollen.

Weiter wird durch den Regelsatz bestimmt: Alle Verweise auf Bilddateien (GIF, JPEG usw.), Audiodateien (WAV usw.) oder Videosequenzen (MPEG usw.) werden ignoriert.