Informationsbeschaffung im Internet

Metasuchdienste

Nun kennen wir alle wichtigen Komponenten eines Suchsystems und verstehen die verschiedenen Problemarten. Deshalb gehen wir jetzt einen Schritt weiter und betrachten die Metasuchdienste. Metasuchdienste sehen auf den ersten Blick sehr ähnlich aus wie «normale» Suchdienste. Hinter den Kulissen jedoch läuft ein anderer Mechanismus ab. Metasuchdienste arbeiten ähnlich wie Parasiten, indem sie die Angebote bestehender Suchdienste ausnützen, um Suchanfragen zu beantworten. Metasuchdienste lassen somit die anderen Dienste die meisten Arbeiten erledigen. Eine Recherche mit einem Metasuchdienst läuft folgendermassen ab:

  1. Die Benutzerin schickt mit Hilfe der Benutzerschnittstelle eine Suchanfrage an den Metasuchdienst.

  2. Der Metasuchdienst leitet die Anfrage an eine Serie von Suchdiensten (und vielleicht auch Katalogdiensten) weiter. Manchmal muss die Anfrage dazu erst in das jeweilige Format übersetzt werden.

  3. Nun wartet der Metasuchdienst auf Antwort von den angefragten Suchdiensten. Die einzelnen Ranglisten werden bei deren Ankunft gesammelt. Falls die Antwort von einem der Suchdienste über längere Zeit ausbleibt, werden seine Resultate in der Regel schlicht ignoriert.

  4. Zum Schluss werden die verschiedenen Ranglisten miteinander kombiniert und der Benutzerin präsentiert.



Vorteile

Metasuchdienste erschliessen die Dokumentenkollektionen von verschiedenen Suchdiensten gleichzeitig. Das ist vorteilhaft, wenn man mit einer Recherche bei einem bestimmten Suchdienst nicht weiterkommt. Oder wenn man zu Beginn einer Recherche abschätzen möchte, welcher Dienst wohl die viel versprechendsten Dokumente zum Thema liefern könnte. Natürlich ist man mit einem Metasuchdienst schneller, als wenn man manuell die verschiedenen Suchdienste einzeln konsultieren würde.

Nachteile und Probleme

Ein Metasuchdienst kann nur diejenige Funktionalität anbieten, die von allen angesprochenen Suchdiensten ebenfalls unterstützt wird. Folglich bieten Metasuchdienste einen reduzierten Funktionsumfang an, und von erweiterten Möglichkeiten kann nur selten Gebrauch gemacht werden.

Ein anderes bedeutendes Problem betrifft die Rangliste. Aufgabe des Metasuchdienstes ist es, die Ranglisten der verschiedenen Suchdienste zu einer einzigen zu verschmelzen. Die Schwierigkeit: Die Suchdienste liefern die gleichen Dokumente, aber in unterschiedlicher Reihenfolge. Da die Relevanzwerte nicht normiert sind, wird häufig der Durchschnittsrang ermittelt. Viel schwieriger wird es jedoch, wenn verschiedene Suchdienste verschiedene Dokumente liefern. Der eine Suchdienst ermittelt beispielsweise 20 sehr relevante Dokumente, während der andere nur irrelevante findet. Das Zusammenfügen mehrerer Ranglisten zu einer einzigen unter diesen Bedingungen ist eine schwierige Aufgabe, die nicht perfekt gelöst werden kann. Deshalb ziehen sich viele Metasuchdienste aus der Affäre, indem sie die Resultate nach Suchdiensten getrennt präsentieren.



Wie immer zum Abschluss eines Kapitels folgen nun die Lösungen zu den Anwenderproblemen ...



Der Index ist offensichtlich das Kernstück eines Suchsystems. Dank dem Index und einigen zusätzlichen Daten über das Dokument wie Titel und Datum kann das System eine Anfrage innert Sekundenbruchteilen beantworten und muss nicht jedes Mal alle Webseiten beziehen und untersuchen. Zu diesem Zweck hält der Index den Inhalt der Webseiten in geeigneter Form fest. Das führt aber auch zu Problemen. Ein Suchdienst kann nicht ununterbrochen jede Webseite auf Änderungen hin überprüfen. Darum kommt es manchmal vor, dass die im Index gespeicherte Information nicht mit der entsprechenden Webseite übereinstimmt.

Im Fall des Antarktis-Dokuments beispielsweise wurde offenbar das Dokument vom Netz genommen. OmniSearch hat das Fehlen der Seite allerdings noch nicht bemerkt und findet im Index nach wie vor die auf der Webseite verwendeten Begriffe. Also taucht die Seite in der Rangliste auf, doch beim Besuch der Seite werde ich mit einer Fehlermeldung belohnt.

Das Problem mit den Fussballresultaten hat den gleichen Grund. Anscheinend bietet die gefundene englische Zeitung regelmässig - vielleicht täglich - die neuesten Sportschlagzeilen in der HTML-Datei sports/headline.htmlan. Wenn der Web-Roboter von OmniSearch die Seite besucht, übernimmt er den jeweiligen Artikel in den Index. Doch schon am nächsten Tag wird der Artikel bei der Zeitung durch eine neue Schlagzeile ersetzt. Deshalb habe ich die Adresse des Dokuments mit meinen Suchbegriffen gefunden, und trotzdem hatte der neue Inhalt nichts mehr mit meiner Anfrage zu tun.