Informationsbeschaffung im Internet

Gewichtung von Dokumenten nach Relevanz

Wir haben einige Probleme bei der Informationssuche kennen gelernt: (1) Häufig ist das Informationsbedürfnis aus der Anfrage eines Benutzers nicht klar ersichtlich. (2) Die Relevanz eines Dokuments bezüglich einer Anfrage ist schwierig zu beurteilen. Was das Suchsystem als relevant betrachtet, kann für den Benutzer subjektiv irrelevant sein. (3) Fehlendes oder nicht aktiviertes Hintergrundwissen erschwert die Informationssuche zusätzlich.

Wir haben festgestellt, dass für die erwähnten Probleme keine perfekte Lösung existiert. Stattdessen wird mit einer Annäherung gearbeitet. Das Zauberwort heisst Relevance Ranking. Damit meint man das Anordnen von Dokumenten gemäss absteigender Relevanz bezüglich einer Anfrage. Relevance Ranking läuft in zwei Schritten ab:

Erster Schritt: Nachdem die Benutzerin eine Suchanfrage gestellt hat, werden alle verfügbaren Dokumente mit der Anfrage verglichen. Bei diesem Vergleich weist das System jedem Dokument einen Relevanzwert zu. Mit der Höhe des Relevanzwertes drückt das System die geschätzte Relevanz der jeweiligen Dokumente in Bezug auf die Anfrage aus. Je höher der Relevanzwert ausfällt, desto wahrscheinlicher stuft das Suchsystem ein Dokument bezüglich der Anfrage als relevant ein.

Zweiter Schritt: Nun sortiert das Suchsystem die Dokumente aufgrund des Relevanzwertes in absteigender Reihenfolge. Die so entstehende geordnete Liste wird Rangliste genannt. Die Rangliste wird der Benutzerin präsentiert, die je nach ihrem Bedürfnis wenige oder viele Dokumente daraus auswählt und genauer betrachtet.



Beispiel: Die Rangliste zur Noah-Recherche könnte die verschiedensten Dokumente enthalten: Einen Tipp aus einem Gastronomieführer, einen Hinweis auf ein Bild von Friedensreich Hundertwasser, religiöse Dokumente, eine Tennis-Homepage und Meldungen, in denen der Name des Tennisspielers auftaucht.

In der Rangliste werden alle Dokumente aufgeführt, welche das Suchsystem als relevant bezüglich der Anfrage erachtet. Auf Platz 1 steht das Dokument mit dem höchsten Relevanzwert, gefolgt von den übrigen Dokumenten, nach Relevanzwerten absteigend geordnet.

Man kann sich zwei vollkommen unterschiedliche Bedürfnisse bei einer Recherche vorstellen: Der Physiker auf der Suche nach dem Zahlenwert von Pi auf 40 Stellen genau gibt sich beispielsweise mit einem einzigen relevanten Dokument zufrieden. Ein Patentanwalt hingegen muss abklären, ob für eine neue Erfindung bereits ein Patent existiert oder nicht. Deshalb möchte er natürlich möglichst alle relevanten Dokumente auffinden, die ähnliche Erfindungen beschreiben. Er wird also einen grösseren Teil der Rangliste in Betracht ziehen als der Physiker. Durch das Sortieren der Dokumente in der Rangliste gemäss ihrer Relevanzwerte wird diesen zwei völlig entgegengesetzten Bedürfnissen zugleich Rechnung getragen.