Informationsbeschaffung im Internet

Probleme bei der Informationssuche

Der Begriff Information Retrieval - Informationssuche - ist in zweierlei Hinsicht irreführend. Erstens geht es nicht nur um das Wiederfinden von Informationen, sondern auch um das Finden von Informationen, die man noch nie zuvor gesehen hat. Zweitens erhält man nicht direkt die gewünschte Information, sondern Dokumente, welche die gesuchte Information hoffentlich enthalten. Eine wichtige Voraussetzung für eine erfolgreiche Informationssuche ist also, dass die Dokumentenkollektion Dokumente mit der benötigten Information enthält. Das heisst, irgendjemand muss ein Dokument mit diesen Informationen verfasst und veröffentlicht haben.



Ein erstes Beispiel: Ein Germanistikstudent belegt das Nebenfach Psychologie und muss sich im Rahmen einer Seminararbeit über den Freud'schen Ansatz der Psychoanalyse informieren. Leider kennt der Student die nötigen Quellen zu diesem Thema nicht. Deshalb besucht er eine befreundete Psychologiestudentin und stellt eine entsprechende Frage - zum Beispiel: «Ich muss mich über den Freud'schen Ansatz der Psychoanalyse informieren. Kannst du mir weiterhelfen?» Anschliessend interpretiert die Psychologiestudentin diese Frage und identifiziert die für sie entscheidenden Begriffe. In diesem Fall sind das die Begriffe «Freud'scher Ansatz» und «Psychoanalyse». Den Rest der Frage benötigt sie nicht, um das Informationsbedürfnis ihres Kollegen zu bestimmen. Nun greift die Studentin auf ihre private Büchersammlung zurück und trägt eine Sammlung von Büchern zusammen, die aufgrund des Inhalts mit der Frage in Zusammenhang stehen. Dabei profitiert die Studentin von ihrem umfangreichen Hintergrundwissen im Bereich der Psychologie sowie von ihrer Kenntnis der Büchersammlung. Wichtig: Die Studentin beantwortet nicht direkt die Anfrage des Studenten, sondern vergleicht den Inhalt einiger Bücher mit der Anfrage und wählt dann die (hoffentlich) geeigneten Bücher aus.



Mit obigem Beispiel sind wir schon sehr nahe am grundsätzlichen Problem bei der Informationssuche. Auf der einen Seite steht der Benutzer, in unserem Beispiel der Germanistikstudent. Er hat ein Informationsbedürfnis, welches er in einer Anfrage formuliert. Diese Anfrage besteht aus einer Menge von Suchbegriffen. Auf der anderen Seite befinden sich die Autoren. Sie verfügen über Informationen und verfassen Dokumente, die auf diesen Informationen basieren.

Zwischen den Autoren und den Benutzern steht eine beurteilende Person. Häufig sind die Beurteilende und die Benutzerin dieselbe Person (im Beispiel war es die Psychologiestudentin); das muss aber nicht unbedingt so sein. In Bibliotheken beispielsweise steht den Benutzern oft eine Bibliothekarin mit Rat und Tat zur Seite. Die Bibliothekarin wird so zum Bindeglied zwischen Autoren und Benutzern. In einem ersten Schritt interpretiert die Beurteilende sowohl die verfügbaren Dokumente (beispielsweise die Bücher in der Bibliothek) als auch die Anfrage. Aufgrund dieser Interpretationen bestimmt die Beurteilende dann, ob und wie stark ein gewisses Dokument relevant für die gestellte Anfrage ist. Die Beurteilung der Relevanz wird stark beeinflusst durch das Hintergrundwissen der Beurteilenden sowie durch die Fähigkeit, das Hintergrundwissen mit dem im Dokument dargestellten Wissen zu verknüpfen.

Das folgende Beispiel erläutert die Rolle des Hintergrundwissens: Ein Schüler stellt erste Nachforschungen für einen Geografievortrag zum Thema «Wo leben Eskimos?» an. Er findet ein Dokument mit dem Inhalt: «Die Inuit bewohnen die nördlichsten Gebiete der USA und Kanadas sowie Grönland und Teile Sibiriens.» Das Dokument ist für den Schüler nur relevant, falls ihm bereits bewusst ist, dass sich Eskimos selber als Inuit bezeichnen. Andernfalls wird er das Dokument wahrscheinlich ignorieren.

Das Suchsystem kommt ins Spiel

Die Beurteilung der Relevanz von Dokumenten soll nun automatisiert werden. Das heisst, das Suchsystem muss die Rolle der Beurteilenden übernehmen und zu einer Anfrage die «passenden» - das heisst die relevanten - Dokumente finden. Anstatt Dokumente und Anfragen zu interpretieren, werden lediglich Begriffe im Text identifiziert, gezählt und die Zahlen miteinander verglichen. Gleichzeitig kann auf statistische Angaben über die ganze Dokumentenkollektion - auf das «Hintergrundwissen» des Suchsystems - zurückgegriffen werden. Das Resultat des Vergleichs ist ein Relevanzwert, der die Relevanz eines Dokuments gegenüber der Anfrage beschreibt.



Die Informationssuche ist trotz der Automatisierung von den beteiligten Personen abhängig. Anfragen und Dokumente werden verfasst. Dabei spielen persönliche Vorlieben bezüglich des Schreibstils eine Rolle. Verschiedene Personen beschreiben den gleichen Sachverhalt mit verschiedenen Worten. Das Suchsystem kann diese Wortwahl nicht beeinflussen. Aus diesem Grund lässt sich feststellen: Das perfekte Suchsystem wird es nie geben, weil an mehreren Stellen menschliche Einflüsse eine Rolle spielen.