Informationsbeschaffung im Internet

Boole'sche Suche im Dokumentinhalt

Bei den obigen Beispielen wurden Boole'sche Operatoren auf Begriffe aus dem Inhalt eines Dokuments angewendet. Das kann gelegentlich hilfreich, oft aber auch gefährlich sein! Ein Beispiel: Mit der Anfrage birth AND death AND rate AND italy werden alle Dokumente gefunden, die genau die vier Begriffe enthalten.

Das Problem: Boole'sche Operationen verlangen exakte Übereinstimmung zwischen den Suchbegriffen der Anfrage und den Begriffen im Dokument. Die obige Anfrage beispielsweise findet keine Dokumente, in denen von der «mortality rate» anstelle der «death rate» die Rede ist. Natürlich kann man das Problem mit der Anfrage birth AND (death OR mortality) AND rate AND italy umschiffen. Allerdings ist es schwierig, immer an alle möglichen Synonyme zu denken. Folglich besteht die Gefahr, dass man mit einer Boole'schen Anfrage unbewusst relevante Dokumente ausschliesst.

Noch deutlicher wird die Problematik bei Verwendung der Boole'schen Operation AND NOT. Beispiel: Jemand möchte sich über nicht amerikanische Raumfahrtprogramme informieren und stellt die Anfrage Raumfahrt AND NOT NASA. Damit werden auch relevante Dokumente ausgeschlossen. Zum Beispiel ein Dokument, in dem es um die europäische Raumfahrtbehörde ESA geht und das auch kurz auf die Zusammenarbeit mit der NASA eingeht.

Nur weil ein Dokument einen nicht relevanten Abschnitt enthält, heisst das nicht, dass das ganze Dokument nicht relevant ist. Man kann sich eine Zeitungsseite mit vielleicht einem Dutzend Artikel vorstellen. Die meisten der Artikel sind für eine bestimmte Anfrage nicht relevant. Das ändert aber nichts an der Relevanz eines interessanten Berichts, der sich ebenfalls auf der Seite befindet. Anstatt im NASA-Beispiel den Begriff NASA strikt auszuschliessen, verzichtet man häufig besser auf die Boole'sche Suche im Dokumentinhalt und fügt stattdessen zusätzliche charakteristische Begriffe zur Anfrage hinzu: Raumfahrt ESA CSA NASDA INPE RKA CNSA.

Mit Hilfe der Boole'schen Techniken im Dokumentinhalt wird das Ziel verfolgt, die Rangliste möglichst freizuhalten von nicht relevanten Dokumenten. Wie erwähnt läuft man dabei aber Gefahr, auch relevante Dokumente auszuschliessen. In der Regel ist es weniger problematisch, einige nicht relevante Dokumente in der Rangliste vorzufinden. Solche Dokumente lassen sich einfach ignorieren. Problematischer ist der umgekehrte Fall: Es werden Dokumente ausgeschlossen, die an sich relevant sind. Man denke beispielsweise an den Patentanwalt. Er ist darauf angewiesen, möglichst alle relevanten Dokumente zu finden und keine Patentanmeldung zu übersehen. Oder ein Arzt möchte alle Dokumente zu einem bestimmten Medikament finden, damit er nicht die allfällige Notiz über eine gefährliche Nebenwirkung verpasst.

Trotz der erwähnten Schwierigkeiten mit den Boole'schen Operatoren im Dokumentinhalt können diese Techniken im Zusammenhang mit Metadaten durchaus Gewinn bringend eingesetzt werden.