Informationsbeschaffung im Internet

Vorsicht: Boole'sche Suche im Dokumentinhalt

Die Boole'schen Suchmethoden sind nützlich für die Definition von Teilkollektionen, wenn die Teildokumentenmenge aufgrund von eindeutigen Kriterien innerhalb der Metadaten definiert werden kann. Problematisch ist die Boole'sche Suche im Dokumentinhalt. Zum Abschluss folgen drei Beispiele, welche die Gefahren und mögliche Lösungen nochmals aufzeigen sollen.

Apfelkuchen für Walnussallergiker

Ein Dessert-Fan ist auf der Suche nach einem tollen Rezept für Apfelkuchen ohne Walnüsse, denn auf Walnüsse ist er allergisch. Er benützt bei OmniSearch die Boole'schen Operationen, um alle Walnüsse loszuwerden. Die Anfrage lautet +apfelkuchen rezept -walnüsse. In der Rangliste tauchen folglich nur Dokumente auf, die den Begriff «Apfelkuchen» zwingend enthalten und ganz sicher keine Dokumente, in denen das Wort «Walnüsse» vorkommt. Der Suchbegriff rezept bleibt ohne Vorzeichen. Das heisst: Kommt zusätzlich in einem Dokument der Begriff «Rezept» vor, so soll es umso relevanter gemeldet werden. Mit der Anfrage kommt der Dessert-Fan vermutlich schadlos zum Ziel. Doch die Sache hat einen Haken.

Boole'sche Operationen kennen keine Gnade! Erfüllt ein Dokument die gewünschten Bedingungen nicht, so wird es in der Rangliste nicht erscheinen. Oft schränkt man die Dokumentenmenge zu stark ein und schliesst relevante Dokumente aus. Und man merkt es nicht einmal, weil man das relevante Dokument natürlich gar nie zu Gesicht bekommt.

Im obigen Beispiel zum Thema Walnussallergiker und Apfelkuchen: Stellen wir uns vor, es existiere das perfekte Dokument für das Informationsbedürfnis des Dessert-Fans. Der Titel: «Extra für alle Allergiker: Ein Rezept für Apfelkuchen ohne Walnüsse». Mit der oben verwendeten Anfrage wäre das Dokument nicht in der Rangliste erschienen.

In der Regel ist es deshalb angebracht, auf die Boole'schen Operationen im Dokumentinhalt zu verzichten. Meistens kann man das Relevance Ranking ausnützen oder Einschränkungen mit Hilfe der Metadaten verwenden um Probleme zu lösen, die vermeintlich die Anwendung von Boole'schen Methoden im Dokumentinhalt erfordern. Es folgen zwei typische Fälle.

Spezifischer Ausschluss von Seiten

Beispiel: Ein Fussballnarr sucht nach den Resultaten vergangener Fussballspiele. Seine Anfrage lautet soccer. Erster Kritikpunkt: Ein Suchbegriff ist zu wenig, er sollte sich unbedingt noch einige weitere Begriffe einfallen lassen. Trotzdem führt er die Anfrage durch. Er erhält eine unbefriedigende Rangliste, denn sie wird dominiert von störenden Einträgen eines Computerspieleherstellers, der ein Fussballspiel namens Power Soccer anpreist. Auf der Web-Site des Herstellers unter http://www.powersoccer.com gibt es Dutzende von Seiten mit Informationen zum Spiel, und auf jeder Seite wird der Name wiederholt.

«Kein Problem!», denkt unser Fussballnarr, denn er kennt ja nun die Boole'schen Suchmethoden. Damit können die unerwünschten Seiten ausgeschlossen werden. Mit der neuen Anfrage soccer -power werden alle Seiten mit dem Namen des Computerspiels ausgeschlossen. Leider unterdrückt diese Anfrage auch alle Seiten, die den Begriff «Power» in anderem Zusammenhang verwenden, weil zum Beispiel von der schwindenden Kraft der Spieler oder von einem kraftvollen Spiel die Rede ist.

Sobald irrelevante Einträge in der Rangliste gehäuft auftreten, kann man oft auch mit Hilfe der Metadaten eine geeignete Teilkollektion definieren. Im obigen Beispiel stammen alle störenden Seiten vom gleichen Web-Server. Also definiert man eine Teilkollektion ohne diesen Server mit der Anfrage soccer -server:www.powersoccer.com, sofern der verwendete Suchdienst diese Möglichkeit anbietet.

Konzentration auf ein Thema

Der folgende Fall ist ähnlich wie der soeben besprochene: Eine Anfrage produziert eine Rangliste, die neben dem relevanten Thema auch Dokumente zu ganz anderen Bereichen enthält. In solchen Situationen hilft das Verwenden von zusätzlichen Suchbegriffen, die das gewünschte Thema näher umschreiben.

Im zweiten Kapitel lieferte die Anfrage Noah Dokumente zum Tennisspieler und zu Noahs Arche. Wie könnte die Anfrage verändert werden, um mehr Tennis-Dokumente im oberen Bereich der Rangliste zu erhalten? Die riskante Variante: Ausschluss der Arche-Noah-Dokumente mittels einer Boole'schen Anfrage wie Noah -Arche. Dabei kann es vorkommen, dass auch relevante Dokumente ausgeschlossen werden, beispielsweise Dokumente über Yannick Noah bei einem ironischen Hinweis auf die Arche. Die weniger gefährliche Variante: Man fügt einen Begriff zur Anfrage hinzu, der in engem Zusammenhang mit dem gewünschten Thema steht. In diesem Fall ist die Lösung offensichtlich - man stellt die Anfrage Yannick Noah.

Phrasensuche

Neben all den Risiken bei der Boole'schen Suche im Dokumentinhalt soll eine letzte, oft hilfreiche Funktion nicht unerwähnt bleiben: Die so genannte Phrasensuche. Mit Hilfe dieser Funktion lassen sich zwei oder mehr Suchbegriffe zu einem festen Paket verschnüren. Die Suchbegriffe müssen dann zwingend in der angegebenen Reihenfolge in den gesuchten Dokumenten vorkommen.

Bei OmniSearch werden Phrasen festgelegt, indem man die Begriffe mit doppelten Anführungszeichen umschliesst. Häufiger Verwendungszweck sind Buchtitel, Filmtitel, Produktenamen, Firmennamen, Zitate, Personennamen oder andere Bezeichnungen, die immer in derselben Art auftreten. Beispiele: "Big Ben", "Elvis Presley", "Confoederatio Helvetica", "World Wide Web", "Cable News Network", "Ben Hur" oder "Just do it".

Mit der Phrasensuche kann man also denjenigen Suchsystemen auf die Sprünge helfen, die das Rangierungsprinzip 5 nicht unterstützen: Je näher die Suchbegriffe beieinander liegen, desto relevanter das Dokument.



Schauen wir nun, wie die Anwender ihre Probleme mit den neuen Techniken lösen ...



Ich bin immer noch auf der Suche nach dem «richtigen» WWF und habe ein Problem mit all den störenden Dokumenten vom Server der Wrestler unter www.wwf.com. Eine mögliche Lösung ist jetzt klar: Ich kann bei OmniSearch sehr einfach die irrelevanten Dokumente ausschliessen, indem ich eine Teilkollektion ohne den entsprechenden Server bilde. Die neue Anfrage lautet dann WWF -host:www.wwf.com.

Eine andere Möglichkeit ist, auf die Boole'schen Techniken und Metadaten zu verzichten und stattdessen auf die Rangierungsprinzipien zu setzen. Ich kann die mich interessierenden Dokumente in der Rangliste nach vorne bringen, indem ich weitere charakteristische Suchbegriffe benutze. In diesem Fall sind das die Begriffe World, Wildlife und Fund. Und weil die Wörter immer in dieser Kombination auftreten, setze ich sie als Phrase zusammen. Das führt zur Anfrage WWF "World Wildlife Fund".

Es gibt noch eine Möglichkeit: Raten! Wenn es nur darum geht, die Homepage einer Firma oder einer Organisation zu finden, kommt man mit Raten häufig zum Ziel. WWF zum Beispiel ist eine internationale Nonprofit-Organisation. Also hätte ich als ersten Versuch direkt den URL www.wwf.org eintippen können. WWF ist aber auch ein kommerzieller Wrestlingveranstalter, der natürlich unter dem URL www.wwf.com erreichbar ist. Weitere Beispiele: Der IBM-Konzern ist unter www.ibm.com zu finden, die Schweizerischen Bundesbahnen unter www.sbb.ch und die Seiten des Eiffelturms unter www.tour-eiffel.fr.

Für mein Problem mit den Übernachtungszahlen kann ich die Boole'schen Techniken ausnützen, um eine passende Teildokumentenkollektion zusammenzustellen. Anschliessend kann ich in dieser Kollektion gezielt weitersuchen. Ich habe mir überlegt, dass ich mit meinem Problem vermutlich bei den statistischen Ämtern von Deutschland, Österreich und der Schweiz am schnellsten zum Ziel komme. Also stelle ich eine Kollektion zusammen, die nur gerade Dokumente von diesen drei Web-Servern enthält. Das erreiche ich mit dem Boole'schen Ausdruck server:statistik-bund.de OR server:admin.ch OR server:oestat.gv.at.

Nun kann ich Begriffe wählen, nach denen die Dokumente in der definierten Teilkollektion rangiert werden. Ich versuche es mit tourismus übernachtung* uebernachtung*. Die Anfrage deckt den Umlaut in beiden Varianten ab und findet mit dem * ausserdem die Mehrzahl von Übernachtung. So komme ich rasch ans Ziel. 1997 zählte man in Österreich 100 und in der Schweiz 66 Millionen Übernachtungen im Gastgewerbe. In Deutschland waren es rund 300 Millionen.

Ich habe mir eine weitere interessante Anwendung der Metadaten überlegt. Seit einiger Zeit unterhalte ich meine eigene Homepage unter der Adresse www.i.ch/home.html. Nun möchte ich wissen, wie beliebt ich im Netz bin. Das heisst, wie viele andere Webseiten verweisen auf meine Homepage? OmniSearch hilft mir weiter: Mit Hilfe der Einschränkung +link:www.i.ch/home.html wähle ich alle Seiten aus, die einen Link auf meine Homepage beinhalten. Natürlich möchte ich meine eigenen Verweise nicht mitzählen und schliesse deshalb mit dem Zusatz -host:www.i.ch alle Seiten von meinem Server aus. Ausserdem möchte ich die Dokumente an oberster Stelle sehen, die mich im Zusammenhang mit Kunst und Malerei erwähnen, denn ich biete auf meinen Webseiten einige meiner Werke an. Also lautet die vollständige Anfrage +link:www.i.ch/home.html -host:www.i.ch kunst malerei.

Bei meiner Suche nach dem Hotel namens Aurora in Castiglione della Pescaia habe ich Boole'sche Methoden im Dokumentinhalt angewendet und bin dabei prompt in die Falle getappt. Meine Anfrage lautete Aurora AND Hotel AND "Castiglione della Pescaia". Auf der gesuchten Homepage taucht der Begriff «Hotel» allerdings nicht auf. Stattdessen ist von der «Albergo Aurora» die Rede. Ohne Boole'sche Operatoren hätte die Anfrage Aurora Hotel "Castiglione della Pescaia" das Hotel gefunden. Die Boole'schen Operatoren hätte ich besser dazu verwendet, eine Teilkollektion der Webseiten innerhalb der Domain «it» zu definieren.