Informationsbeschaffung im Internet

Eigene Experimente helfen weiter

Das Wichtigste zuerst: Das soeben vorgestellte Verfahren zur Indexierung ist keineswegs allgemein gültig! Stattdessen handelt es sich um eine Beispielindexierung, welche die wichtigsten Schritte berücksichtigt. Viele Suchsysteme führen eine einfachere Indexierung ohne Buchstabenumwandlung und Wortzerlegung und -normalisierung durch. Ein bestimmtes Suchsystem wendet vielleicht nur die Stoppwortelimination an. Bei einer derart reduzierten Indexierung ändern sich Text und Anfrage nur sehr wenig. Folglich würde in unserem Beispiel die Anfrage zur Mondlandung das relevante Dokument nicht finden, da die Suchbegriffe der Anfrage mit keinem der Begriffe im Dokument übereinstimmen:

Anfrage     Dokument
gelang erste Mondlandung
   
20 Juli 1969 landeten Amerikaner erstmals Mond Neil Armstrong beruehrte Mond Erster verkuendete One small step man one giant step mankind


Unsere beiden Suchdienste NewsSeeker und OmniSearch decken zwei Extreme ab. OmniSearch führt lediglich eine sehr einfache Indexierung durch. Es bleibt im Wesentlichen bei der Wortextraktion und der Stoppwortelimination. NewsSeeker dagegen wendet alle oben vorgestellten Techniken an.

Man könnte nun natürlich für alle bekannten Suchdienste aufzählen, welche Art der Indexierung sie durchführen. Allerdings wäre das langweilig und wenig hilfreich, denn Suchsysteme können ihre Funktionsweise von heute auf morgen ändern. Stattdessen folgen einige Tipps, wie man bei seinem Lieblingssuchdienst selber herausfinden kann, wie die Indexierung abläuft.

Der einfachste und offensichtlichste Rat zuerst: Unbedingt einen Blick in die Hilfeseiten des Suchdienstes werfen! Vielleicht lässt sich dort bereits alles Wichtige finden. Falls die Hilfeseiten nur mager ausgestattet sind, helfen eigene Experimente weiter. Im Folgenden werden mögliche Experimente beschrieben.

Wortzerlegung und -normalisierung

Man führt eine Anfrage mit einem zusammengesetzten Begriff durch, der in der entsprechenden Dokumentenkollektion sehr selten oder gar nie vorkommt. Anhand der gefundenen Dokumente kann man nun erkennen, ob eine Wortzerlegung durchgeführt wurde. Zum Beispiel kann man beim Suchdienst NewsSeeker die Anfrage Schlagsahne starten und erhält ein Dokument mit dem überraschenden Titel «Erfolgreiches Jahr für die Grossbanken». Zwei Sätze im Text liefern die Erklärung: «Die Banken jammern und sahnen Rekordgewinne ab» und «Im Devisenmarkt weht ein rauer Wind, der sich in Verlusten niederschlägt». Hinter NewsSeeker steckt folglich ein Suchsystem, welche Wortzerlegung und Wortnormalisierung durchführt. Andernfalls wäre das gezeigte Dokument mit der benutzten Anfrage nicht gefunden worden.

Die Wortzerlegung und -normalisierung kann den Benutzerinnen viel Arbeit abnehmen. Trotzdem bieten viele Suchdienste diesen Service aus Effizienzgründen nicht an. Manchmal kann man sich mit den so genannten Wildcards behelfen. Wildcards funktionieren als Platzhalter für beliebige Buchstabenkombinationen. Häufig wird der Stern (*) als Platzhalter verwendet. Der Suchbegriff paint* genügt dann, um alle vier Formen paints, painted, paint und painting abzudecken. Leider können die Platzhalter oft nicht im Wortinnern oder am Wortanfang angewendet werden.

Stoppwörter

Suchsysteme können die Stoppwörter auf zwei unterschiedliche Arten festlegen: (1) Die Stoppwörter sind in einer Stoppwortliste fest vorgegeben. Solche Stoppwortlisten sind üblicherweise an die jeweilige Dokumentenkollektion und die verwendete Sprache angepasst. (2) Manche Suchsysteme machen es sich einfacher und bestimmen: Bei uns gelten die 300 häufigsten Begriffe in der Dokumentenkollektion als Stoppwörter (natürlich können es mehr als 300 oder auch weniger sein).

Viele Suchsysteme führen eine Stoppwortelimination durch. Man kann das leicht selber überprüfen, indem man ein sehr häufig benutztes Wort der entsprechenden Sprache als Suchbegriff verwendet. Beispielanfrage: to be or not to be. Viele Suchsysteme finden das Theaterstück von Shakespeare nicht, weil sie sämtliche Suchbegriffe als Stoppwörter betrachten. Doch Achtung! Einige Suchsysteme behandeln gerade diese Anfrage speziell und liefern die erwarteten Resultate. In solchen Fällen helfen an sich sinnlose Anfragen wie ein the oder to in Englisch beziehungsweise ein die oder ein er in Deutsch weiter.

Umlaute und Akzente

Hier gilt es herauszufinden, ob das Suchsystem eine Buchstabenumwandlung durchführt. Dazu wählt man einen Begriff mit einem Umlaut (oder einem Akzent) und führt die Anfrage einmal mit und einmal ohne Umlaut durch. Zum Beispiel Währungsunion und Waehrungsunion oder Nestlé und Nestle. Liefert das Suchsystem in beiden Fällen dieselben Resultate, so wird die Buchstabenumwandlung durchgeführt. Andernfalls kommt man nicht darum herum, bei Anfragen mit Umlauten oder Akzenten beide Schreibweisen zu versuchen.

Gross- und Kleinschreibung

Auch in Bezug auf die Gross- und Kleinschreibung verhalten sich die Suchsysteme unterschiedlich. Ein einfaches Experiment bringt etwas Licht in die Sache: Man wählt eine gebräuchliche Abkürzung und stellt Anfragen in verschiedenen Variationen. Zum Beispiel mit den drei Anfragen UNESCO, unesco und uNEscO.

Viele Suchsysteme (zum Beispiel OmniSearch) gehen nach folgendem Prinzip vor: Vollständig klein geschriebene Suchbegriffe finden Begriffe in beliebiger Schreibweise. Doch sobald auch nur ein Buchstabe gross geschrieben wird, ist eine exakte Übereinstimmung erforderlich. Andere Suchsysteme - wie beispielsweise NewsSeeker - führen eine umfangreiche Indexierung durch und verlassen sich darauf, dass in der Anfrage die üblichen Orthografieregeln verwendet werden. Die linguistischen Komponenten für die Wortzerlegung und -normalisierung können bei korrekter Orthografie zuverlässiger arbeiten. Beispiel: Der Suchbegriff stelle, das heisst das Verb «stellen» in der ersten Person Singular, findet alle Varianten des Verbs wie «herstellen», «unterstellen» oder einfach «stellen». Beim Suchbegriff Stelle dagegen ist das Substantiv gemeint. Eine solche Anfrage findet «Lehrstellen», «Tankstellen» und «Baustellen».

Zusatzstrukturen

Um etwas über die Zusatzstrukturen herauszufinden, müssen die Hilfeseiten zu Rate gezogen werden. Dort sollte beschrieben sein, was der Suchdienst unterstützt und wie die Strukturen angesprochen werden können. Bei OmniSearch lässt sich beispielsweise mit domain:uk gezielt nach Dokumenten suchen, deren URL als Länderbezeichnung UK enthält.



Nach den Hinweisen für die Praxis sollten wir gewappnet sein für die Lösung der Anwenderprobleme ...



Meine Frage lautete: Welche Staaten beteiligen sich an der Europäischen Währungsunion? Offenbar muss ich bei OmniSearch in den sauren Apfel beissen und alle Kombinationen durchspielen. Bei diesem Suchdienst muss ich einen Mehraufwand betreiben, weil mir die Indexierung fast keine Arbeit abnimmt. Immerhin hilft mir manchmal der Platzhalter. So kann ich mit der Anfrage mitglied* währungsunion europ* zahlreiche Varianten wie «Mitglied», «Mitglieder», «Mitgliedstaaten», «europäisch», «europaeische» usw. auf einen Schlag abdecken. Übrigens verwende ich bei OmniSearch ab sofort in der Regel klein geschriebene Suchbegriffe, um so beliebige Variationen bezüglich Gross- und Kleinschreibung abzudecken.

Unterdessen erstaunt es mich nicht mehr, dass ich als Antwort auf die Blumenkohl-Anfrage das Dokument mit dem Titel «Rot-grüne Mehrheit für einen Machtwechsel in Bonn» erhalten habe. Im Text geht es nämlich um die Wahl Gerhard Schröders zum Bundeskanzler der BRD. Abgelöst wurde damit Helmut Kohl nach 16-jähriger Amtszeit. Ausserdem wird beschrieben, wie Kohl zum Abschied mit Blumen beschenkt wurde. Daraus kann ich schliessen, dass NewsSeeker mit Hilfe der Wortzerlegung mit dem Suchbegriff Blumenkohl auch die Begriffe Kohl und Blumen findet. Weiter kann ich schliessen, dass offenbar kein Dokument mit dem Begriff Blumenkohl in der Kollektion von NewsSeeker existiert. Deshalb wird mir das gefundene Dokument mit den aufgetrennten Begriffen an erster Stelle präsentiert.

Die Situation ist ganz und gar nicht benutzerfreundlich - jeder Suchdienst verhält sich etwas anders. Am besten wäre es, wenn sich alle Suchdienste an gewisse Standards hielten. Leider tun sie das nicht, und man muss die enorme Vielfalt in Kauf nehmen. Trotzdem habe ich mir drei Dinge vorgenommen: Erstens, ich schaue mir die Hilfeseiten der Suchdienste an. Zweitens, ich spiele mit den Systemen und führe eigene Experimente durch. Drittens, ich konzentriere mich auf einige wenige Informationsdienste. So muss ich mir nicht so viele Eigenheiten merken und lerne die Systeme immer besser kennen.