Informationsbeschaffung im Internet

Eine Beispielindexierung

Die Rangierungsprinzipien im letzten Kapitel haben gezeigt: Zur Bestimmung der Relevanz eines Dokuments wird der Dokumentinhalt mit den Suchbegriffen der Anfrage verglichen. Das Vorgehen stützt sich auf den folgenden Grundsatz: Die Vorkommen von Suchbegriffen in einem Dokument liefern Hinweise auf die Relevanz des Dokuments. Aber was ist ein Suchbegriff?

Ein Suchsystem bestimmt die Suchbegriffe, indem es eine Anfrage oder ein Dokument gründlich untersucht. Diese Analyse wird Indexierung genannt. Wir werden ein konkretes Beispiel durcharbeiten, um zu verstehen, was bei einer möglichen Indexierung geschieht. Dabei werden die wichtigsten Schritte aufgezeigt. Viele Systeme begnügen sich mit einer bescheideneren Indexierung. Es gibt aber auch Systeme, die wesentlich aufwendigere Indexierungsmethoden anwenden. Ausgangspunkt in unserem Beispiel ist ein Dokument zum Thema Raumfahrt sowie eine entsprechende Anfrage:

Anfrage     Dokument
Wann gelang die erste Mondlandung?
   
Am 20. Juli 1969 landeten die Amerikaner erstmals auf dem Mond. Neil Armstrong berührte den Mond als Erster und verkündete: "One small step for man, one giant step for mankind."


Bei diesem Beispiel handelt es sich um ein Dokument, das mehrere Sprachen verwendet. Ein Teil der folgenden Indexierung arbeitet abhängig von der Sprache des Dokuments; zum Beispiel mit entsprechenden Wörterbüchern oder sprachabhängigen Regeln. Deshalb werden im ersten Schritt die verschiedenen Sprachen im Text identifiziert (Sprachidentifikation). Im Beispiel handelt es sich um Deutsch im ersten Textteil und in der Anfrage, während der zweite Textteil in Englisch geschrieben ist.

Im zweiten Schritt der Indexierung - Buchstabenumwandlung genannt - werden die deutschen Umlaute ä, ö, ü durch die Schreibweisen mit zwei Buchstaben ae, oe und ue ersetzt. Dasselbe gilt für andere Sprachen. Zum Beispiel wird bei französischen Dokumenten das é zu e oder das ç zu c umgeschrieben. Im Beispieltext kommt die Buchstabenumwandlung nur zweimal zum Zug, aus «berührte» wird «beruehrte» und statt «verkündete» steht neu «verkuendete»:

Anfrage     Dokument
Wann gelang die erste Mondlandung?
   
Am 20. Juli 1969 landeten die Amerikaner erstmals auf dem Mond. Neil Armstrong beruehrte den Mond als Erster und verkuendete: "One small step for man, one giant step for mankind."


Es folgt die Wortextraktion. In dieser Phase werden die einzelnen Wörter aus dem Text herausgelöst. Dabei gehen vor allem die Interpunktionszeichen verloren. Im Beispiel sind das die Punkte, die Anführungszeichen, das Komma, der Doppelpunkt und das Fragezeichen in der Anfrage.

Anfrage     Dokument
Wann gelang die erste Mondlandung
   
Am 20 Juli 1969 landeten die Amerikaner erstmals auf dem Mond Neil Armstrong beruehrte den Mond als Erster und verkuendete One small step for man one giant step for mankind


Im Anschluss werden durch die Stoppwortelimination alle Stoppwörter entfernt. Stoppwörter sind Begriffe, die nichts oder nur sehr wenig zur Beschreibung des Inhalts eines Dokuments beitragen. Beispielsweise liefert der weibliche bestimmte Artikel «die» keinen hilfreichen Hinweis auf den Inhalt eines Dokuments. Warum diese Begriffe Stoppwörter genannt werden, kann nur vermutet werden. Eine hilfreiche Assoziation ist der Ausspruch: «Stopp! Dieses Wort wird ignoriert.» Im Beispieltext trifft es Wörter wie «die», «auf», «das» und «for».

Anfrage     Dokument
gelang erste Mondlandung
   
20 Juli 1969 landeten Amerikaner erstmals Mond Neil Armstrong beruehrte Mond Erster verkuendete One small step man one giant step mankind


In der nächsten Phase geht es um Wortzerlegungen und Wortnormalisierungen. Je nach verwendeter Sprache werden während der Wortzerlegung alle zusammengesetzten Begriffe in ihre Einzelteile (Komposita) aufgeteilt. Die Wortzerlegung ist in Sprachen wie Deutsch oder Finnisch von grosser Bedeutung. In anderen Sprachen wie Englisch und Französisch wird die Wortzerlegung im Allgemeinen nicht angewendet, weil fast keine zusammengesetzten Wörter vorkommen.

Im Beispiel werden aus dem Begriff «Mondlandung» die beiden Worte «Mond» und «Landung» gebildet. Anschliessend werden alle verbleibenden Wörter auf eine feste Normalform zurückgeführt. Mit einer solchen Wortnormalisierung erreicht man, dass Wörter in unterschiedlichen Flexionen (durch Deklination oder Konjugation entstandene Beugungen von Wörtern) als identisch betrachtet werden, obwohl sie anders geschrieben sind. Ausserdem werden während der Wortnormalisierung alle Grossbuchstaben in Kleinbuchstaben umgewandelt.

Je nach Sprache werden für die Wortnormalisierung zwei wichtige Techniken verwendet. In der deutschen Sprache ermittelt man eine Grundform, zum Beispiel Nominativ, Singular. Dazu greift das Suchsystem auf ein Wörterbuch zurück. Aus einem Wort wie «Häusern» wird die Grundform «Haus» ermittelt. Andere Sprachen wie Englisch kennen keine Beugungen im Wortinnern. Es kann ein einfacheres Verfahren angewendet werden: Bei der Wortstammreduktion werden aufgrund von Regeln einfach die Suffixe entfernt. Beispiele: «sings» wird zu «sing» (Suffix -s), «invented» wird zu «invent» (Suffix -ed) und «going» wird zu «go» (Suffix -ing).

Die im Dokument verwendeten Sprachen spielen bei der Wortzerlegung und Wortnormalisierung eine grosse Rolle. Suchdienste mit einer vertikalen Dokumentenkollektion können üblicherweise eine sorgfältigere Indexierung anbieten, weil oft nur eine oder einige wenige Sprachen benutzt werden. Schwierigkeiten gibt es dagegen bei globalen, horizontalen Kollektionen, wo vielleicht Dutzende von verschiedenen Sprachen im Einsatz sind.

Unser Beispieltext verwendet nur zwei Sprachen und sieht nach der Wortzerlegung und Wortnormalisierung so aus:

Anfrage     Dokument
geling erst mond land
   
20 juli 1969 land amerika erst mal mond neil armstrong beruehr mond erst verkuend one small step man one giant step mankind


Es bleibt, die einzelnen Begriffe im Dokument zu zählen und eine entsprechende Tabelle aufzustellen. Die Tabelle wird beispielsweise für das Rangierungsprinzip 2 benötigt, welches besagt, dass ein Dokument umso relevanter bewertet wird, je häufiger ein Suchbegriff darin vorkommt. Ausserdem hält die Tabelle die Position der Begriffe innerhalb des Dokuments fest. Mit Hilfe der Position lässt sich die Distanz zwischen zwei Suchbegriffen (Rangierungsprinzip 5) bestimmen.

Begriff Häufigkeit Positionen
mond 2 8, 12
erst 2 6, 13
step 2 15, 19
land 1 4
1969 1 3
... ... ...

Die Tabelle kann man als vereinfachte Darstellung des Dokumentinhalts ansehen. Dank der Indexierung werden drei Suchbegriffe der Anfrage - «mond», «land» und «erst» - im Dokument gefunden, obwohl in der Originalversion des Dokuments keine einzige Übereinstimmung zwischen Anfrage und Dokument vorlag.

Weitere Merkmale von Dokumenten

Viele Suchsysteme erweitern die Indexierung und ziehen zusätzliche Eigenschaften oder Strukturen in einem Dokument in Betracht. Neben den Begriffen aus dem Inhalt können weitere Merkmale aus dem Dokument extrahiert werden:

  • Dokumenttitel und Überschriften: In einem korrekt verfassten HTML-Dokument können der Titel des Dokuments sowie die einzelnen Überschriften im Text problemlos identifiziert werden. Leider halten sich bei weitem nicht alle Verfasser an die vorgesehenen Regeln zur Erstellung von HTML-Dokumenten.

  • Hyperlinks: Verweise auf andere Dokumente (so genannte Hyperlinks) können ebenfalls bestimmt werden.

  • Dokument-Adresse: Die Adresse des betrachteten Dokuments (der URL) ist natürlich immer verfügbar.

  • Modifikationsdatum: Teilweise lässt sich das Datum der letzten Änderung und damit das Alter eines Dokuments herausfinden.

  • Meta-Tags: Die Meta-Tags sind ein Bestandteil von HTML. Sie dienen dazu, zusätzliche Angaben zu einer Webseite festzuhalten, beispielsweise den Autorennamen, Schlüsselwörter oder Zusammenfassungen. Die Angaben innerhalb der Meta-Tags werden von einem Web-Browser nicht angezeigt, können aber von einem Suchsystem berücksichtigt werden.



Es folgen einige Hinweise, wie man in der Praxis durch geeignete Beispielanfragen herausfinden kann, wie sorgfältig ein bestimmtes Suchsystem die Indexierung durchführt ...