Informationsbeschaffung im Internet

Rangierungsprinzipien

Wie geht nun ein Suchsystem konkret vor, um die Relevanz eines Dokuments bezüglich einer Anfrage zu berechnen? Das Vorgehen basiert auf einer wichtigen Annahme: Die Vorkommen von Suchbegriffen in einem Dokument geben Hinweise auf die Relevanz dieses Dokuments. Diese Annahme bildet die theoretische Grundlage für wissenschaftliche Modelle zur Berechnung der Relevanz. Die teilweise komplexen mathematischen Hintergründe sollen der Leserschaft hier erspart bleiben. Stattdessen erklären wir anhand von sechs Beispielen und den dazugehörigen Rangierungsprinzipien, welche Kriterien ein Suchsystem bei der Schätzung der Relevanz berücksichtigen kann. Es handelt sich um diejenigen Rangierungsprinzipien, die sich in vielen Fällen als besonders effektiv herausgestellt haben.


Die erste Beispielanfrage zielt auf Dokumente ab, die Angaben über die Verkaufszahlen von Microsoft-Windows-Produkten in Japans Einzelhandel enthalten.

Anfrage
Microsoft Windows Japan Retail
Dokument A     Dokument B
Despite the Economic Agency's estimate that gross domestic product (GDP) is down 3.3 percent, retail sales figures for Microsoft Windows 98 continue to remain high in Japan.     "Windows on Japan" is a project designated to produce an interactive, multimedia research tool on the history of Japan's culture.

Dokument A liefert Informationen zu diesem Thema und ist darum relevanter als Dokument B, das über ein kulturhistorisches Projekt in Japan informiert. Der offensichtliche Unterschied zwischen den beiden Dokumenten: In A kommen alle vier Suchbegriffe mindestens einmal vor, während in B nur zwei der Suchbegriffe auftauchen. Diese Erkenntnis führt zu Rangierungsprinzip 1:

Rangierungsprinzip 1

Je mehr Suchbegriffe in einem Dokument vorkommen, desto wahrscheinlicher ist das Dokument relevant.

Bei der zweiten Beispielanfrage geht es um Dokumente über Erdbeben.

Anfrage
Erdbeben
Dokument A     Dokument B
In China ereignete sich ein Erdbeben mit Epizentrum 200 km nördlich der Hauptstadt. Das Erdbeben dauerte 10 Sekunden. Der durch das Erdbeben verursachte Schaden geht in die Millionen.     Nach dem Erdbeben von 1990 wurden die Schäden zügig repariert, und die Stadt erlebt seither einen wirtschaftlichen Aufschwung.

Dokument A dreht sich eindeutig um ein Erdbeben in China. Der Suchbegriff Erdbeben kommt darin dreimal vor. Im Gegensatz dazu geht es in Dokument B in erster Linie um den wirtschaftlichen Aufschwung in einer bestimmten Stadt. Ein Erdbeben wird nur am Rande erwähnt, und der entsprechende Suchbegriff taucht lediglich einmal auf. Deshalb:


Rangierungsprinzip 2

Je häufiger ein Suchbegriff in einem Dokument vorkommt, desto wahrscheinlicher ist das Dokument relevant.

In der dritten Beispielanfrage sucht jemand nach Dokumenten über das Flugzeugunglück in Lockerbie.

Anfrage
Unglück Flugzeug Lockerbie
Dokument A     Dokument B
Flugzeug bei Lockerbie abgestürzt. Die Behörden sprechen von einer Katastrophe.     Flugzeug bei Phnom Penh, Kambodscha, abgestürzt. Das Unglück sei auf menschliches Versagen zurückzuführen.

In beiden Dokumenten tauchen je zwei Suchbegriffe der Anfrage auf; Rangierungsprinzip 1 hilft also nicht weiter. Und auch bezüglich Rangierungsprinzip 2 unterscheiden sich die Dokumente nicht, weil die Suchbegriffe in A und B gleich häufig vorkommen. Schauen wir also genauer hin: Der Begriff «Flugzeug» steht in beiden Dokumenten und bringt uns nicht weiter. Es verbleiben die Begriffe «Unglück» und «Lockerbie». In einer typischen Dokumentenkollektion mit internationalen Nachrichten dürfte das Wort «Unglück» häufig auftreten. Das Wort «Lockerbie» dagegen bezeichnet einen spezifischen geografischen Ort und wird bedeutend seltener vorkommen. Dokument A dürfte deshalb bei dieser Anfrage mit grosser Wahrscheinlichkeit das relevantere Dokument sein. Das zugehörige Rangierungsprinzip lautet:

Rangierungsprinzip 3

Dokumente, die seltene Suchbegriffe enthalten, sind mit einer höheren Wahrscheinlichkeit relevant als Dokumente, die häufige Suchbegriffe enthalten.

Die vierte Beispielanfrage zielt auf Informationen über das Leben von Nelson Mandela ab.

Anfrage
Nelson Mandela
Dokument A     Dokument B
Friedensnobelpreisträger von 1993

Im Jahre 1993 ging der Friedensnobelpreis an Nelson Mandela, geboren am 25. Juli 1918 in Transkei, Südafrika. Er trat 1944 dem Afrikanischen Nationalkongress (ANC) bei und engagierte sich gegen die Apartheid-Politik. 1964 wurde er angeklagt, den Sturz der Regierung geplant zu haben, und verbrachte die Jahre bis 1990 in Haft. 1991 wurde er zum Präsidenten des ANC gewählt.
    Nobel Prize Winners

Nobel Prize in Literature
1997 D. Fo
...
1901 S. Prudhomme
Nobel Prize in Peace
1997 J. Williams
...
1993 Nelson Mandela, F. W. de Klerk
...
1901 J. H. Dunant, F. Passy
Nobel Prize in Economics
1997 R. C. Merton, M. S. Scholes
...
1969 R. Frisch, J. Tinbergen
Nobel Prize in Physics
1997 S. Chu, C. Cohen, W. D. Phillips
...
1901 W. C. Roentgen
Nobel Prize in Chemistry
1997 P. D. Boyer, J. E. Walker
...
1901 J. H. Van't Hoff
Nobel Prize in Medicine
1997 S. B. Prusiner
...
1901 E. A. von Behring

Die beiden Suchbegriffe Nelson und Mandela treten in beiden Dokumenten gleich oft auf. Allerdings behandelt Dokument A konkret das Thema in einem kurzen Abschnitt. Dokument B hingegen zeigt eine umfangreiche Liste mit den Namen aller Nobelpreisträger in den verschiedenen Kategorien. Als ein Name unter vielen taucht auch Nelson Mandela auf. Also lautet das entsprechende Rangierungsprinzip wie folgt.

Rangierungsprinzip 4

Ein kurzes Dokument ist mit einer höheren Wahrscheinlichkeit relevant als ein langes Dokument, welches die gleichen Suchbegriffe gleich häufig enthält.

Bei der fünften Beispielanfrage sollen Dokumente zum Big Ben in London gefunden werden.

Anfrage
Big Ben
Dokument A     Dokument B
Big Ben is the name of the 13 ton bell that produces the "Westminster Chime" in the heart of London every hour. The lamp in the spire is lit during House of Common debates.     UltraTV

Unsere Empfehlung für heute:
20:00 Ben Hur, Historien-Epos
23:45 Little Big Man

In Dokument A werden einige Fakten über die wohl berühmteste Kirchenglocke der Welt geliefert. Die beiden Suchbegriffe tauchen unmittelbar nebeneinander auf. In Dokument B gibt ein Fernsehsender seine Empfehlung für das Tagesprogramm bekannt. Obwohl auch in B beide Suchbegriffe vorkommen, ist weit und breit keine Spur von «Big Ben» zu finden. Die Suchbegriffe werden jeweils in anderem Zusammenhang verwendet. Das Rangierungsprinzip dazu:

Rangierungsprinzip 5

Je näher die Suchbegriffe beieinander liegen, desto wahrscheinlicher ist das Dokument relevant.

Bei der sechsten und letzten Beispielanfrage sind Informationen über den griechischen Philosophen Plato gesucht.

Anfrage
Plato
Dokument A     Dokument B
Plato

Griechischer Philosoph, 427- -347 v. Chr. Schüler des Sokrates. Mit Aristoteles Begründer der abendländischen Philosophie, schuf die erste Akademie.
    Sokrates

Griechischer Philosoph, 469- -399 v. Chr. In Athen der Gottlosigkeit und Verführung der Jugend angeklagt und zum Tod durch Gift verurteilt. Seine Schüler: Plato und Xenophon.

Hier ist auf der Stelle klar, welches Dokument das relevantere ist. Zwar taucht der Suchbegriff Plato in beiden Dokumenten genau einmal auf, doch wird Plato in Dokument B erst zum Schluss kurz erwähnt. Der Rest von B behandelt Platos Lehrer Sokrates. Bei Dokument A kommt der Suchbegriff ganz zu Beginn vor, denn der Text handelt von Plato selbst. Es wird häufig beobachtet, dass Autoren die wichtigsten Schlüsselwörter relativ weit oben innerhalb des Texts verwenden. Die allgemeine Regel lautet:

Rangierungsprinzip 6

Je früher die Suchbegriffe in einem Dokument vorkommen, desto höher seine Relevanz.



Mit Hilfe der obigen Rangierungsprinzipien haben wir das Wichtigste zusammengefasst, was Suchsysteme bei der Beurteilung der Relevanz von Dokumenten beachten. Es folgen die praktischen Aspekte ...