Informationsbeschaffung im Internet

Suche in Teilkollektionen mittels Metadaten

Metadaten kann man für die Informationssuche ausnützen, denn mit Hilfe der Metadaten lassen sich Teildokumentenkollektionen (kurz: Teilkollektionen) definieren, die dann gezielt durchsucht werden können. Der Vorteil dabei ist, dass man die Suche auf einen Teilbereich innerhalb einer grösseren Menge von Dokumenten beschränkt. Wer zum Beispiel nach amerikanischen Universitäten sucht, die im Bereich der Robotik tätig sind, beschränkt die Suche vorzugsweise auf Webseiten innerhalb der Domain «edu».

Die Suche in Teilkollektionen läuft in zwei Schritten ab:

  1. Definition der Teilkollektion: Mit geeigneten Hilfsmitteln wird eine Teilmenge der kompletten Dokumentenkollektion festgelegt. Dazu werden die jeweils verfügbaren Metadaten verwendet. Resultat: eine ungeordnete Menge von Dokumenten, die alle dieselben Eigenschaften erfüllen. Beispiel: alle Dokumente, die auf einem Web-Server in der Domain «edu» lagern.

  2. Relevance Ranking: Nun steht ein ungeordneter Haufen mit Dokumenten zur Verfügung. Über den Inhalt der Dokumente wurde noch nichts ausgesagt. Deshalb wird im zweiten Schritt mit Hilfe von einigen Suchbegriffen Ordnung in die Teilkollektion gebracht. Das geschieht aufgrund der üblichen Rangierungsprinzipien. Resultat: Eine Rangliste bestehend aus den Dokumenten der Teilkollektion, nach Relevanzwerten geordnet. Im Beispiel: Die aus der Domain «edu» stammenden Dokumente werden nach den Suchbegriffen robotics, research, engineering, laboratory und department rangiert.



Das Vorgehen ist auch im Alltag bekannt: Ein Kunde betritt eine Buchhandlung und fragt nach allen amerikanischen Sciencefiction-Büchern der letzten drei Wochen. Allerdings möchte er nichts von William Gibson, denn von ihm kennt er schon alles. Und am liebsten hätte er Bücher, in denen grüne Ausserirdische vorkommen.

Was macht der Verkäufer? Zunächst definiert er die Teilkollektion. Das heisst, er sucht alle Bücher heraus, welche die gestellten Bedingungen erfüllen: Herkunft USA, Genre Sciencefiction, Datum jünger als drei Wochen, Autorenname nicht William Gibson. Das lässt sich mit Hilfe von Metadaten im Bücherkatalog erledigen, ohne je ein Buch zur Hand zu nehmen.

Es folgt das «Relevance Ranking». Der Verkäufer trägt die Bücher der Teilkollektion zusammen. Dann studiert er überall die Zusammenfassung auf dem Buchrücken und blättert vielleicht auch kurz durch die Seiten, um Hinweise auf den Inhalt der Bücher zu erhalten. Schliesslich präsentiert er dem Kunden zuerst alle Bücher mit grünen Ausserirdischen, danach diejenigen mit andersfarbigen Ausserirdischen und zum Schluss auch noch die restlichen Bücher.

Aber auch in anderen Bereichen nützt man immer wieder die Möglichkeit zur Bildung von «Teilkollektionen» aus: Beim Schuhkauf trifft man eine Vorauswahl aufgrund von Schuhgrösse, Material, Preis und anderen «Metadaten». Anschliessend wird in dieser Teilmenge ein ansprechendes Modell ausgewählt.

Ein weiteres Beispiel: Gesucht wird nach einem Schuhregal. Anstatt in einem grossen Möbelgeschäft jedes einzelne Möbelstück anzuschauen, schränkt man die Suche besser ein. Zunächst wird das richtige Stockwerk gewählt. Dort grenzt man die Suche auf die richtige Abteilung ein und sucht schliesslich ein passendes Regal aus.

Voraussetzungen für die Definition von Teilkollektionen

Es kann sehr nützlich sein, eine Recherche auf eine Teilkollektion zu beschränken, anstatt die komplette Dokumentenkollektion zu durchsuchen. Es ist aber darauf zu achten, dass die definierte Teilkollektion möglichst alle relevanten Dokumente enthält. Andernfalls werden relevante Dokumente unbeabsichtigt und unbemerkt ausgeschlossen. Beispiel: Eine Benutzerin ist auf der Suche nach einer Firma in Liechtenstein. Sie schränkt die Suche auf die Teilkollektion aller Web-Server im Fürstentum Liechtenstein mit der Länderkennung «li» ein. Unter Umständen schliesst die Benutzerin so just die relevanten Webseiten aus, weil die gesuchte Firma innerhalb der internationalen «com»-Domain angemeldet ist.

Die Einschränkung der Suche auf eine Teilkollektion ist dann problemlos möglich, wenn drei Bedingungen erfüllt sind:

  • Für die Definition der Teilkollektion werden normalisierte Metadaten verwendet. Damit wird gewährleistet, dass die Einschränkung eindeutig ist. Beispiel: Eine Journalistin sucht in einem Zeitungsarchiv nach Informationen im Zusammenhang mit dem Fall der Berliner Mauer. Die Zeitungsartikel sind mit einer vierziffrigen Jahreszahl versehen. Also kann die Journalistin die Suche auf alle Artikel seit 1989 einschränken.

  • Die für die Einschränkung verwendeten Metadaten müssen für sämtliche Dokumente in der Kollektion vollständig erfasst sein. Im Beispiel bedeutet das: Ausnahmslos jeder Artikel im Zeitungsarchiv muss mit einer Jahreszahl versehen sein, sonst kann die Einschränkung vom System nicht exakt durchgeführt werden.

  • Die gewählte Einschränkung muss zwingend für alle relevanten Dokumente gelten. Nur so ist es möglich, eine Teilkollektion mit allen relevanten Dokumenten zu erstellen. Im Beispiel verlangt die Journalistin, dass die vom System gelieferten Dokumente jünger als 1989 sind. Mit dieser Einschränkung werden allenfalls relevante Dokumente ausgeschlossen, die über die Ereignisse im Vorfeld zur Wiedervereinigung Deutschlands mit der DDR berichten.

Natürlich kann man die Einschränkung einer Recherche auf eine Teilkollektion auch durchführen, wenn nicht alle drei Bedingungen erfüllt sind. Es besteht dann aber die Gefahr, dass man nicht alle relevanten Dokumente berücksichtigt.

Die am Anfang des Kapitels vorgestellten Boole'schen Suchmethoden eignen sich zur Definition von Teilkollektionen innerhalb einer vollumfänglichen Dokumentenkollektion aufgrund von Metadaten. Mit Hilfe der Operatoren AND, OR und AND NOT lassen sich Teilmengen konstruieren und miteinander kombinieren, bis die gewünschte Teilkollektion entstanden ist.

Mit der Operation AND kann eine Teilkollektion immer stärker eingeschränkt werden. Alle mit AND verknüpften Bedingungen müssen zwingend zutreffen. Mit Hilfe von OR lassen sich Alternativen angeben. Es genügt, wenn Dokumente eine einzige der mit OR verknüpften Bedingungen erfüllen. Die Operation AND NOT schliesslich dient zum Ausschluss von Dokumenten mit bestimmten Eigenschaften. Mit Hilfe der Klammern werden Boole'sche Ausdrücke zu Einheiten zusammengefasst.



Nach diesen theoretischen Betrachtungen wird es Zeit für die praktischen Hinweise zur Suche in Teilkollektionen ...