Informationsbeschaffung im Internet

Metadaten

Bisher haben wir uns in erster Linie mit Dokumenten beschäftigt, die gewisse Sachverhalte, Fakten, Ereignisse und Ähnliches beschreiben. Daneben gibt es auch Dokumente, die andere Dokumente in einer strukturierten und kompakten Form beschreiben. Es sind dies die so genannten Metadokumente. Alle Metadokumente zusammen bilden die Metadaten. Die Metadaten enthalten Informationen über die Dokumente in einer Kollektion.



Metadaten kommen auch im Alltag zum Einsatz: Der Katalog einer Bücherei beispielsweise ist eine Sammlung von Metadaten. Man kann darin nach Autorenangaben suchen, nach dem Erscheinungsdatum, nach der ISBN-Nummer usw. Metadaten können aber auch Deskriptoren oder Schlagwörter enthalten, die den Inhalt eines Dokuments beschreiben.

Zu Webseiten können ebenfalls Metadaten bereitgestellt werden. Offensichtliche Metadaten für Webseiten sind die Adressen (URLs) der Seiten, eine Inhaltszusammenfassung, der Titel, eine Taxierung des Inhalts (zum Beispiel eine Altersfreigabe) oder das Datum der letzten Inhaltsänderung. In der Praxis werden Metadaten durch eigens dafür geschaffene Beschreibungssprachen definiert. Ein verbreitetes Beispiel für eine solche Sprache ist XML.

Man unterscheidet zwei wichtige Arten von Metadaten:

  • Normalisierte Metadaten erfüllen Regeln, die eine einheitliche Darstellung und exakte Vergleiche erlauben. Zu den normalisierten Metadaten gehören beispielsweise vierziffrige Jahreszahlen, die nur auf eine einzige Art und Weise geschrieben werden können. So kann man aus dem Vergleich der Zeichenketten «1999» und «2000» schliessen, dass es sich um unterschiedliche Jahreszahlen handelt. Normalisierte Metadaten entstehen auch, wenn ein standardisiertes, kontrolliertes Vokabular verwendet wird. Dann dürfen - zum Beispiel für die Zusammenfassung eines Texts - nur Begriffe aus diesem Vokabular verwendet werden. Begriffe dieser Art werden Schlagwörter genannt.

  • Nicht normalisierte Metadaten sind nicht eindeutig. Das ist beispielsweise bei URLs der Fall. Ein URL wie http://www.xyz.com/ kann auch ohne das führende http:// oder den abschliessenden / in einer Webseite auftauchen. Zudem können unterschiedliche URLs auf ein und dieselbe Webseite verweisen.

    Ein sehr wichtiges Beispiel für nicht normalisierte Daten ist normaler Text. Ein Sachverhalt kann auf unterschiedliche Arten formuliert werden. Für viele Begriffe gibt es zahlreiche alternative Bezeichnungen und Synonyme.

    Auch Datumsangaben sind nicht eindeutig. Der amerikanische Nationalfeiertag kann auf viele verschiedene Arten notiert werden: 4. 7., 07/04, 04. 07., 4. Juli, 4th of July usw. Das Problem dabei: Die beiden Zeichenketten «07/04» und «4. Juli» stimmen nicht überein. Daraus kann jedoch nicht geschlossen werden, dass es sich um unterschiedliche Datumsangaben handelt.