Informationsbeschaffung im Internet

Automatische Klassifizierung von Dokumenten

Klassifizierung, so nennt man das Einordnen von Dingen (zum Beispiel von Dokumenten) in Kategorien. Dieser Vorgang kann automatisiert werden, sodass ein Katalogdienst auch ohne menschliche Betreuung betrieben werden kann. Die meisten für ein automatisiertes Katalogsystem benötigten Bausteine haben wir bereits kennen gelernt. Nun müssen sie nur noch richtig kombiniert werden. Kernstück eines Katalogsystems sind die Kategorien. Bei einem automatisierten Katalogsystem muss in einem ersten Schritt eine Sammlung von Kategorien erstellt werden. Üblicherweise übernehmen menschliche Herausgeber diese Arbeit. Die rechte Seite im Schema kennen wir: Ein Web-Roboter beschafft Dokumente aus dem Internet. Die gefundenen Dokumente werden indexiert, und für jedes Dokument werden die üblichen Metadaten wie URL, Titel, Modifikationsdatum usw. vermerkt.



Wie werden Dokumente eingeordnet?

Jedes neu erschlossene Dokument soll automatisch einer Kategorie im Katalogsystem zugeordnet werden. Zu diesem Zweck existiert für alle Kategorien ein eigenes Profil. Das Profil ist eine Menge von Begriffen, die das Themengebiet der jeweiligen Kategorie charakterisiert. Mit diesen Profilen kann für ein neues Dokument geprüft werden, ob es in eine gewisse Kategorie passt oder nicht. Dazu muss lediglich das Profil der entsprechenden Kategorie mit dem Dokumentinhalt verglichen werden. Bei diesem Vergleich kommen die besprochenen Rangierungsprinzipien zur Anwendung. Das Resultat: ein Relevanzwert. Je höher der Wert, desto stärker sind Profil und Dokument verknüpft. Liegt der Relevanzwert über einem bestimmten Schwellenwert und sind allfällige Zusatzbedinungen erfüllt, wird das Dokument der Kategorie zugeordnet. Liegt der Wert hingegen zu tief, so versucht das System, das Dokument einer anderen Kategorie zuzuordnen. Manche Dokumente sind für keines der Profile relevant genug. Solche Dokumente tauchen nicht im Katalogdienst auf, sind aber unter Umständen trotzdem zugreifbar - zum Beispiel über ein Suchsystem.

Wie hält sich der automatische Katalogdienst frisch?

Das Auffinden von neuen Dokumenten im Internet genügt noch nicht. Der Web-Roboter muss zudem periodisch die schon eingeordneten Dokumente besuchen. So kann festgestellt werden, ob sich der Inhalt geändert hat. Ein modifiziertes Dokument wird aus der aktuellen Kategorie entfernt und frisch eingeordnet, falls der Relevanzwert zwischen dem Dokument und dem aktuellen Kategorienprofil zu gering ausfällt. Gelöschte Dokumente müssen aus dem Katalogdienst entfernt und neu entdeckte Dokumente eingeordnet werden.

Woher stammen die Kategorienprofile?

Ein Profil besteht häufig aus einer Anzahl von Begriffen und beschreibt damit das Thema in einer Kategorie. Die Begriffe im Profil können von menschlichen Herausgebern beim Aufbau der ganzen Kategorienhierarchie festgelegt werden. Dabei werden direkt die Begriffe definiert. Denkbar ist aber auch der indirekte Weg, der den Herausgebern die Auswahl von Begriffen für die Profile abnimmt. Ausgangspunkt ist eine Anzahl Dokumente, die inhaltlich das Thema einer Kategorie treffen. Die Wahl der charakteristischen Dokumente ist Aufgabe der Herausgeber. Alles Übrige hingegen kann automatisiert werden: Zunächst werden die Dokumente indexiert. Anschliessend entsteht das Profil, indem wichtige Begriffe aus den Dokumenten zusammengestellt werden. Die Komponente zur Profilerzeugung greift auf die Kriterien der Rangierungsprinzipien zurück. Das Vorgehen ist eigentlich identisch mit dem Verarbeiten einer Relevanzrückkoppelung. Dort wird ebenfalls aus einer Menge von relevanten Dokumenten eine neue Anfrage - ein Profil - zusammengestellt. Die Profile werden anschliessend in einem Index abgelegt. So können neue Dokumente in kürzester Zeit mit sehr vielen Profilen verglichen werden.



Was sieht eine Benutzerin vom Katalogdienst?

Wir wissen nun, wie Dokumente mit Hilfe von Profilen automatisch in den passenden Kategorien abgelegt werden. Eine Benutzerin des automatisierten Katalogdienstes bekommt dasselbe zu sehen wie beim manuell erstellten Katalogdienst. Die internen Datenstrukturen des Katalogsystems werden für die Benutzerin ebenfalls in Form der gewohnten Kategorienhierarchie präsentiert.

Im Praxisteil geht es in erster Linie um eine Gegenüberstellung zwischen Katalog- und Suchdiensten ...