In unserem Zeitalter übermäßiger Werbung und Datenflut ist es wichtig, die Nadel im Heuhaufen bei der Trennung von Spreu und Weizen nicht zu übersehen.
Schemaintegration
In der folgenden Phase der Datenaufbereitung werden von unterschiedlichen Domänen, welche für die Suche ausgewählt wurden, relevante Informationen erkannt und auf ein weiterverarbeitbare Struktur gebracht.
Das heißt im Einzelnen,
- Schemas erkennen
- mit Muster manuell übersetzen und
- dadurch Instanzen extrahieren.
Durch diesen Schritt wird garantiert, dass nur relevante Informationen erfasst und weiterverarbeitet werden, während redundante und nicht informationstragende Bestandteile vernachlässigt werden.
Bei der Transformation kann bereits domänenabhängige Syntax angepasst werden, beispielsweise das Datumsformat. Im integrierten Schema sollte auf eine standardisierte Darstellung wie DublinCore zurückgegriffen werden.
Im Folgenden wird nach einer kurzen Definition die Mächtigkeit der Web-Abfragesprache „Xcerpt“ näher vorgestellt. Um die dabei genutzten Pattern automatisch erstellen zu können, folgt im Anschluß eine Ausarbeitung möglicher Struktur-Matching-Methoden. Das darin vermittelte Wissen findet anschließend durch eine Übersicht aktueller, auf individueller oder kombinatorischer Basis arbeitenden Strukturanalyse-Applikationen Anwendung.
Wenn das Schema einer Datensammlung ist, welches aus verschiedenen Entitätsklassen besteht, besitzt folgenden Eigenschaften:
- Jede Entitätsklasse aus wird mit Hilfe von durch ein Tupel von Attributen charakterisiert.
- Jedes Attribut besitzt einen Bezeichner und hat entweder einen einfachen Datentyp, oder referenziert eine Menge aus (Fremdschlüssel).
- Jede Entitätsklasse (kurz Klasse) enthält eine Menge von Einträgen . Diese Einträge setzen sich aus Attributen zusammen.
- Jede Klasse aus ist eine Menge von Einträgen . Dabei enthält jeder Eintrag für jedes Attribut (das für die Klasse durch das Schema festgelegt wird) eine Menge von Attributwerten .
Ziel dieses Abschnittes ist die Angleichung zweier Schemata und zu einem Gesamtschema , so daß für jedes Attribut in im Idealfall ein equivalentes Attribut in gefunden wird und diese in als repräsentiert werden.
Strukturelle Divergenzen werden dabei in 2 Formen auftreten:
- als unterschiedliche Modellierungskonzepte,
- als Meta-Konflikte, wenn eine Eigenschaft in als Wert und in einer anderen als Information auf Schema-Ebene abgebildet wird.