Klassifikation

      Klassifikation

          Klassifikation

              Klassifikation

                  Klassifikation

                      Klassifikation

                          Klassifikation

                              Die letzte Stufe einer Harmonisierung - nachdem die Datensätze verglichen und Gewichtungsvektoren sowohl für den Einfluß bestimmter Entitätsklassen als auch der verschiedenen Testmethoden erstellt wurden, ist die Gewichtung der Paare in "Link", "Nicht-Link" oder ob die Entscheidung durch einen menschliches Review überprüft werden soll, ein "möglicher Link".

                              Fellegi-Sunter-Klassifikator

                              Der klassische Fellegi-Sunter-Klassifikator summiert alle log2-Gewichte einfach in einen Gewichtsvektor auf und nutzt zwei Grenzwerte um ein Datensatz-Paar in eine der 3 Klassen einzuteilen.

                              A1 Link ,

                              A2 möglichen Link oder

                              A3 Nicht-Link

                              Das Resultat der Klassifikation wird in einer Daten-Struktur gespeichert, welche dann genutzt werden kann um verschiedene Ausgabepräsentationen zu produzieren.

                              Über flexible Klassifikatoren können unterschiedlichste Methoden genutzt werden, um die finale Übereinstimmungsgewichtung für einen Gewichtungsvektor zu errechnen. Ebenfalls 2 Grenzwerte werden genutzt um das Datensatzpaar in eines der 3 Klassen zu klassifizieren. Anstatt einer einfachen Aufsummierung können Minima, Maxima, Durchschnittswerte, Addition und Multiplikation genutzt werden.

                              Der unter anderem in [Anan03] vorgeschlagene Algorithmus des „Decision Tree Learnings“ konstruiert aus gegebenen Informationen einen Binärbaum, welcher die Regeln für die Zuordnung in vorgegebene Klassen beinhaltet. Jeder innere Knoten des Baumes repräsentiert dabei einen Test, der auf zu klassifizierende Objekte angewendet wird. Auf den Stufen sind dabei jeweils die Tests zu verwenden, welche die gegebene Menge an Trainingsdaten bestmöglich in Bezug auf ihre Klassifizierung als „mapped“ oder „not mapped“ aufteilen. Je nachdem , ob der Test positiv oder negativ verlaufen ist, wir der jeweilige Baum-Knoten weiter traversiert, bis ein Blattknoten und somit ein Klassifikation des jeweiligen Datums erreicht wurde.

                              Dieser Ansatz einer dimensionalen Hierarchie vergleicht lediglich Tuple innerhalb kleiner Gruppen jeder Relation miteinander. So werden exemplarisch Tupel zweier Bundesländer miteinander verglichen, wenn sie sich im selben Landestupel befinden oder die Landestupel wiederum lediglich Duplikate von einander sind. Da solche Gruppen meist kleiner sind als die Gesamtrelation, erlaubt diese Gruppierungsstrategie, Paare von Tupeln in allen Gruppen zu vergleichen und dennoch sehr effizient zu sein.

                              Dabei wird eine top-down-Traversierung der Hierarchie verwendet. Bei der obersten Relation startend, wird jede Relation gruppiert und die Prozedur der Duplikatefindung an jede Gruppe vererbt (invoke).

                              Expectation Maximization - Algorithmus

                              Winkler beschreibt in [Winkler91] eine weitere Möglichkeit, die Kategorie-Einteilung vorzunehmen. Ein Computersystem kann darin eine Determinierungs-Schätzung der Auftrittswahrscheinlichkeiten m(γ) und u(γ) für 2 Paare ausführen, indem es die Wahrscheinlichkeit berechnet, mit welcher 2 Datensätze identisch sind. Diese Wahrscheinlichkeit kan als Ober- bzw. Untergrenze genutzt werden.

                              Da diese über Stichproben ermittelt wird, handelt es sich um eine Maxima-Likelihood-Schätzung. Um Sie zu erhalten, wird der EM-Algorithmus genutzt. Über das folgende iterative Verfahren wird er eingesetzt, um für jedes Paar von Einträgen die Wahrscheinlichkeit der Übereinstimmung zu schätzen.

                              Dazu benötigt wird lediglich

                              1. die Möglichkeit, alle Objekte als Vektoren einer Dimension n darzustellen,

                              2. eine bekannte Funktion zur Mittelwertberechnung

                              3. eine beliebige domänenspezifische Anzahl von Clustern, in die Objekte eingeteilt werden sollen. Dabei besitzt jeder Cluster einen Mittelpunkt, nämlich den Vektor mit der Dimension n ( m(γ) und u(γ) ).

                              In der ersten beider Stufen, der Schätzungs-Stufe, wird für jedes Objekt nach einer bestimmten Wahrscheinlichkeitsverteilung die Wahrscheinlichkeit bestimmt, mit welcher es zu jedem der Cluster gehört, und diese Wahrscheinlichkeit für alle Objekte und Cluster abgespeichert.

                              In der zweiten, der Maximierung-Stufe werden die Parameter, welche die Cluster bestimmen (z.B. der Mittelvektor), anhand der ermittelten Zuordnung neu berechnet.

                              Die gesamte Iteration wird abgebrochen, falls die Änderung der Ähnlichkeit unter einen bestimmten Schwellenwert fällt oder eine Maximale Iterationsanzahl erreicht wurde. Da bei diesem Algorithmus mit jeder Wahrscheinlichkeit jedes Objekt zu jedem Cluster gehört, wird er als "weiche Clusterzuordnung" bezeichnet.

                              Die Support-Vector-Machine ist ein weiterer Lernalgorithmus zu Klassifizerung von Objekten.

                              In der Trainingsphase werden ihm eine Menge von Trainingstupel übergeben. Dabei besitzt das erste Element xi das Trainingsbeispiel, während Element Nummer zwei, der Label-Teil, die Klassenzugehörigkeit angibt. Durch diese Beispiele der Form {(x1,l1),....(xn,ln),xiX,li{1,1}} berechnet der Algorithmus eine Hyperebene, welche die beide Klassen so voneiander trennt, daß der margin, der kleinste Abstand zur Hyperebene,  für die Beispiele beider Klassen maximiert wird.

                              Diese kann nun als Entscheidungsfunktion genutzt werden und teilt so Objekte zuverlässig in die entsprechende Klasse ein.

                              Die besondere Eigenschaft der SVM stellt der Zustand dar, daß sie von allen möglichen trennenden Hyperebenen, von denen es bei linear separierbaren Objekten i.A. unendlich viele gibt, diejenige mit der minimalen quadratischen Norm auswählt.

                              Da Trainingsbeispiele u.U. aufgrund von Meßfehlern (Nutzerfehler, etc) oder natürlichem Überlappen der beiden Klassen nicht stets streng linear separierbar sind, ist über eine Schlupfvariable eine geringe Verletzung der Nebenbedingungen möglich.

                              Die SVM kommt im folgenden Abschnitt bei Mooneys zum Einsatz.

                          Die letzte Stufe einer Harmonisierung - nachdem die Datensätze verglichen und Gewichtungsvektoren sowohl für den Einfluß bestimmter Entitätsklassen als auch der verschiedenen Testmethoden erstellt wurden, ist die Gewichtung der Paare in "Link", "Nicht-Link" oder ob die Entscheidung durch einen menschliches Review überprüft werden soll, ein "möglicher Link".

                          Fellegi-Sunter-Klassifikator

                          Der klassische Fellegi-Sunter-Klassifikator summiert alle log2-Gewichte einfach in einen Gewichtsvektor auf und nutzt zwei Grenzwerte um ein Datensatz-Paar in eine der 3 Klassen einzuteilen.

                          A1 Link ,

                          A2 möglichen Link oder

                          A3 Nicht-Link

                          Das Resultat der Klassifikation wird in einer Daten-Struktur gespeichert, welche dann genutzt werden kann um verschiedene Ausgabepräsentationen zu produzieren.

                          Flexible Klassifikatoren

                          Über flexible Klassifikatoren können unterschiedlichste Methoden genutzt werden, um die finale Übereinstimmungsgewichtung für einen Gewichtungsvektor zu errechnen. Ebenfalls 2 Grenzwerte werden genutzt um das Datensatzpaar in eines der 3 Klassen zu klassifizieren. Anstatt einer einfachen Aufsummierung können Minima, Maxima, Durchschnittswerte, Addition und Multiplikation genutzt werden.

                          Entscheidungsbaum

                          Der unter anderem in [Anan03] vorgeschlagene Algorithmus des „Decision Tree Learnings“ konstruiert aus gegebenen Informationen einen Binärbaum, welcher die Regeln für die Zuordnung in vorgegebene Klassen beinhaltet. Jeder innere Knoten des Baumes repräsentiert dabei einen Test, der auf zu klassifizierende Objekte angewendet wird. Auf den Stufen sind dabei jeweils die Tests zu verwenden, welche die gegebene Menge an Trainingsdaten bestmöglich in Bezug auf ihre Klassifizierung als „mapped“ oder „not mapped“ aufteilen. Je nachdem , ob der Test positiv oder negativ verlaufen ist, wir der jeweilige Baum-Knoten weiter traversiert, bis ein Blattknoten und somit ein Klassifikation des jeweiligen Datums erreicht wurde.

                          Dieser Ansatz einer dimensionalen Hierarchie vergleicht lediglich Tuple innerhalb kleiner Gruppen jeder Relation miteinander. So werden exemplarisch Tupel zweier Bundesländer miteinander verglichen, wenn sie sich im selben Landestupel befinden oder die Landestupel wiederum lediglich Duplikate von einander sind. Da solche Gruppen meist kleiner sind als die Gesamtrelation, erlaubt diese Gruppierungsstrategie, Paare von Tupeln in allen Gruppen zu vergleichen und dennoch sehr effizient zu sein.

                          Dabei wird eine top-down-Traversierung der Hierarchie verwendet. Bei der obersten Relation startend, wird jede Relation gruppiert und die Prozedur der Duplikatefindung an jede Gruppe vererbt (invoke).

                          Expectation Maximization - Algorithmus

                          Winkler beschreibt in [Winkler91] eine weitere Möglichkeit, die Kategorie-Einteilung vorzunehmen. Ein Computersystem kann darin eine Determinierungs-Schätzung der Auftrittswahrscheinlichkeiten m(γ) und u(γ) für 2 Paare ausführen, indem es die Wahrscheinlichkeit berechnet, mit welcher 2 Datensätze identisch sind. Diese Wahrscheinlichkeit kan als Ober- bzw. Untergrenze genutzt werden.

                          Da diese über Stichproben ermittelt wird, handelt es sich um eine Maxima-Likelihood-Schätzung. Um Sie zu erhalten, wird der EM-Algorithmus genutzt. Über das folgende iterative Verfahren wird er eingesetzt, um für jedes Paar von Einträgen die Wahrscheinlichkeit der Übereinstimmung zu schätzen.

                          Dazu benötigt wird lediglich

                          1. die Möglichkeit, alle Objekte als Vektoren einer Dimension n darzustellen,

                          2. eine bekannte Funktion zur Mittelwertberechnung

                          3. eine beliebige domänenspezifische Anzahl von Clustern, in die Objekte eingeteilt werden sollen. Dabei besitzt jeder Cluster einen Mittelpunkt, nämlich den Vektor mit der Dimension n ( m(γ) und u(γ) ).

                          In der ersten beider Stufen, der Schätzungs-Stufe, wird für jedes Objekt nach einer bestimmten Wahrscheinlichkeitsverteilung die Wahrscheinlichkeit bestimmt, mit welcher es zu jedem der Cluster gehört, und diese Wahrscheinlichkeit für alle Objekte und Cluster abgespeichert.

                          In der zweiten, der Maximierung-Stufe werden die Parameter, welche die Cluster bestimmen (z.B. der Mittelvektor), anhand der ermittelten Zuordnung neu berechnet.

                          Die gesamte Iteration wird abgebrochen, falls die Änderung der Ähnlichkeit unter einen bestimmten Schwellenwert fällt oder eine Maximale Iterationsanzahl erreicht wurde. Da bei diesem Algorithmus mit jeder Wahrscheinlichkeit jedes Objekt zu jedem Cluster gehört, wird er als "weiche Clusterzuordnung" bezeichnet.

                          Support Vector Machine

                          Die Support-Vector-Machine ist ein weiterer Lernalgorithmus zu Klassifizerung von Objekten.

                          In der Trainingsphase werden ihm eine Menge von Trainingstupel übergeben. Dabei besitzt das erste Element xi das Trainingsbeispiel, während Element Nummer zwei, der Label-Teil, die Klassenzugehörigkeit angibt. Durch diese Beispiele der Form {(x1,l1),....(xn,ln),xiX,li{1,1}} berechnet der Algorithmus eine Hyperebene, welche die beide Klassen so voneiander trennt, daß der margin, der kleinste Abstand zur Hyperebene,  für die Beispiele beider Klassen maximiert wird.

                          Diese kann nun als Entscheidungsfunktion genutzt werden und teilt so Objekte zuverlässig in die entsprechende Klasse ein.

                          Die besondere Eigenschaft der SVM stellt der Zustand dar, daß sie von allen möglichen trennenden Hyperebenen, von denen es bei linear separierbaren Objekten i.A. unendlich viele gibt, diejenige mit der minimalen quadratischen Norm auswählt.

                          Da Trainingsbeispiele u.U. aufgrund von Meßfehlern (Nutzerfehler, etc) oder natürlichem Überlappen der beiden Klassen nicht stets streng linear separierbar sind, ist über eine Schlupfvariable eine geringe Verletzung der Nebenbedingungen möglich.

                          Die SVM kommt im folgenden Abschnitt bei Mooneys zum Einsatz.

                      Die letzte Stufe einer Harmonisierung - nachdem die Datensätze verglichen und Gewichtungsvektoren sowohl für den Einfluß bestimmter Entitätsklassen als auch der verschiedenen Testmethoden erstellt wurden, ist die Gewichtung der Paare in "Link", "Nicht-Link" oder ob die Entscheidung durch einen menschliches Review überprüft werden soll, ein "möglicher Link".

                      Fellegi-Sunter-Klassifikator

                      Der klassische Fellegi-Sunter-Klassifikator summiert alle log2-Gewichte einfach in einen Gewichtsvektor auf und nutzt zwei Grenzwerte um ein Datensatz-Paar in eine der 3 Klassen einzuteilen.

                      A1 Link ,

                      A2 möglichen Link oder

                      A3 Nicht-Link

                      Das Resultat der Klassifikation wird in einer Daten-Struktur gespeichert, welche dann genutzt werden kann um verschiedene Ausgabepräsentationen zu produzieren.

                      Flexible Klassifikatoren

                      Über flexible Klassifikatoren können unterschiedlichste Methoden genutzt werden, um die finale Übereinstimmungsgewichtung für einen Gewichtungsvektor zu errechnen. Ebenfalls 2 Grenzwerte werden genutzt um das Datensatzpaar in eines der 3 Klassen zu klassifizieren. Anstatt einer einfachen Aufsummierung können Minima, Maxima, Durchschnittswerte, Addition und Multiplikation genutzt werden.

                      Entscheidungsbaum

                      Der unter anderem in [Anan03] vorgeschlagene Algorithmus des „Decision Tree Learnings“ konstruiert aus gegebenen Informationen einen Binärbaum, welcher die Regeln für die Zuordnung in vorgegebene Klassen beinhaltet. Jeder innere Knoten des Baumes repräsentiert dabei einen Test, der auf zu klassifizierende Objekte angewendet wird. Auf den Stufen sind dabei jeweils die Tests zu verwenden, welche die gegebene Menge an Trainingsdaten bestmöglich in Bezug auf ihre Klassifizierung als „mapped“ oder „not mapped“ aufteilen. Je nachdem , ob der Test positiv oder negativ verlaufen ist, wir der jeweilige Baum-Knoten weiter traversiert, bis ein Blattknoten und somit ein Klassifikation des jeweiligen Datums erreicht wurde.

                      Dieser Ansatz einer dimensionalen Hierarchie vergleicht lediglich Tuple innerhalb kleiner Gruppen jeder Relation miteinander. So werden exemplarisch Tupel zweier Bundesländer miteinander verglichen, wenn sie sich im selben Landestupel befinden oder die Landestupel wiederum lediglich Duplikate von einander sind. Da solche Gruppen meist kleiner sind als die Gesamtrelation, erlaubt diese Gruppierungsstrategie, Paare von Tupeln in allen Gruppen zu vergleichen und dennoch sehr effizient zu sein.

                      Dabei wird eine top-down-Traversierung der Hierarchie verwendet. Bei der obersten Relation startend, wird jede Relation gruppiert und die Prozedur der Duplikatefindung an jede Gruppe vererbt (invoke).

                      Expectation Maximization - Algorithmus

                      Winkler beschreibt in [Winkler91] eine weitere Möglichkeit, die Kategorie-Einteilung vorzunehmen. Ein Computersystem kann darin eine Determinierungs-Schätzung der Auftrittswahrscheinlichkeiten m(γ) und u(γ) für 2 Paare ausführen, indem es die Wahrscheinlichkeit berechnet, mit welcher 2 Datensätze identisch sind. Diese Wahrscheinlichkeit kan als Ober- bzw. Untergrenze genutzt werden.

                      Da diese über Stichproben ermittelt wird, handelt es sich um eine Maxima-Likelihood-Schätzung. Um Sie zu erhalten, wird der EM-Algorithmus genutzt. Über das folgende iterative Verfahren wird er eingesetzt, um für jedes Paar von Einträgen die Wahrscheinlichkeit der Übereinstimmung zu schätzen.

                      Dazu benötigt wird lediglich

                      1. die Möglichkeit, alle Objekte als Vektoren einer Dimension n darzustellen,

                      2. eine bekannte Funktion zur Mittelwertberechnung

                      3. eine beliebige domänenspezifische Anzahl von Clustern, in die Objekte eingeteilt werden sollen. Dabei besitzt jeder Cluster einen Mittelpunkt, nämlich den Vektor mit der Dimension n ( m(γ) und u(γ) ).

                      In der ersten beider Stufen, der Schätzungs-Stufe, wird für jedes Objekt nach einer bestimmten Wahrscheinlichkeitsverteilung die Wahrscheinlichkeit bestimmt, mit welcher es zu jedem der Cluster gehört, und diese Wahrscheinlichkeit für alle Objekte und Cluster abgespeichert.

                      In der zweiten, der Maximierung-Stufe werden die Parameter, welche die Cluster bestimmen (z.B. der Mittelvektor), anhand der ermittelten Zuordnung neu berechnet.

                      Die gesamte Iteration wird abgebrochen, falls die Änderung der Ähnlichkeit unter einen bestimmten Schwellenwert fällt oder eine Maximale Iterationsanzahl erreicht wurde. Da bei diesem Algorithmus mit jeder Wahrscheinlichkeit jedes Objekt zu jedem Cluster gehört, wird er als "weiche Clusterzuordnung" bezeichnet.

                      Support Vector Machine

                      Die Support-Vector-Machine ist ein weiterer Lernalgorithmus zu Klassifizerung von Objekten.

                      In der Trainingsphase werden ihm eine Menge von Trainingstupel übergeben. Dabei besitzt das erste Element xi das Trainingsbeispiel, während Element Nummer zwei, der Label-Teil, die Klassenzugehörigkeit angibt. Durch diese Beispiele der Form {(x1,l1),....(xn,ln),xiX,li{1,1}} berechnet der Algorithmus eine Hyperebene, welche die beide Klassen so voneiander trennt, daß der margin, der kleinste Abstand zur Hyperebene,  für die Beispiele beider Klassen maximiert wird.

                      Diese kann nun als Entscheidungsfunktion genutzt werden und teilt so Objekte zuverlässig in die entsprechende Klasse ein.

                      Die besondere Eigenschaft der SVM stellt der Zustand dar, daß sie von allen möglichen trennenden Hyperebenen, von denen es bei linear separierbaren Objekten i.A. unendlich viele gibt, diejenige mit der minimalen quadratischen Norm auswählt.

                      Da Trainingsbeispiele u.U. aufgrund von Meßfehlern (Nutzerfehler, etc) oder natürlichem Überlappen der beiden Klassen nicht stets streng linear separierbar sind, ist über eine Schlupfvariable eine geringe Verletzung der Nebenbedingungen möglich.

                      Die SVM kommt im folgenden Abschnitt bei Mooneys zum Einsatz.

                  Die letzte Stufe einer Harmonisierung - nachdem die Datensätze verglichen und Gewichtungsvektoren sowohl für den Einfluß bestimmter Entitätsklassen als auch der verschiedenen Testmethoden erstellt wurden, ist die Gewichtung der Paare in "Link", "Nicht-Link" oder ob die Entscheidung durch einen menschliches Review überprüft werden soll, ein "möglicher Link".

                  Fellegi-Sunter-Klassifikator

                  Der klassische Fellegi-Sunter-Klassifikator summiert alle log2-Gewichte einfach in einen Gewichtsvektor auf und nutzt zwei Grenzwerte um ein Datensatz-Paar in eine der 3 Klassen einzuteilen.

                  A1 Link ,

                  A2 möglichen Link oder

                  A3 Nicht-Link

                  Das Resultat der Klassifikation wird in einer Daten-Struktur gespeichert, welche dann genutzt werden kann um verschiedene Ausgabepräsentationen zu produzieren.

                  Flexible Klassifikatoren

                  Über flexible Klassifikatoren können unterschiedlichste Methoden genutzt werden, um die finale Übereinstimmungsgewichtung für einen Gewichtungsvektor zu errechnen. Ebenfalls 2 Grenzwerte werden genutzt um das Datensatzpaar in eines der 3 Klassen zu klassifizieren. Anstatt einer einfachen Aufsummierung können Minima, Maxima, Durchschnittswerte, Addition und Multiplikation genutzt werden.

                  Entscheidungsbaum

                  Der unter anderem in [Anan03] vorgeschlagene Algorithmus des „Decision Tree Learnings“ konstruiert aus gegebenen Informationen einen Binärbaum, welcher die Regeln für die Zuordnung in vorgegebene Klassen beinhaltet. Jeder innere Knoten des Baumes repräsentiert dabei einen Test, der auf zu klassifizierende Objekte angewendet wird. Auf den Stufen sind dabei jeweils die Tests zu verwenden, welche die gegebene Menge an Trainingsdaten bestmöglich in Bezug auf ihre Klassifizierung als „mapped“ oder „not mapped“ aufteilen. Je nachdem , ob der Test positiv oder negativ verlaufen ist, wir der jeweilige Baum-Knoten weiter traversiert, bis ein Blattknoten und somit ein Klassifikation des jeweiligen Datums erreicht wurde.

                  Dieser Ansatz einer dimensionalen Hierarchie vergleicht lediglich Tuple innerhalb kleiner Gruppen jeder Relation miteinander. So werden exemplarisch Tupel zweier Bundesländer miteinander verglichen, wenn sie sich im selben Landestupel befinden oder die Landestupel wiederum lediglich Duplikate von einander sind. Da solche Gruppen meist kleiner sind als die Gesamtrelation, erlaubt diese Gruppierungsstrategie, Paare von Tupeln in allen Gruppen zu vergleichen und dennoch sehr effizient zu sein.

                  Dabei wird eine top-down-Traversierung der Hierarchie verwendet. Bei der obersten Relation startend, wird jede Relation gruppiert und die Prozedur der Duplikatefindung an jede Gruppe vererbt (invoke).

                  Expectation Maximization - Algorithmus

                  Winkler beschreibt in [Winkler91] eine weitere Möglichkeit, die Kategorie-Einteilung vorzunehmen. Ein Computersystem kann darin eine Determinierungs-Schätzung der Auftrittswahrscheinlichkeiten m(γ) und u(γ) für 2 Paare ausführen, indem es die Wahrscheinlichkeit berechnet, mit welcher 2 Datensätze identisch sind. Diese Wahrscheinlichkeit kan als Ober- bzw. Untergrenze genutzt werden.

                  Da diese über Stichproben ermittelt wird, handelt es sich um eine Maxima-Likelihood-Schätzung. Um Sie zu erhalten, wird der EM-Algorithmus genutzt. Über das folgende iterative Verfahren wird er eingesetzt, um für jedes Paar von Einträgen die Wahrscheinlichkeit der Übereinstimmung zu schätzen.

                  Dazu benötigt wird lediglich

                  1. die Möglichkeit, alle Objekte als Vektoren einer Dimension n darzustellen,

                  2. eine bekannte Funktion zur Mittelwertberechnung

                  3. eine beliebige domänenspezifische Anzahl von Clustern, in die Objekte eingeteilt werden sollen. Dabei besitzt jeder Cluster einen Mittelpunkt, nämlich den Vektor mit der Dimension n ( m(γ) und u(γ) ).

                  In der ersten beider Stufen, der Schätzungs-Stufe, wird für jedes Objekt nach einer bestimmten Wahrscheinlichkeitsverteilung die Wahrscheinlichkeit bestimmt, mit welcher es zu jedem der Cluster gehört, und diese Wahrscheinlichkeit für alle Objekte und Cluster abgespeichert.

                  In der zweiten, der Maximierung-Stufe werden die Parameter, welche die Cluster bestimmen (z.B. der Mittelvektor), anhand der ermittelten Zuordnung neu berechnet.

                  Die gesamte Iteration wird abgebrochen, falls die Änderung der Ähnlichkeit unter einen bestimmten Schwellenwert fällt oder eine Maximale Iterationsanzahl erreicht wurde. Da bei diesem Algorithmus mit jeder Wahrscheinlichkeit jedes Objekt zu jedem Cluster gehört, wird er als "weiche Clusterzuordnung" bezeichnet.

                  Support Vector Machine

                  Die Support-Vector-Machine ist ein weiterer Lernalgorithmus zu Klassifizerung von Objekten.

                  In der Trainingsphase werden ihm eine Menge von Trainingstupel übergeben. Dabei besitzt das erste Element xi das Trainingsbeispiel, während Element Nummer zwei, der Label-Teil, die Klassenzugehörigkeit angibt. Durch diese Beispiele der Form {(x1,l1),....(xn,ln),xiX,li{1,1}} berechnet der Algorithmus eine Hyperebene, welche die beide Klassen so voneiander trennt, daß der margin, der kleinste Abstand zur Hyperebene,  für die Beispiele beider Klassen maximiert wird.

                  Diese kann nun als Entscheidungsfunktion genutzt werden und teilt so Objekte zuverlässig in die entsprechende Klasse ein.

                  Die besondere Eigenschaft der SVM stellt der Zustand dar, daß sie von allen möglichen trennenden Hyperebenen, von denen es bei linear separierbaren Objekten i.A. unendlich viele gibt, diejenige mit der minimalen quadratischen Norm auswählt.

                  Da Trainingsbeispiele u.U. aufgrund von Meßfehlern (Nutzerfehler, etc) oder natürlichem Überlappen der beiden Klassen nicht stets streng linear separierbar sind, ist über eine Schlupfvariable eine geringe Verletzung der Nebenbedingungen möglich.

                  Die SVM kommt im folgenden Abschnitt bei Mooneys zum Einsatz.

              Die letzte Stufe einer Harmonisierung - nachdem die Datensätze verglichen und Gewichtungsvektoren sowohl für den Einfluß bestimmter Entitätsklassen als auch der verschiedenen Testmethoden erstellt wurden, ist die Gewichtung der Paare in "Link", "Nicht-Link" oder ob die Entscheidung durch einen menschliches Review überprüft werden soll, ein "möglicher Link".

              Fellegi-Sunter-Klassifikator

              Der klassische Fellegi-Sunter-Klassifikator summiert alle log2-Gewichte einfach in einen Gewichtsvektor auf und nutzt zwei Grenzwerte um ein Datensatz-Paar in eine der 3 Klassen einzuteilen.

              A1 Link ,

              A2 möglichen Link oder

              A3 Nicht-Link

              Das Resultat der Klassifikation wird in einer Daten-Struktur gespeichert, welche dann genutzt werden kann um verschiedene Ausgabepräsentationen zu produzieren.

              Flexible Klassifikatoren

              Über flexible Klassifikatoren können unterschiedlichste Methoden genutzt werden, um die finale Übereinstimmungsgewichtung für einen Gewichtungsvektor zu errechnen. Ebenfalls 2 Grenzwerte werden genutzt um das Datensatzpaar in eines der 3 Klassen zu klassifizieren. Anstatt einer einfachen Aufsummierung können Minima, Maxima, Durchschnittswerte, Addition und Multiplikation genutzt werden.

              Entscheidungsbaum

              Der unter anderem in [Anan03] vorgeschlagene Algorithmus des „Decision Tree Learnings“ konstruiert aus gegebenen Informationen einen Binärbaum, welcher die Regeln für die Zuordnung in vorgegebene Klassen beinhaltet. Jeder innere Knoten des Baumes repräsentiert dabei einen Test, der auf zu klassifizierende Objekte angewendet wird. Auf den Stufen sind dabei jeweils die Tests zu verwenden, welche die gegebene Menge an Trainingsdaten bestmöglich in Bezug auf ihre Klassifizierung als „mapped“ oder „not mapped“ aufteilen. Je nachdem , ob der Test positiv oder negativ verlaufen ist, wir der jeweilige Baum-Knoten weiter traversiert, bis ein Blattknoten und somit ein Klassifikation des jeweiligen Datums erreicht wurde.

              Dieser Ansatz einer dimensionalen Hierarchie vergleicht lediglich Tuple innerhalb kleiner Gruppen jeder Relation miteinander. So werden exemplarisch Tupel zweier Bundesländer miteinander verglichen, wenn sie sich im selben Landestupel befinden oder die Landestupel wiederum lediglich Duplikate von einander sind. Da solche Gruppen meist kleiner sind als die Gesamtrelation, erlaubt diese Gruppierungsstrategie, Paare von Tupeln in allen Gruppen zu vergleichen und dennoch sehr effizient zu sein.

              Dabei wird eine top-down-Traversierung der Hierarchie verwendet. Bei der obersten Relation startend, wird jede Relation gruppiert und die Prozedur der Duplikatefindung an jede Gruppe vererbt (invoke).

              Expectation Maximization - Algorithmus

              Winkler beschreibt in [Winkler91] eine weitere Möglichkeit, die Kategorie-Einteilung vorzunehmen. Ein Computersystem kann darin eine Determinierungs-Schätzung der Auftrittswahrscheinlichkeiten m(γ) und u(γ) für 2 Paare ausführen, indem es die Wahrscheinlichkeit berechnet, mit welcher 2 Datensätze identisch sind. Diese Wahrscheinlichkeit kan als Ober- bzw. Untergrenze genutzt werden.

              Da diese über Stichproben ermittelt wird, handelt es sich um eine Maxima-Likelihood-Schätzung. Um Sie zu erhalten, wird der EM-Algorithmus genutzt. Über das folgende iterative Verfahren wird er eingesetzt, um für jedes Paar von Einträgen die Wahrscheinlichkeit der Übereinstimmung zu schätzen.

              Dazu benötigt wird lediglich

              1. die Möglichkeit, alle Objekte als Vektoren einer Dimension n darzustellen,

              2. eine bekannte Funktion zur Mittelwertberechnung

              3. eine beliebige domänenspezifische Anzahl von Clustern, in die Objekte eingeteilt werden sollen. Dabei besitzt jeder Cluster einen Mittelpunkt, nämlich den Vektor mit der Dimension n ( m(γ) und u(γ) ).

              In der ersten beider Stufen, der Schätzungs-Stufe, wird für jedes Objekt nach einer bestimmten Wahrscheinlichkeitsverteilung die Wahrscheinlichkeit bestimmt, mit welcher es zu jedem der Cluster gehört, und diese Wahrscheinlichkeit für alle Objekte und Cluster abgespeichert.

              In der zweiten, der Maximierung-Stufe werden die Parameter, welche die Cluster bestimmen (z.B. der Mittelvektor), anhand der ermittelten Zuordnung neu berechnet.

              Die gesamte Iteration wird abgebrochen, falls die Änderung der Ähnlichkeit unter einen bestimmten Schwellenwert fällt oder eine Maximale Iterationsanzahl erreicht wurde. Da bei diesem Algorithmus mit jeder Wahrscheinlichkeit jedes Objekt zu jedem Cluster gehört, wird er als "weiche Clusterzuordnung" bezeichnet.

              Support Vector Machine

              Die Support-Vector-Machine ist ein weiterer Lernalgorithmus zu Klassifizerung von Objekten.

              In der Trainingsphase werden ihm eine Menge von Trainingstupel übergeben. Dabei besitzt das erste Element xi das Trainingsbeispiel, während Element Nummer zwei, der Label-Teil, die Klassenzugehörigkeit angibt. Durch diese Beispiele der Form {(x1,l1),....(xn,ln),xiX,li{1,1}} berechnet der Algorithmus eine Hyperebene, welche die beide Klassen so voneiander trennt, daß der margin, der kleinste Abstand zur Hyperebene,  für die Beispiele beider Klassen maximiert wird.

              Diese kann nun als Entscheidungsfunktion genutzt werden und teilt so Objekte zuverlässig in die entsprechende Klasse ein.

              Die besondere Eigenschaft der SVM stellt der Zustand dar, daß sie von allen möglichen trennenden Hyperebenen, von denen es bei linear separierbaren Objekten i.A. unendlich viele gibt, diejenige mit der minimalen quadratischen Norm auswählt.

              Da Trainingsbeispiele u.U. aufgrund von Meßfehlern (Nutzerfehler, etc) oder natürlichem Überlappen der beiden Klassen nicht stets streng linear separierbar sind, ist über eine Schlupfvariable eine geringe Verletzung der Nebenbedingungen möglich.

              Die SVM kommt im folgenden Abschnitt bei Mooneys zum Einsatz.

          Die letzte Stufe einer Harmonisierung - nachdem die Datensätze verglichen und Gewichtungsvektoren sowohl für den Einfluß bestimmter Entitätsklassen als auch der verschiedenen Testmethoden erstellt wurden, ist die Gewichtung der Paare in "Link", "Nicht-Link" oder ob die Entscheidung durch einen menschliches Review überprüft werden soll, ein "möglicher Link".

          Fellegi-Sunter-Klassifikator

          Der klassische Fellegi-Sunter-Klassifikator summiert alle log2-Gewichte einfach in einen Gewichtsvektor auf und nutzt zwei Grenzwerte um ein Datensatz-Paar in eine der 3 Klassen einzuteilen.

          A1 Link ,

          A2 möglichen Link oder

          A3 Nicht-Link

          Das Resultat der Klassifikation wird in einer Daten-Struktur gespeichert, welche dann genutzt werden kann um verschiedene Ausgabepräsentationen zu produzieren.

          Flexible Klassifikatoren

          Über flexible Klassifikatoren können unterschiedlichste Methoden genutzt werden, um die finale Übereinstimmungsgewichtung für einen Gewichtungsvektor zu errechnen. Ebenfalls 2 Grenzwerte werden genutzt um das Datensatzpaar in eines der 3 Klassen zu klassifizieren. Anstatt einer einfachen Aufsummierung können Minima, Maxima, Durchschnittswerte, Addition und Multiplikation genutzt werden.

          Entscheidungsbaum

          Der unter anderem in [Anan03] vorgeschlagene Algorithmus des „Decision Tree Learnings“ konstruiert aus gegebenen Informationen einen Binärbaum, welcher die Regeln für die Zuordnung in vorgegebene Klassen beinhaltet. Jeder innere Knoten des Baumes repräsentiert dabei einen Test, der auf zu klassifizierende Objekte angewendet wird. Auf den Stufen sind dabei jeweils die Tests zu verwenden, welche die gegebene Menge an Trainingsdaten bestmöglich in Bezug auf ihre Klassifizierung als „mapped“ oder „not mapped“ aufteilen. Je nachdem , ob der Test positiv oder negativ verlaufen ist, wir der jeweilige Baum-Knoten weiter traversiert, bis ein Blattknoten und somit ein Klassifikation des jeweiligen Datums erreicht wurde.

          Dieser Ansatz einer dimensionalen Hierarchie vergleicht lediglich Tuple innerhalb kleiner Gruppen jeder Relation miteinander. So werden exemplarisch Tupel zweier Bundesländer miteinander verglichen, wenn sie sich im selben Landestupel befinden oder die Landestupel wiederum lediglich Duplikate von einander sind. Da solche Gruppen meist kleiner sind als die Gesamtrelation, erlaubt diese Gruppierungsstrategie, Paare von Tupeln in allen Gruppen zu vergleichen und dennoch sehr effizient zu sein.

          Dabei wird eine top-down-Traversierung der Hierarchie verwendet. Bei der obersten Relation startend, wird jede Relation gruppiert und die Prozedur der Duplikatefindung an jede Gruppe vererbt (invoke).

          Expectation Maximization - Algorithmus

          Winkler beschreibt in [Winkler91] eine weitere Möglichkeit, die Kategorie-Einteilung vorzunehmen. Ein Computersystem kann darin eine Determinierungs-Schätzung der Auftrittswahrscheinlichkeiten m(γ) und u(γ) für 2 Paare ausführen, indem es die Wahrscheinlichkeit berechnet, mit welcher 2 Datensätze identisch sind. Diese Wahrscheinlichkeit kan als Ober- bzw. Untergrenze genutzt werden.

          Da diese über Stichproben ermittelt wird, handelt es sich um eine Maxima-Likelihood-Schätzung. Um Sie zu erhalten, wird der EM-Algorithmus genutzt. Über das folgende iterative Verfahren wird er eingesetzt, um für jedes Paar von Einträgen die Wahrscheinlichkeit der Übereinstimmung zu schätzen.

          Dazu benötigt wird lediglich

          1. die Möglichkeit, alle Objekte als Vektoren einer Dimension n darzustellen,

          2. eine bekannte Funktion zur Mittelwertberechnung

          3. eine beliebige domänenspezifische Anzahl von Clustern, in die Objekte eingeteilt werden sollen. Dabei besitzt jeder Cluster einen Mittelpunkt, nämlich den Vektor mit der Dimension n ( m(γ) und u(γ) ).

          In der ersten beider Stufen, der Schätzungs-Stufe, wird für jedes Objekt nach einer bestimmten Wahrscheinlichkeitsverteilung die Wahrscheinlichkeit bestimmt, mit welcher es zu jedem der Cluster gehört, und diese Wahrscheinlichkeit für alle Objekte und Cluster abgespeichert.

          In der zweiten, der Maximierung-Stufe werden die Parameter, welche die Cluster bestimmen (z.B. der Mittelvektor), anhand der ermittelten Zuordnung neu berechnet.

          Die gesamte Iteration wird abgebrochen, falls die Änderung der Ähnlichkeit unter einen bestimmten Schwellenwert fällt oder eine Maximale Iterationsanzahl erreicht wurde. Da bei diesem Algorithmus mit jeder Wahrscheinlichkeit jedes Objekt zu jedem Cluster gehört, wird er als "weiche Clusterzuordnung" bezeichnet.

          Support Vector Machine

          Die Support-Vector-Machine ist ein weiterer Lernalgorithmus zu Klassifizerung von Objekten.

          In der Trainingsphase werden ihm eine Menge von Trainingstupel übergeben. Dabei besitzt das erste Element xi das Trainingsbeispiel, während Element Nummer zwei, der Label-Teil, die Klassenzugehörigkeit angibt. Durch diese Beispiele der Form {(x1,l1),....(xn,ln),xiX,li{1,1}} berechnet der Algorithmus eine Hyperebene, welche die beide Klassen so voneiander trennt, daß der margin, der kleinste Abstand zur Hyperebene,  für die Beispiele beider Klassen maximiert wird.

          Diese kann nun als Entscheidungsfunktion genutzt werden und teilt so Objekte zuverlässig in die entsprechende Klasse ein.

          Die besondere Eigenschaft der SVM stellt der Zustand dar, daß sie von allen möglichen trennenden Hyperebenen, von denen es bei linear separierbaren Objekten i.A. unendlich viele gibt, diejenige mit der minimalen quadratischen Norm auswählt.

          Da Trainingsbeispiele u.U. aufgrund von Meßfehlern (Nutzerfehler, etc) oder natürlichem Überlappen der beiden Klassen nicht stets streng linear separierbar sind, ist über eine Schlupfvariable eine geringe Verletzung der Nebenbedingungen möglich.

          Die SVM kommt im folgenden Abschnitt bei Mooneys zum Einsatz.

      Die letzte Stufe einer Harmonisierung - nachdem die Datensätze verglichen und Gewichtungsvektoren sowohl für den Einfluß bestimmter Entitätsklassen als auch der verschiedenen Testmethoden erstellt wurden, ist die Gewichtung der Paare in "Link", "Nicht-Link" oder ob die Entscheidung durch einen menschliches Review überprüft werden soll, ein "möglicher Link".

      Fellegi-Sunter-Klassifikator

      Der klassische Fellegi-Sunter-Klassifikator summiert alle log2-Gewichte einfach in einen Gewichtsvektor auf und nutzt zwei Grenzwerte um ein Datensatz-Paar in eine der 3 Klassen einzuteilen.

      A1 Link ,

      A2 möglichen Link oder

      A3 Nicht-Link

      Das Resultat der Klassifikation wird in einer Daten-Struktur gespeichert, welche dann genutzt werden kann um verschiedene Ausgabepräsentationen zu produzieren.

      Flexible Klassifikatoren

      Über flexible Klassifikatoren können unterschiedlichste Methoden genutzt werden, um die finale Übereinstimmungsgewichtung für einen Gewichtungsvektor zu errechnen. Ebenfalls 2 Grenzwerte werden genutzt um das Datensatzpaar in eines der 3 Klassen zu klassifizieren. Anstatt einer einfachen Aufsummierung können Minima, Maxima, Durchschnittswerte, Addition und Multiplikation genutzt werden.

      Entscheidungsbaum

      Der unter anderem in [Anan03] vorgeschlagene Algorithmus des „Decision Tree Learnings“ konstruiert aus gegebenen Informationen einen Binärbaum, welcher die Regeln für die Zuordnung in vorgegebene Klassen beinhaltet. Jeder innere Knoten des Baumes repräsentiert dabei einen Test, der auf zu klassifizierende Objekte angewendet wird. Auf den Stufen sind dabei jeweils die Tests zu verwenden, welche die gegebene Menge an Trainingsdaten bestmöglich in Bezug auf ihre Klassifizierung als „mapped“ oder „not mapped“ aufteilen. Je nachdem , ob der Test positiv oder negativ verlaufen ist, wir der jeweilige Baum-Knoten weiter traversiert, bis ein Blattknoten und somit ein Klassifikation des jeweiligen Datums erreicht wurde.

      Dieser Ansatz einer dimensionalen Hierarchie vergleicht lediglich Tuple innerhalb kleiner Gruppen jeder Relation miteinander. So werden exemplarisch Tupel zweier Bundesländer miteinander verglichen, wenn sie sich im selben Landestupel befinden oder die Landestupel wiederum lediglich Duplikate von einander sind. Da solche Gruppen meist kleiner sind als die Gesamtrelation, erlaubt diese Gruppierungsstrategie, Paare von Tupeln in allen Gruppen zu vergleichen und dennoch sehr effizient zu sein.

      Dabei wird eine top-down-Traversierung der Hierarchie verwendet. Bei der obersten Relation startend, wird jede Relation gruppiert und die Prozedur der Duplikatefindung an jede Gruppe vererbt (invoke).

      Expectation Maximization - Algorithmus

      Winkler beschreibt in [Winkler91] eine weitere Möglichkeit, die Kategorie-Einteilung vorzunehmen. Ein Computersystem kann darin eine Determinierungs-Schätzung der Auftrittswahrscheinlichkeiten m(γ) und u(γ) für 2 Paare ausführen, indem es die Wahrscheinlichkeit berechnet, mit welcher 2 Datensätze identisch sind. Diese Wahrscheinlichkeit kan als Ober- bzw. Untergrenze genutzt werden.

      Da diese über Stichproben ermittelt wird, handelt es sich um eine Maxima-Likelihood-Schätzung. Um Sie zu erhalten, wird der EM-Algorithmus genutzt. Über das folgende iterative Verfahren wird er eingesetzt, um für jedes Paar von Einträgen die Wahrscheinlichkeit der Übereinstimmung zu schätzen.

      Dazu benötigt wird lediglich

      1. die Möglichkeit, alle Objekte als Vektoren einer Dimension n darzustellen,

      2. eine bekannte Funktion zur Mittelwertberechnung

      3. eine beliebige domänenspezifische Anzahl von Clustern, in die Objekte eingeteilt werden sollen. Dabei besitzt jeder Cluster einen Mittelpunkt, nämlich den Vektor mit der Dimension n ( m(γ) und u(γ) ).

      In der ersten beider Stufen, der Schätzungs-Stufe, wird für jedes Objekt nach einer bestimmten Wahrscheinlichkeitsverteilung die Wahrscheinlichkeit bestimmt, mit welcher es zu jedem der Cluster gehört, und diese Wahrscheinlichkeit für alle Objekte und Cluster abgespeichert.

      In der zweiten, der Maximierung-Stufe werden die Parameter, welche die Cluster bestimmen (z.B. der Mittelvektor), anhand der ermittelten Zuordnung neu berechnet.

      Die gesamte Iteration wird abgebrochen, falls die Änderung der Ähnlichkeit unter einen bestimmten Schwellenwert fällt oder eine Maximale Iterationsanzahl erreicht wurde. Da bei diesem Algorithmus mit jeder Wahrscheinlichkeit jedes Objekt zu jedem Cluster gehört, wird er als "weiche Clusterzuordnung" bezeichnet.

      Support Vector Machine

      Die Support-Vector-Machine ist ein weiterer Lernalgorithmus zu Klassifizerung von Objekten.

      In der Trainingsphase werden ihm eine Menge von Trainingstupel übergeben. Dabei besitzt das erste Element xi das Trainingsbeispiel, während Element Nummer zwei, der Label-Teil, die Klassenzugehörigkeit angibt. Durch diese Beispiele der Form {(x1,l1),....(xn,ln),xiX,li{1,1}} berechnet der Algorithmus eine Hyperebene, welche die beide Klassen so voneiander trennt, daß der margin, der kleinste Abstand zur Hyperebene,  für die Beispiele beider Klassen maximiert wird.

      Diese kann nun als Entscheidungsfunktion genutzt werden und teilt so Objekte zuverlässig in die entsprechende Klasse ein.

      Die besondere Eigenschaft der SVM stellt der Zustand dar, daß sie von allen möglichen trennenden Hyperebenen, von denen es bei linear separierbaren Objekten i.A. unendlich viele gibt, diejenige mit der minimalen quadratischen Norm auswählt.

      Da Trainingsbeispiele u.U. aufgrund von Meßfehlern (Nutzerfehler, etc) oder natürlichem Überlappen der beiden Klassen nicht stets streng linear separierbar sind, ist über eine Schlupfvariable eine geringe Verletzung der Nebenbedingungen möglich.

      Die SVM kommt im folgenden Abschnitt bei Mooneys zum Einsatz.

Die letzte Stufe einer Harmonisierung - nachdem die Datensätze verglichen und Gewichtungsvektoren sowohl für den Einfluß bestimmter Entitätsklassen als auch der verschiedenen Testmethoden erstellt wurden, ist die Gewichtung der Paare in "Link", "Nicht-Link" oder ob die Entscheidung durch einen menschliches Review überprüft werden soll, ein "möglicher Link".

Fellegi-Sunter-Klassifikator

Der klassische Fellegi-Sunter-Klassifikator summiert alle log2-Gewichte einfach in einen Gewichtsvektor auf und nutzt zwei Grenzwerte um ein Datensatz-Paar in eine der 3 Klassen einzuteilen.

A1 Link ,

A2 möglichen Link oder

A3 Nicht-Link

Das Resultat der Klassifikation wird in einer Daten-Struktur gespeichert, welche dann genutzt werden kann um verschiedene Ausgabepräsentationen zu produzieren.

Flexible Klassifikatoren

Über flexible Klassifikatoren können unterschiedlichste Methoden genutzt werden, um die finale Übereinstimmungsgewichtung für einen Gewichtungsvektor zu errechnen. Ebenfalls 2 Grenzwerte werden genutzt um das Datensatzpaar in eines der 3 Klassen zu klassifizieren. Anstatt einer einfachen Aufsummierung können Minima, Maxima, Durchschnittswerte, Addition und Multiplikation genutzt werden.

Entscheidungsbaum

Der unter anderem in [Anan03] vorgeschlagene Algorithmus des „Decision Tree Learnings“ konstruiert aus gegebenen Informationen einen Binärbaum, welcher die Regeln für die Zuordnung in vorgegebene Klassen beinhaltet. Jeder innere Knoten des Baumes repräsentiert dabei einen Test, der auf zu klassifizierende Objekte angewendet wird. Auf den Stufen sind dabei jeweils die Tests zu verwenden, welche die gegebene Menge an Trainingsdaten bestmöglich in Bezug auf ihre Klassifizierung als „mapped“ oder „not mapped“ aufteilen. Je nachdem , ob der Test positiv oder negativ verlaufen ist, wir der jeweilige Baum-Knoten weiter traversiert, bis ein Blattknoten und somit ein Klassifikation des jeweiligen Datums erreicht wurde.

Dieser Ansatz einer dimensionalen Hierarchie vergleicht lediglich Tuple innerhalb kleiner Gruppen jeder Relation miteinander. So werden exemplarisch Tupel zweier Bundesländer miteinander verglichen, wenn sie sich im selben Landestupel befinden oder die Landestupel wiederum lediglich Duplikate von einander sind. Da solche Gruppen meist kleiner sind als die Gesamtrelation, erlaubt diese Gruppierungsstrategie, Paare von Tupeln in allen Gruppen zu vergleichen und dennoch sehr effizient zu sein.

Dabei wird eine top-down-Traversierung der Hierarchie verwendet. Bei der obersten Relation startend, wird jede Relation gruppiert und die Prozedur der Duplikatefindung an jede Gruppe vererbt (invoke).

Expectation Maximization - Algorithmus

Winkler beschreibt in [Winkler91] eine weitere Möglichkeit, die Kategorie-Einteilung vorzunehmen. Ein Computersystem kann darin eine Determinierungs-Schätzung der Auftrittswahrscheinlichkeiten m(γ) und u(γ) für 2 Paare ausführen, indem es die Wahrscheinlichkeit berechnet, mit welcher 2 Datensätze identisch sind. Diese Wahrscheinlichkeit kan als Ober- bzw. Untergrenze genutzt werden.

Da diese über Stichproben ermittelt wird, handelt es sich um eine Maxima-Likelihood-Schätzung. Um Sie zu erhalten, wird der EM-Algorithmus genutzt. Über das folgende iterative Verfahren wird er eingesetzt, um für jedes Paar von Einträgen die Wahrscheinlichkeit der Übereinstimmung zu schätzen.

Dazu benötigt wird lediglich

  1. die Möglichkeit, alle Objekte als Vektoren einer Dimension n darzustellen,

  2. eine bekannte Funktion zur Mittelwertberechnung

  3. eine beliebige domänenspezifische Anzahl von Clustern, in die Objekte eingeteilt werden sollen. Dabei besitzt jeder Cluster einen Mittelpunkt, nämlich den Vektor mit der Dimension n ( m(γ) und u(γ) ).

In der ersten beider Stufen, der Schätzungs-Stufe, wird für jedes Objekt nach einer bestimmten Wahrscheinlichkeitsverteilung die Wahrscheinlichkeit bestimmt, mit welcher es zu jedem der Cluster gehört, und diese Wahrscheinlichkeit für alle Objekte und Cluster abgespeichert.

In der zweiten, der Maximierung-Stufe werden die Parameter, welche die Cluster bestimmen (z.B. der Mittelvektor), anhand der ermittelten Zuordnung neu berechnet.

Die gesamte Iteration wird abgebrochen, falls die Änderung der Ähnlichkeit unter einen bestimmten Schwellenwert fällt oder eine Maximale Iterationsanzahl erreicht wurde. Da bei diesem Algorithmus mit jeder Wahrscheinlichkeit jedes Objekt zu jedem Cluster gehört, wird er als "weiche Clusterzuordnung" bezeichnet.

Support Vector Machine

Die Support-Vector-Machine ist ein weiterer Lernalgorithmus zu Klassifizerung von Objekten.

In der Trainingsphase werden ihm eine Menge von Trainingstupel übergeben. Dabei besitzt das erste Element xi das Trainingsbeispiel, während Element Nummer zwei, der Label-Teil, die Klassenzugehörigkeit angibt. Durch diese Beispiele der Form {(x1,l1),....(xn,ln),xiX,li{1,1}} berechnet der Algorithmus eine Hyperebene, welche die beide Klassen so voneiander trennt, daß der margin, der kleinste Abstand zur Hyperebene,  für die Beispiele beider Klassen maximiert wird.

Diese kann nun als Entscheidungsfunktion genutzt werden und teilt so Objekte zuverlässig in die entsprechende Klasse ein.

Die besondere Eigenschaft der SVM stellt der Zustand dar, daß sie von allen möglichen trennenden Hyperebenen, von denen es bei linear separierbaren Objekten i.A. unendlich viele gibt, diejenige mit der minimalen quadratischen Norm auswählt.

Da Trainingsbeispiele u.U. aufgrund von Meßfehlern (Nutzerfehler, etc) oder natürlichem Überlappen der beiden Klassen nicht stets streng linear separierbar sind, ist über eine Schlupfvariable eine geringe Verletzung der Nebenbedingungen möglich.

Die SVM kommt im folgenden Abschnitt bei Mooneys zum Einsatz.

top