Gewichtungsmethoden
Gewichtungsmethoden
Gewichtungsmethoden
Gewichtungsmethoden
Gewichtungsmethoden
Gewichtungsmethoden
Gewichtungsmethoden
Eine Ähnlichkeitsfunktion definiert für je zwei Vektoren einen reellen Ähnlichkeitswert .
Hier sollen nun Methoden vorgestellt werden, mit denen einzelne Terme in einem Dokument/Datensatz oder einer Anfrage gewichtet, also Gewichtsvektoren für Dokumente und Anfragen bestimmt werden können. Sie geben Auskunft darüber, in wieweit diese Ähnlichkeit Auswirkungen für das Gesamtergebnis besitzt.
Falls für eine Duplikatefindung keine Trainingsdaten in der Form "Duplikate" / "kein Duplikat" vorliegen, so kann die Namensübereinstimmung über bedingte Wahrscheinlichkeiten mit Hilfe frequenzbasierter Schätzungen ermittelt werden.
Dabei sieht man einen Datensatz/Dokument als ein festes Vokabular von Termen. Die Auftrittshäufigkeit einzelner Terme gibt diesen dabei eine Gewichtung welche für die Inhaltsbeschreibung nutzbar ist. Die Reihenfolge der Terme im Datensatz wird jedoch vernachlässigt.
Es sei demnach eine Menge von Datensätzen einer Entitätsklasse sowie
eine Menge von Attributen auf diesen Datensätzen.
Für jeden Datensatz sei zu jedem Attribut ein Gewicht gegeben, was manuell oder über die im Abschnitt "TF-IDF" vorgestellte Methode errechnet werden kann.
Diese Gewichte des Datensatzes lassen sich zu einem Vektor zusammenfassen. Dieser Vektor beschreibt das Dokment im Vektorraummodell: Er ist seine Repräsentation und wird Dokumentenvektor genannt.
Anfragen "Queries" werden durch einen Vektor repräsentiert und bei der Anfrage durch eine Menge gewichteter Terme dargestellt. Eine Ähnlichkeitsfunktion definiere für je zwei Vektoren einen reellen Ähnlichkeitswert .
Beim Beispiel TF-IDF ist diese Ähnlichkeitsfunktion zum Beispiel das Skalarprodukt zwischen ihren Vektorraum-Darstellungen x und y, also der Cosinus des Winkels zwischen beiden:
Der Ähnlichkeitswert gibt an, wie viele Terme sowohl im Anfrage-Term, als auch im Datensatz vorkommen. Nach diesem Ähnlichkeitswert können die Datensätze in eine Rangfolge gebracht werden. Dabei ist zu erwarten, daß Datensätze, welche viele Terme aus der Anfrage enthalten, einen oberen Rang besitzen und Datensätze mit wenigen Anfragetermen am unteren Ende zu finden sind.
Über eine damit verknüpfte Gewichtungsfunktion ist es möglich, die auftretenden Attribute nochmals feiner abzustimmen, so z.B. über Stoppwort-Listen oder Gewichtung einzelner Attribute.
Praktisch bedeutet dies, daß beispielsweise eine Übereinstimmung zweier seltener Bezeichnungen eine höhere Priorität geniessen wird, als eine Übereinstimmung zweier allgemein gängiger Bezeichnungen.
Jaccard
Für 2 Wortmengen S und T is die Jaccard-Distanz, als tokenbasierte Distanz definiert durch
In einer überschaubaren Term-Menge ist eine manuelle Gewichtung der Terme der Datensatz-Vektoren von humanen Indexierern denkbar, z.B. in Form einer Stoppwort-Liste.
Dabei werden bestimmte Terme wegen ihres allgemeinen Auftretens und fehlenden semantischen Inhalts ignoriert bzw. bestimmte Wortteile über manuell erstellte Auswahllisten mit einer Gewichtung belegt.
Per Hand entstehen dadurch neben hohem Arbeits-, Zeit- und Kostenaufwand ebenfalls Inkonsistenzen durch die subjektive Meinung und Tagesform der Personen. Daher sind halb-automatisch bzw. vollautomatisch Methoden zu nutzen.
Termgewichtungen sind unterscheidbar in globale/kontextunabhängige und lokale/kontextabhängige Faktoren. Ein lokales Kriterium für eine Gewichtung ist beispielsweise die Häufigkeit des Terms innerhalb einer Datenmenge.
Unter den globalen oder kontextabhängigen Gewichtungsfaktoren tritt die Häufigkeit eines Terms in der Sprache bzw. in einer Datensatzsammlung häufig auf.
Daraus folgt, daß eine kleine Anzahl von häufigen Wörtern einen großen Anteil der Datensammlung abdeckt und die großen Anzahl der seltenen Wörter nur einen kleinen Anteil dieser Sammlung ausmacht.
Terme mittlerer Häufigkeit sind optimal, welche zwar häufig genug sind, um genügend relevante Inhalte abzudecken, aber auch signifikant genug, um nichtrelevante Texte auszuschließen.
Anstelle der Häufigkeit von Termen kann hierbei die Dokumenten-/ oder Datensatzhäufigkeit (document frequency) verwendet werden, die Anzahl der Datensätze/Dokumente, in denen ein Term auftritt. Bei einer zufälligen Verteilung eines Wortes in einem Korpus von Datensätzen werden durch den Übergang von der Häufigkeit zur Dokumentenhäufigkeit die Häufigkeitsunterschiede besonders für häufige Terme verringert: Bei der Bestimmung der Dokumentenhäufigkeit spielt es keine Rolle, ob ein Term oft in einem Dokument vorkommt oder nur einmal.
Inverse Dokument-Frequenz
Während eine Stoppwortliste beim boolschen Retrieval also eine harte Häufigkeitsschranke für den Ausschluss setzt, läßt sich der Einfluss der Häufigkeit mit der Möglichkeit, Terme zu gewichten, differenzierter modellieren. Meistens wird dazu eine Form der so genannten inversen (oder auch invertierten) Dokumenthäufigkeit (inverted document frequency - idf) verwendet:
,
wobei wiederum die Menge der Dokumente und
die der Terme und die Anzahl der Dokumente, in denen Term vorkommt. In der Praxis wird oft die modifizierte Form oder verwendet, wobei der natürliche Logarithmus hierbei große Werte dämpft, also in diesen Formeln die Gewichte seltener Terme wieder abschwächt.
TF-IDF
Auch bei kontextabhängigen Einflussfaktoren wird vor allem die Häufigkeit eines Terms in einer Datensammlung zur Berechnung von Termgewichten herangezogen (TF). Dabei kann im Allgemeinen davon ausgegangen werden, dass häufig auftretende Terme für die inhaltliche Beschreibung wichtiger sind als solche, die nur selten auftreten. Im einfachsten Fall kann die Häufigkeit eines Terms in einer Datensammlung direkt in der Form bei als Bezeichnung für die Häufigkeit von Term ti im Datensatz aj berechnet werden. Andere Formeln beschränken die Gewichte auf ein Intervall und dämpfen den Einfluss sehr häufiger Terme, wie z.B. die Formel
Außerdem kann man die Häufigkeit eines Terms zu der des häufigsten im Text in Relation setzen und damit die unterschiedlichen Gesamttext-längen ausschalten.
wobei K den Parameter bezeichnet, mit dem bestimmt werden kann, wie groß der Einfluss der Gewichtung sein soll. K=0 verwendet nur die Häufigkeitsgewichtung, bei K=1 spielt sie keine Rolle und es wird für alle Terme das konstante Gewicht 1 vergeben.
Häufig werden lokale und globale Gewichtungen zu Formeln vom Typ verknüpft, indem die Termhäufigkeit (TF) mit der invertierten Dokumentenhäufigkeit (IDF) multipliziert wird.
Gewichtsformeln von diesem Typ werden auch als TF-IDF -Gewichtung bezeichnet.
Eine Ähnlichkeitsfunktion definiert für je zwei Vektoren einen reellen Ähnlichkeitswert .
Hier sollen nun Methoden vorgestellt werden, mit denen einzelne Terme in einem Dokument/Datensatz oder einer Anfrage gewichtet, also Gewichtsvektoren für Dokumente und Anfragen bestimmt werden können. Sie geben Auskunft darüber, in wieweit diese Ähnlichkeit Auswirkungen für das Gesamtergebnis besitzt.
Falls für eine Duplikatefindung keine Trainingsdaten in der Form "Duplikate" / "kein Duplikat" vorliegen, so kann die Namensübereinstimmung über bedingte Wahrscheinlichkeiten mit Hilfe frequenzbasierter Schätzungen ermittelt werden.
Dabei sieht man einen Datensatz/Dokument als ein festes Vokabular von Termen. Die Auftrittshäufigkeit einzelner Terme gibt diesen dabei eine Gewichtung welche für die Inhaltsbeschreibung nutzbar ist. Die Reihenfolge der Terme im Datensatz wird jedoch vernachlässigt.
Es sei demnach eine Menge von Datensätzen einer Entitätsklasse sowie
eine Menge von Attributen auf diesen Datensätzen.
Für jeden Datensatz sei zu jedem Attribut ein Gewicht gegeben, was manuell oder über die im Abschnitt "TF-IDF" vorgestellte Methode errechnet werden kann.
Diese Gewichte des Datensatzes lassen sich zu einem Vektor zusammenfassen. Dieser Vektor beschreibt das Dokment im Vektorraummodell: Er ist seine Repräsentation und wird Dokumentenvektor genannt.
Anfragen "Queries" werden durch einen Vektor repräsentiert und bei der Anfrage durch eine Menge gewichteter Terme dargestellt. Eine Ähnlichkeitsfunktion definiere für je zwei Vektoren einen reellen Ähnlichkeitswert .
Beim Beispiel TF-IDF ist diese Ähnlichkeitsfunktion zum Beispiel das Skalarprodukt zwischen ihren Vektorraum-Darstellungen x und y, also der Cosinus des Winkels zwischen beiden:
Der Ähnlichkeitswert gibt an, wie viele Terme sowohl im Anfrage-Term, als auch im Datensatz vorkommen. Nach diesem Ähnlichkeitswert können die Datensätze in eine Rangfolge gebracht werden. Dabei ist zu erwarten, daß Datensätze, welche viele Terme aus der Anfrage enthalten, einen oberen Rang besitzen und Datensätze mit wenigen Anfragetermen am unteren Ende zu finden sind.
Über eine damit verknüpfte Gewichtungsfunktion ist es möglich, die auftretenden Attribute nochmals feiner abzustimmen, so z.B. über Stoppwort-Listen oder Gewichtung einzelner Attribute.
Praktisch bedeutet dies, daß beispielsweise eine Übereinstimmung zweier seltener Bezeichnungen eine höhere Priorität geniessen wird, als eine Übereinstimmung zweier allgemein gängiger Bezeichnungen.
Jaccard
Für 2 Wortmengen S und T is die Jaccard-Distanz, als tokenbasierte Distanz definiert durch
Term-Frequenz
In einer überschaubaren Term-Menge ist eine manuelle Gewichtung der Terme der Datensatz-Vektoren von humanen Indexierern denkbar, z.B. in Form einer Stoppwort-Liste.
Dabei werden bestimmte Terme wegen ihres allgemeinen Auftretens und fehlenden semantischen Inhalts ignoriert bzw. bestimmte Wortteile über manuell erstellte Auswahllisten mit einer Gewichtung belegt.
Per Hand entstehen dadurch neben hohem Arbeits-, Zeit- und Kostenaufwand ebenfalls Inkonsistenzen durch die subjektive Meinung und Tagesform der Personen. Daher sind halb-automatisch bzw. vollautomatisch Methoden zu nutzen.
Termgewichtungen sind unterscheidbar in globale/kontextunabhängige und lokale/kontextabhängige Faktoren. Ein lokales Kriterium für eine Gewichtung ist beispielsweise die Häufigkeit des Terms innerhalb einer Datenmenge.
Unter den globalen oder kontextabhängigen Gewichtungsfaktoren tritt die Häufigkeit eines Terms in der Sprache bzw. in einer Datensatzsammlung häufig auf.
Daraus folgt, daß eine kleine Anzahl von häufigen Wörtern einen großen Anteil der Datensammlung abdeckt und die großen Anzahl der seltenen Wörter nur einen kleinen Anteil dieser Sammlung ausmacht.
Terme mittlerer Häufigkeit sind optimal, welche zwar häufig genug sind, um genügend relevante Inhalte abzudecken, aber auch signifikant genug, um nichtrelevante Texte auszuschließen.
Anstelle der Häufigkeit von Termen kann hierbei die Dokumenten-/ oder Datensatzhäufigkeit (document frequency) verwendet werden, die Anzahl der Datensätze/Dokumente, in denen ein Term auftritt. Bei einer zufälligen Verteilung eines Wortes in einem Korpus von Datensätzen werden durch den Übergang von der Häufigkeit zur Dokumentenhäufigkeit die Häufigkeitsunterschiede besonders für häufige Terme verringert: Bei der Bestimmung der Dokumentenhäufigkeit spielt es keine Rolle, ob ein Term oft in einem Dokument vorkommt oder nur einmal.
Inverse Dokument-Frequenz
Während eine Stoppwortliste beim boolschen Retrieval also eine harte Häufigkeitsschranke für den Ausschluss setzt, läßt sich der Einfluss der Häufigkeit mit der Möglichkeit, Terme zu gewichten, differenzierter modellieren. Meistens wird dazu eine Form der so genannten inversen (oder auch invertierten) Dokumenthäufigkeit (inverted document frequency - idf) verwendet:
,
wobei wiederum die Menge der Dokumente und
die der Terme und die Anzahl der Dokumente, in denen Term vorkommt. In der Praxis wird oft die modifizierte Form oder verwendet, wobei der natürliche Logarithmus hierbei große Werte dämpft, also in diesen Formeln die Gewichte seltener Terme wieder abschwächt.
TF-IDF
Auch bei kontextabhängigen Einflussfaktoren wird vor allem die Häufigkeit eines Terms in einer Datensammlung zur Berechnung von Termgewichten herangezogen (TF). Dabei kann im Allgemeinen davon ausgegangen werden, dass häufig auftretende Terme für die inhaltliche Beschreibung wichtiger sind als solche, die nur selten auftreten. Im einfachsten Fall kann die Häufigkeit eines Terms in einer Datensammlung direkt in der Form bei als Bezeichnung für die Häufigkeit von Term ti im Datensatz aj berechnet werden. Andere Formeln beschränken die Gewichte auf ein Intervall und dämpfen den Einfluss sehr häufiger Terme, wie z.B. die Formel
Außerdem kann man die Häufigkeit eines Terms zu der des häufigsten im Text in Relation setzen und damit die unterschiedlichen Gesamttext-längen ausschalten.
wobei K den Parameter bezeichnet, mit dem bestimmt werden kann, wie groß der Einfluss der Gewichtung sein soll. K=0 verwendet nur die Häufigkeitsgewichtung, bei K=1 spielt sie keine Rolle und es wird für alle Terme das konstante Gewicht 1 vergeben.
Häufig werden lokale und globale Gewichtungen zu Formeln vom Typ verknüpft, indem die Termhäufigkeit (TF) mit der invertierten Dokumentenhäufigkeit (IDF) multipliziert wird.
Gewichtsformeln von diesem Typ werden auch als TF-IDF -Gewichtung bezeichnet.
Eine Ähnlichkeitsfunktion definiert für je zwei Vektoren einen reellen Ähnlichkeitswert .
Hier sollen nun Methoden vorgestellt werden, mit denen einzelne Terme in einem Dokument/Datensatz oder einer Anfrage gewichtet, also Gewichtsvektoren für Dokumente und Anfragen bestimmt werden können. Sie geben Auskunft darüber, in wieweit diese Ähnlichkeit Auswirkungen für das Gesamtergebnis besitzt.
Falls für eine Duplikatefindung keine Trainingsdaten in der Form "Duplikate" / "kein Duplikat" vorliegen, so kann die Namensübereinstimmung über bedingte Wahrscheinlichkeiten mit Hilfe frequenzbasierter Schätzungen ermittelt werden.
Dabei sieht man einen Datensatz/Dokument als ein festes Vokabular von Termen. Die Auftrittshäufigkeit einzelner Terme gibt diesen dabei eine Gewichtung welche für die Inhaltsbeschreibung nutzbar ist. Die Reihenfolge der Terme im Datensatz wird jedoch vernachlässigt.
Es sei demnach eine Menge von Datensätzen einer Entitätsklasse sowie
eine Menge von Attributen auf diesen Datensätzen.
Für jeden Datensatz sei zu jedem Attribut ein Gewicht gegeben, was manuell oder über die im Abschnitt "TF-IDF" vorgestellte Methode errechnet werden kann.
Diese Gewichte des Datensatzes lassen sich zu einem Vektor zusammenfassen. Dieser Vektor beschreibt das Dokment im Vektorraummodell: Er ist seine Repräsentation und wird Dokumentenvektor genannt.
Anfragen "Queries" werden durch einen Vektor repräsentiert und bei der Anfrage durch eine Menge gewichteter Terme dargestellt. Eine Ähnlichkeitsfunktion definiere für je zwei Vektoren einen reellen Ähnlichkeitswert .
Beim Beispiel TF-IDF ist diese Ähnlichkeitsfunktion zum Beispiel das Skalarprodukt zwischen ihren Vektorraum-Darstellungen x und y, also der Cosinus des Winkels zwischen beiden:
Der Ähnlichkeitswert gibt an, wie viele Terme sowohl im Anfrage-Term, als auch im Datensatz vorkommen. Nach diesem Ähnlichkeitswert können die Datensätze in eine Rangfolge gebracht werden. Dabei ist zu erwarten, daß Datensätze, welche viele Terme aus der Anfrage enthalten, einen oberen Rang besitzen und Datensätze mit wenigen Anfragetermen am unteren Ende zu finden sind.
Über eine damit verknüpfte Gewichtungsfunktion ist es möglich, die auftretenden Attribute nochmals feiner abzustimmen, so z.B. über Stoppwort-Listen oder Gewichtung einzelner Attribute.
Praktisch bedeutet dies, daß beispielsweise eine Übereinstimmung zweier seltener Bezeichnungen eine höhere Priorität geniessen wird, als eine Übereinstimmung zweier allgemein gängiger Bezeichnungen.
Jaccard
Für 2 Wortmengen S und T is die Jaccard-Distanz, als tokenbasierte Distanz definiert durch
Term-Frequenz
In einer überschaubaren Term-Menge ist eine manuelle Gewichtung der Terme der Datensatz-Vektoren von humanen Indexierern denkbar, z.B. in Form einer Stoppwort-Liste.
Dabei werden bestimmte Terme wegen ihres allgemeinen Auftretens und fehlenden semantischen Inhalts ignoriert bzw. bestimmte Wortteile über manuell erstellte Auswahllisten mit einer Gewichtung belegt.
Per Hand entstehen dadurch neben hohem Arbeits-, Zeit- und Kostenaufwand ebenfalls Inkonsistenzen durch die subjektive Meinung und Tagesform der Personen. Daher sind halb-automatisch bzw. vollautomatisch Methoden zu nutzen.
Termgewichtungen sind unterscheidbar in globale/kontextunabhängige und lokale/kontextabhängige Faktoren. Ein lokales Kriterium für eine Gewichtung ist beispielsweise die Häufigkeit des Terms innerhalb einer Datenmenge.
Unter den globalen oder kontextabhängigen Gewichtungsfaktoren tritt die Häufigkeit eines Terms in der Sprache bzw. in einer Datensatzsammlung häufig auf.
Daraus folgt, daß eine kleine Anzahl von häufigen Wörtern einen großen Anteil der Datensammlung abdeckt und die großen Anzahl der seltenen Wörter nur einen kleinen Anteil dieser Sammlung ausmacht.
Terme mittlerer Häufigkeit sind optimal, welche zwar häufig genug sind, um genügend relevante Inhalte abzudecken, aber auch signifikant genug, um nichtrelevante Texte auszuschließen.
Anstelle der Häufigkeit von Termen kann hierbei die Dokumenten-/ oder Datensatzhäufigkeit (document frequency) verwendet werden, die Anzahl der Datensätze/Dokumente, in denen ein Term auftritt. Bei einer zufälligen Verteilung eines Wortes in einem Korpus von Datensätzen werden durch den Übergang von der Häufigkeit zur Dokumentenhäufigkeit die Häufigkeitsunterschiede besonders für häufige Terme verringert: Bei der Bestimmung der Dokumentenhäufigkeit spielt es keine Rolle, ob ein Term oft in einem Dokument vorkommt oder nur einmal.
Inverse Dokument-Frequenz
Während eine Stoppwortliste beim boolschen Retrieval also eine harte Häufigkeitsschranke für den Ausschluss setzt, läßt sich der Einfluss der Häufigkeit mit der Möglichkeit, Terme zu gewichten, differenzierter modellieren. Meistens wird dazu eine Form der so genannten inversen (oder auch invertierten) Dokumenthäufigkeit (inverted document frequency - idf) verwendet:
,
wobei wiederum die Menge der Dokumente und
die der Terme und die Anzahl der Dokumente, in denen Term vorkommt. In der Praxis wird oft die modifizierte Form oder verwendet, wobei der natürliche Logarithmus hierbei große Werte dämpft, also in diesen Formeln die Gewichte seltener Terme wieder abschwächt.
TF-IDF
Auch bei kontextabhängigen Einflussfaktoren wird vor allem die Häufigkeit eines Terms in einer Datensammlung zur Berechnung von Termgewichten herangezogen (TF). Dabei kann im Allgemeinen davon ausgegangen werden, dass häufig auftretende Terme für die inhaltliche Beschreibung wichtiger sind als solche, die nur selten auftreten. Im einfachsten Fall kann die Häufigkeit eines Terms in einer Datensammlung direkt in der Form bei als Bezeichnung für die Häufigkeit von Term ti im Datensatz aj berechnet werden. Andere Formeln beschränken die Gewichte auf ein Intervall und dämpfen den Einfluss sehr häufiger Terme, wie z.B. die Formel
Außerdem kann man die Häufigkeit eines Terms zu der des häufigsten im Text in Relation setzen und damit die unterschiedlichen Gesamttext-längen ausschalten.
wobei K den Parameter bezeichnet, mit dem bestimmt werden kann, wie groß der Einfluss der Gewichtung sein soll. K=0 verwendet nur die Häufigkeitsgewichtung, bei K=1 spielt sie keine Rolle und es wird für alle Terme das konstante Gewicht 1 vergeben.
Häufig werden lokale und globale Gewichtungen zu Formeln vom Typ verknüpft, indem die Termhäufigkeit (TF) mit der invertierten Dokumentenhäufigkeit (IDF) multipliziert wird.
Gewichtsformeln von diesem Typ werden auch als TF-IDF -Gewichtung bezeichnet.
Eine Ähnlichkeitsfunktion definiert für je zwei Vektoren einen reellen Ähnlichkeitswert .
Hier sollen nun Methoden vorgestellt werden, mit denen einzelne Terme in einem Dokument/Datensatz oder einer Anfrage gewichtet, also Gewichtsvektoren für Dokumente und Anfragen bestimmt werden können. Sie geben Auskunft darüber, in wieweit diese Ähnlichkeit Auswirkungen für das Gesamtergebnis besitzt.
Falls für eine Duplikatefindung keine Trainingsdaten in der Form "Duplikate" / "kein Duplikat" vorliegen, so kann die Namensübereinstimmung über bedingte Wahrscheinlichkeiten mit Hilfe frequenzbasierter Schätzungen ermittelt werden.
Dabei sieht man einen Datensatz/Dokument als ein festes Vokabular von Termen. Die Auftrittshäufigkeit einzelner Terme gibt diesen dabei eine Gewichtung welche für die Inhaltsbeschreibung nutzbar ist. Die Reihenfolge der Terme im Datensatz wird jedoch vernachlässigt.
Es sei demnach eine Menge von Datensätzen einer Entitätsklasse sowie
eine Menge von Attributen auf diesen Datensätzen.
Für jeden Datensatz sei zu jedem Attribut ein Gewicht gegeben, was manuell oder über die im Abschnitt "TF-IDF" vorgestellte Methode errechnet werden kann.
Diese Gewichte des Datensatzes lassen sich zu einem Vektor zusammenfassen. Dieser Vektor beschreibt das Dokment im Vektorraummodell: Er ist seine Repräsentation und wird Dokumentenvektor genannt.
Anfragen "Queries" werden durch einen Vektor repräsentiert und bei der Anfrage durch eine Menge gewichteter Terme dargestellt. Eine Ähnlichkeitsfunktion definiere für je zwei Vektoren einen reellen Ähnlichkeitswert .
Beim Beispiel TF-IDF ist diese Ähnlichkeitsfunktion zum Beispiel das Skalarprodukt zwischen ihren Vektorraum-Darstellungen x und y, also der Cosinus des Winkels zwischen beiden:
Der Ähnlichkeitswert gibt an, wie viele Terme sowohl im Anfrage-Term, als auch im Datensatz vorkommen. Nach diesem Ähnlichkeitswert können die Datensätze in eine Rangfolge gebracht werden. Dabei ist zu erwarten, daß Datensätze, welche viele Terme aus der Anfrage enthalten, einen oberen Rang besitzen und Datensätze mit wenigen Anfragetermen am unteren Ende zu finden sind.
Über eine damit verknüpfte Gewichtungsfunktion ist es möglich, die auftretenden Attribute nochmals feiner abzustimmen, so z.B. über Stoppwort-Listen oder Gewichtung einzelner Attribute.
Praktisch bedeutet dies, daß beispielsweise eine Übereinstimmung zweier seltener Bezeichnungen eine höhere Priorität geniessen wird, als eine Übereinstimmung zweier allgemein gängiger Bezeichnungen.
Jaccard
Für 2 Wortmengen S und T is die Jaccard-Distanz, als tokenbasierte Distanz definiert durch
Term-Frequenz
In einer überschaubaren Term-Menge ist eine manuelle Gewichtung der Terme der Datensatz-Vektoren von humanen Indexierern denkbar, z.B. in Form einer Stoppwort-Liste.
Dabei werden bestimmte Terme wegen ihres allgemeinen Auftretens und fehlenden semantischen Inhalts ignoriert bzw. bestimmte Wortteile über manuell erstellte Auswahllisten mit einer Gewichtung belegt.
Per Hand entstehen dadurch neben hohem Arbeits-, Zeit- und Kostenaufwand ebenfalls Inkonsistenzen durch die subjektive Meinung und Tagesform der Personen. Daher sind halb-automatisch bzw. vollautomatisch Methoden zu nutzen.
Termgewichtungen sind unterscheidbar in globale/kontextunabhängige und lokale/kontextabhängige Faktoren. Ein lokales Kriterium für eine Gewichtung ist beispielsweise die Häufigkeit des Terms innerhalb einer Datenmenge.
Unter den globalen oder kontextabhängigen Gewichtungsfaktoren tritt die Häufigkeit eines Terms in der Sprache bzw. in einer Datensatzsammlung häufig auf.
Daraus folgt, daß eine kleine Anzahl von häufigen Wörtern einen großen Anteil der Datensammlung abdeckt und die großen Anzahl der seltenen Wörter nur einen kleinen Anteil dieser Sammlung ausmacht.
Terme mittlerer Häufigkeit sind optimal, welche zwar häufig genug sind, um genügend relevante Inhalte abzudecken, aber auch signifikant genug, um nichtrelevante Texte auszuschließen.
Anstelle der Häufigkeit von Termen kann hierbei die Dokumenten-/ oder Datensatzhäufigkeit (document frequency) verwendet werden, die Anzahl der Datensätze/Dokumente, in denen ein Term auftritt. Bei einer zufälligen Verteilung eines Wortes in einem Korpus von Datensätzen werden durch den Übergang von der Häufigkeit zur Dokumentenhäufigkeit die Häufigkeitsunterschiede besonders für häufige Terme verringert: Bei der Bestimmung der Dokumentenhäufigkeit spielt es keine Rolle, ob ein Term oft in einem Dokument vorkommt oder nur einmal.
Inverse Dokument-Frequenz
Während eine Stoppwortliste beim boolschen Retrieval also eine harte Häufigkeitsschranke für den Ausschluss setzt, läßt sich der Einfluss der Häufigkeit mit der Möglichkeit, Terme zu gewichten, differenzierter modellieren. Meistens wird dazu eine Form der so genannten inversen (oder auch invertierten) Dokumenthäufigkeit (inverted document frequency - idf) verwendet:
,
wobei wiederum die Menge der Dokumente und
die der Terme und die Anzahl der Dokumente, in denen Term vorkommt. In der Praxis wird oft die modifizierte Form oder verwendet, wobei der natürliche Logarithmus hierbei große Werte dämpft, also in diesen Formeln die Gewichte seltener Terme wieder abschwächt.
TF-IDF
Auch bei kontextabhängigen Einflussfaktoren wird vor allem die Häufigkeit eines Terms in einer Datensammlung zur Berechnung von Termgewichten herangezogen (TF). Dabei kann im Allgemeinen davon ausgegangen werden, dass häufig auftretende Terme für die inhaltliche Beschreibung wichtiger sind als solche, die nur selten auftreten. Im einfachsten Fall kann die Häufigkeit eines Terms in einer Datensammlung direkt in der Form bei als Bezeichnung für die Häufigkeit von Term ti im Datensatz aj berechnet werden. Andere Formeln beschränken die Gewichte auf ein Intervall und dämpfen den Einfluss sehr häufiger Terme, wie z.B. die Formel
Außerdem kann man die Häufigkeit eines Terms zu der des häufigsten im Text in Relation setzen und damit die unterschiedlichen Gesamttext-längen ausschalten.
wobei K den Parameter bezeichnet, mit dem bestimmt werden kann, wie groß der Einfluss der Gewichtung sein soll. K=0 verwendet nur die Häufigkeitsgewichtung, bei K=1 spielt sie keine Rolle und es wird für alle Terme das konstante Gewicht 1 vergeben.
Häufig werden lokale und globale Gewichtungen zu Formeln vom Typ verknüpft, indem die Termhäufigkeit (TF) mit der invertierten Dokumentenhäufigkeit (IDF) multipliziert wird.
Gewichtsformeln von diesem Typ werden auch als TF-IDF -Gewichtung bezeichnet.
Eine Ähnlichkeitsfunktion definiert für je zwei Vektoren einen reellen Ähnlichkeitswert .
Hier sollen nun Methoden vorgestellt werden, mit denen einzelne Terme in einem Dokument/Datensatz oder einer Anfrage gewichtet, also Gewichtsvektoren für Dokumente und Anfragen bestimmt werden können. Sie geben Auskunft darüber, in wieweit diese Ähnlichkeit Auswirkungen für das Gesamtergebnis besitzt.
Falls für eine Duplikatefindung keine Trainingsdaten in der Form "Duplikate" / "kein Duplikat" vorliegen, so kann die Namensübereinstimmung über bedingte Wahrscheinlichkeiten mit Hilfe frequenzbasierter Schätzungen ermittelt werden.
Dabei sieht man einen Datensatz/Dokument als ein festes Vokabular von Termen. Die Auftrittshäufigkeit einzelner Terme gibt diesen dabei eine Gewichtung welche für die Inhaltsbeschreibung nutzbar ist. Die Reihenfolge der Terme im Datensatz wird jedoch vernachlässigt.
Es sei demnach eine Menge von Datensätzen einer Entitätsklasse sowie
eine Menge von Attributen auf diesen Datensätzen.
Für jeden Datensatz sei zu jedem Attribut ein Gewicht gegeben, was manuell oder über die im Abschnitt "TF-IDF" vorgestellte Methode errechnet werden kann.
Diese Gewichte des Datensatzes lassen sich zu einem Vektor zusammenfassen. Dieser Vektor beschreibt das Dokment im Vektorraummodell: Er ist seine Repräsentation und wird Dokumentenvektor genannt.
Anfragen "Queries" werden durch einen Vektor repräsentiert und bei der Anfrage durch eine Menge gewichteter Terme dargestellt. Eine Ähnlichkeitsfunktion definiere für je zwei Vektoren einen reellen Ähnlichkeitswert .
Beim Beispiel TF-IDF ist diese Ähnlichkeitsfunktion zum Beispiel das Skalarprodukt zwischen ihren Vektorraum-Darstellungen x und y, also der Cosinus des Winkels zwischen beiden:
Der Ähnlichkeitswert gibt an, wie viele Terme sowohl im Anfrage-Term, als auch im Datensatz vorkommen. Nach diesem Ähnlichkeitswert können die Datensätze in eine Rangfolge gebracht werden. Dabei ist zu erwarten, daß Datensätze, welche viele Terme aus der Anfrage enthalten, einen oberen Rang besitzen und Datensätze mit wenigen Anfragetermen am unteren Ende zu finden sind.
Über eine damit verknüpfte Gewichtungsfunktion ist es möglich, die auftretenden Attribute nochmals feiner abzustimmen, so z.B. über Stoppwort-Listen oder Gewichtung einzelner Attribute.
Praktisch bedeutet dies, daß beispielsweise eine Übereinstimmung zweier seltener Bezeichnungen eine höhere Priorität geniessen wird, als eine Übereinstimmung zweier allgemein gängiger Bezeichnungen.
Jaccard
Für 2 Wortmengen S und T is die Jaccard-Distanz, als tokenbasierte Distanz definiert durch
Term-Frequenz
In einer überschaubaren Term-Menge ist eine manuelle Gewichtung der Terme der Datensatz-Vektoren von humanen Indexierern denkbar, z.B. in Form einer Stoppwort-Liste.
Dabei werden bestimmte Terme wegen ihres allgemeinen Auftretens und fehlenden semantischen Inhalts ignoriert bzw. bestimmte Wortteile über manuell erstellte Auswahllisten mit einer Gewichtung belegt.
Per Hand entstehen dadurch neben hohem Arbeits-, Zeit- und Kostenaufwand ebenfalls Inkonsistenzen durch die subjektive Meinung und Tagesform der Personen. Daher sind halb-automatisch bzw. vollautomatisch Methoden zu nutzen.
Termgewichtungen sind unterscheidbar in globale/kontextunabhängige und lokale/kontextabhängige Faktoren. Ein lokales Kriterium für eine Gewichtung ist beispielsweise die Häufigkeit des Terms innerhalb einer Datenmenge.
Unter den globalen oder kontextabhängigen Gewichtungsfaktoren tritt die Häufigkeit eines Terms in der Sprache bzw. in einer Datensatzsammlung häufig auf.
Daraus folgt, daß eine kleine Anzahl von häufigen Wörtern einen großen Anteil der Datensammlung abdeckt und die großen Anzahl der seltenen Wörter nur einen kleinen Anteil dieser Sammlung ausmacht.
Terme mittlerer Häufigkeit sind optimal, welche zwar häufig genug sind, um genügend relevante Inhalte abzudecken, aber auch signifikant genug, um nichtrelevante Texte auszuschließen.
Anstelle der Häufigkeit von Termen kann hierbei die Dokumenten-/ oder Datensatzhäufigkeit (document frequency) verwendet werden, die Anzahl der Datensätze/Dokumente, in denen ein Term auftritt. Bei einer zufälligen Verteilung eines Wortes in einem Korpus von Datensätzen werden durch den Übergang von der Häufigkeit zur Dokumentenhäufigkeit die Häufigkeitsunterschiede besonders für häufige Terme verringert: Bei der Bestimmung der Dokumentenhäufigkeit spielt es keine Rolle, ob ein Term oft in einem Dokument vorkommt oder nur einmal.
Inverse Dokument-Frequenz
Während eine Stoppwortliste beim boolschen Retrieval also eine harte Häufigkeitsschranke für den Ausschluss setzt, läßt sich der Einfluss der Häufigkeit mit der Möglichkeit, Terme zu gewichten, differenzierter modellieren. Meistens wird dazu eine Form der so genannten inversen (oder auch invertierten) Dokumenthäufigkeit (inverted document frequency - idf) verwendet:
,
wobei wiederum die Menge der Dokumente und
die der Terme und die Anzahl der Dokumente, in denen Term vorkommt. In der Praxis wird oft die modifizierte Form oder verwendet, wobei der natürliche Logarithmus hierbei große Werte dämpft, also in diesen Formeln die Gewichte seltener Terme wieder abschwächt.
TF-IDF
Auch bei kontextabhängigen Einflussfaktoren wird vor allem die Häufigkeit eines Terms in einer Datensammlung zur Berechnung von Termgewichten herangezogen (TF). Dabei kann im Allgemeinen davon ausgegangen werden, dass häufig auftretende Terme für die inhaltliche Beschreibung wichtiger sind als solche, die nur selten auftreten. Im einfachsten Fall kann die Häufigkeit eines Terms in einer Datensammlung direkt in der Form bei als Bezeichnung für die Häufigkeit von Term ti im Datensatz aj berechnet werden. Andere Formeln beschränken die Gewichte auf ein Intervall und dämpfen den Einfluss sehr häufiger Terme, wie z.B. die Formel
Außerdem kann man die Häufigkeit eines Terms zu der des häufigsten im Text in Relation setzen und damit die unterschiedlichen Gesamttext-längen ausschalten.
wobei K den Parameter bezeichnet, mit dem bestimmt werden kann, wie groß der Einfluss der Gewichtung sein soll. K=0 verwendet nur die Häufigkeitsgewichtung, bei K=1 spielt sie keine Rolle und es wird für alle Terme das konstante Gewicht 1 vergeben.
Häufig werden lokale und globale Gewichtungen zu Formeln vom Typ verknüpft, indem die Termhäufigkeit (TF) mit der invertierten Dokumentenhäufigkeit (IDF) multipliziert wird.
Gewichtsformeln von diesem Typ werden auch als TF-IDF -Gewichtung bezeichnet.
Eine Ähnlichkeitsfunktion definiert für je zwei Vektoren einen reellen Ähnlichkeitswert .
Hier sollen nun Methoden vorgestellt werden, mit denen einzelne Terme in einem Dokument/Datensatz oder einer Anfrage gewichtet, also Gewichtsvektoren für Dokumente und Anfragen bestimmt werden können. Sie geben Auskunft darüber, in wieweit diese Ähnlichkeit Auswirkungen für das Gesamtergebnis besitzt.
Falls für eine Duplikatefindung keine Trainingsdaten in der Form "Duplikate" / "kein Duplikat" vorliegen, so kann die Namensübereinstimmung über bedingte Wahrscheinlichkeiten mit Hilfe frequenzbasierter Schätzungen ermittelt werden.
Dabei sieht man einen Datensatz/Dokument als ein festes Vokabular von Termen. Die Auftrittshäufigkeit einzelner Terme gibt diesen dabei eine Gewichtung welche für die Inhaltsbeschreibung nutzbar ist. Die Reihenfolge der Terme im Datensatz wird jedoch vernachlässigt.
Es sei demnach eine Menge von Datensätzen einer Entitätsklasse sowie
eine Menge von Attributen auf diesen Datensätzen.
Für jeden Datensatz sei zu jedem Attribut ein Gewicht gegeben, was manuell oder über die im Abschnitt "TF-IDF" vorgestellte Methode errechnet werden kann.
Diese Gewichte des Datensatzes lassen sich zu einem Vektor zusammenfassen. Dieser Vektor beschreibt das Dokment im Vektorraummodell: Er ist seine Repräsentation und wird Dokumentenvektor genannt.
Anfragen "Queries" werden durch einen Vektor repräsentiert und bei der Anfrage durch eine Menge gewichteter Terme dargestellt. Eine Ähnlichkeitsfunktion definiere für je zwei Vektoren einen reellen Ähnlichkeitswert .
Beim Beispiel TF-IDF ist diese Ähnlichkeitsfunktion zum Beispiel das Skalarprodukt zwischen ihren Vektorraum-Darstellungen x und y, also der Cosinus des Winkels zwischen beiden:
Der Ähnlichkeitswert gibt an, wie viele Terme sowohl im Anfrage-Term, als auch im Datensatz vorkommen. Nach diesem Ähnlichkeitswert können die Datensätze in eine Rangfolge gebracht werden. Dabei ist zu erwarten, daß Datensätze, welche viele Terme aus der Anfrage enthalten, einen oberen Rang besitzen und Datensätze mit wenigen Anfragetermen am unteren Ende zu finden sind.
Über eine damit verknüpfte Gewichtungsfunktion ist es möglich, die auftretenden Attribute nochmals feiner abzustimmen, so z.B. über Stoppwort-Listen oder Gewichtung einzelner Attribute.
Praktisch bedeutet dies, daß beispielsweise eine Übereinstimmung zweier seltener Bezeichnungen eine höhere Priorität geniessen wird, als eine Übereinstimmung zweier allgemein gängiger Bezeichnungen.
Jaccard
Für 2 Wortmengen S und T is die Jaccard-Distanz, als tokenbasierte Distanz definiert durch
Term-Frequenz
In einer überschaubaren Term-Menge ist eine manuelle Gewichtung der Terme der Datensatz-Vektoren von humanen Indexierern denkbar, z.B. in Form einer Stoppwort-Liste.
Dabei werden bestimmte Terme wegen ihres allgemeinen Auftretens und fehlenden semantischen Inhalts ignoriert bzw. bestimmte Wortteile über manuell erstellte Auswahllisten mit einer Gewichtung belegt.
Per Hand entstehen dadurch neben hohem Arbeits-, Zeit- und Kostenaufwand ebenfalls Inkonsistenzen durch die subjektive Meinung und Tagesform der Personen. Daher sind halb-automatisch bzw. vollautomatisch Methoden zu nutzen.
Termgewichtungen sind unterscheidbar in globale/kontextunabhängige und lokale/kontextabhängige Faktoren. Ein lokales Kriterium für eine Gewichtung ist beispielsweise die Häufigkeit des Terms innerhalb einer Datenmenge.
Unter den globalen oder kontextabhängigen Gewichtungsfaktoren tritt die Häufigkeit eines Terms in der Sprache bzw. in einer Datensatzsammlung häufig auf.
Daraus folgt, daß eine kleine Anzahl von häufigen Wörtern einen großen Anteil der Datensammlung abdeckt und die großen Anzahl der seltenen Wörter nur einen kleinen Anteil dieser Sammlung ausmacht.
Terme mittlerer Häufigkeit sind optimal, welche zwar häufig genug sind, um genügend relevante Inhalte abzudecken, aber auch signifikant genug, um nichtrelevante Texte auszuschließen.
Anstelle der Häufigkeit von Termen kann hierbei die Dokumenten-/ oder Datensatzhäufigkeit (document frequency) verwendet werden, die Anzahl der Datensätze/Dokumente, in denen ein Term auftritt. Bei einer zufälligen Verteilung eines Wortes in einem Korpus von Datensätzen werden durch den Übergang von der Häufigkeit zur Dokumentenhäufigkeit die Häufigkeitsunterschiede besonders für häufige Terme verringert: Bei der Bestimmung der Dokumentenhäufigkeit spielt es keine Rolle, ob ein Term oft in einem Dokument vorkommt oder nur einmal.
Inverse Dokument-Frequenz
Während eine Stoppwortliste beim boolschen Retrieval also eine harte Häufigkeitsschranke für den Ausschluss setzt, läßt sich der Einfluss der Häufigkeit mit der Möglichkeit, Terme zu gewichten, differenzierter modellieren. Meistens wird dazu eine Form der so genannten inversen (oder auch invertierten) Dokumenthäufigkeit (inverted document frequency - idf) verwendet:
,
wobei wiederum die Menge der Dokumente und
die der Terme und die Anzahl der Dokumente, in denen Term vorkommt. In der Praxis wird oft die modifizierte Form oder verwendet, wobei der natürliche Logarithmus hierbei große Werte dämpft, also in diesen Formeln die Gewichte seltener Terme wieder abschwächt.
TF-IDF
Auch bei kontextabhängigen Einflussfaktoren wird vor allem die Häufigkeit eines Terms in einer Datensammlung zur Berechnung von Termgewichten herangezogen (TF). Dabei kann im Allgemeinen davon ausgegangen werden, dass häufig auftretende Terme für die inhaltliche Beschreibung wichtiger sind als solche, die nur selten auftreten. Im einfachsten Fall kann die Häufigkeit eines Terms in einer Datensammlung direkt in der Form bei als Bezeichnung für die Häufigkeit von Term ti im Datensatz aj berechnet werden. Andere Formeln beschränken die Gewichte auf ein Intervall und dämpfen den Einfluss sehr häufiger Terme, wie z.B. die Formel
Außerdem kann man die Häufigkeit eines Terms zu der des häufigsten im Text in Relation setzen und damit die unterschiedlichen Gesamttext-längen ausschalten.
wobei K den Parameter bezeichnet, mit dem bestimmt werden kann, wie groß der Einfluss der Gewichtung sein soll. K=0 verwendet nur die Häufigkeitsgewichtung, bei K=1 spielt sie keine Rolle und es wird für alle Terme das konstante Gewicht 1 vergeben.
Häufig werden lokale und globale Gewichtungen zu Formeln vom Typ verknüpft, indem die Termhäufigkeit (TF) mit der invertierten Dokumentenhäufigkeit (IDF) multipliziert wird.
Gewichtsformeln von diesem Typ werden auch als TF-IDF -Gewichtung bezeichnet.
Eine Ähnlichkeitsfunktion definiert für je zwei Vektoren einen reellen Ähnlichkeitswert .
Hier sollen nun Methoden vorgestellt werden, mit denen einzelne Terme in einem Dokument/Datensatz oder einer Anfrage gewichtet, also Gewichtsvektoren für Dokumente und Anfragen bestimmt werden können. Sie geben Auskunft darüber, in wieweit diese Ähnlichkeit Auswirkungen für das Gesamtergebnis besitzt.
Falls für eine Duplikatefindung keine Trainingsdaten in der Form "Duplikate" / "kein Duplikat" vorliegen, so kann die Namensübereinstimmung über bedingte Wahrscheinlichkeiten mit Hilfe frequenzbasierter Schätzungen ermittelt werden.
Dabei sieht man einen Datensatz/Dokument als ein festes Vokabular von Termen. Die Auftrittshäufigkeit einzelner Terme gibt diesen dabei eine Gewichtung welche für die Inhaltsbeschreibung nutzbar ist. Die Reihenfolge der Terme im Datensatz wird jedoch vernachlässigt.
Es sei demnach eine Menge von Datensätzen einer Entitätsklasse sowie
eine Menge von Attributen auf diesen Datensätzen.
Für jeden Datensatz sei zu jedem Attribut ein Gewicht gegeben, was manuell oder über die im Abschnitt "TF-IDF" vorgestellte Methode errechnet werden kann.
Diese Gewichte des Datensatzes lassen sich zu einem Vektor zusammenfassen. Dieser Vektor beschreibt das Dokment im Vektorraummodell: Er ist seine Repräsentation und wird Dokumentenvektor genannt.
Anfragen "Queries" werden durch einen Vektor repräsentiert und bei der Anfrage durch eine Menge gewichteter Terme dargestellt. Eine Ähnlichkeitsfunktion definiere für je zwei Vektoren einen reellen Ähnlichkeitswert .
Beim Beispiel TF-IDF ist diese Ähnlichkeitsfunktion zum Beispiel das Skalarprodukt zwischen ihren Vektorraum-Darstellungen x und y, also der Cosinus des Winkels zwischen beiden:
Der Ähnlichkeitswert gibt an, wie viele Terme sowohl im Anfrage-Term, als auch im Datensatz vorkommen. Nach diesem Ähnlichkeitswert können die Datensätze in eine Rangfolge gebracht werden. Dabei ist zu erwarten, daß Datensätze, welche viele Terme aus der Anfrage enthalten, einen oberen Rang besitzen und Datensätze mit wenigen Anfragetermen am unteren Ende zu finden sind.
Über eine damit verknüpfte Gewichtungsfunktion ist es möglich, die auftretenden Attribute nochmals feiner abzustimmen, so z.B. über Stoppwort-Listen oder Gewichtung einzelner Attribute.
Praktisch bedeutet dies, daß beispielsweise eine Übereinstimmung zweier seltener Bezeichnungen eine höhere Priorität geniessen wird, als eine Übereinstimmung zweier allgemein gängiger Bezeichnungen.
Jaccard
Für 2 Wortmengen S und T is die Jaccard-Distanz, als tokenbasierte Distanz definiert durch
Term-Frequenz
In einer überschaubaren Term-Menge ist eine manuelle Gewichtung der Terme der Datensatz-Vektoren von humanen Indexierern denkbar, z.B. in Form einer Stoppwort-Liste.
Dabei werden bestimmte Terme wegen ihres allgemeinen Auftretens und fehlenden semantischen Inhalts ignoriert bzw. bestimmte Wortteile über manuell erstellte Auswahllisten mit einer Gewichtung belegt.
Per Hand entstehen dadurch neben hohem Arbeits-, Zeit- und Kostenaufwand ebenfalls Inkonsistenzen durch die subjektive Meinung und Tagesform der Personen. Daher sind halb-automatisch bzw. vollautomatisch Methoden zu nutzen.
Termgewichtungen sind unterscheidbar in globale/kontextunabhängige und lokale/kontextabhängige Faktoren. Ein lokales Kriterium für eine Gewichtung ist beispielsweise die Häufigkeit des Terms innerhalb einer Datenmenge.
Unter den globalen oder kontextabhängigen Gewichtungsfaktoren tritt die Häufigkeit eines Terms in der Sprache bzw. in einer Datensatzsammlung häufig auf.
Daraus folgt, daß eine kleine Anzahl von häufigen Wörtern einen großen Anteil der Datensammlung abdeckt und die großen Anzahl der seltenen Wörter nur einen kleinen Anteil dieser Sammlung ausmacht.
Terme mittlerer Häufigkeit sind optimal, welche zwar häufig genug sind, um genügend relevante Inhalte abzudecken, aber auch signifikant genug, um nichtrelevante Texte auszuschließen.
Anstelle der Häufigkeit von Termen kann hierbei die Dokumenten-/ oder Datensatzhäufigkeit (document frequency) verwendet werden, die Anzahl der Datensätze/Dokumente, in denen ein Term auftritt. Bei einer zufälligen Verteilung eines Wortes in einem Korpus von Datensätzen werden durch den Übergang von der Häufigkeit zur Dokumentenhäufigkeit die Häufigkeitsunterschiede besonders für häufige Terme verringert: Bei der Bestimmung der Dokumentenhäufigkeit spielt es keine Rolle, ob ein Term oft in einem Dokument vorkommt oder nur einmal.
Inverse Dokument-Frequenz
Während eine Stoppwortliste beim boolschen Retrieval also eine harte Häufigkeitsschranke für den Ausschluss setzt, läßt sich der Einfluss der Häufigkeit mit der Möglichkeit, Terme zu gewichten, differenzierter modellieren. Meistens wird dazu eine Form der so genannten inversen (oder auch invertierten) Dokumenthäufigkeit (inverted document frequency - idf) verwendet:
,
wobei wiederum die Menge der Dokumente und
die der Terme und die Anzahl der Dokumente, in denen Term vorkommt. In der Praxis wird oft die modifizierte Form oder verwendet, wobei der natürliche Logarithmus hierbei große Werte dämpft, also in diesen Formeln die Gewichte seltener Terme wieder abschwächt.
TF-IDF
Auch bei kontextabhängigen Einflussfaktoren wird vor allem die Häufigkeit eines Terms in einer Datensammlung zur Berechnung von Termgewichten herangezogen (TF). Dabei kann im Allgemeinen davon ausgegangen werden, dass häufig auftretende Terme für die inhaltliche Beschreibung wichtiger sind als solche, die nur selten auftreten. Im einfachsten Fall kann die Häufigkeit eines Terms in einer Datensammlung direkt in der Form bei als Bezeichnung für die Häufigkeit von Term ti im Datensatz aj berechnet werden. Andere Formeln beschränken die Gewichte auf ein Intervall und dämpfen den Einfluss sehr häufiger Terme, wie z.B. die Formel
Außerdem kann man die Häufigkeit eines Terms zu der des häufigsten im Text in Relation setzen und damit die unterschiedlichen Gesamttext-längen ausschalten.
wobei K den Parameter bezeichnet, mit dem bestimmt werden kann, wie groß der Einfluss der Gewichtung sein soll. K=0 verwendet nur die Häufigkeitsgewichtung, bei K=1 spielt sie keine Rolle und es wird für alle Terme das konstante Gewicht 1 vergeben.
Häufig werden lokale und globale Gewichtungen zu Formeln vom Typ verknüpft, indem die Termhäufigkeit (TF) mit der invertierten Dokumentenhäufigkeit (IDF) multipliziert wird.
Gewichtsformeln von diesem Typ werden auch als TF-IDF -Gewichtung bezeichnet.
Eine Ähnlichkeitsfunktion definiert für je zwei Vektoren einen reellen Ähnlichkeitswert .
Hier sollen nun Methoden vorgestellt werden, mit denen einzelne Terme in einem Dokument/Datensatz oder einer Anfrage gewichtet, also Gewichtsvektoren für Dokumente und Anfragen bestimmt werden können. Sie geben Auskunft darüber, in wieweit diese Ähnlichkeit Auswirkungen für das Gesamtergebnis besitzt.
Falls für eine Duplikatefindung keine Trainingsdaten in der Form "Duplikate" / "kein Duplikat" vorliegen, so kann die Namensübereinstimmung über bedingte Wahrscheinlichkeiten mit Hilfe frequenzbasierter Schätzungen ermittelt werden.
Dabei sieht man einen Datensatz/Dokument als ein festes Vokabular von Termen. Die Auftrittshäufigkeit einzelner Terme gibt diesen dabei eine Gewichtung welche für die Inhaltsbeschreibung nutzbar ist. Die Reihenfolge der Terme im Datensatz wird jedoch vernachlässigt.
Es sei demnach eine Menge von Datensätzen einer Entitätsklasse sowie
eine Menge von Attributen auf diesen Datensätzen.
Für jeden Datensatz sei zu jedem Attribut ein Gewicht gegeben, was manuell oder über die im Abschnitt "TF-IDF" vorgestellte Methode errechnet werden kann.
Diese Gewichte des Datensatzes lassen sich zu einem Vektor zusammenfassen. Dieser Vektor beschreibt das Dokment im Vektorraummodell: Er ist seine Repräsentation und wird Dokumentenvektor genannt.
Anfragen "Queries" werden durch einen Vektor repräsentiert und bei der Anfrage durch eine Menge gewichteter Terme dargestellt. Eine Ähnlichkeitsfunktion definiere für je zwei Vektoren einen reellen Ähnlichkeitswert .
Beim Beispiel TF-IDF ist diese Ähnlichkeitsfunktion zum Beispiel das Skalarprodukt zwischen ihren Vektorraum-Darstellungen x und y, also der Cosinus des Winkels zwischen beiden:
Der Ähnlichkeitswert gibt an, wie viele Terme sowohl im Anfrage-Term, als auch im Datensatz vorkommen. Nach diesem Ähnlichkeitswert können die Datensätze in eine Rangfolge gebracht werden. Dabei ist zu erwarten, daß Datensätze, welche viele Terme aus der Anfrage enthalten, einen oberen Rang besitzen und Datensätze mit wenigen Anfragetermen am unteren Ende zu finden sind.
Über eine damit verknüpfte Gewichtungsfunktion ist es möglich, die auftretenden Attribute nochmals feiner abzustimmen, so z.B. über Stoppwort-Listen oder Gewichtung einzelner Attribute.
Praktisch bedeutet dies, daß beispielsweise eine Übereinstimmung zweier seltener Bezeichnungen eine höhere Priorität geniessen wird, als eine Übereinstimmung zweier allgemein gängiger Bezeichnungen.
Jaccard
Für 2 Wortmengen S und T is die Jaccard-Distanz, als tokenbasierte Distanz definiert durch
Term-Frequenz
In einer überschaubaren Term-Menge ist eine manuelle Gewichtung der Terme der Datensatz-Vektoren von humanen Indexierern denkbar, z.B. in Form einer Stoppwort-Liste.
Dabei werden bestimmte Terme wegen ihres allgemeinen Auftretens und fehlenden semantischen Inhalts ignoriert bzw. bestimmte Wortteile über manuell erstellte Auswahllisten mit einer Gewichtung belegt.
Per Hand entstehen dadurch neben hohem Arbeits-, Zeit- und Kostenaufwand ebenfalls Inkonsistenzen durch die subjektive Meinung und Tagesform der Personen. Daher sind halb-automatisch bzw. vollautomatisch Methoden zu nutzen.
Termgewichtungen sind unterscheidbar in globale/kontextunabhängige und lokale/kontextabhängige Faktoren. Ein lokales Kriterium für eine Gewichtung ist beispielsweise die Häufigkeit des Terms innerhalb einer Datenmenge.
Unter den globalen oder kontextabhängigen Gewichtungsfaktoren tritt die Häufigkeit eines Terms in der Sprache bzw. in einer Datensatzsammlung häufig auf.
Daraus folgt, daß eine kleine Anzahl von häufigen Wörtern einen großen Anteil der Datensammlung abdeckt und die großen Anzahl der seltenen Wörter nur einen kleinen Anteil dieser Sammlung ausmacht.
Terme mittlerer Häufigkeit sind optimal, welche zwar häufig genug sind, um genügend relevante Inhalte abzudecken, aber auch signifikant genug, um nichtrelevante Texte auszuschließen.
Anstelle der Häufigkeit von Termen kann hierbei die Dokumenten-/ oder Datensatzhäufigkeit (document frequency) verwendet werden, die Anzahl der Datensätze/Dokumente, in denen ein Term auftritt. Bei einer zufälligen Verteilung eines Wortes in einem Korpus von Datensätzen werden durch den Übergang von der Häufigkeit zur Dokumentenhäufigkeit die Häufigkeitsunterschiede besonders für häufige Terme verringert: Bei der Bestimmung der Dokumentenhäufigkeit spielt es keine Rolle, ob ein Term oft in einem Dokument vorkommt oder nur einmal.
Inverse Dokument-Frequenz
Während eine Stoppwortliste beim boolschen Retrieval also eine harte Häufigkeitsschranke für den Ausschluss setzt, läßt sich der Einfluss der Häufigkeit mit der Möglichkeit, Terme zu gewichten, differenzierter modellieren. Meistens wird dazu eine Form der so genannten inversen (oder auch invertierten) Dokumenthäufigkeit (inverted document frequency - idf) verwendet:
,
wobei wiederum die Menge der Dokumente und
die der Terme und die Anzahl der Dokumente, in denen Term vorkommt. In der Praxis wird oft die modifizierte Form oder verwendet, wobei der natürliche Logarithmus hierbei große Werte dämpft, also in diesen Formeln die Gewichte seltener Terme wieder abschwächt.
TF-IDF
Auch bei kontextabhängigen Einflussfaktoren wird vor allem die Häufigkeit eines Terms in einer Datensammlung zur Berechnung von Termgewichten herangezogen (TF). Dabei kann im Allgemeinen davon ausgegangen werden, dass häufig auftretende Terme für die inhaltliche Beschreibung wichtiger sind als solche, die nur selten auftreten. Im einfachsten Fall kann die Häufigkeit eines Terms in einer Datensammlung direkt in der Form bei als Bezeichnung für die Häufigkeit von Term ti im Datensatz aj berechnet werden. Andere Formeln beschränken die Gewichte auf ein Intervall und dämpfen den Einfluss sehr häufiger Terme, wie z.B. die Formel
Außerdem kann man die Häufigkeit eines Terms zu der des häufigsten im Text in Relation setzen und damit die unterschiedlichen Gesamttext-längen ausschalten.
wobei K den Parameter bezeichnet, mit dem bestimmt werden kann, wie groß der Einfluss der Gewichtung sein soll. K=0 verwendet nur die Häufigkeitsgewichtung, bei K=1 spielt sie keine Rolle und es wird für alle Terme das konstante Gewicht 1 vergeben.
Häufig werden lokale und globale Gewichtungen zu Formeln vom Typ verknüpft, indem die Termhäufigkeit (TF) mit der invertierten Dokumentenhäufigkeit (IDF) multipliziert wird.
Gewichtsformeln von diesem Typ werden auch als TF-IDF -Gewichtung bezeichnet.