Vorbetrachtung

      Vorbetrachtung

          Vorbetrachtung

              Vorbetrachtung

                  Vorbetrachtung

                      Vorbetrachtung

                          Vorbetrachtung

                              Das durch Xcerpt vorgestellte patternbasierte Prinzip erlaubt es, Inhalte einfach aus Web-Dokumenten mit einer Toleranz in Breite und Tiefe zu entnehmen.

                              SVG - Datenintegration

                              Aus der Struktur geschlossen, existieren folgende Ansätze, um dieses System mit den vorgestellten Abarbeitungsschritten aufzuwerten:

                              • Xcerpt-Abfragesprache
                              • Xcerpt-Interpreter
                              • Zugriff auf externe Applikationen

                              Alle diese Umsetzungsansätze besitzen Vor- und Nachteile, welche folgend vorgestellt werden.

                              Statements werden in Form von deduktiv abzuarbeitenden Regeln dargestellt. Dabei werden nur diejenigen abgearbeitet, welche für die Herleitung der Ergebnisregel benötigt werden. Einmal durch lazy instantiation berechnete Zwischenergebnisse bleiben für weitere Schritte im Zwischenspeicher verfügbar.

                              Zur Identifizierung benötigter Quellen wird eine Unifikationsmatrix aufgebaut, welche während der Bearbeitung durch identifizierte und noch nicht aufgelöste Regeln erweitert wird.

                              Der Befehlssatz der Web-Abfragesprache ist Turing-vollständig. Jede computerberechenbare Aufgabe ist daher in Xcerpt umsetzbar.

                              Allgemeine Programmumsetzungen wirken jedoch schnell unübersichtlich und praktisch nicht verwaltbar. Ein Modulkonzept ist derzeit in Bearbeitung. Die Ausrichtung der Interpretationssprache liegt deutlich im Query- und Information-Retrieval-Bereich. Der Quellcode selbst wird zur Laufzeit eingelesen, analysiert und ausgeführt, was zu einer hohen Flexibilität führt.

                              Eine Dokumentabfrage externer Resourcen im XML-Format ist überraschend leicht möglich. Aktive Abfragen im Sinne von WebServices wurden durch die Diplomarbeit von [Schefels06] erarbeitet.

                              Durch die Unifikationsmatrix sind statistische Abfragen auf die gesammelten Daten möglich, so daß beispielsweise die Wortauftrittszahl leicht errechenbar ist. Die Implementierung reguläre Ausdrücke erweitert Xcerpts Mächtigkeit und kann für die Erkennung von Schlüsselworten und Formatanpassungen genutzt werden.

                              Das Hinzufügen von Befehlen in den Xcerpt-Sourcecode entspricht einem Paradigmenwechsel. Die aktuelle Implementationsprache, das rein funktionale „Haskell“ [Haskell98], besitzt ihren Schwerpunkt in der Verarbeitung von Listen und Tupeln.

                              Aufgrund der Kompilierung von Regeln in den Sprachkern wird deren Ausführung performanter und der Quellcode des eigentlichen Programmes gewinnt an Übersichtlichkeit. Haskell besitzt einen hohen Befehlsumfang im mathematisch-statistischen Bereich. Listenumformungen und Matrizenoperationen sind performant durchführbar, in Haskell verwendete Funktionen werden nativ-rekursiv abgearbeitet.

                              Die dritte Dimension stellt eine Erweiterung Xcerpts um die Mächtigkeit externer Programme dar. Diese können spezialisierte Aufgaben besser ausführen und werden von einer meist größeren Entwicklergemeinschaft gewartet und weiterentwickelt. Die Kommunikation zu ihnen mit einem Request-/Response-Protokoll herzustellen, wodurch mit funktionalen Paradigmen gebrochen wird.

                              Die Grundstruktur logischer Programmierung besagt demnach, daß eine bestimmte Regel stets die selbe Antwort gibt. Diese kann nicht gehalten werden, da vom externen System keine konstante Antwort erwartet werden kann. Arbeiten in dieser Richtung wurden durch Henrik Eric Svenson [Sven06][Wilk06] durchgeführt, der einen Ontologie-Reasoner über das DIG-Interface anspricht.

                              Um einen solchen Ansatz performant nutzen zu können, muss

                              • entweder die zu erwartende Abarbeitungszeit höher als die Initialisierungs-, und Übertragunszeit der Daten an die externe Anwendung sein
                              • oder die dadurch erreichten Ergebnisse von höherer Güte, als dies durch interne Lösungen möglich ist.

                              Bei großen Ontologie-Abfragen, wo eine kleine Datenmenge einem großen Implementierungs- oder Rechenaufkommen gegenübersteht, ist dies sicherlich sinnvoll.

                              Überblick möglicher Integrationsansätze
                              . Xcerpt Interpreter Subsystem
                              Sprachstil interpretiert kompiliert Request-Response
                              Update-Zeit gering hoch sehr hoch
                              Abarbeitungszeit mittel gering hoch
                              Befehlssatz Turing-Vollständig Turing-V., Modulkonzept Web-Services
                              Spezialisierung Information-Retrieval mathematische Berechnungen, Listen- u. Matrizenbearbeitung domänenabhängig

                          Das durch Xcerpt vorgestellte patternbasierte Prinzip erlaubt es, Inhalte einfach aus Web-Dokumenten mit einer Toleranz in Breite und Tiefe zu entnehmen.

                          SVG - Datenintegration

                          Aus der Struktur geschlossen, existieren folgende Ansätze, um dieses System mit den vorgestellten Abarbeitungsschritten aufzuwerten:

                          • Xcerpt-Abfragesprache
                          • Xcerpt-Interpreter
                          • Zugriff auf externe Applikationen

                          Alle diese Umsetzungsansätze besitzen Vor- und Nachteile, welche folgend vorgestellt werden.

                          Xcerpt-Abfragesprache

                          Statements werden in Form von deduktiv abzuarbeitenden Regeln dargestellt. Dabei werden nur diejenigen abgearbeitet, welche für die Herleitung der Ergebnisregel benötigt werden. Einmal durch lazy instantiation berechnete Zwischenergebnisse bleiben für weitere Schritte im Zwischenspeicher verfügbar.

                          Zur Identifizierung benötigter Quellen wird eine Unifikationsmatrix aufgebaut, welche während der Bearbeitung durch identifizierte und noch nicht aufgelöste Regeln erweitert wird.

                          Der Befehlssatz der Web-Abfragesprache ist Turing-vollständig. Jede computerberechenbare Aufgabe ist daher in Xcerpt umsetzbar.

                          Allgemeine Programmumsetzungen wirken jedoch schnell unübersichtlich und praktisch nicht verwaltbar. Ein Modulkonzept ist derzeit in Bearbeitung. Die Ausrichtung der Interpretationssprache liegt deutlich im Query- und Information-Retrieval-Bereich. Der Quellcode selbst wird zur Laufzeit eingelesen, analysiert und ausgeführt, was zu einer hohen Flexibilität führt.

                          Eine Dokumentabfrage externer Resourcen im XML-Format ist überraschend leicht möglich. Aktive Abfragen im Sinne von WebServices wurden durch die Diplomarbeit von [Schefels06] erarbeitet.

                          Durch die Unifikationsmatrix sind statistische Abfragen auf die gesammelten Daten möglich, so daß beispielsweise die Wortauftrittszahl leicht errechenbar ist. Die Implementierung reguläre Ausdrücke erweitert Xcerpts Mächtigkeit und kann für die Erkennung von Schlüsselworten und Formatanpassungen genutzt werden.

                          Xcerpt-Interpreter

                          Das Hinzufügen von Befehlen in den Xcerpt-Sourcecode entspricht einem Paradigmenwechsel. Die aktuelle Implementationsprache, das rein funktionale „Haskell“ [Haskell98], besitzt ihren Schwerpunkt in der Verarbeitung von Listen und Tupeln.

                          Aufgrund der Kompilierung von Regeln in den Sprachkern wird deren Ausführung performanter und der Quellcode des eigentlichen Programmes gewinnt an Übersichtlichkeit. Haskell besitzt einen hohen Befehlsumfang im mathematisch-statistischen Bereich. Listenumformungen und Matrizenoperationen sind performant durchführbar, in Haskell verwendete Funktionen werden nativ-rekursiv abgearbeitet.

                          Nutzung externer Programme

                          Die dritte Dimension stellt eine Erweiterung Xcerpts um die Mächtigkeit externer Programme dar. Diese können spezialisierte Aufgaben besser ausführen und werden von einer meist größeren Entwicklergemeinschaft gewartet und weiterentwickelt. Die Kommunikation zu ihnen mit einem Request-/Response-Protokoll herzustellen, wodurch mit funktionalen Paradigmen gebrochen wird.

                          Die Grundstruktur logischer Programmierung besagt demnach, daß eine bestimmte Regel stets die selbe Antwort gibt. Diese kann nicht gehalten werden, da vom externen System keine konstante Antwort erwartet werden kann. Arbeiten in dieser Richtung wurden durch Henrik Eric Svenson [Sven06][Wilk06] durchgeführt, der einen Ontologie-Reasoner über das DIG-Interface anspricht.

                          Um einen solchen Ansatz performant nutzen zu können, muss

                          • entweder die zu erwartende Abarbeitungszeit höher als die Initialisierungs-, und Übertragunszeit der Daten an die externe Anwendung sein
                          • oder die dadurch erreichten Ergebnisse von höherer Güte, als dies durch interne Lösungen möglich ist.

                          Bei großen Ontologie-Abfragen, wo eine kleine Datenmenge einem großen Implementierungs- oder Rechenaufkommen gegenübersteht, ist dies sicherlich sinnvoll.

                          Überblick möglicher Integrationsansätze
                          . Xcerpt Interpreter Subsystem
                          Sprachstil interpretiert kompiliert Request-Response
                          Update-Zeit gering hoch sehr hoch
                          Abarbeitungszeit mittel gering hoch
                          Befehlssatz Turing-Vollständig Turing-V., Modulkonzept Web-Services
                          Spezialisierung Information-Retrieval mathematische Berechnungen, Listen- u. Matrizenbearbeitung domänenabhängig

                      Das durch Xcerpt vorgestellte patternbasierte Prinzip erlaubt es, Inhalte einfach aus Web-Dokumenten mit einer Toleranz in Breite und Tiefe zu entnehmen.

                      SVG - Datenintegration

                      Aus der Struktur geschlossen, existieren folgende Ansätze, um dieses System mit den vorgestellten Abarbeitungsschritten aufzuwerten:

                      • Xcerpt-Abfragesprache
                      • Xcerpt-Interpreter
                      • Zugriff auf externe Applikationen

                      Alle diese Umsetzungsansätze besitzen Vor- und Nachteile, welche folgend vorgestellt werden.

                      Xcerpt-Abfragesprache

                      Statements werden in Form von deduktiv abzuarbeitenden Regeln dargestellt. Dabei werden nur diejenigen abgearbeitet, welche für die Herleitung der Ergebnisregel benötigt werden. Einmal durch lazy instantiation berechnete Zwischenergebnisse bleiben für weitere Schritte im Zwischenspeicher verfügbar.

                      Zur Identifizierung benötigter Quellen wird eine Unifikationsmatrix aufgebaut, welche während der Bearbeitung durch identifizierte und noch nicht aufgelöste Regeln erweitert wird.

                      Der Befehlssatz der Web-Abfragesprache ist Turing-vollständig. Jede computerberechenbare Aufgabe ist daher in Xcerpt umsetzbar.

                      Allgemeine Programmumsetzungen wirken jedoch schnell unübersichtlich und praktisch nicht verwaltbar. Ein Modulkonzept ist derzeit in Bearbeitung. Die Ausrichtung der Interpretationssprache liegt deutlich im Query- und Information-Retrieval-Bereich. Der Quellcode selbst wird zur Laufzeit eingelesen, analysiert und ausgeführt, was zu einer hohen Flexibilität führt.

                      Eine Dokumentabfrage externer Resourcen im XML-Format ist überraschend leicht möglich. Aktive Abfragen im Sinne von WebServices wurden durch die Diplomarbeit von [Schefels06] erarbeitet.

                      Durch die Unifikationsmatrix sind statistische Abfragen auf die gesammelten Daten möglich, so daß beispielsweise die Wortauftrittszahl leicht errechenbar ist. Die Implementierung reguläre Ausdrücke erweitert Xcerpts Mächtigkeit und kann für die Erkennung von Schlüsselworten und Formatanpassungen genutzt werden.

                      Xcerpt-Interpreter

                      Das Hinzufügen von Befehlen in den Xcerpt-Sourcecode entspricht einem Paradigmenwechsel. Die aktuelle Implementationsprache, das rein funktionale „Haskell“ [Haskell98], besitzt ihren Schwerpunkt in der Verarbeitung von Listen und Tupeln.

                      Aufgrund der Kompilierung von Regeln in den Sprachkern wird deren Ausführung performanter und der Quellcode des eigentlichen Programmes gewinnt an Übersichtlichkeit. Haskell besitzt einen hohen Befehlsumfang im mathematisch-statistischen Bereich. Listenumformungen und Matrizenoperationen sind performant durchführbar, in Haskell verwendete Funktionen werden nativ-rekursiv abgearbeitet.

                      Nutzung externer Programme

                      Die dritte Dimension stellt eine Erweiterung Xcerpts um die Mächtigkeit externer Programme dar. Diese können spezialisierte Aufgaben besser ausführen und werden von einer meist größeren Entwicklergemeinschaft gewartet und weiterentwickelt. Die Kommunikation zu ihnen mit einem Request-/Response-Protokoll herzustellen, wodurch mit funktionalen Paradigmen gebrochen wird.

                      Die Grundstruktur logischer Programmierung besagt demnach, daß eine bestimmte Regel stets die selbe Antwort gibt. Diese kann nicht gehalten werden, da vom externen System keine konstante Antwort erwartet werden kann. Arbeiten in dieser Richtung wurden durch Henrik Eric Svenson [Sven06][Wilk06] durchgeführt, der einen Ontologie-Reasoner über das DIG-Interface anspricht.

                      Um einen solchen Ansatz performant nutzen zu können, muss

                      • entweder die zu erwartende Abarbeitungszeit höher als die Initialisierungs-, und Übertragunszeit der Daten an die externe Anwendung sein
                      • oder die dadurch erreichten Ergebnisse von höherer Güte, als dies durch interne Lösungen möglich ist.

                      Bei großen Ontologie-Abfragen, wo eine kleine Datenmenge einem großen Implementierungs- oder Rechenaufkommen gegenübersteht, ist dies sicherlich sinnvoll.

                      Überblick möglicher Integrationsansätze
                      . Xcerpt Interpreter Subsystem
                      Sprachstil interpretiert kompiliert Request-Response
                      Update-Zeit gering hoch sehr hoch
                      Abarbeitungszeit mittel gering hoch
                      Befehlssatz Turing-Vollständig Turing-V., Modulkonzept Web-Services
                      Spezialisierung Information-Retrieval mathematische Berechnungen, Listen- u. Matrizenbearbeitung domänenabhängig

                  Das durch Xcerpt vorgestellte patternbasierte Prinzip erlaubt es, Inhalte einfach aus Web-Dokumenten mit einer Toleranz in Breite und Tiefe zu entnehmen.

                  SVG - Datenintegration

                  Aus der Struktur geschlossen, existieren folgende Ansätze, um dieses System mit den vorgestellten Abarbeitungsschritten aufzuwerten:

                  • Xcerpt-Abfragesprache
                  • Xcerpt-Interpreter
                  • Zugriff auf externe Applikationen

                  Alle diese Umsetzungsansätze besitzen Vor- und Nachteile, welche folgend vorgestellt werden.

                  Xcerpt-Abfragesprache

                  Statements werden in Form von deduktiv abzuarbeitenden Regeln dargestellt. Dabei werden nur diejenigen abgearbeitet, welche für die Herleitung der Ergebnisregel benötigt werden. Einmal durch lazy instantiation berechnete Zwischenergebnisse bleiben für weitere Schritte im Zwischenspeicher verfügbar.

                  Zur Identifizierung benötigter Quellen wird eine Unifikationsmatrix aufgebaut, welche während der Bearbeitung durch identifizierte und noch nicht aufgelöste Regeln erweitert wird.

                  Der Befehlssatz der Web-Abfragesprache ist Turing-vollständig. Jede computerberechenbare Aufgabe ist daher in Xcerpt umsetzbar.

                  Allgemeine Programmumsetzungen wirken jedoch schnell unübersichtlich und praktisch nicht verwaltbar. Ein Modulkonzept ist derzeit in Bearbeitung. Die Ausrichtung der Interpretationssprache liegt deutlich im Query- und Information-Retrieval-Bereich. Der Quellcode selbst wird zur Laufzeit eingelesen, analysiert und ausgeführt, was zu einer hohen Flexibilität führt.

                  Eine Dokumentabfrage externer Resourcen im XML-Format ist überraschend leicht möglich. Aktive Abfragen im Sinne von WebServices wurden durch die Diplomarbeit von [Schefels06] erarbeitet.

                  Durch die Unifikationsmatrix sind statistische Abfragen auf die gesammelten Daten möglich, so daß beispielsweise die Wortauftrittszahl leicht errechenbar ist. Die Implementierung reguläre Ausdrücke erweitert Xcerpts Mächtigkeit und kann für die Erkennung von Schlüsselworten und Formatanpassungen genutzt werden.

                  Xcerpt-Interpreter

                  Das Hinzufügen von Befehlen in den Xcerpt-Sourcecode entspricht einem Paradigmenwechsel. Die aktuelle Implementationsprache, das rein funktionale „Haskell“ [Haskell98], besitzt ihren Schwerpunkt in der Verarbeitung von Listen und Tupeln.

                  Aufgrund der Kompilierung von Regeln in den Sprachkern wird deren Ausführung performanter und der Quellcode des eigentlichen Programmes gewinnt an Übersichtlichkeit. Haskell besitzt einen hohen Befehlsumfang im mathematisch-statistischen Bereich. Listenumformungen und Matrizenoperationen sind performant durchführbar, in Haskell verwendete Funktionen werden nativ-rekursiv abgearbeitet.

                  Nutzung externer Programme

                  Die dritte Dimension stellt eine Erweiterung Xcerpts um die Mächtigkeit externer Programme dar. Diese können spezialisierte Aufgaben besser ausführen und werden von einer meist größeren Entwicklergemeinschaft gewartet und weiterentwickelt. Die Kommunikation zu ihnen mit einem Request-/Response-Protokoll herzustellen, wodurch mit funktionalen Paradigmen gebrochen wird.

                  Die Grundstruktur logischer Programmierung besagt demnach, daß eine bestimmte Regel stets die selbe Antwort gibt. Diese kann nicht gehalten werden, da vom externen System keine konstante Antwort erwartet werden kann. Arbeiten in dieser Richtung wurden durch Henrik Eric Svenson [Sven06][Wilk06] durchgeführt, der einen Ontologie-Reasoner über das DIG-Interface anspricht.

                  Um einen solchen Ansatz performant nutzen zu können, muss

                  • entweder die zu erwartende Abarbeitungszeit höher als die Initialisierungs-, und Übertragunszeit der Daten an die externe Anwendung sein
                  • oder die dadurch erreichten Ergebnisse von höherer Güte, als dies durch interne Lösungen möglich ist.

                  Bei großen Ontologie-Abfragen, wo eine kleine Datenmenge einem großen Implementierungs- oder Rechenaufkommen gegenübersteht, ist dies sicherlich sinnvoll.

                  Überblick möglicher Integrationsansätze
                  . Xcerpt Interpreter Subsystem
                  Sprachstil interpretiert kompiliert Request-Response
                  Update-Zeit gering hoch sehr hoch
                  Abarbeitungszeit mittel gering hoch
                  Befehlssatz Turing-Vollständig Turing-V., Modulkonzept Web-Services
                  Spezialisierung Information-Retrieval mathematische Berechnungen, Listen- u. Matrizenbearbeitung domänenabhängig

              Das durch Xcerpt vorgestellte patternbasierte Prinzip erlaubt es, Inhalte einfach aus Web-Dokumenten mit einer Toleranz in Breite und Tiefe zu entnehmen.

              SVG - Datenintegration

              Aus der Struktur geschlossen, existieren folgende Ansätze, um dieses System mit den vorgestellten Abarbeitungsschritten aufzuwerten:

              • Xcerpt-Abfragesprache
              • Xcerpt-Interpreter
              • Zugriff auf externe Applikationen

              Alle diese Umsetzungsansätze besitzen Vor- und Nachteile, welche folgend vorgestellt werden.

              Xcerpt-Abfragesprache

              Statements werden in Form von deduktiv abzuarbeitenden Regeln dargestellt. Dabei werden nur diejenigen abgearbeitet, welche für die Herleitung der Ergebnisregel benötigt werden. Einmal durch lazy instantiation berechnete Zwischenergebnisse bleiben für weitere Schritte im Zwischenspeicher verfügbar.

              Zur Identifizierung benötigter Quellen wird eine Unifikationsmatrix aufgebaut, welche während der Bearbeitung durch identifizierte und noch nicht aufgelöste Regeln erweitert wird.

              Der Befehlssatz der Web-Abfragesprache ist Turing-vollständig. Jede computerberechenbare Aufgabe ist daher in Xcerpt umsetzbar.

              Allgemeine Programmumsetzungen wirken jedoch schnell unübersichtlich und praktisch nicht verwaltbar. Ein Modulkonzept ist derzeit in Bearbeitung. Die Ausrichtung der Interpretationssprache liegt deutlich im Query- und Information-Retrieval-Bereich. Der Quellcode selbst wird zur Laufzeit eingelesen, analysiert und ausgeführt, was zu einer hohen Flexibilität führt.

              Eine Dokumentabfrage externer Resourcen im XML-Format ist überraschend leicht möglich. Aktive Abfragen im Sinne von WebServices wurden durch die Diplomarbeit von [Schefels06] erarbeitet.

              Durch die Unifikationsmatrix sind statistische Abfragen auf die gesammelten Daten möglich, so daß beispielsweise die Wortauftrittszahl leicht errechenbar ist. Die Implementierung reguläre Ausdrücke erweitert Xcerpts Mächtigkeit und kann für die Erkennung von Schlüsselworten und Formatanpassungen genutzt werden.

              Xcerpt-Interpreter

              Das Hinzufügen von Befehlen in den Xcerpt-Sourcecode entspricht einem Paradigmenwechsel. Die aktuelle Implementationsprache, das rein funktionale „Haskell“ [Haskell98], besitzt ihren Schwerpunkt in der Verarbeitung von Listen und Tupeln.

              Aufgrund der Kompilierung von Regeln in den Sprachkern wird deren Ausführung performanter und der Quellcode des eigentlichen Programmes gewinnt an Übersichtlichkeit. Haskell besitzt einen hohen Befehlsumfang im mathematisch-statistischen Bereich. Listenumformungen und Matrizenoperationen sind performant durchführbar, in Haskell verwendete Funktionen werden nativ-rekursiv abgearbeitet.

              Nutzung externer Programme

              Die dritte Dimension stellt eine Erweiterung Xcerpts um die Mächtigkeit externer Programme dar. Diese können spezialisierte Aufgaben besser ausführen und werden von einer meist größeren Entwicklergemeinschaft gewartet und weiterentwickelt. Die Kommunikation zu ihnen mit einem Request-/Response-Protokoll herzustellen, wodurch mit funktionalen Paradigmen gebrochen wird.

              Die Grundstruktur logischer Programmierung besagt demnach, daß eine bestimmte Regel stets die selbe Antwort gibt. Diese kann nicht gehalten werden, da vom externen System keine konstante Antwort erwartet werden kann. Arbeiten in dieser Richtung wurden durch Henrik Eric Svenson [Sven06][Wilk06] durchgeführt, der einen Ontologie-Reasoner über das DIG-Interface anspricht.

              Um einen solchen Ansatz performant nutzen zu können, muss

              • entweder die zu erwartende Abarbeitungszeit höher als die Initialisierungs-, und Übertragunszeit der Daten an die externe Anwendung sein
              • oder die dadurch erreichten Ergebnisse von höherer Güte, als dies durch interne Lösungen möglich ist.

              Bei großen Ontologie-Abfragen, wo eine kleine Datenmenge einem großen Implementierungs- oder Rechenaufkommen gegenübersteht, ist dies sicherlich sinnvoll.

              Überblick möglicher Integrationsansätze
              . Xcerpt Interpreter Subsystem
              Sprachstil interpretiert kompiliert Request-Response
              Update-Zeit gering hoch sehr hoch
              Abarbeitungszeit mittel gering hoch
              Befehlssatz Turing-Vollständig Turing-V., Modulkonzept Web-Services
              Spezialisierung Information-Retrieval mathematische Berechnungen, Listen- u. Matrizenbearbeitung domänenabhängig

          Das durch Xcerpt vorgestellte patternbasierte Prinzip erlaubt es, Inhalte einfach aus Web-Dokumenten mit einer Toleranz in Breite und Tiefe zu entnehmen.

          SVG - Datenintegration

          Aus der Struktur geschlossen, existieren folgende Ansätze, um dieses System mit den vorgestellten Abarbeitungsschritten aufzuwerten:

          • Xcerpt-Abfragesprache
          • Xcerpt-Interpreter
          • Zugriff auf externe Applikationen

          Alle diese Umsetzungsansätze besitzen Vor- und Nachteile, welche folgend vorgestellt werden.

          Xcerpt-Abfragesprache

          Statements werden in Form von deduktiv abzuarbeitenden Regeln dargestellt. Dabei werden nur diejenigen abgearbeitet, welche für die Herleitung der Ergebnisregel benötigt werden. Einmal durch lazy instantiation berechnete Zwischenergebnisse bleiben für weitere Schritte im Zwischenspeicher verfügbar.

          Zur Identifizierung benötigter Quellen wird eine Unifikationsmatrix aufgebaut, welche während der Bearbeitung durch identifizierte und noch nicht aufgelöste Regeln erweitert wird.

          Der Befehlssatz der Web-Abfragesprache ist Turing-vollständig. Jede computerberechenbare Aufgabe ist daher in Xcerpt umsetzbar.

          Allgemeine Programmumsetzungen wirken jedoch schnell unübersichtlich und praktisch nicht verwaltbar. Ein Modulkonzept ist derzeit in Bearbeitung. Die Ausrichtung der Interpretationssprache liegt deutlich im Query- und Information-Retrieval-Bereich. Der Quellcode selbst wird zur Laufzeit eingelesen, analysiert und ausgeführt, was zu einer hohen Flexibilität führt.

          Eine Dokumentabfrage externer Resourcen im XML-Format ist überraschend leicht möglich. Aktive Abfragen im Sinne von WebServices wurden durch die Diplomarbeit von [Schefels06] erarbeitet.

          Durch die Unifikationsmatrix sind statistische Abfragen auf die gesammelten Daten möglich, so daß beispielsweise die Wortauftrittszahl leicht errechenbar ist. Die Implementierung reguläre Ausdrücke erweitert Xcerpts Mächtigkeit und kann für die Erkennung von Schlüsselworten und Formatanpassungen genutzt werden.

          Xcerpt-Interpreter

          Das Hinzufügen von Befehlen in den Xcerpt-Sourcecode entspricht einem Paradigmenwechsel. Die aktuelle Implementationsprache, das rein funktionale „Haskell“ [Haskell98], besitzt ihren Schwerpunkt in der Verarbeitung von Listen und Tupeln.

          Aufgrund der Kompilierung von Regeln in den Sprachkern wird deren Ausführung performanter und der Quellcode des eigentlichen Programmes gewinnt an Übersichtlichkeit. Haskell besitzt einen hohen Befehlsumfang im mathematisch-statistischen Bereich. Listenumformungen und Matrizenoperationen sind performant durchführbar, in Haskell verwendete Funktionen werden nativ-rekursiv abgearbeitet.

          Nutzung externer Programme

          Die dritte Dimension stellt eine Erweiterung Xcerpts um die Mächtigkeit externer Programme dar. Diese können spezialisierte Aufgaben besser ausführen und werden von einer meist größeren Entwicklergemeinschaft gewartet und weiterentwickelt. Die Kommunikation zu ihnen mit einem Request-/Response-Protokoll herzustellen, wodurch mit funktionalen Paradigmen gebrochen wird.

          Die Grundstruktur logischer Programmierung besagt demnach, daß eine bestimmte Regel stets die selbe Antwort gibt. Diese kann nicht gehalten werden, da vom externen System keine konstante Antwort erwartet werden kann. Arbeiten in dieser Richtung wurden durch Henrik Eric Svenson [Sven06][Wilk06] durchgeführt, der einen Ontologie-Reasoner über das DIG-Interface anspricht.

          Um einen solchen Ansatz performant nutzen zu können, muss

          • entweder die zu erwartende Abarbeitungszeit höher als die Initialisierungs-, und Übertragunszeit der Daten an die externe Anwendung sein
          • oder die dadurch erreichten Ergebnisse von höherer Güte, als dies durch interne Lösungen möglich ist.

          Bei großen Ontologie-Abfragen, wo eine kleine Datenmenge einem großen Implementierungs- oder Rechenaufkommen gegenübersteht, ist dies sicherlich sinnvoll.

          Überblick möglicher Integrationsansätze
          . Xcerpt Interpreter Subsystem
          Sprachstil interpretiert kompiliert Request-Response
          Update-Zeit gering hoch sehr hoch
          Abarbeitungszeit mittel gering hoch
          Befehlssatz Turing-Vollständig Turing-V., Modulkonzept Web-Services
          Spezialisierung Information-Retrieval mathematische Berechnungen, Listen- u. Matrizenbearbeitung domänenabhängig

      Das durch Xcerpt vorgestellte patternbasierte Prinzip erlaubt es, Inhalte einfach aus Web-Dokumenten mit einer Toleranz in Breite und Tiefe zu entnehmen.

      SVG - Datenintegration

      Aus der Struktur geschlossen, existieren folgende Ansätze, um dieses System mit den vorgestellten Abarbeitungsschritten aufzuwerten:

      • Xcerpt-Abfragesprache
      • Xcerpt-Interpreter
      • Zugriff auf externe Applikationen

      Alle diese Umsetzungsansätze besitzen Vor- und Nachteile, welche folgend vorgestellt werden.

      Xcerpt-Abfragesprache

      Statements werden in Form von deduktiv abzuarbeitenden Regeln dargestellt. Dabei werden nur diejenigen abgearbeitet, welche für die Herleitung der Ergebnisregel benötigt werden. Einmal durch lazy instantiation berechnete Zwischenergebnisse bleiben für weitere Schritte im Zwischenspeicher verfügbar.

      Zur Identifizierung benötigter Quellen wird eine Unifikationsmatrix aufgebaut, welche während der Bearbeitung durch identifizierte und noch nicht aufgelöste Regeln erweitert wird.

      Der Befehlssatz der Web-Abfragesprache ist Turing-vollständig. Jede computerberechenbare Aufgabe ist daher in Xcerpt umsetzbar.

      Allgemeine Programmumsetzungen wirken jedoch schnell unübersichtlich und praktisch nicht verwaltbar. Ein Modulkonzept ist derzeit in Bearbeitung. Die Ausrichtung der Interpretationssprache liegt deutlich im Query- und Information-Retrieval-Bereich. Der Quellcode selbst wird zur Laufzeit eingelesen, analysiert und ausgeführt, was zu einer hohen Flexibilität führt.

      Eine Dokumentabfrage externer Resourcen im XML-Format ist überraschend leicht möglich. Aktive Abfragen im Sinne von WebServices wurden durch die Diplomarbeit von [Schefels06] erarbeitet.

      Durch die Unifikationsmatrix sind statistische Abfragen auf die gesammelten Daten möglich, so daß beispielsweise die Wortauftrittszahl leicht errechenbar ist. Die Implementierung reguläre Ausdrücke erweitert Xcerpts Mächtigkeit und kann für die Erkennung von Schlüsselworten und Formatanpassungen genutzt werden.

      Xcerpt-Interpreter

      Das Hinzufügen von Befehlen in den Xcerpt-Sourcecode entspricht einem Paradigmenwechsel. Die aktuelle Implementationsprache, das rein funktionale „Haskell“ [Haskell98], besitzt ihren Schwerpunkt in der Verarbeitung von Listen und Tupeln.

      Aufgrund der Kompilierung von Regeln in den Sprachkern wird deren Ausführung performanter und der Quellcode des eigentlichen Programmes gewinnt an Übersichtlichkeit. Haskell besitzt einen hohen Befehlsumfang im mathematisch-statistischen Bereich. Listenumformungen und Matrizenoperationen sind performant durchführbar, in Haskell verwendete Funktionen werden nativ-rekursiv abgearbeitet.

      Nutzung externer Programme

      Die dritte Dimension stellt eine Erweiterung Xcerpts um die Mächtigkeit externer Programme dar. Diese können spezialisierte Aufgaben besser ausführen und werden von einer meist größeren Entwicklergemeinschaft gewartet und weiterentwickelt. Die Kommunikation zu ihnen mit einem Request-/Response-Protokoll herzustellen, wodurch mit funktionalen Paradigmen gebrochen wird.

      Die Grundstruktur logischer Programmierung besagt demnach, daß eine bestimmte Regel stets die selbe Antwort gibt. Diese kann nicht gehalten werden, da vom externen System keine konstante Antwort erwartet werden kann. Arbeiten in dieser Richtung wurden durch Henrik Eric Svenson [Sven06][Wilk06] durchgeführt, der einen Ontologie-Reasoner über das DIG-Interface anspricht.

      Um einen solchen Ansatz performant nutzen zu können, muss

      • entweder die zu erwartende Abarbeitungszeit höher als die Initialisierungs-, und Übertragunszeit der Daten an die externe Anwendung sein
      • oder die dadurch erreichten Ergebnisse von höherer Güte, als dies durch interne Lösungen möglich ist.

      Bei großen Ontologie-Abfragen, wo eine kleine Datenmenge einem großen Implementierungs- oder Rechenaufkommen gegenübersteht, ist dies sicherlich sinnvoll.

      Überblick möglicher Integrationsansätze
      . Xcerpt Interpreter Subsystem
      Sprachstil interpretiert kompiliert Request-Response
      Update-Zeit gering hoch sehr hoch
      Abarbeitungszeit mittel gering hoch
      Befehlssatz Turing-Vollständig Turing-V., Modulkonzept Web-Services
      Spezialisierung Information-Retrieval mathematische Berechnungen, Listen- u. Matrizenbearbeitung domänenabhängig

Das durch Xcerpt vorgestellte patternbasierte Prinzip erlaubt es, Inhalte einfach aus Web-Dokumenten mit einer Toleranz in Breite und Tiefe zu entnehmen.

SVG - Datenintegration

Aus der Struktur geschlossen, existieren folgende Ansätze, um dieses System mit den vorgestellten Abarbeitungsschritten aufzuwerten:

  • Xcerpt-Abfragesprache
  • Xcerpt-Interpreter
  • Zugriff auf externe Applikationen

Alle diese Umsetzungsansätze besitzen Vor- und Nachteile, welche folgend vorgestellt werden.

Xcerpt-Abfragesprache

Statements werden in Form von deduktiv abzuarbeitenden Regeln dargestellt. Dabei werden nur diejenigen abgearbeitet, welche für die Herleitung der Ergebnisregel benötigt werden. Einmal durch lazy instantiation berechnete Zwischenergebnisse bleiben für weitere Schritte im Zwischenspeicher verfügbar.

Zur Identifizierung benötigter Quellen wird eine Unifikationsmatrix aufgebaut, welche während der Bearbeitung durch identifizierte und noch nicht aufgelöste Regeln erweitert wird.

Der Befehlssatz der Web-Abfragesprache ist Turing-vollständig. Jede computerberechenbare Aufgabe ist daher in Xcerpt umsetzbar.

Allgemeine Programmumsetzungen wirken jedoch schnell unübersichtlich und praktisch nicht verwaltbar. Ein Modulkonzept ist derzeit in Bearbeitung. Die Ausrichtung der Interpretationssprache liegt deutlich im Query- und Information-Retrieval-Bereich. Der Quellcode selbst wird zur Laufzeit eingelesen, analysiert und ausgeführt, was zu einer hohen Flexibilität führt.

Eine Dokumentabfrage externer Resourcen im XML-Format ist überraschend leicht möglich. Aktive Abfragen im Sinne von WebServices wurden durch die Diplomarbeit von [Schefels06] erarbeitet.

Durch die Unifikationsmatrix sind statistische Abfragen auf die gesammelten Daten möglich, so daß beispielsweise die Wortauftrittszahl leicht errechenbar ist. Die Implementierung reguläre Ausdrücke erweitert Xcerpts Mächtigkeit und kann für die Erkennung von Schlüsselworten und Formatanpassungen genutzt werden.

Xcerpt-Interpreter

Das Hinzufügen von Befehlen in den Xcerpt-Sourcecode entspricht einem Paradigmenwechsel. Die aktuelle Implementationsprache, das rein funktionale „Haskell“ [Haskell98], besitzt ihren Schwerpunkt in der Verarbeitung von Listen und Tupeln.

Aufgrund der Kompilierung von Regeln in den Sprachkern wird deren Ausführung performanter und der Quellcode des eigentlichen Programmes gewinnt an Übersichtlichkeit. Haskell besitzt einen hohen Befehlsumfang im mathematisch-statistischen Bereich. Listenumformungen und Matrizenoperationen sind performant durchführbar, in Haskell verwendete Funktionen werden nativ-rekursiv abgearbeitet.

Nutzung externer Programme

Die dritte Dimension stellt eine Erweiterung Xcerpts um die Mächtigkeit externer Programme dar. Diese können spezialisierte Aufgaben besser ausführen und werden von einer meist größeren Entwicklergemeinschaft gewartet und weiterentwickelt. Die Kommunikation zu ihnen mit einem Request-/Response-Protokoll herzustellen, wodurch mit funktionalen Paradigmen gebrochen wird.

Die Grundstruktur logischer Programmierung besagt demnach, daß eine bestimmte Regel stets die selbe Antwort gibt. Diese kann nicht gehalten werden, da vom externen System keine konstante Antwort erwartet werden kann. Arbeiten in dieser Richtung wurden durch Henrik Eric Svenson [Sven06][Wilk06] durchgeführt, der einen Ontologie-Reasoner über das DIG-Interface anspricht.

Um einen solchen Ansatz performant nutzen zu können, muss

  • entweder die zu erwartende Abarbeitungszeit höher als die Initialisierungs-, und Übertragunszeit der Daten an die externe Anwendung sein
  • oder die dadurch erreichten Ergebnisse von höherer Güte, als dies durch interne Lösungen möglich ist.

Bei großen Ontologie-Abfragen, wo eine kleine Datenmenge einem großen Implementierungs- oder Rechenaufkommen gegenübersteht, ist dies sicherlich sinnvoll.

Überblick möglicher Integrationsansätze
. Xcerpt Interpreter Subsystem
Sprachstil interpretiert kompiliert Request-Response
Update-Zeit gering hoch sehr hoch
Abarbeitungszeit mittel gering hoch
Befehlssatz Turing-Vollständig Turing-V., Modulkonzept Web-Services
Spezialisierung Information-Retrieval mathematische Berechnungen, Listen- u. Matrizenbearbeitung domänenabhängig
top