Konsolidierung von Ressourcen-Instanzen

Lennart Reuther

im Februar 2007

Betreuer

Prof.Dr.rer.nat.habil. Uwe Aßmann (TU Dresden)

Prof. Dr. Anatoliy Antonov (TU Varna)

Ablauf

  • Einleitung
  • Schema-Integration
  • Ontologie-Integration
  • Inhalts-Integration
  • Zusammenfassung

Motivation

Herausforderung
  • Informationen heterogener Quellen nach individuellen Gesichtspunkten aufgebaut

Aufgabe
  • Recherche zum Vorgehen bei Datenharmonisierung
  • Möglichkeiten der Umsetzung mit Xcerpt
  • Erweiterung des Prototypen mit entsprechenden Komponenten
  • prototypische Umsetzung und Evaluierung

Beispiel


Konsolidierung

Wissen verschiedener heterogener Quellen miteinander vereinen


  • Inhalt-Integration

  • Ontologie-Integration

  • Schema-Integration


Mediator


Schema-Integration


Angleichung zweier Schemata zu Gesamtschema
für jedes Attribut attr1,n in S1 im Idealfall ein equivalentes Attribut attr2 gefunden wird.
unterschiedliche Modellierungskonzepte
Meta-Konflikte
<fahrrad>true</fahrrad>
<besonderheit>Fahrrad</besonderheit>

Xcerpt

Abfragesprache mit „Reasoning-Capabilities“
basiert auf Muster, Regeln, strikte Trennung zwischen Anfrage und Konstruktion

Xcerpt


  • basiert auf „Haskell“

  • rein funktionale Programmiersprache ohne imperative Sprachkonstrukte

  • rückwärts verkettet, nicht strikt

  • Zwischenergebnisse nur ausgewertet, wenn benötigt
    • lazy evaluation

    • Caching von Zwischenergebnissen

Xcerpt-Syntax

  • teilweise Termspezifikation ([[ - ]] bzw. {{ - }})
  • Variablen (var Name)
  • Unvollständigkeit in die Tiefe ( desc )
  • Attribute
  • Sammelkonstrukte – some/all - Quantor
  • Konditionen ( where )
  • Verzweigungen (Konjunktion (or)/Disjunktion (and)
  • Gruppierung, Sortierung (group by, sort by)
  • reguläre Ausdrücke

Xcerpt


Ontologie-Integration

  • semantische Abweichungen erkennen
  • durch einheitliche, auf syntaktischer Ebene vergleichbare Zeichenketten ersetzen
  • Synonyme
  • Homonym

Ontologie-Integration


  • Konzeptschicht – besitzen Konzepte und deren Relationen
  • Instanzschicht – Vertreter der jeweiligen Konzepte
  • OWL : XML-Format, beinhaltet beide Schichten
  • Begriffe werden darüber nachgeschlagen und entsprechend auf Sub-/ Sup-Konzepte hin untersucht

Morphzerlegung / Stemming

  • Zeichenersetzung/Standardisierung

  • Derivatsanalyse
  • Flexionsanalyse
  • Kompositionsanalyse
  • regelbasiert
  • datenbasiert
    • Xcerpt besitzt derzeit keine Möglichkeit,
      via WebServices Dienste wie CELEX abzufragen

    • externe Reasoner zu nutzen
    • Variablen-Ergebnisse als URL zu nutzen


  • Durchsuchung nach Duplikaten

  • Erkennung von Abweichungen

  • Verknüpfen von Ergebnissen


Inhaltsintegration

  • Standardisierung

    • Veringerung der Daten auf ein Minimum

  • Grobauswahl

    • nicht identische Paare nur schnelle Metrik isolieren

  • Ähnlichkeitsfindung

    • eventuell identische Paare näher untersuchen

    • i.A. mit Hilfe mehrerer Algorithmen

  • Bewertung

    • Auswertung der erzielten Ergebnisse

    • Entscheidung zwischen
      • Link
      • möglicher Link

      • kein Link

statische Zeichenkettenvergleiche

Verfahren zu phonetischen Distanz


Umwandlung der Attribute in Lautsprache

Editierdistanz-Verfahren


Messung des Abstandes der Buchstaben in zum Vergleich herangezogenen Wörtern

Typewriter-Distanz


betrachten Dimension des jeweiligen Eingabegerätes

Swapping-Distanz


betrachten Möglichkeit, daß bei Eingabe Terme an falsche Attribut gekoppelt wurden

kombinierende Verfahren


Xcerpt-Einbettung

measure-grouping


  • ähnlich SQL - “GROUP BY“-Funktion, nur auf unschärfe Werte
  • ohne extrinsische Einflüsse
  • ohne Parameter
  • geringe bis mittlere Entitäten-Anzahl

Xcerpt-Umsetzung

groupSubstitution
  • läßt Gruppierungscluster erstellen

  • erfragt bei diesem für jede Substitution eine eindeutige ID

  • gruppiert anhand dieser ID die Substitutionen untereinander

Xcerpt-Umsetzung

getClusterId
  • veringert die Substitution auf relevante Bestandteile
  • sortiert auf feste Reihenfolge
  • entfernt Mehrfacheinträge


Xcerpt-Umsetzung

xcerptCluster
  • filtert benötigte Paare
  • berechnet Term-Frequenz
  • wählt zu verwendente Algorithmen/Strategie
  • intrinsische Standardisierung / Stemming
  • Transponiert
  • liefert geclusterte Vergleichsmenge mit
    Repräsentant

Xcerpt-Umsetzung

cluster
  • einzelne Spalte
  • Grobblockierung über Canopy-Methode
  • Tokenizierung, Mini-Stemming
  • Gewichtung über Termfrequenzen
  • Anwendung der entsprechenden Vergleichsmetrik

doClustering
  • Einteilung der Ähnlichkeitspaare in Gruppen
  • Gewichtung der Paare untereinander
  • Greedy-Algorithmus

Termfrequenz-Gewichtung

C
Datensammlung

W(C)
Menge der Terme in C

h(w)
deren Häufigkeit im Datensatz