Angleichung zweier Schemata zu Gesamtschema für jedes Attribut attr1,n in S1 im Idealfall ein equivalentes Attribut attr2 gefunden wird. unterschiedliche Modellierungskonzepte Meta-Konflikte <fahrrad>true</fahrrad> <besonderheit>Fahrrad</besonderheit>
Xcerpt
Abfragesprache mit „Reasoning-Capabilities“ basiert auf Muster, Regeln, strikte Trennung zwischen Anfrage und Konstruktion
Xcerpt
basiert auf „Haskell“
rein funktionale Programmiersprache ohne imperative Sprachkonstrukte
rückwärts verkettet, nicht strikt
Zwischenergebnisse nur ausgewertet, wenn benötigt
lazy evaluation
Caching von Zwischenergebnissen
Xcerpt-Syntax
teilweise Termspezifikation ([[ - ]] bzw. {{ - }})
Variablen (var Name)
Unvollständigkeit in die Tiefe ( desc )
Attribute
Sammelkonstrukte – some/all - Quantor
Konditionen ( where )
Verzweigungen (Konjunktion (or)/Disjunktion (and)
Gruppierung, Sortierung (group by, sort by)
reguläre Ausdrücke
Xcerpt
Ontologie-Integration
semantische Abweichungen erkennen
durch einheitliche, auf syntaktischer Ebene vergleichbare Zeichenketten ersetzen
Synonyme
Homonym
Ontologie-Integration
Konzeptschicht – besitzen Konzepte und deren Relationen
Instanzschicht – Vertreter der jeweiligen Konzepte
OWL : XML-Format, beinhaltet beide Schichten
Begriffe werden darüber nachgeschlagen und entsprechend auf Sub-/ Sup-Konzepte hin untersucht
Morphzerlegung / Stemming
Zeichenersetzung/Standardisierung
Derivatsanalyse
Flexionsanalyse
Kompositionsanalyse
regelbasiert
datenbasiert
Xcerpt besitzt derzeit keine Möglichkeit, via WebServices Dienste wie CELEX abzufragen
externe Reasoner zu nutzen
Variablen-Ergebnisse als URL zu nutzen
Durchsuchung nach Duplikaten
Erkennung von Abweichungen
Verknüpfen von Ergebnissen
Inhaltsintegration
Standardisierung
Veringerung der Daten auf ein Minimum
Grobauswahl
nicht identische Paare nur schnelle Metrik isolieren
Ähnlichkeitsfindung
eventuell identische Paare näher untersuchen
i.A. mit Hilfe mehrerer Algorithmen
Bewertung
Auswertung der erzielten Ergebnisse
Entscheidung zwischen
Link
möglicher Link
kein Link
statische Zeichenkettenvergleiche
Verfahren zu phonetischen Distanz
Umwandlung der Attribute in Lautsprache
Editierdistanz-Verfahren
Messung des Abstandes der Buchstaben in zum Vergleich herangezogenen Wörtern
Typewriter-Distanz
betrachten Dimension des jeweiligen Eingabegerätes
Swapping-Distanz
betrachten Möglichkeit, daß bei Eingabe Terme an falsche Attribut gekoppelt wurden
kombinierende Verfahren
Xcerpt-Einbettung
measure-grouping
ähnlich SQL - “GROUP BY“-Funktion, nur auf unschärfe Werte
ohne extrinsische Einflüsse
ohne Parameter
geringe bis mittlere Entitäten-Anzahl
Xcerpt-Umsetzung
groupSubstitution
läßt Gruppierungscluster erstellen
erfragt bei diesem für jede Substitution eine eindeutige ID
gruppiert anhand dieser ID die Substitutionen untereinander
Xcerpt-Umsetzung
getClusterId
veringert die Substitution auf relevante Bestandteile
sortiert auf feste Reihenfolge
entfernt Mehrfacheinträge
Xcerpt-Umsetzung
xcerptCluster
filtert benötigte Paare
berechnet Term-Frequenz
wählt zu verwendente Algorithmen/Strategie
intrinsische Standardisierung / Stemming
Transponiert
liefert geclusterte Vergleichsmenge mit Repräsentant