Automating the discovery of linking candidates

Wie das World Wide Web hat auch das Semantic Web eine dezentrale Architektur. Personen und Unternehmen können Daten zur Verfügung stellen und sie mit anderen Daten im Web verbinden. Während es jedoch für die Erstellung von Datensätzen bereits gute Werkzeuge gibt, wird die Verknüpfung neuer mit berei...

Full description

Bibliographic Details
Main Author: Röder, Michael
Format: Doctoral or Postdoctoral Thesis
Language:English
Published: 2023
Subjects:
Online Access:https://doi.org/10.17619/UNIPB/1-1666
https://digital.ub.uni-paderborn.de/doi/10.17619/UNIPB/1-1666
http://nbn-resolving.org/urn:nbn:de:hbz:466:2-44287
https://nbn-resolving.org/urn:nbn:de:hbz:466:2-44287
Description
Summary:Wie das World Wide Web hat auch das Semantic Web eine dezentrale Architektur. Personen und Unternehmen können Daten zur Verfügung stellen und sie mit anderen Daten im Web verbinden. Während es jedoch für die Erstellung von Datensätzen bereits gute Werkzeuge gibt, wird die Verknüpfung neuer mit bereits bestehenden Datensätzen nur unzureichend unterstützt. Unsere Arbeit befasst sich mit wichtigen Forschungslücken bei der Umwandlung von Daten im Web in strukturierte, verknüpfte Daten. Der Erzeuger eines Datensatzes muss in der Lage sein, 1) Datensätze aus dem Web zu sammeln, 2) zu erkunden und 3) zu bestimmen, mit welchen Datensätzen er seinen Datensatz verknüpfen sollte. Für jede dieser Lücken schlagen wir einen Ansatz vor: Squirrel, LODCat und Tapioca. Squirrel ist ein verteilter Open-Source-Crawler für das Data Web. LODCat ist ein Ansatz zur Erkundung des Data Web auf der Grundlage von menschlich interpretierbaren Themen. Tapioca ist eine Suchmaschine für thematisch ähnliche Datensätze, die Kandidaten für die Erstellung von Verknüpfungen sein können. Eine vierte Forschungslücke ergab sich aus den Evaluierungen der oben genannten Ansätze: komplexe, verteilte Systeme, die Linked Data verarbeiten, brauchen faire Benchmarking-Plattformen. Daher haben wir Hobbit entwickelt - eine ganzheitliche Benchmarking-Plattform, die das Benchmarking aller Schritte des Lebenszyklus von Linked Data unterstützt. Darüber hinaus präsentieren wir Lemming - einen Ansatz zur Erzeugung synthetischer Wissensgraphen beliebiger Größe, die reale Wissensgraphen imitieren. Außerdem schlagen wir zwei neue Benchmarks vor. Orca ist ein Benchmark für Data Web Crawler. Glisten ist der erste Benchmark für Systeme, die Datensätze für Verknüpfungen empfehlen. Like the World Wide Web, the Semantic Web has a decentralized architecture. Users and organizations can make data available and connect it to other parts of the Web. However, while the creation of datasets is well supported, the support for linking new datasets to already existing datasets is ...