Tag 9 - Linked Data | Lerntagebuch Bibliotheks- und Archivinformatik

So letzter Tag. Bin ja auch irgendwie froh geht ein weiteres Pandemie-Semester zu ende. Seit der letzten Vorlesung ist einiges an Zeit vergangen, jedoch hatte ich die Möglichkeit, die obligatorischen Übungen noch nachzuholen, was sicherlich dabei half, bei der Sache zu bleiben. Widmen wir uns also dem letzten Tag!

Interessant ist der Unterschied zwischen Bibliotheks- und Discoverysystemen. Während Discoverysysteme einen Zentralindex benutzen, nutzen Bibliothekssysteme keinen solchen. Anhand des Praxisbeispiels bezüglich der DLA Marbach wurde das alte System vorgestellt, in dem noch vor der Suche angegeben werden musste, in welchem Bestand die Suche stattfinden sollte. Dies führte öfters zu Problemen, da die Suchenden nicht wussten, in welchem Bestand die gesuchte Ressource zu finden sein sollte. Dieses Problem wurde mit einer Lösung umgangen, in dem die verschiedenen Bestände “homogenisiert” wurden, und sich somit in einem neuen Discoverysystem gemeinsam durchsuchen lassen. Das ganze wurde mittels der PHP-basierten “Typo3-Find”-Technik eingerichtet, was auch die Einbindung in den Webauftritt wesentlich vereinfachte. Es ist den Suchenden jedoch nach wie vor gestattet, nur in den einzelnen Beständen zu suchen.

Ebenfalls interessiert ist die Infografik über die Struktur des genutzten Systems. So gibt es mit Kallias eine Datenquelle. Diese wird anhand der Python-Library “Pandas” prozessiert und in CSV-Files weiterverarbeitet. Von dort aus gelangen die Daten in Tabellen-Form zur Weiterverarbeitung in OpenRefine zur Vereinheitlichung. Das ganze wird im CSV-ähnlichen Format .tsv abgespeichert. Danach wird es nochmals mittels Pandas weiterverarbeitet und wiederum im CSV-Format in Solr verwendet. TYPO3-Find bedient sich wiederum ebendiesen Files aus Solr.

Für Onlineschnittstellen, wie bspw. OAI-PMH, werde die Daten aus OpenRefine im XML-Format ausgegeben und via XSLT in das EAD-Format (Encoded Archival Description) konvertiert. Diese Files wiederum können dann via der Schnittstelle abgerufen werden.

Es folgt hier, choronologisch der Vorlesung angepasst, ein kleiner Einschub zur Evaluation der Lehrveranstaltung. Wie erwartet war diese etwas polarisierend. Aufgrund der verschiedenen Schwerpunkte der Studierenden kam einiges an verschiedenen Antworten zusammen. Auch für mich, mit Schwerpunkt Web- und Usability-Engineering, war der Kurs eher schwierig zu absolvieren. Aufgrund fehlender Kenntnisse im Bibliotheks- und Archivwesen war einiges an Vorwissen und Kenntnissen zu den Themen und verschiedenen Systemen nicht vorhanden. Persönlich hätte ich mir etwas mehr vom “Informatik”-Teil der Veranstaltung erhofft und mehr praktische Übungen und Einblick in die technischen Hintergründe der Systeme. Nichtsdestotrotz war der Kurs spannend und der Leistungsnachweis in Form dieses Tagebuchs ist auch für Studierende anderer Fachrichtungen gut machbar.

Doch zurück zur Theorie und den aktuellen Datenmodellen. BIBFRAME dient als Nachfolger von MARC21 und basiert auf den Regelwerken FRBR (Functional Requirements for Bibliographic Records) & RDA (Ressource Description & Access), wobei FRBR auch die Grundlage für RDA darstellt. BIBFRAME besteht aus dem sogenannten “BIBFRAME Model”, welches zwischen Werken (das grundlegende Werk), Instanzen (bspw. verschiedene Instanzen eines Werkes) und Items (die konkreten Exemplate der Werke/Instanzen) unterscheidet und auf Werkebene die Entitäten ‘Agent’ (bspw. Autoren), ‘Subject’ (bspw. Schlagworte) und ‘Events’ (bspw. Ereignisse wie Uraufführung) unterscheidet, und dem “BIBFRAME Vocabulary”, welches Konzepte und Eigenschaften der Entitäten des Modells beschreibt. Diese funktionieren, ähnlich dem Resource Despription Framework (RDF), via einer Ontologie welche auf hierarchischen Prizipien beruht. So ist die Klasse “Autor” bspw. eine SubClass von “Beiträger”, ist dieser Klasse also untergeordnet.

Wir begeben uns zu RiC (Records in Context). RiC basiert auf Linked Data-Prinzipien und soll die Abbildung neuer und mehrfacher Beziehungen zwischen Entitäten ermöglichen. RiC basiert auf vier verschiedenen Hierarchie-Ebenen, welche wiederum andere Ebenen beinhalten. Ähnlich RDF wird die oberste Ebene schlichtwegs “Thing” genannt. Darunter folgen, ähnlich BIBFRAME, die Entitäten der Ressourcen, der Agents und andere. RiC legt einen stärkeren Fokus auf die Herkunft und Akquirierung von Ressourcen und enthält somit auch Entitäten mit dementsprechenden Fokus.