Donnerstagabend, etwas ungewohnt für Vorlesungen, insbesondere wenn am nächsten Tag der thematische Anschluss mit der nächsten Vorlesung stattfindet. Heute geht’s um die Modellierung von Metadaten und die Nutzung von Schnittstellen. Eigentlich ein sehr interessantes Thema, also los geht’s.

Die OAI-PMH Schnittstelle zum abgreifen von DSpace durften wir ja in einer Übung bereits kennenlernen (siehe dazu den Blogeintrag). Dies hat, abgesehen von der dafür notwendigen Zeit, auch sehr gut geklappt. Für die Weiterverwendung der aus DSpace abgegriffenen Daten mit MarcEdit gilt es jedoch darauf zu achten, dass da noch Namespace-Definitionen in der ersten Zeile eingefügt werden, ansonsten kann das Programm diese nicht verarbeiten und stürzt ab. Desweiteren werden uns an dieser Stelle noch zwei weitere Austauschprotokolle für Metadaten vorgestellt, welche in der Archiv- und Bibliothekswelt weit verbreitet sind. Es handelt sich hierbei um das Angebot “Z39.50” und die Schnittstelle “SRU”, beides Produkte der US-amerikanischen Library of Congress, welche sich, anders als OAI-PMH, mehr auf Live-Abfragen oder Abfragen mit vielen Parametern spezialisieren. Ein Beispiel für einen Katalog, in dem die Schnittstellen zusammenfinden, bildet der “KvK”, der “Karlsruher virtuelle Katalog”, welcher für die Metadaten-Suche auf mehrere Schnittstellen zurückgreift.

Wir kommen also nun zum Ernten der Daten anhand dem Tool “VuFindHarvest”, mit welchem die Daten über die OAI-PMH-Schnittstelle abgerufen werden können. Hierfür müssen jedoch in Koha und ArchivesSpace die OAI-MPH-Endpoints aktiviert bzw. freigegeben werden. Die Aktivierung dieser Endpoints gestaltet sich via des Dropdown Befehls “aktivieren” grundsätzlich sehr einfach, insofern man die unter Web-Services versteckten OAI-PMH-Einstellungen auch findet.

Die Installation von VuFindHarvest wie der Konsole gestaltet sich, wie üblich, eigentlich sehr einfach und dauert nur wenige Minuten, insofern einem keine Tippfehler unterlaufen. Die Übung zum Harvesten der Daten mittels VuFindHarvest ist etwas komplizierter. Im HedgeDoc befindet sich ein Musterbefehl für die Konsole, dessen Parameter jedoch noch angepasst werden müssen, je nach Plattform und Format der Daten, welche abgerufen werden sollen. Dies gestaltet sich insbesondere bei der Arbeit mittels VPN und VM etwas mühsam, da die Copy-Paste-Funktion hier nicht besonders zuverlässig arbeitet, was URLs abtippen bedeutet.

Das Abgreifen der Daten von ArchivesSpace gestaltet sich einfach, das ging ohne Probleme. Mühsamerweise stellt sich doch heraus, dass ich keine Daten mehr in Koha vorhanden habe. Ich werde hierfür wohl nochmals Daten erstellen müssen. Vielleicht benutze ich auch die hinterlegten Beispieldaten hierfür. Dies liegt jedoch nicht an Unklarheiten mit VuFindHarvest, das Abgreifen der Daten funktioniert problemlos.

Wir widmen uns nun also dem Thema Crosswalks. Dies ist ein gängiger Begriff für die Konvertierung von einem Metadatenstandard zu einem anderen. Also von DublinCore zu Marc21, um ein Praxisnahes Beispiel zu nennen. Der Crosswalk hält sich an vordefinierte Regeln, wonach Elemente und Werte einander zugeordnet werden. Optimalfall ist eine 1:1-Zuordnung ohne Informationsverlust, dies ist in der Praxis jedoch äusserst selten möglich da die jeweiligen Metadatenstandards verschiedene Elemente beinhalten.

image Beispiel eines MARC -> Dublin Core Crosswalks. Hier sieht man das oben angesprochene Beispiel, dass MARC das sogenannte “Creator”-Element aus Dublin Core nicht verwendet.

Ebenso erfolgt ein Einblick in XSLT, eine Programmiersprache zur Transformation von XML-Dokumenten. Leider wird diese im diesjährigen Kurs nicht näher behandelt, das wäre sehr interessant gewesen. Es existieren jedoch bereits viele vordefinierte Templates zu XML-Transformationen in XSLT, welche zur Konvertierung zwischen Standards benutzt werden können.

Die Installation und Konfiguration der MarcEdit-Software verläuft gut, aufgrund der bereits vorhandenen Konsolenbefehle stellt dies alles kein Problem dar. Die Übung verschiebe ich auf ein anderes Mal; nach 9 Stunden Arbeit und der Vorlesung bin ich nun doch etwas müde.