Weiterführende Bearbeitung des Themas «Metadatenmodellierung», insbesondere in tabellarischer Form. OpenRefine wurde hier als Beispiel genannt, mit dessen Daten analysiert, bereinigt, konvertiert und auch angereichert werden können. Will heissen, durch externe Daten ergänzt werden können. Bspw. können Personennamen in Verbindung mit Geburtsdaten mit einer gemeinsamen Normdatei abgeglichen werden, um mittels Identifier zusätzliche Information aus der GND zu entnehmen, und diese im eigenen Datensatz zu ergänzen. OpenRefine ist insbesondere für tabellarische Daten zu benutzen, will heissen CSV, XLS und ähnliche Formate. Einfache XML-Dokumente sollten einfach zu modellieren sein, verschachtelte XML-Dokumente sind ohne Zusatzsoftware schwierig umzusetzen. In Kombination mit MarcEdit können auch MARC21-Daten analysiert und transformiert werden.

Die Installation von OpenRefine und das Einlesen der Beispieldaten verlief problemlos. Die Übersicht über die Daten ist tabellarisch und sehr übersichtlich gestaltet. Das Bearbeiten der Daten, wie im Beispiel mit den Sprachen («English» zu «EN») gestaltet sich sehr einfach und effizient. Auch das Splitten der Autoren anhand der Pipe verlief gut, einzig der Fakt, dass die Pipe in der VM anders funktioniert, war kurz ein Hindernis. Das konnte durch die Copy & Paste-Funktion jedoch behoben werden. Auch das Clustern und Mergen anhand des Algorithmus ist eine äusserst nützliche Funktion, welche einiges an individueller Arbeitszeit einsparen kann.

Unbenannt Präsentation der Daten in tabellarischer Form in OpenRefine.

Der Fakt, dass sich OpenRefine das letzte verwendete Trennzeichen merkt, ist insbesondere von Nutzen, wenn man Datensätze zur Bereinigung trennen muss und später wieder zusammensetzen will, so kann der Join wieder anhand desselben Zeichens definiert werden. Anhand der bereits vorhandenen, vordefinierten, Transformationsmöglichkeiten lassen sich die Daten auf einfache und effiziente Weise bereinigen. Jedoch lassen sich auch Transformationsbedingungen durch den User definieren, um komplexere Transformationen zu ermöglichen. So können bspw. neue Spalten auf Basis bereits vorhandener Spalten erstellt werden, wie bspw. die Extraktion des Journals aus der Zitationsspalte. Dies erfolgt anhand einfacher Programmierungen und Befehlen wie «split», welche auch aus anderen Programmiersprachen wie Python bekannt sind.

image Extrahieren des Journals aus der Zitations-Spalte.

Es gilt hier anzumerken, dass grundsätzlich alles, was in OpenRefine möglich ist, mit etwas an Fachwissen auch in Excel machbar ist. Jedoch ist OpenRefinde derart effizient und einfach zu bedienen, dass dies insbesondere bei grösseren Datenmengen zu einem grossen Vorteil wird. Alles in Allem stellt OpenRefine eine durchaus nutzerfreundliche und zu bevorzugende Alternative dar zur Transformation von Daten via Programmiersprachen oder Excel.

Der Export und die simultane Transformation aus OpenRefine hin zu einem MARC21-Datensatz ist möglich, jedoch erfordert die Erstellung eines Templates (eine Art Mapping) anhand der Programmiersprache GREL (General Refine Expression Language) einiges an Fachwissen, auch wenn die verwendete Syntax der Sprache bereits aus anderen Programmiersprachen wie Javascript bekannt sein dürfte.