Tag 8 - Suchmaschinen und Discovery-Systeme | Lerntagebuch Bibliotheks- und Archivinformatik

So, weiter geht’s mit BAIN. Leider komme ich seit gestern nicht mehr in die VM und konnte somit auch die Übung auf heute leider nicht durchführen. Ich hoffe mal, dass wir die VM heute nicht brauchen werden. Aber zurück zur Sache.

Der Überblick zu OpenRefine und den Vergleich zu anderer Software ist sehr willkommen und gestattet es einem, sich vielleicht auch noch in andere Tools einzuarbeiten. Diese haben jedoch in der Regel keine graphische Nutzeroberfläche, dürften also etwas schwieriger zu handeln sein. Interessant ist das Java-basierte Programm «Metafacture», welches auch in andere Javabasierte Software eingebunden werden kann. Das Ganze ist also ausbaubar, insofern man die technischen Kenntnisse dafür besitzt. Es folgt ein Beispiel für eine JSON-API anhand von «Lobid», welches die Suchergebnisse im JSON-Format (JavaScript Object Notation) ausgibt, welches XML bei webbasierten Anwendungen nach und nach ablöst. Aufgrund der Optimierung für JavaScript ist JSON wesentlich webfreundlicher als andere Formate. Vorgestellt wird auch das im Bild ersichtliche Tool «Scrapir», mittels dessen hauptsächlich JSON-APIs (u.a. auch Google Books) abgerufen werden können. Die Ergebnisse werden in graphisch aufgearbeitet und tabellarischer Form präsentiert, um sie etwas übersichtlicher zu gestalten.

scrapir Beispielbild für Scrapir

Interessant ist ebenso der Vergleich zwischen den Funktionen des «Suchindex» und des Typus «Datenbank» anhand der Beispiele «Solr» und MySQL. Datenbanken beinhalten i.d.R. relationale Datensätze. um Redundanzen zu vermeiden, während beim Suchindex flache Dokumente vorhanden sind. Doch auch die Suchen unterscheiden sich, da Suchen in «Solr» lexikalisch funktionieren, also die Suchanfragen auch interpretieren können (bspw. Stammformen von eingegebenen Verben zu verwenden). Datenbankabfragen sind i.d.R. reine Glyphenvergleiche, suchen also exakt nach den eingegebenen Termen.

Bei den Übungen muss ich mich aufgrund der nicht funktionierenden VM nun mit meinen Beobachtungen begnügen, da ich die Übungen nicht selbst durchführen kann. An dieser Stelle hat eine Mitstudentin die Anfragen durchgeführt und den Bildschirm übertragen.

Anhand des Suchbegriffs: «Allfields: Psychology» liessen sich in «Solr» 3 Resultate finden, ebenso in Vufind mit dem Begriff «Psychology». Eigentlich keine Überraschung, da es sich ja um denselben Datensatz handelt. Die Resultate sind in VuFind jedoch wesentlich übersichtlicher dargestellt aufgrund der graphischen Nutzeroberfläche, liefern jedoch nur gewisse Metadaten, während «Solr», insofern keine Filter eingestellt sind, den kompletten JSON-Datensatz ausgibt. Ebenfalls interessant ist der «ResponseHeader» im JSON-File, welcher auch die für die Suche benötigte Zeit in Milisekunden ausgibt, die sogenannte «QueryTime». Die Suche in Solr gestaltet sich wesentlich schneller, dies liegt jedoch auch daran, dass auch VuFind die Suche über Solr durchführt, danach die Ergebnisse aber noch aufarbeiten muss.

Die Übung zur Datenintegration kann ich leider auch nicht durchführen, werde mich jedoch auch hier an den Erfahrungen meiner Gruppe orientieren. Die Arbeit mit dem Importskript hat für «Koha» funktioniert, auch wenn die Durchführung aussergewöhnlich lange dauerte. Das ganze lässt sich auch für «DSpace» und weitere wiederholen, solange darauf geachtet wird, die jeweiligen Parameter für die Institutionen auch zu ersetzen.