«File Cabinet». Quelle: unsplash.com
Suchen, Finden, Weiterverarbeiten und Publizieren in Repositorien der Infrastruktur von DARIAH-DE
Lukas Weimer zur Arbeit mit geisteswissenschaftlichen Forschungsdaten in Repositorien
Im Auftaktbeitrag zur Sonderreihe Forschungsdaten in der Medienwissenschaft haben Dietmar Kammerer und Kai Matuszkiewicz angeregt, über die fachlichen Spezifika und Bedarfe der Medienwissenschaft im Hinblick auf Forschungsdaten und Forschungsdatenmanagement aus dem Fach heraus nachzudenken, diese zu diskutieren und sie zu reflektieren. Die Frage, was Forschungsdaten für die Medienwissenschaft sein können und wie mit diesen umzugehen ist, ist ebenso essentiell, wie Forschungsdatenmanagement als Ausdruck der digitalen Transformation der geisteswissenschaftlichen Praxis unter soziotechnischen Vorzeichen zu verstehen, die die Geisteswissenschaften gegenwärtig in voller Breite erfasst hat. Ziel der Reihe ist es, einen offenen, intrinsisch motivierten Diskurs über medienwissenschaftliche Forschungsdaten zu führen sowie diverse Aspekte dieser umfassenden Thematik zu behandeln. Dabei versteht sich die Reihe als Diskussionsplattform und lädt Interessierte ein, sich im Laufe des kommenden Jahres an der selbigen zu beteiligen.
Die Sonderreihe geht mit einem Beitrag des Germanisten Lukas Weimer weiter, der anhand einer praxisnahen Fallstudie illustriert, wie die (Nach-)Nutzung FAIRer geisteswissenschaftlicher Forschungsdaten abläuft. Am Beispiel der DARIAH-DE-Infrastruktur führt Weimer den Umgang mit textuellen Forschungsdaten und deren Metadaten vor und gibt somit einen Einblick in das weite Feld der Textmedien als Forschungsdaten, die auch in den Medienwissenschaften von enormer Bedeutung sind.
Einleitung
Die FAIR-Prinzipien gehören mittlerweile in vielen Disziplinen zum Standard bei der wissenschaftlichen (Forschungs-)Datenveröffentlichung. Die Daten nach der Publikation auffindbar («findable» – F), zugänglich («accessible» – A), interoperabel («interoperable» – I) und nachnutzbar («reusable» – R) zu machen, ist kein kleiner Aufwand, der aber nicht nur den veröffentlichenden Forschenden, sondern der gesamten wissenschaftlichen Gemeinschaft nutzt. Es gibt Angebote, die bei der «FAIRification» von Daten unterstützen und den Weg hin zu FAIRen Daten ebnen. Doch wie verläuft der entgegengesetzte Weg für Forschende, die Daten nachnutzen wollen? Auf welchen Plattformen suche ich Daten und welche Schritte sind zu gehen, bis die Nachnutzung tatsächlich annähernd schrankenfrei möglich ist? Diese Fragen sollen mithilfe einer Fallstudie anhand von Repositorien innerhalb von DARIAH-DE beantwortet werden.
Fallstudie
Als ein mit informatischen Methoden vertrauter Germanist mit speziellem Fokus auf epischen Texten möchte ich gerne die Romane von Goethe computergestützt analysieren. Ich interessiere mich für quantitative Studien im Allgemeinen, im Speziellen für computergestützte Untersuchungen zur Redewiedergabe (z.B. Brunner et al. 2020). Dafür bin ich auf der Suche nach einer Untersuchungsgrundlage in einem gut zu verarbeitenden Format, da meine zeitlichen Ressourcen nicht ausreichen, das Romanwerk von Goethe selbstständig für solcherlei Untersuchungen aufzubereiten.
Wo suche ich?
Es gibt eine ganze Reihe von Forschungsdatenrepositorien, die für die Suche nach FAIRen Daten in Frage kommen. Für diese Fallstudie nutze ich das TextGrid Repository, ein digitales Langzeitarchiv für geistes- und kulturwissenschaftliche Forschungsdaten, das für alle Forschenden frei zugänglich ist. Hierin sind Forschungsdaten nachhaltig gespeichert, mit Metadaten versehen und mit persistenten Identifikatoren (EPIC Handles) veröffentlicht. Es ist daher über die Germanistik hinaus für sämtliche mit Texten und Metadaten arbeitenden Wissenschaften relevant. Außerdem ist das TextGrid Repository seit 2020 mit dem Core Trust Seal ausgezeichnet. Grundlegende Standards sind also erfüllt – keine schlechten Voraussetzungen für die Suche.
Wie suche ich?
Ich finde mich auf der Startseite des TextGrid Repository wieder, die oben eine Suchleiste enthält. Die erweiterte Suche ist sehr sinnvoll, um gezielt nach bestimmten Daten zu suchen. Da mir selbst noch nicht klar ist, was ich genau benötige, bleibe ich bei der einfachen Suche, um einen möglichst breiten Überblick über potenziell hilfreiche Daten zu erhalten. Mit meiner noch recht wenig durchdachten Suchanfrage «wilhelm meisters lehrjahre» stoße ich schnell auf einige Treffer, u. a. den Volltext selbst (vgl. Abb. 1). Bei dem Datensatz handelt es sich um den Text aus der Hamburger Goethe-Werkausgabe (ab 1948) in TEI XML; er liegt aber auch im txt-Format vor. TEI XML kenne ich als Format, das für die Textauszeichnung bestens geeignet ist und sich für vielfältige Formen der Weiterverarbeitung anbietet. Ich finde es sehr hilfreich, dass die Daten derart kodiert veröffentlicht wurden und ich diese Arbeit nicht selbst manuell durchführen muss. Neben dem Text der Werkausgabe enthält der Datensatz noch eine Reihe weiterer Metadaten, die Herkunft und Entstehungsprozess transparent machen und bei der Weiterverarbeitung helfen sowie die Auffindbarkeit des Datensatzes erhöhen; ich will mich hier aber auf die «Hauptressource», den Volltext in TEI XML, konzentrieren.
Exkurs: Zielgerichtet suchen
Bei der Suche sollte darauf geachtet werden, zielorientiert zu suchen. Natürlich kann – wie im beschriebenen Falle – auch eine einfache Suchanfrage zum Ziel führen. Generell bietet es sich aber an, erweiterte Suchfunktionen zu nutzen, die auch die Abfrage von Metadaten erlauben. Im beschriebenen Fall könnte zusätzlich zum Titelwort ‹wilhelm meisters lehrjahre› auch noch nach dem Format ‹xml› und der Sprache ‹german› gesucht werden, um die Treffer bereits im Vornherein auf relevante einzuschränken.
Wie verwende ich gefundene Daten?
Nach dem Download kann ich erste Berechnungen an meinem lokalen Rechner durchführen. Das TEI XML erlaubt mir Wort- und Satzzählungen, dank der Textannotation auch Arbeiten mit auftretenden Personen, Orten, Gruppen und sogar direkten Reden. Durch das leicht weiterzuverarbeitende Format TEI XML – wichtig für das ‹I› und ‹R› von FAIR – komme ich relativ schnell zu ersten Untersuchungsergebnissen, indem ich die gesprochenen Reden des Figureninventars extrahiere und hiermit stilistische Vergleiche zwischen den einzelnen Figuren durchführe (einige grundlegende Untersuchungen wären auch ohne Download mit den in das TextGrid Repository integrierten Analyse-Tools Voyant Tools, dem Annotation Viewer und dem Language Resource Switchboard möglich gewesen).
Wie bereite ich auch meine Daten für die Nachnutzung auf?
Meine Ergebnisse könnten auch für die gesamte Forschendencommunity interessant sein und von dieser weiterverarbeitet werden. Da auch ich von der frei zugänglichen, FAIRen Veröffentlichung von Daten – in meinem Fall von Goethes Wilhelm Meister in TEI XML – profitiert habe, ist es für mich eine Selbstverständlichkeit, auch meine Daten verfügbar zu machen, so dass andere Forschende auf diese zugreifen und sie nachnutzen können. Außerdem plane ich einen Artikel zu diesen Daten und möchte im Zuge der Transparenz und Referenzierbarkeit meine Untersuchungsgrundlage gemeinsam mit meinen Berechnungen vorher veröffentlichen. Das TextGrid Repository ist eher auf die Veröffentlichung von Primärtexten und ganz explizit auf TEI XML ausgerichtet, meine Berechnungen sind allerdings in einem anderen Format. Ich wähle als Veröffentlichungsort daher das zweite große Repositorium von DARIAH-DE, das DARIAH-DE Repository, das ebenfalls die wichtigen Standards der Nachhaltigkeit und Referenzierbarkeit erfüllt. Es ist dem TextGrid Repository insgesamt ähnlich, hat jedoch keine Beschränkungen in Bezug auf das Ablageformat und dient dezidiert dazu, Forschungs(roh)daten aus allen Geistes- und Kulturwissenschaften zu veröffentlichen. Außerdem kann ich hierin alle Dateien problemlos in einer gemeinsamen Kollektion publizieren. Als Veröffentlichungsformat für meine Untersuchungsdaten wähle ich das CSV-Format, um die Nachnutzung meiner Daten zu vereinfachen.
Exkurs: Dateiformate zur Nachnutzung
Bei der Publikation von Forschungsdaten sollte darauf geachtet werden, sie in einem Format zu veröffentlichen, das sich gut zur Nachnutzung anbietet. Ein wichtiges Kriterium sollte sein, dass die Formate nicht auf proprietärer Software beruhen, sondern universell bearbeitet werden können. Das im Beispiel gewählte CSV-Format bietet sich dafür gut an, ebenso beispielsweise txt, XML usw. Auch hierfür gibt DARIAH-DE Empfehlungen.
Wie publiziere ich meine Daten?
Ich erfahre, dass das DARIAH-DE Repository nur ein Modul einer übergreifenden Architektur ist, der DARIAH-DE Forschungsdaten-Föderationsarchitektur (DFA). Sie stellt Dienste bereit, die den Research Data Lifecycle für geistes- und kulturwissenschaftliche Forschungsdaten begleiten. Neben dem Repository enthält die DFA den Publikator, in dem Daten hochgeladen, mit Metadaten ausgezeichnet und für die Veröffentlichung vorbereitet werden können, die Collection Registry, die weitere Beschreibungen der hochgeladenen Dateien erlaubt, die Generische Suche, mit der die Collection Registry durchsuchbar ist, und das vor allem an Expert_innen gerichtete Data Modeling Environment, das Datenmodelle definiert und Mappings zwischen diesen herstellt, um zur Modellierung und Assoziation der Daten beizutragen (vgl. Abb. 2).
Durch die DARIAH Authentifizierungs- und Autorisierungsinfrastruktur (AAI) sind all diese Dienste (sowie sämtliche Dienste und Werkzeuge von DARIAH) mit nur einem Account zugänglich. Da ich die Daten vorerst ‹nur› nachhaltig, auffindbar und referenzierbar im DARIAH-DE Repository speichern will, verwende ich den Publikator.
Der intuitiv verwendbare Publikator erlaubt mir, meine Daten per Drag&Drop hochzuladen; schon sind sie als Kollektion gespeichert. Sowohl für die Gesamtkollektion als auch für die einzelnen Dateien muss ich Metadaten vergeben. Verpflichtend sind hier nur Titel, Autor_in/Urheber_in und Lizenzen. Je detaillierter ich jedoch vorgehe, desto leichter lässt sich meine Publikation von potenziellen Nachnutzenden einordnen und finden. Zusätzlich liefere ich noch eine Dokumentationsdatei mit, die den Entstehungsprozess meiner Daten erklärt. Um die Aufmerksamkeit für meinen Datensatz zu erhöhen, möchte ich später zusätzlich noch ein eigenes Data Paper schreiben, das über die Dokumentationsdatei hinausgeht, meine Daten genauer beschreibt und mein Vorgehen beim Sammeln der Daten erläutert. Nach dem Metadateneintrag publiziere ich meine Dateien; sie sind nun im Repository gespeichert und via DOI und EPIC Handle referenzierbar. Einer Nachnutzung entsprechend der angegebenen Lizenzen steht nun nichts mehr im Wege.
Exkurs: Metadaten
Metadaten sind zusätzlich zur Publikation veröffentlichte Daten, die Eigenschaften der publizierten Daten angeben. Für Forschungsdaten sind sicher Autor_in/Urheber_in und Lizenzen disziplinübergreifend besonders relevante Metadaten, aber auch Angaben zu Zeit, Ort, Genre, Format, Sprache u.v.m. können und sollten angegeben werden. Durch die Auszeichnung mit Metadaten sind Daten vergleich- und gruppierbar und können zielgerichteter gesucht, gefunden und leichter verstanden werden.
Sind meine Forschungsdaten nun FAIR?
Die FAIR-Prinzipien geben Leitlinien für die Datenpublikation, die von Fall zu Fall anders ausgelegt werden können; ein klares Ja oder Nein ist auf diese Frage daher selten möglich. Meine Forschungsdaten genügen durch meine Veröffentlichung zumindest in weiten Teilen den FAIR-Prinzipien: Sie sind über die DARIAH-DE Repository-Suche ‹findable›, auf ihnen liegen keinerlei Beschränkungen sondern offene Lizenzen, sie sind daher ‹accessible›, durch das CSV-Format sind sie in einer Vielzahl von Anwendungsfällen ‹interoperable› und ‹reusable›.
Fazit
Der Weg hin zu FAIRen Daten ist zwar kein direkter, aber auch kein besonders steiniger. Wohl bedeutet er einen gewissen Mehraufwand bei der Datenaufbereitung und Publikation. Wie die Fallstudie aber gezeigt hat, lohnt der Aufwand für Veröffentlichende und Nachnutzende gleichermaßen – und er trägt seinen Teil zu einer transparenten und offenen Wissenschaftslandschaft bei, die Datenaustausch fordert und fördert. Zeitschriften bzw. Data Journals aller Fachdisziplinen können darin unterstützen, diesen Publikationsethos fortzuführen, z. B. indem sie in Data Papers Forschungsdaten herausgreifen, über ihre Genese berichten, sie ausführlich beschreiben und mögliche Nachnutzungsszenarien skizzieren. Was in der Forschungslandschaft noch rar gesät ist, sind Foren zum Austausch über Forschungsdaten und Forschungsdatenmanagement sowie Beratungsstellen. Doch auch diese Nachfrage wird seit einiger Zeit adressiert: einen disziplinären Zugang zum Austausch über Daten bietet beispielsweise das Projekt Discuss Data; außerdem bieten Forschungsinfrastrukturen häufig Beratungsstellen an, die über das Angebot der eigenen Infrastruktur hinausgehen, so auch das gemeinsame Helpdesk von DARIAH-DE und CLARIAH-DE oder dasjenige von NFDI4Culture. Und nicht zuletzt ist es auch ein Ziel der Nationalen Forschungsdateninfrastruktur (NFDI), diesen Bedarf zu bedienen.
Unabhängig davon zeigt dieses Fallbeispiel, wie sich die geistes- und kulturwissenschaftliche Forschungspraxis im Zuge der Digitalisierung verändert, welche Chancen und Vorteile sich aus nachhaltigem Forschungsdatenmanagement ergeben und welchen Weg die Community noch zu beschreiten hat.
Bevorzugte Zitationsweise
Die Open-Access-Veröffentlichung erfolgt unter der Creative Commons-Lizenz CC BY-SA 4.0 DE.