Optimierung ist wichtig, Veröffentlichen aber auch

Eine pragmatische Forschungsdaten-Praxis in einer unübersichtlichen Findungsphase

18.10.2022

Im Auftaktbeitrag zur Sonderreihe Forschungsdaten in der Medienwissenschaft haben Dietmar Kammerer und Kai Matuszkiewicz angeregt, über die fachlichen Spezifika und Bedarfe der Medienwissenschaft im Hinblick auf Forschungsdaten und Forschungsdatenmanagement aus dem Fach heraus nachzudenken, diese zu diskutieren und sie zu reflektieren. Die Frage, was Forschungsdaten für die Medienwissenschaft sein können und wie mit diesen umzugehen ist, ist ebenso essentiell, wie Forschungsdatenmanagement als Ausdruck der digitalen Transformation der geisteswissenschaftlichen Praxis unter soziotechnischen Vorzeichen zu verstehen, die die Geisteswissenschaften gegenwärtig in voller Breite erfasst hat. Ziel der Reihe ist es, einen offenen, intrinsisch motivierten Diskurs über medienwissenschaftliche Forschungsdaten zu führen sowie diverse Aspekte dieser umfassenden Thematik zu behandeln. Dabei versteht sich die Reihe als Diskussionsplattform und lädt Interessierte ein, sich an der selbigen zu beteiligen. Die Sonderreihe geht mit einem Beitrag von Bastian Weiß weiter, der ausführt, warum es aus Sicht einer pragmatischen Forschungsdatenpraxis wichtiger ist, imperfekte Daten zu publizieren, anstatt gar keine Daten zu publizieren.

Das Thema Forschungsdaten ist kompliziert, wie die Beiträge dieser Blogreihe zeigen: Das fängt beim Datenbegriff selbst an, betrifft die infrastrukturellen (Arbeits-)Bedingungen, das große Bild einer offenen Wissenschaft und vieles mehr. Diese Aushandlungen bringen unübersichtliche Vorschriften und Prozesse hervor, sodass optimierte Datenpublikationen derweil noch viel Zeit in Anspruch nehmen. In The Theory and Craft of Digital Preservation betont Trevor Owens das Prinzip MPLP – More Product, Less Process.1 Gegenwärtig verhindern komplexe oder zu unbekannte Prozesse die Bereitstellung von ‹mehr Produkt›: Die Datenproduktion läuft so rasant, dass – während perfekte Prozesslösungen noch gesucht werden – viele Datenbestände eher gar nicht als mit Mängeln, aber wenigstens brauchbar, archiviert werden. Findet man sich nun konfrontiert mit all den komplexen Anforderungen und Herausforderungen, die im Forschungsdatenmanagement (FDM) existieren, liegt genau dieser Schluss, Daten dann lieber nicht zu veröffentlichen, nahe (zumal die zu erwartende akademische Anerkennung dafür, wie Sophie G. Einwächter hervorhebt, gering ist).

More Product, Less Process

Als Devise traditioneller und digitaler Archivierung stellen die Autoren in More Product, Less Process in Frage, wie detailliert man sich mit einzelnen Objekten beschäftigen sollte, während zahlreiche Sammlungen auf Verarbeitung und vor allem Zugänglichmachung warten. Obwohl es um einen etwas anderen Kontext geht, kann daraus viel für die aktuelle Situation im Forschungsdatenmanagement gelernt werden. Ein eingängiges Bild lautet: «good processing is done with a shovel, not with tweezers».2 Gewendet auf die aktuelle Situation im FDM sehe ich das nicht als Plädoyer, in der Tat wichtige Fragen nicht auszuhandeln. Vielmehr geht es darum, mit einer pragmatischen Veröffentlichungspraxis zu beginnen, selbst wenn es für die eigenen Daten noch keine maßgeschneiderte Pinzette gibt. Maßgeschneiderte Datenpinzetten sind in vielen Disziplinen noch Zukunftsmusik, so sind z. B. in der Ethnographie noch Grundbegriffe zu verhandeln: «Our findings show that what is ‹good data› in current ethnographic research is still an unresolved question for practitioners themselves, let alone imagining what it might connote in the context of Open Data and Open Science.»3 Entsprechende Zweifel diagnostizieren Mosconi et al. bei ihren Befragungen zum Verhältnis von Aufwand und Nutzen ethnographischer Datenpublikationen. MPLP beschreibt Möglichkeiten, trotz notorisch knapper Ressourcen und fehlender Detaillösungen produktiv zu werden. Der Ansatz fordert, ein golden minimum an Datenpflege zu betreiben, um das Material dann aber möglichst schnell zur Nutzung zur Verfügung zu stellen: «The best level of arrangement and description performing the least amount of work to get records into a format that makes them usable.»4 Usable heißt nicht wunderschön, nicht perfekt dokumentiert, nicht alle FAIR-Prinzipien akribisch abgearbeitet, aber eben doch: nutzbar. Verlustfrei wäre ein solches Vorgehen nicht, die Alternative aber auch nicht: «Would something be lost by beginning to privilege the speed of processing over the careful examination of every document? Certainly. Our question is whether we might not gain much more than we would lose.»5

Der Weg zur vorbildlichen Datenpublikation

Denn es ist derzeit ein Leichtes, sich auf der Suche nach perfekten Lösungen der Datenpublikation zu verlieren und zu dem Schluss zu kommen, dass der Aufwand nicht lohnt: Mit der Suchmaschine re3data sucht man sich das optimale Repositorium (sollte es denn existieren). Weiß man nicht genau, wie man es erkennt, kann man sich z. B. mit den TRUST-Prinzipien vertraut machen und diese überprüfen. Ein wichtiges Kriterium ist auch ein geeignetes Metadatenschema, vielleicht gibt es ja auch passende Ontologien für das eigene Fachgebiet oder bereits Versuche, Objekte mit Linked Open Data zu vernetzen, an die man anknüpfen sollte. Wichtig sind auch Gedanken zu Langlebigkeit und Interoperabilität der technischen Formate, in denen die Daten bereitgestellt werden sollen. Das ist eine Auswahl der zu erfüllenden Voraussetzungen, um Daten gemäß den allgegenwärtigen FAIR-Prinzipien zu veröffentlichen. Wer sich dabei verständlicherweise Unterstützung wünscht, findet eine Menge guter Angebote, die aber noch ein etwas unübersichtliches Bild ergeben: Wendet man sich an das zuständige NFDI-Fachkonsortium (bei den meisten von uns wohl NFDI4Culture), eine disziplinäre Institution wie DARIAH-DE, eine der FDM-Landesinitiativen (z. B. fdm.nrw) oder gibt es eine lokale FDM-Anlaufstelle an der eigenen Institution? Auch wer sich bereits zu Beginn eines Forschungsprojektes Gedanken über das Datenmanagement macht (was die meisten Förderer mittlerweile verlangen), hat es nicht leicht: Vorlagen für Datenmanagementpläne (DMP) konfrontieren mit vielen Fragen. Das von vielen Drittmittelgebern geforderte Template von Science Europe enthält z. B. 53 Teilfragen. Im Siegener RDMO-Tool, das mit einem geführten Dialog bei der DMP-Erstellung hilft, sind für die DFG aktuell sogar 84 Fragen zu beantworten.6 Man mag hier ahnen, warum das dritte von Owens 16 Axiomen der Archivierung lautet: «Tools can get in the way just as much as they can help».7

Eine pragmatische Alternative

Dreht man aber nicht an jeder Justierschraube – ganz so, wie es der Ansatz eines golden minimum nahelegt – erscheint der Weg zur Datenpublikation weit weniger steinig. Das am CERN betriebene Zenodo ist eines der bekanntesten generischen Repositorien im europäischen Raum und bietet eine niederschwellige Möglichkeit, Daten beliebigen Typs und beliebiger Fachrichtung zu veröffentlichen. Man legt sich einen Account an, klickt Upload, füllt die erforderlichen Felder aus, wirft evtl. noch einen Blick auf empfohlene und optionale Felder, klickt Publish, und der Datensatz ist auffindbar und zugänglich, referenzierbar mit einer DOI, nachnutzbar dank einer CC-Lizenz auf Zenodo veröffentlicht.8 Wesentliche Punkte der FAIR-Kriterien lassen sich so in Minutenschnelle erfüllen, Begriffe wie «Metadatenschema» und «Persistenter Identifikator» muss man dafür nicht einmal kennen. Ein archivarisches Minimalziel ist auf diese Weise schnell erreicht, notfalls ohne Optimierung des Datensatzes hinsichtlich Dokumentation, Formatwahl, etc. Das Tool der Wahl muss dabei keineswegs Zenodo sein, mit einem institutionellen Repositorium sähe der Prozess ganz ähnlich aus und lieferte vergleichbare Resultate. Die Zusammenstellung von kultur- und medienwissenschaftlichen Fachrepositorien bei NFDI4Culture kann ebenfalls eine Anlaufstelle sein. Mit einem solchen Minimalansatz wäre im Vergleich zum Verbleib der Daten auf der Bürofestplatte oder dem USB-Stick in der Schreibtischschublade bereits der allergrößte Schritt getan. Selbst wenn die Person, die die Daten veröffentlicht hat, diese nie wieder anfasst, können andere nun (eine entsprechend offene Lizenz vorausgesetzt) mit diesen weiterarbeiten, sie ergänzen, und weitere Erkenntnisse daraus ziehen. Die Daten können sozusagen weiterleben, denn «nothing has been preserved, there are only things being preserved.»9 Dann können sich ganz unvorhergesehene, interdisziplinäre Zusammenspiele ergeben: So fanden etwa Fotos von Hotelprospekten, die im Rahmen einer Arbeit in der Tourismusforschung veröffentlicht wurden, eine überraschende Weiterverwendung in der Klimaforschung, da auf ihnen immer derselbe Gletscher im Zeitverlauf zu sehen war (wie in diesem Podcast geschildert wird). Nicht mehr ganz neu, dafür recht bekannt, sind die Cultural-Analytics-Studien von Lev Manovich. Einige der verwendeten Tools (die ihrerseits auf Open-Source-Software wie ImageJ basieren) werden auf den Projektseiten zur Verfügung gestellt, andere nicht, mit dem Hinweis: «These tools are not documented and therefore currently not available for download» (und das nun seit ca. 2008). So verständlich es ist, niemanden ohne Hilfe dastehen lassen zu wollen: Hätte man diese Tools einfach undokumentiert zur Verfügung gestellt, hätte sich mit etwas Glück jemand selbstständig eingearbeitet und eine eigene Dokumentation angeboten.

Fazit

Ein golden minimum hat natürlich keine universelle Gültigkeit: Bei Material, das Urheberrecht oder Datenschutzrecht berührt, ist eine juristische Prüfung und Bearbeitung der Daten auch beim minimalistischsten Vorgehen unumgänglich; für viele Kontexte werden sich eigene Bedingungen sine qua non finden. Aber auch hier ist etwas Pragmatik erlaubt: Mit aufwändig durchdachter Anonymisierung von Interviews kann dem Datenschutz genügt werden und ein möglichst hoher wissenschaftlicher Wert des Materials für die Nachnutzung erhalten bleiben – anonymisiert man dagegen grobschlächtiger, sinkt der Arbeitsaufwand und leider auch der Materialwert, wird aber nicht null.10 Unsauber geschriebenen, mangelhaft dokumentierten Programmcode zu einem Paper nachzuvollziehen, ist mühsam – ihn aber gar nicht zur Verfügung zu haben, ist im Zweifel noch schlechter. Die erste Priorität solcher Überlegungen sollte, auch das eine Forderung des MPLP, die Nutzbarkeit des Produkts sein, die perfekte Archivierung dieser ist nachgelagert. Die entscheidende Frage lautet also: Was ist nötig, um mit akzeptablem Aufwand einen möglichst großen Nutzen zu schaffen? Mit viel Arbeit bzw. Kenntnis kann es so aussehen wie im GitHub-Konto von Johannes Breuer, der Code seiner Workshops in sofort ausführbarer Form bereitstellt. Manovichs erwähnte Software Studies Initiative stellt dagegen ein einfaches Word-Dokument und die Software als Download bereit (bspw. hier zu ImagePlot) – das ist weit weniger komfortabel, im Sinne der Nutzbarkeit aber ein sinnvolles Minimum. Mein Punkt ist also: Man darf Daten mit Mängeln publizieren, die Schaufel statt der Pinzette verwenden. Das kann und wird nicht die letzte Lösung sein, ist aber der Alternative – angesichts der breiten Qualitätsanforderungen und zahllosen Entwicklungen erst einmal abzuwarten – zweifelsohne vorzuziehen. «It is time to focus on what we absolutely need to do, instead of on all the things that we might do in a world of unbounded resources.»11 So kompliziert, langwierig und zugleich fraglos wichtig es ist, disziplinspezifische Standards, Arbeitsabläufe, Speicherinfrastrukturen, Beschreibungsformate usw., die der Vielfalt der anfallenden Daten vollumfänglich gerecht werden können, zu finden und zu entwickeln, so wichtig ist es zu sehen, dass eine imperfekte Datenpublikation besser ist als gar keine.

1Trevor Owens: The Theory and Craft of Digital Preservation, Baltimore, MD 2018. Owens bezieht sich dabei auf Mark Greene, Dennis Meissner: More Product, Less Process: Revamping Traditional Archival Processing, in: The American Archivist, Bd. 68, Nr. 2, 1.9.2005, 208–263.
2Greene u.a.: More Product, Less Process, 240.
3Gaia Mosconi, Qinyu Li, Dave Randall, Helena Karasti, Peter Tolmie, Jana Barutzky, Matthias Korn, Volkmar Pipek: Three Gaps in Opening Science, in: Computer Supported Cooperative Work (CSCW), Bd. 28, Nr. 3, 1.6.2019, 749–789, hier 778.
4Owens: The Theory and Craft of Digital Preservation, 133.
5Greene u. a.: More Product, Less Process, 236.
6Diese ergeben sich durch Anpassung des RDMO-Standardkatalogs hinsichtlich DFG-Dokumenten wie der Checkliste zum Umgang mit Forschungsdaten und dem Kodex zur guten wissenschaftlichen Praxis (dargelegt hier). Ob es letztlich komplexer ist, viele Detailfragen zu beantworten, oder wenige große (wie etwa in der nur 6 Oberpunkte umfassenden DFG-Checkliste), ist natürlich diskutabel.
7Owens: The Theory and Craft of Digital Preservation, 5.
8Dafür mag in manchen Fällen eine rechtliche Einschätzung nötig sein - dazu unten.
9Ebd., 5.
10Es mag (gerade ethnographische) Datensätze geben, für die eine Anonymisierung nahezu ausgeschlossen ist - nicht in jedem Fall ist eine Veröffentlichung sinnvoll oder möglich. Daher der bekannte Grundsatz der Datenpublikation: So offen wie möglich, so geschlossen wie nötig.
11Greene u. a.: More Product, Less Process, 213.

Bevorzugte Zitationsweise

Weiß, Bastian: Optimierung ist wichtig, Veröffentlichen aber auch. Eine pragmatische Forschungsdaten-Praxis in einer unübersichtlichen Findungsphase. In: Zeitschrift für Medienwissenschaft, ZfM Online, Open-Media-Studies-Blog, 18. Oktober 2022 , https://zfmedienwissenschaft.de/online/optimierung-ist-wichtig-veroeffentlichen-aber-auch.

Die Open-Access-Veröffentlichung erfolgt unter der Creative Commons-Lizenz CC BY-SA 4.0 DE.