Direkt zum Inhalt
Do Something Great

«Do Something Great». Photo on unsplash.com, free license.

Open-Media-Studies-Blog

Forschungsdaten und Forschungsethik in Beziehung setzen

Forschungsethik, Recht und Öffentlichkeit in sozialen Medien (Teil 2)

22.11.2022

Im Auftaktbeitrag zur Sonderreihe Forschungsdaten in der Medienwissenschaft haben Dietmar Kammerer und Kai Matuszkiewicz angeregt, über die fachlichen Spezifika und Bedarfe der Medienwissenschaft im Hinblick auf Forschungsdaten und Forschungsdatenmanagement aus dem Fach heraus nachzudenken, diese zu diskutieren und sie zu reflektieren. Die Frage, was Forschungsdaten für die Medienwissenschaft sein können und wie mit diesen umzugehen ist, ist ebenso essentiell, wie Forschungsdatenmanagement als Ausdruck der digitalen Transformation der geisteswissenschaftlichen Praxis unter soziotechnischen Vorzeichen zu verstehen, die die Geisteswissenschaften gegenwärtig in voller Breite erfasst hat. Ziel der Reihe ist es, einen offenen, intrinsisch motivierten Diskurs über medienwissenschaftliche Forschungsdaten zu führen sowie diverse Aspekte dieser umfassenden Thematik zu behandeln. Dabei versteht sich die Reihe als Diskussionsplattform und lädt Interessierte ein, sich an der selbigen zu beteiligen. Die Sonderreihe geht mit einem Beitrag von Steffen Krämer weiter, der Einblick in die Überlegungen von Forschungsprojekten gewährt, die mit Daten kommunikativer Akte in sozialen Netzwerken arbeiten und sich dabei mit Forschungsethik, Recht, Öffentlichkeit und deren Zusammenspiel auseinandersetzen müssen.


Konversationsbezogenes Sampling

Im Rahmen unserer eigenen Forschung mit Twitter-Daten sind wir den in Teil 1 genannten Fragestellungen zunächst dadurch begegnet, dass wir eine detailliertere Analyse personenbezogener Daten auf Interaktionskontexte beschränken wollten, wo mit hoher Wahrscheinlichkeit auch den Nutzenden selbst gegenwärtig war, an einem öffentlichen Diskursraum teilzunehmen. Diese Interaktionskontexte wurden über drei Indikatoren operationalisiert: die Verwendung von Hashtags; die Reichweite eines Accounts, der eine Konversation gestartet hat, gemessen anhand der Anzahl der Follower;1 die Menge an Nutzenden, die an einer Konversation teilnehmen. Die Wahl der drei Indikatoren begründete sich wie folgt: Mittels Hashtags schreibt man sich bekanntermaßen in verteilte Diskurse ein, die maschinenlesbar und suchbar sind und deren potenziell große Reichweite als anerkannt gelten kann. Zwar werden Hashtags auch dazu eingesetzt, Inhalte zu betonen und evaluative Haltungen zu unterstreichen ohne dass die Autor_innen unbedingt ein großes Publikum adressieren. Nichtdestotrotz gehen wir davon aus, dass das mit dem Hashtag verbundene diskursorganisierende Potenzial – also die Chance und das Risiko, mittels automatisierter Textverfahren, für eine weitere Öffentlichkeit such- und auffindbar zu sein – den meisten Nutzenden bekannt ist. Bei dem zweiten Indikator der Anzahl an Followern handelte es sich um einen User-bezogenen Indikator, der auch von Nutzenden selbst als Anzeichen dafür interpretiert wird, welche potenzielle öffentliche Reichweite und Leser_innenschaft ein Inhalt haben könnte. Uns geht es um die Adaption dieser Metrik für ein konversationsbezogenes Sampling. Entscheidend ist demnach die Follower-Anzahl jenes Accounts, der eine Konversation gestartet hat. Das heißt, dass durchaus auch Tweets von Accounts mit zahlenmäßig geringer Gefolgschaft in die Analyse rutschen, solange sie auf einen reichweitenstarken Account reagieren. Auch der dritte von uns eingesetzte Indikator zielte auf den Konversationskontext ab, indem berechnet wurde, wie viele Nutzende an einer Konversation teilnehmen. Je mehr User pro Konversation, desto legitimer erschien es uns, den Status einer Konversation als öffentlich zu markieren. Die letzten beiden Indikatoren sind methodisch interessant, weil sie auf ein Scharnier von quantitativer und qualitativer Forschung verweisen. Statt einer vorher quantifizierten Schwelle, ab der ein Tweet in das Sample für die weitere Analyse fällt, wurden die Indikatoren dafür genutzt, Tweets zu sortieren. Methodisch müsste man also eher von einer Sortier- statt einer Filterregel sprechen. Die Tweets und ihre Metadaten lagen in der Regel in Tabellenform vor, wodurch die Tweets nach den beiden quantitativen Konversationsindikatoren ‹abwärts› sortiert werden konnten, um dann sukzessive gesichtet, annotiert und kategorisiert zu werden, bis sich eine analytische Sättigung einstellte. Der Schwellwert, ab dem eine analytische Sättigung in der Annotation und Kategorisierung der einzelnen Tweets erreicht werden sollte, war in dieser Anordnung also nicht von vornherein gesetzt, sondern ließ sich erst im Nachhinein beziffern. Außerdem konnten die kodierenden Wissenschaftler_innen den durch die Konversationsindikatoren angedeuteten potenziellen Öffentlichkeitsstatus der Tweets während der Analyse im Blick behalten. Vereinfacht lässt sich unser Ansatz also wie folgt zusammenfassen: Wenn der Wert einer der beiden Konversationsindikatoren (‹Anzahl der Follower des Accounts, der eine Konversation initiiert› oder ‹Teilnehmende pro Konversation›) hoch war, erachteten wir es für legitim, Tweets im Detail zu analysieren; d.h. also nicht auf der Ebene einzelner Tweets zu verbleiben, sondern auch den jeweiligen Konversationskontext genauer unter die Lupe zu nehmen. Die Analyse von Konversationen und Subkonversationen hielten wir für besonders legitimierungsbedürftig, weil der zu analysierende Datenumfang schnell ansteigt (und damit den Grundsatz der Datenminimierung berührt), eine Anonymisierung des primärgefilterten Datensatzes die technischen Möglichkeiten des Projekts gesprengt hätte und wir vermeiden wollten, intimere Konversationen zu beobachten. Beide Indikatoren dienten uns somit versuchsweise als forschungsethisch sensible Samplingregel für die qualitative Detailanalyse von Mikrointeraktionen. Zugleich sollte diese Samplingregel auch nicht als dogmatischer Ausschluss aller anderen Tweets von einer weitergehenden Analyse verstanden werden. Vielmehr könnte für die Untersuchung von Tweets, die nicht den oben genannten Kriterien für potenziell reichweitenstarke Konversationen entsprechen, eine andere forschungsethische Strategie mehr Sinn machen; zum Beispiel könnten Verfahren der Anonymisierung oder Pseudonymisierung bereits während der Analysephase angewendet werden. Insgesamt soll dieser Ausflug in unseren Forschungsaufbau deutlich machen, dass das Sampling von Social-Media-Daten mit Überlegungen zu Forschungsethik und zum Schutz personenbezogener Daten aufs Engste zusammenhängt. Zugleich wirft das die Frage auf, wie die unterschiedlichen Filter- und Samplingverfahren selbst adäquat und offen archiviert werden können. Nicht nur um einer Dokumentationspflicht nachzukommen oder die Verständlichkeit der erhobenen Datensätze durch ausreichend Kontextualisierung zu erhöhen. Sondern auch, um eine übergeordnete Diskussion um Forschungsethik, Datenschutz und ihre medienwissenschaftlich interessante Verquickung mit technischen und rechtlichen Verfahren jetzt und in Zukunft zu ermöglichen. Data Papers stellen hier möglicherweise eine interessante Option dar, solange sie auch als Ort für methodische und forschungsethische Diskussion verstanden werden können. Einerseits besteht für diese Diskussion ein gewisser Zeitdruck aufgrund eines sich schnell entwickelnden Forschungsfelds und Veränderungen auf Seiten des Plattformzugangs. Andererseits stellen Sampling- und Filterverfahren auch interessante Zeitdokumente dar. Denn für welche Verfahren man sich auch immer entscheidet: Sie sind zugleich Ausdruck und verfahrensförmige Konkretisierungen plattformökonomischer und rechtlich-ethischer Konstellationen, in denen sich Forschende bewegen.

Archivierung und Nachnutzung

Während die bisherigen Überlegungen aus der Perspektive einer Rückschau auf die erste Phasen unseres Forschungsprojekts formuliert wurden, sollen abschließend Ideen formuliert werden für die noch vor uns liegende Archivierung und Nachnutzung der Forschungsdaten. Für diese gelten ebenfalls die im ersten Teil des Beitrags genannten rechtlichen Bezugspunkte der Informierten Einwilligung (Schaar 2017) und der Verträge mit den Plattformbetreibenden. Zur Diskussion einer möglicherweise Datenschutz- und forschungsethisch sensiblen Archivierungsstrategie beschränke ich mich weiter auf Überlegungen, die wir uns im noch laufenden Forschungsprozess machen und damit auf das Fallbeispiel der bereits angesprochenen Archivierung von Twitter-Konversationen. Twitter erlaubt lediglich die öffentlich zugängliche Archivierung von Tweet IDs und User IDs,2 also von hochgradig reduzierten Daten. Nachnutzende können diese Identifikatoren später dazu nutzen, Tweets zu ‹re-hydrieren›, d.h. die zu den IDs dazugehörigen Tweets und Metadaten erneut abzurufen, so sie in der Zwischenzeit von den Usern nicht gelöscht wurden. Außerdem genehmigt Twitter, nicht-öffentlich bis zu 50.000 hydrierte Tweet-Objekte in nicht automatisierter Form zu teilen («limitierte Redistribution»). Möchte man die Forschungsdaten auch in Online-Repositorien zugänglich machen und ist der Reduktionsgrad der Primärdaten so hoch wie im Fall von Tweet IDs, ist umso entscheidender, welche zusätzlichen Informationen die Nachnutzung vereinfachen könnten. Zusätzliche Informationen können bereits die Sekundärdaten liefern, z. B. inhaltliche Paraphrasen, besprochene Themen, oder die Annotationen bzw. Kodes; Forschungsdaten also, die im Rahmen des Forschungsprojekts aus der Analyse der Primärdaten heraus entwickelt wurden. Darüber hinaus lässt sich überlegen, ob man über die zwar öffentlich zugängliche, aber reduzierte Darbietung der Primärdaten hinaus auch eine detailliertere Einsichtnahme in einem geschützten Umfeld ermöglicht. Bayer et al. (2021) unterscheiden insgesamt zwei Strategien einer datenschutzkonformen Archivierung von Social-Media-Forschungsdaten: Erstens die Datenreduktion, d. h. Daten zu ersetzen, zu beschreiben oder nur Aggregatdaten zu verwenden; zweitens den Datenzugriff zu kontrollieren und einen Zugriff auf nichtreduzierte Daten nur in extra dafür eingerichteten Safe Rooms lokaler Datenforschungszentren zu erlauben. Auch eine Verbindung beider Maßnahmen sei denkbar. Genau diese Verbindung ließe sich auch für die Archivierung von Twitter-Daten sinnvoll anwenden, indem man anonymisierte Tweets in begrenztem Umfang in einem Safe Room zur Verfügung stellt. Parallel dazu könnte man im dazugehörigen Online-Repositorium die von der Plattform erlaubten numerischen IDs3 und Projekt-Annotationen veröffentlichen. Allerdings greifen in letzterem Fall die forschungsethischen Überlegungen, die im ersten Beitragsteil bereits in Bezug auf die Publikation von Social-Media-Daten geäußert wurden. Auch wenn die Rekonstruktion der Tweets über den Umweg der Tweet IDs auf den ersten Blick mühsam erscheint, ist es letztlich keine allzu große Hürde und kann im Fall einer Einzelsuche auch direkt im Browser erfolgen. Selbst wenn das also gegenüber Twitter eine vertragsrechtlich ‹saubere› Lösung darzustellen scheint, besteht nach wie vor das Risiko, Personen oder Inhalte zu exponieren, zu stigmatisieren oder zu amplifizieren. Insofern ist es angebracht, auch hier zu reflektieren, ob die zur Nachnutzung veröffentlichten Tweet IDs den forschungsethischen Überlegungen des Projekts entsprechen, ob man die ausgewählten Tweet IDs auf Tweets von Personen des öffentlichen Lebens beschränkt und ob man den Zugang zum Online-Datensatz auf akkreditierte Wissenschaftler_innen limitiert. Neben die Archivierung der Primärdaten und ihrer Annotationen treten schließlich noch eine Reihe von Kontextdaten, die Nachnutzenden den Zugang zum Material vereinfachen sollen. Kontextualisierungsebenen reichen vom zeitgeschichtlichen und regionalen Kontext zu lokalen und situativen Umständen der Erhebung und der daran Beteiligten, bis hin zur Kontextualisierung des Forschungsprojekts, seines Verlaufs und seiner Anlage.4 Zu Letzterem lassen sich auch die oben ausführlicher diskutierten Filter- und Sampling-Regeln zählen sowie eine Beschreibung der dafür eingesetzten Software und der forschungsethischen Überlegungen, die in ihre Entwicklung eingeflossen sind. Angesichts dieses schnell wachsenden Konvoluts an Dokumenten bleibt fraglich, in welchem Format sich eine eng geführte Reflexion von Methode, Software und Forschungsethik sinnvollerweise niederschlagen soll, damit sie für eine breite, vor allem auch medienwissenschaftliche Diskussion zur Verfügung steht. Auf der einen Seite finden sich extra für die Archivierung anzufertigende Forschungsberichte, mit denen auf die verschiedenen Kontextualisierungsmaterialien Bezug genommen wird. Auf der anderen Seite spezifischere Data Papers und Software-Dokumentationen. Es wird sich erst noch zeigen müssen, inwiefern diese Textgattungen dabei helfen werden, die forschungsethische Methodenreflexion von vergangenen, bestehenden und zukünftigen Untersuchungen mit Social-Media-Daten in Beziehung zu setzen und in ein sich rasant entwickelndes Forschungsfeld so zurückzuspielen, dass zukünftige Projekte davon profitieren. Genau hierin könnte auch ein genuin medienwissenschaftlicher Anspruch an offenes Forschungsdatenmanagement liegen: bei dem Ziel der Nachnutzung nicht nur die möglichst genaue Beschreibung von Primär- und Sekundärdaten im Blick zu haben, sondern die im weiteren Sinne technologische und normative Bedingung des Forschungsdesigns rekonstruierbar zu halten.

  • 1Eine Alternative zur Follower-basierten Identifikation von reichweitenstarken Accounts auf Twitter stellen netzwerkbasierte Verfahren zum Sampling von einflussreichen Sprecher_innen dar: Vgl. Münch et al. (2021).
  • 2Die explizite Beschränkung auf Tweet und User IDs lässt im Umkehrschluss vermuten, dass jedes zusätzliche Tweet-Datum nicht geteilt und folglich archiviert werden darf, also nicht nur der Text, sondern auch weitere Tweet-Daten wie Follower-Anzahl und selbst so essenzielle Tweet-Metadaten wie der Zeitstempel (vgl. auch Kinder-Kurlanda et al. 2017).
  • 3Neben Tweet und User IDs vergibt Twitter seit 2020 auch Conversation IDs. In den TOS werden zur Nachnutzung dieses ID-Typs zwar keine Angaben gemacht. Da sich die Conversation ID allerdings von der ersten Tweet ID einer Konversation ableitet, könnte man im Sinne des Forschungsprojekts argumentieren, dass auch ihre Redistribution erlaubt ist.
  • 4Zur archivierungspraktischen Unterscheidung der unterschiedlichen Kontextbereiche: vgl. die Handreichung des Archivierungsservice Qualiservice der Universität Bremen von Heuer et al. (2020).

Bevorzugte Zitationsweise

Krämer, Steffen: Forschungsdaten und Forschungsethik in Beziehung setzen. Forschungsethik, Recht und Öffentlichkeit in sozialen Medien (Teil 2). In: Zeitschrift für Medienwissenschaft, ZfM Online, Open-Media-Studies-Blog, 22. November 2022, https://zfmedienwissenschaft.de/online/open-media-studies-blog/forschungsdaten-und-forschungsethik-beziehung-setzen-0.

Die Open-Access-Veröffentlichung erfolgt unter der Creative Commons-Lizenz CC BY-SA 4.0 DE.