Forschungsdaten und Forschungsethik in Beziehung setzen
Forschungsethik, Recht und Öffentlichkeit in sozialen Medien (Teil 1)
Im Auftaktbeitrag zur Sonderreihe Forschungsdaten in der Medienwissenschaft haben Dietmar Kammerer und Kai Matuszkiewicz angeregt, über die fachlichen Spezifika und Bedarfe der Medienwissenschaft im Hinblick auf Forschungsdaten und Forschungsdatenmanagement aus dem Fach heraus nachzudenken, diese zu diskutieren und sie zu reflektieren. Die Frage, was Forschungsdaten für die Medienwissenschaft sein können und wie mit diesen umzugehen ist, ist ebenso essentiell, wie Forschungsdatenmanagement als Ausdruck der digitalen Transformation der geisteswissenschaftlichen Praxis unter soziotechnischen Vorzeichen zu verstehen, die die Geisteswissenschaften gegenwärtig in voller Breite erfasst hat. Ziel der Reihe ist es, einen offenen, intrinsisch motivierten Diskurs über medienwissenschaftliche Forschungsdaten zu führen sowie diverse Aspekte dieser umfassenden Thematik zu behandeln. Dabei versteht sich die Reihe als Diskussionsplattform und lädt Interessierte ein, sich an der selbigen zu beteiligen. Die Sonderreihe geht mit einem Beitrag von Steffen Krämer weiter, der Einblick in die Überlegungen von Forschungsprojekten gewährt, die mit Daten kommunikativer Akte in sozialen Netzwerken arbeiten und sich dabei mit Forschungsethik, Recht, Öffentlichkeit und deren Zusammenspiel auseinandersetzen müssen.
Die im Rahmen dieser Sonderreihe angeregte Debatte um medienwissenschaftliche Forschungsdaten möchte ich im Folgenden aufnehmen und dabei zwei Aspekte in Beziehung setzen: Forschungsethische Reflexion und methodische Fragen rund um das Sampling von Social-Media-Daten. Dabei geht es mir nicht darum, einen Leitfaden vorzustellen, sondern einige Herausforderungen zu teilen, mit denen wir uns im Rahmen eines aktuellen Forschungsprojekts an der Universität Konstanz konfrontiert sahen, in dem automatisiert abgerufene Twitter-Daten qualitativ ausgewertet werden sollten. In dem Projekt hatten wir mit dem Problem zu kämpfen, dass API-basierte Verfahren der Twitter-Datensammlung meist von einzelnen Tweets als Analyseeinheit ausgehen und der jeweilige Konversationskontext schnell aus dem Fokus der Untersuchung gerät. Um das zu vermeiden, mussten wir ein kleines Hilfsprogramm entwickeln, das neben einem Tweet mit einem gewählten Schlagwort auch die vorangegangenen und nachfolgenden Reaktionsketten abruft und somit Hinweise auf den jeweiligen Kontext des verschlagworteten Tweets erlaubt. Zugleich ließen sich mit der stärkeren Betonung des Kontexts einzelner Tweets auch forschungsethische Fragen neu stellen in Bezug darauf, bei welchen Tweets wir es für vertretbar erachteten, sie und ihren Aussagekontext näher zu untersuchen. Methodenentwicklung und forschungsethische Reflexion waren somit im Prozess der Untersuchung miteinander eng verschränkt. Für die Diskussion dieser Beziehung von Forschungsethik, Methodenreflexion und Softwareentwicklung scheint im gegenwärtigen Register des Forschungsdatenmanagements noch ein geeigneter Ort zu fehlen, obwohl gerade hier auch ein medienwissenschaftliches Interesse liegen könnte. Den nachfolgenden Gedanken zu diesem Komplex sei vorausgeschickt, dass ich mich auf einen begrenzten Ausschnitt forschungsethischer Reflexion beziehen werde. Nicht thematisieren werde ich ebenso zentrale forschungsethische Fragen, die sich mit der Positionierung und Erfahrung der Forschenden im Forschungsprozess selbst und insbesondere in ihrer Konfrontation mit teilweise sensiblen Social-Media-Daten und den daraus resultierenden Risiken für psychische Gesundheit und Bias beschäftigen. Stattdessen steht das Verhältnis von Forschungsethik und rechtlichen Rahmenbedingungen und der Öffentlichkeitsstatus von Social-Media-Interaktionen im Fokus. Zentraler Ausgangspunkt sind hier im Regelfall die Nutzenden, ihre Öffentlichkeitserwartung und der Schutz von personenbezogenen bzw. -«beziehbaren»1 Daten.
Schutz personenbezogener Daten und Öffentlichkeitsstatus
Der Schutz personenbezogener Daten in der Arbeit mit Social-Media-Daten wird nicht erst bei der Veröffentlichung von Forschungsergebnissen relevant, sondern ist bereits während der Sammlung und Verarbeitung der Daten von Bedeutung. Dabei spielen rechtliche Rahmenbedingungen ebenso eine Rolle wie forschungsethische Bedenken. Beide müssen keinesfalls kongruent sein: einerseits kann der forschungsethische Ansatz der Forschenden restriktiver gefasst sein als die in einem bestimmten Kontext gültigen rechtlichen Rahmenbedingungen. Andererseits enthalten auch die datenschutzrechtlichen Neuerungen der letzten Jahre Ausnahmeregelungen, um Forschung nicht zu verunmöglichen.2 Ein wichtiger gemeinsamer Referenzpunkt von Recht und Forschungsethik ist die «Informierte Einwilligung», d. h. personenbezogene Daten nur zu erheben, wenn die betroffene Person dem auch zugestimmt hat.3 Bei jenem Teil digitaler Methoden, die mit API-basierten, größeren Datensammlungen im Kontext sozialer Medien arbeiten und nicht auf «Datenspenden» (siehe z.B. Haim & Nienierza (2019) oder Krafft et al. (2019)) zurückgreifen können, fällt diese Option häufig aus. Schnell wird dann auf den Öffentlichkeitstatus der betreffenden Daten verwiesen, was die Frage aufwirft, ob die öffentliche Erreichbarkeit der Daten als Kriterium hinreichend ist, um den Wegfall der informierten Einwilligung zu kompensieren, und wie der Öffentlichkeitstatus definiert und abgefragt wird. Eine Reihe von Perspektiven zur Beantwortung dieser Frage erscheinen denkbar, von denen einige im Folgenden kurz angerissen werden sollen: Es können die Terms of Services (TOS) bemüht werden, also die Nutzungsverträge, die zwischen den Plattformbetreiber_innen und den Nutzenden – auch den Forschenden – geschlossen wurden. Demnach hätten Nutzende zugestimmt, dass ihre Daten auch Forschenden zur Verfügung gestellt werden. Derlei Begründungen sind jedoch forschungsethisch unbefriedigend, worauf unlängst von Williams et al. (2017) hingewiesen wurde. Zum Beispiel unterliegen nicht alle personenbezogenen Daten und Äußerungen, die in einem sozialen Netzwerk veröffentlicht wurden, der gleichen Schutzbedürftigkeit. Es spricht viel dafür, Äußerungen von Personen des öffentlichen Lebens, manchmal auch als «öffentliche Sprecher_innen» bezeichnet, anders zu behandeln als Äußerungen von wenig bekannten Nutzer_innen und von vulnerablen Gruppen.4 Der Unterschied basiert in diesen Fällen darauf, wer ‹spricht› bzw. ‹schreibt›. Ebenso werden Unterschiede auf der Ebene des Inhalts der Äußerungen gemacht. Im Gegensatz zu den Plattformverträgen sehen (inter-)nationale rechtliche Verordnungen wie die Datenschutzgrundverordnung (DSGVO) solche Unterschiede vor, was zu der zweiten Perspektive auf die oben genannten Fragen führt. Zunächst unterscheidet die DSGVO «besondere Kategorien» personenbezogener Daten (Artikel 9 DSGVO). Für die Arbeit mit Social-Media-Daten besonders brisant: Dazu zählen auch Daten aus denen «politische Meinungen» und «weltanschauliche Überzeugungen» hervorgehen (Art. 9 Abs. 1). Eine Erhebung dieser Daten ist an eine Reihe von Bedingungen geknüpft. Neben der informierten Einwilligung kann dazu laut DSGVO auch zählen, dass die betroffene Person diese Daten «offensichtlich öffentlich» gemacht hat (Art. 9 Abs. 2 lit. e), wobei die Datenschutzgrundverordnung offen lässt, welches Öffentlichkeitsverständnis hier angelegt wird. Darüber hinaus muss die Schutzbedürftigkeit der Personen in Erwägung gezogen werden, was eine fallspezifische Risikoabschätzung notwendig macht.5 Lässt man das eigene Forschungsdesign rechtlich prüfen, so ist der letzte Schritt eine eben solche Risikoprüfung, die die Nicht-Verunmöglichung von Forschung mit dem Risiko für die potenziell Betroffenen abwägen muss. Neben den rechtlichen Perspektiven auf den Öffentlichkeitsstatus der erhobenen Daten können zudem forschungsreflexive Überlegungen über die öffentliche Wirkung der Untersuchung eine entscheidende Rolle spielen. Zum einen und mit Blick auf die Publikation von als ‹öffentlich› markierten Daten müssen sich Forschende die Frage stellen, welche rückwirkenden Effekte ihre Publikation auf die zitierten Phänomene und erforschten Felder haben: z.B. ob die Gefahr einer Stigmatisierung (Williams et al. (2017: 1152)) besteht oder die einer ungewollten Amplifizierung eines Themas. Zum anderen gibt es aber auch noch ein stärker medienwissenschaftliches Argument warum die Fokussierung auf einen (vertrags-)rechtlich universalen Öffentlichkeitsstatus nicht hinreichend ist. So lässt sich annehmen, dass der Öffentlichkeitsstatus ihrer Mitteilungen nicht allen Nutzenden zu jeder Zeit bewusst ist.6 Naheliegender erscheint es, dass über die Zeit oder in bestimmten sozialen Konstellationen auch Mitteilungen intimerer Art getätigt werden und der Öffentlichkeitsstatus der Kommunikation aus dem Fokus gerät (neben der bereits genannten Studie von Williams et al. (2017) siehe auch Fiesler & Proferes (2018)). Anstatt hier nur auf das Vertragsrecht zu pochen, bietet sich ein stärker an die Nutzungspraktiken angelehntes Verständnis von Öffentlichkeit an. Die Thematisierung der Follower-Anzahl anderer Accounts als Ausdruck von öffentlicher Reichweite findet sich unter Twitter-Nutzenden ebenso häufig wie intime Dialoge über persönliche Erfahrungen oder Gossip zwischen nur wenigen Nutzenden mit Details zu Personen außerhalb einer Konversation.
Verarbeitung von Primär- und Sekundärdaten
Nimmt man die bisher genannten Bedenken ernst, gibt es nun unterschiedlich restriktive forschungsethische Positionen. Diese unterscheiden sich zusätzlich darin, welcher Schritt des Datenlebenszyklus von den Forschenden problematisiert wird. In einem häufig zitierten Text zum Umgang mit Twitter-Daten nehmen Williams et al. (2017) zum Beispiel eine sehr restriktive Position ein, wenn es um die Veröffentlichung von Tweets geht, während sie die Erhebung und Analyse von Daten als weniger problematisch erachten. Priorität hätte, was Nutzende sich wünschen und freigeben. Aufbauend auf Nutzer_innen-Umfragen und im Abgleich mit Twitters TOS kommen die Autoren zu dem Schluss, dass die informierte Einwilligung zur notwendigen Grundlage für die Veröffentlichung von Tweets gemacht werden müsse, nicht aber für ihre vorherige Verarbeitung. Der Vorteil dieser Position ist, dass Forscher_innen nicht für alle erhobenen Daten, sondern nur für exemplarische und publikationsrelevante eine informierte Einwilligung nachträglich anfragen müssen und in diesem Schritt zugleich auch Fragen der Archivierung und Nachnutzung der Daten klären können. Damit kann abgesichert werden, dass die publizierten und archivierten Daten nicht gegen das ‹Recht auf Vergessen› der Nutzenden verstoßen. Die Nachteile betreffen dagegen zum einen die Überprüfbarkeit der Forschung, wenn die Tweets ohne informierte Einwilligung nicht einmal anonymisiert veröffentlicht werden können.7 Williams et al. (2017) exkludieren das Mittel der Anonymisierung, weil es ihrer Meinung nach nicht mit den TOS Twitters konform ist.8 Zum anderen besteht die Gefahr der Amplifizierung weiterhin: Selbst eine Nachfrage nach informierter Einwilligung kann in bestimmten Kontexten als Beweis für die Singularität der Inhalte in das Netzwerk zurückgespielt werden; die Veröffentlichung nicht-anonymisierter Tweets (wenn auch mit Einwilligung) erst recht. Insgesamt erscheint mir die universale Ablehnung von Anonymisierungsmöglichkeiten zu wenig forschungsethisch und zu vertragsrechtlich fokussiert, ebenso wie eine Zweiteilung des Datenverarbeitungsprozesses in vor und nach der Publikation zu grobmaschig. Bereits während der Datenverarbeitung lassen sich verschiedene Ebenen unterteilen, um den datenschutzrechtlichen Grundsatz der Datenminimierung (Art. 5 Abs. 1 lit. c DSGVO) differenzierter anwenden zu können, so dass er auch forschungspraktische Bedingungen und forschungsethische Überlegungen berücksichtigen kann. Im Idealfall sammeln Forschende gezielt nur solche Daten und Metadaten, die für ihre Forschung tatsächlich relevant sind und rufen auch nur solche von den entsprechenden APIs der Plattformen ab. Allerdings erlaubt nicht jede Forschungssoftware diese Eingrenzung und eine Anonymisierung der Daten bereits während ihres erstmaligen Abrufens steht bisher meines Wissens noch nicht zur Verfügung.9 Vor dem Hintergrund der gegenwärtigen technischen Bedingungen scheint es mir forschungsethisch am hilfreichsten, zwischen der (ggf. temporären) Speicherung der von der API der Plattform abgerufenen Daten und der Analyse von nachträglich weiter gefilterten Daten zu unterscheiden. Für beide lassen sich im Verlauf eines Forschungsprojekts verschiedene Löschfristen, Zugangsregeln und Anonymisierungsnotwendigkeiten definieren. Umso interessanter ist dann, welche Filter- und Samplingverfahren zwischen primär- und sekundärgefiltertem Datensatz vermitteln.10 Im zweiten Teil des Blogbeitrags werde ich einige dieser Überlegungen an unserem eigenen Forschungsdesign spiegeln und zusätzlich auf die Archivierung und Nachnutzung von Forschungsdaten eingehen.
- 1Die Differenzierung von personenbezogenen und personenbeziehbaren Daten verdanke ich Dietmar Kammerer.
- 2Artikel 5 Absatz 1 lit. b DSGVO; Artikel 89 DSGVO; §27 BDSG.
- 3Vgl. Gebel et al. 2015 und Schaar 2017 sowie Artikel 6 Absatz 1 lit. a DSGVO.
- 4Weitere Hinweise und Quellen zur Forschung mit vulnerablen Gruppen findet sich unter Absatz 3.2.5 in den Ethical Guidelines 3.0 der Association of Internet Researchers.
- 5Erwägungsgrund / Absatz 75 zur DSGVO: BfDI (2020) DSGVO – BDSG. Texte und Erläuterungen. Bonn, S. 101.
- 6Welche Erwartungen Nutzende an die ‹Privatheit› einer Unterhaltung und Äußerung stellen, wird von verschiedenen Autor_innen immer wieder als zentrales Kriterium bemüht. Neben Williams et al. 2017 zum Beispiel auch in der Handreichung zur Archivierung von Social-Media-Daten von Mannheimer & Hull 2017.
- 7Eine mittlerer Weg könnte sein, hier zumindest den Review-Prozess mit anonymisierten Tweets ohne informierte Einwilligung zu gestatten.
- 8Laut den Autoren gäbe es bei der Publikation von Twitterdaten keine Anonymisierungsmöglichkeiten, da der Dienst untersage, bei Veröffentlichung Inhalte eines Tweets zu löschen oder zu ändern. Williams et al. beziehen sich hier allerdings auf die «Broadcasting Guidelines» Twitters (inzwischen als Display Requirements gefasst). Eine Alternative sei, dass man Tweets neu schreibt und auf Grundlage exemplarischer Beispiele «fiktionalisiert». Die Autoren erkennen an, dass das für manche Forschungskontexte machbar, jedoch für Analysen, die sich für Formulierungsdetails interessieren, enorm einschränkend sei.
- 9Eine umfassende Diskussion über die Schwierigkeit der Anpassung der Software DMI-TCAT (Borra & Rieder 2014) an DSGVO-Richtlinien ist zum Beispiel in dieser Diskussion auf GitHub dokumentiert.
- 10Zumindest mit Blick auf die Arbeit mit Twitterdaten handelt es sich bereits bei den von der Twitter-API abgerufenen Daten und Metadaten um gefilterte Daten, da sie das Ergebnis eines (Stichwort- oder anderweitig definierten) Queries sind und die zur Verfügung gestellten Datenfelder von der Plattform definiert werden.
Bevorzugte Zitationsweise
Die Open-Access-Veröffentlichung erfolgt unter der Creative Commons-Lizenz CC BY-SA 4.0 DE.