Big Data in a Transdisciplinary Perspective. Herrenhäuser Konferenz

Big Data in a Transdisciplinary Perspective. Herrenhäuser Konferenz

Organisatoren
Dietmar Harhoff, München; Thomas Lipper, Jülich; Volker Markl, Berlin; Arnold Picot, München; Ralph Schroeder, Oxford; Amir Zeldes, Washington D.C.; VolkswagenStiftung, Hannover
Ort
Hannover
Land
Deutschland
Vom - Bis
25.03.2015 - 27.03.2015
Url der Konferenzwebsite
Von
Christoph Kolodziejski / Vera Szöllösi-Brenig, VolkswagenStiftung

Janusköpfig ist das Gesicht von Big Data in der Öffentlichkeit: Während die Einen in Big Data euphorisch die Chancen einer Industrie 4.0 feiern, fürchten die Anderen die totale Überwachung des Einzelnen und letztlich das Ende der Demokratie. Auch in den Wissenschaften ist Big Data ein „Buzzword“, das Menschen und Millionen Fördergelder mobilisiert – doch es fällt auf, dass bei den vielen Konferenzen zu diesem Thema jede Disziplin quasi unter sich bleibt. Mit ihrer Veranstaltung „Big Data in a Transdisciplinary Perspective“ wollte die VolkswagenStiftung hier Abhilfe schaffen und lud nach Schloss Herrenhausen – und damit, wie Generalsekretär WILHELM KRULL (Hannover) in seiner Begrüßung ausführte, genau an den Ort, an dem der große Universalgelehrte Gottfried Wilhelm Leibniz wirkte, die erste Rechenmaschine erfand und das Binärsystem mit 0er und 1er entwickelte. „Calculemus!“, soll Leibniz einmal ausgerufen haben, „lasst uns rechnen!“

In ihrem Eröffnungsvortrag „Data, Scholarship and Disciplinary Practice“ spannte die US-amerikanische Soziologin CHRISTINE L. BORGMAN (Los Angeles)1 einen Bogen von der notwendigen Klärung des Begriffs „Big Data“ bis zu den vielfältigen Problemen in der Forschungspraxis. Ausgangspunkt war Douglas Laneys berühmte Bestimmung der Charakteristika von Big Data als die „Drei V“: Volume, Velocity und Variety.2 Mit Verweis auf Tony Heys Buch “The Fourth Paradigm”3 rief Borgman das Versprechen einer mit Big Data verknüpften neuen wissenschaftlichen Blütezeit auf. Aber dann listete sie Punkt für Punkt die Probleme in der Wissenschaft auf: Von den fehlenden Anreizen, Daten weiterzugeben, über die Schwierigkeiten, bestehende Daten zu nutzen, bis hin zur Klärung von Rechtsfragen. Doch das größte Problem sei zweifelsohne die fehlende Ordnung der Infrastruktur: Die Repositorien seien oft genug nicht institutionell abgesichert und damit nicht nachhaltig. Statt Big Data, so Borgman lapidar, drohe vielfach ein Zustand von No Data.

CLIFFORD A. LYNCH (Washington) von der Coalition for Networked Information legte den Fokus seines Vortrags auf “The Challenges of Data Reuse: The Short and the Long Term”. Dass einmal generierte Daten weiter vorgehalten werden müssen, steht für ihn außer Frage – auf kurze Sicht, um Untersuchungen reproduzieren zu können, und auf lange Sicht, um durch Reannotierung neue Fragen zu beantworten. Doch bei der vorhandenen Geschwindigkeit der Datengenerierung sowie der technischen Entwicklung sei es nicht möglich, tatsächlich alle Daten in die nächste Gerätegeneration zu migrieren. Also müsse man eigentlich überprüfen, welche Daten weiter benötigt würden und wie sie mit möglichst zeit- und kulturunabhängigen Metadaten vorgehalten werden sollten. Lynch schloss mit der Forderung nach einer neuen Archivwissenschaft im digitalen Zeitalter.

Auch PETER WITTENBURG (München) von dem Netzwerk Research Data Alliance warb in seinem Vortrag „Data Science: Practices and Ambitions“ für gemeinsame Anstrengungen aller Disziplinen. Denn – und hier zitierte Wittenburg die berühmte Metapher des Sheffielder Mathematikers Clive Humby von 2006 – Daten sind das neue Öl, auch für die Wissenschaft. Aber der derzeitige Umgang mit Daten sei viel zu kostenintensiv und zu ineffizient: Statt automatisch werde beispielsweise noch manuell annotiert. Auch gebe es immer noch neue Daten ohne Persistent Identifier – die damit schon bei ihrer Entstehung de facto Altdaten darstellten. Wittenburg entwarf demgegenüber das Modell einer „Data Fabric“, in der alle Momente des Korpusaufbaus aufeinander abgestimmt sind. Aber er gestand ein: Keiner weiß, was in nur zehn Jahren sein wird.

Mit dem Vortrag von ANDREW PRESCOTT (Glasgow)4 beleuchtete die Konferenz die Situation von „Big Data in the Arts and the Humanities“. Stellt Big Data einfach nur ein Mehr an Daten dar oder handelt es sich um eine substanzielle Veränderung der Wissensstruktur? Bei dieser Frage könne die historische Erfahrung helfen: Ähnlich wie die Verschriftlichung unserer Kultur ab dem 11. Jahrhundert im „Doomsday Book“, dem ersten Grundbuch von England, zu einer Reorganisation der Wissensstrukturierung geführt habe, werde Big Data die Wirklichkeit substanziell verändern. Im Gegensatz zur bisherigen Wissenschaft, die auf Kausalitäten beruhe, seien nun Korrelationen bestimmend. Durch Big Data würden die Geisteswissenschaften auf jeden Fall visueller, haptischer und explorativer. Die große wissenschaftstheoretische Herausforderung sah Prescott in der Entwicklung eines theoretischen Rahmenwerks, das er als "critical data studies“ bezeichnete: „Big Data needs Big Theory!“ Ziel müsse eine „humanization of Big Data“ sein. Denn Daten seien mitnichten Gegebenheiten. Prescott zitierte den Glasgower Archäologen Jeremy Huggett: “Data are theory-laden, and relationships are constantly changing, depending on context”5; er listete dann den Sieben-Punkte-Katalog von Craig Dalton und Jim Thatcher der Critical Data Studies6 auf. „Rohdaten“ könne es in diesem Sinne nicht geben.

Einen tiefen Einblick in die Entwicklung bei der Industrie gab der frühere SAP-Abteilungsleiter und jetzige IT-Direktor bei Trumpf STEPHAN FISCHER (Stuttgart) in seinem Vortrag „Data-Value Services as a Differentiator for Machine Tools“. Sei es bei dem Lasertechnikhersteller in einem ersten Schritt darum gegangen, die physische mit der virtuellen Welt zu verknüpfen und beispielsweise mit Sensoren die Qualität der Lasernadel zu prüfen („smart data“), gehe es derzeit um die Optimierung des gesamten Produktionssystems anhand der massenhaft erzeugten Daten („smart factory“) – die Zukunft jedoch werde im Internet of Services als Business Modell liegen. Im „Smart Data Innovation Lab“ arbeiten Trumpf und andere Großfirmen mit der Wissenschaft zusammen. Von dem Datenaustausch mit der Wissenschaft, so Fischer, erhoffe man sich strategische Vorteile.

Auch der Leiter des Instituts für Arbeitsmarkt- und Berufsforschung STEFAN BENDER (Nürnberg) sah in der Datenfreigabe für die Wissenschaft einen Vorteil. In seinem Vortrag „Researcher Access, Economic Value and the Public Good“ forderte er die Entwicklung von Dokumentationsstandards, die Definition von Datenreproduzierbarkeit und vor allem einen geeigneten Umgang mit Fehlern bei Big Data. Weiterhin führte Bender die Unterscheidung von “made data”/“designed data“ und “found data”/“organic data“ ein, die sich letztlich ergänzten. Denn Big Data sei zwar billiger in der Generierung, nicht aber in der Bereinigung. Bender interpretierte die bekannte Öl-Metapher noch einmal neu: Daten könnten auch großen Schaden wie eine Ölpest verursachen.

Für den Physiker mit Soziologielehrstuhl DIRK HELBING (Zürich) gibt es zurzeit ein Ungleichgewicht zwischen den Erkenntnissen, die wir über die Natur und die wir über unsere Gesellschaft haben: „How we can build a smart resilient digital society?”7 Big Data könne helfen, dieses bestehende Ungleichgewicht zu beseitigen. Helbing stellt sich hierfür eine Welt vor, mit vielen verteilten und selbstorganisierten Systemen und einer dezentralisierten Kontrolle bzw. Intelligenz, die auf Grundlage der Daten entscheidet. Ein solches „Planetarisches Nervensystem“ zusammen mit einem „Living Earth Simulator“, der verschiedene Änderungen und Einflüsse auf der Welt simulieren könnte, wäre im Stande, grundlegende Einsichten in unsere Gesellschaft zu gewinnen.

Einen technischen Blick auf Big Data lieferte SHIVAKUMAR VAITHYANATHAN (San José) von IBM Big Data Analytics, der zunächst drei unterschiedliche Big Data-Problemstellungen vorstellte: 1) Fragestellungen mit einer schier riesigen Datenmenge, 2) Fragestellungen, die mit mehreren Modellen gelöst würden, und 3) Fragestellungen, bei denen nur geringe Mengen an Daten vorhanden seien, aber bei denen anhand von Simulationen eine riesige Datenmenge erzeugt werde. Diesen Herausforderungen begegne der Datenwissenschaftler (Data Scientist), der aus der Menge von Daten Erkenntnisse extrahiere. Er müsse beide Welten kennen – die „normale“ IT Welt und die „Big Data“ Welt – und zwischen ihnen vermitteln. Das große Ziel von Big Data Analytics sei daher, eine solche Übersetzung automatisch durchzuführen.

In mehreren Zeitfenstern stellten bei der Konferenz Nachwuchswissenschaftler(innen) aus 16 Ländern in dreiminütigen Lightning Talks ihre Forschungsprojekte aus verschiedenen wissenschaftlichen Disziplinen vor. Für die beste Präsentation wurde auf der Konferenz der Historiker IAN MILLIGAN (Waterloo) und sein Projekt „Finding Community in the Ruins of GeoCities“ ausgezeichnet, für das beste Poster der Sozialwissenschaftler JOSH COWLS (Oxford) für „Using Big Data for Valid Research: Three Challenges“.

Eine sehr lebhafte Sektion der Konferenz war juristischen Fragen gewidmet. Big Data sind letztlich Daten, für die seitens der Wissenschaft keine informierte Einwilligung des Einzelnen („informed consent“) eingeholt worden ist oder eingeholt werden kann. Hier setzte die Wirtschaftswissenschaftlerin JULIA LANE (Straßburg)8 in ihrem Vortrag „Big Data, Science Policy, and Privacy“ an. Man müsse sich erst einmal bewusst machen, dass man mit Big Data auch zu völlig falschen Ergebnissen kommen könnte – eine These, die Julia Lane mit den Ereignissen rund um den Bombenanschlag von Boston verdeutlichte, bei dem ein durch Big Data-Analysen unschuldig verdächtigter Mann, weil öffentlich der Tat bezichtigt, Selbstmord beging. Dies habe zudem ein Rechtsproblem aufgeworfen: „What is the legal framework for data on human beings?“ Die informierte Einwilligung, die in den USA in der sogenannten Common Rule zum Schutz von menschlichen Forschungssubjekten festgelegt ist, sei heute eine Fiktion, da in Zeiten von Big Data keine Anonymisierung von Daten mehr möglich sei. Doch wie dann weiter sozialwissenschaftliche Forschung durchführen? Julia Lane forderte einen Runden Tisch, an dem Wissenschaft, Förderorganisationen und öffentliche Hand eine Roadmap entwerfen.

Dass heute keine informierte Einwilligung mehr möglich ist, diese Ansicht teilte auch der deutsche Jurist THOMAS HOEREN (Münster). Er bezeichnete die deutsche Rechtsprechung zur Schufa als das erste richtige Big Data-Gesetz, da es erstens wissenschaftliche Standards bei dem Datenumgang und zweitens Transparenz festschreibe: Jeder Bürger hat jederzeit das Recht, Auskunft über die dort über ihn gespeicherten Daten zu bekommen. Ansonsten warf Hoeren viele Fragen auf: Wer haftet für falsch erhobene Daten? Gibt es ein Eigentumsrecht an Daten und wenn ja, wem gehört was? Wie sieht es mit den Persönlichkeitsrechten aus? Welche Rolle spielen die beiden großen Rechtstraditionen, das angelsächsische Common Law und das Römische Recht, beim Umgang mit den Daten? Big Data, so Hoerens Fazit, wird das gesamte Gesetzeswerk verändern.

Wie nüchtern Juristen die derzeitige Situation in Zeiten von Big Data einschätzen, machte auch NIKOLAUS FORGO (Hannover) deutlich. Sein Vortrag trug den pointierten Titel: „Ignore the Facts, Forget the Rights: European Principles in an Era of Big Data”. Forgo setzte am sogenannten „Volkszählungsurteil“ von 1983 an, als das Bundesverfassungsgericht das Grundrecht auf informationelle Selbstbestimmung als Ausfluss des allgemeinen Persönlichkeitsrechts und der Menschenwürde etablierte. Das Urteil galt als Meilenstein des Datenschutzes und ging in die Charta der Grundrechte der Europäischen Union ein. Doch wie ist die Wirklichkeit heute? Sie sei von Kontrollverlust des Einzelnen über „seine“ Daten gekennzeichnet und damit mit Selbstverlust: „If the product is for free, you are the product“. Drei Problemfelder müssten gleichzeitig und weltweit geklärt werden: Fragen des Eigentumsrechts, der Achtung der Privatheit wie auch des Urheberrechts.

Zurück zu technischen Aspekten und zu den großen Herausforderungen für die Wissenschaft führte die letzte Session der Konferenz. In seiner Einführung sah der Informatiker VOLKER MARKL (Berlin) den zentralen Aspekt von Big Data im Aufeinandertreffen der zwei Welten, nämlich der Welt des Datenmanagements und der Welt der Datenanalyse. Darüber hinaus brachte er noch eine weitere interessante Eigenschaft von Daten in die Diskussion. Daten könnten – hier setzte Markl einen anderen Akzent als beispielsweise Bender und Wittenburg – an Wert verlieren, wenn sie geteilt werden. Daraus folgernd fügte er der mehrfach angesprochenen Öl-Metapher noch einen weiteren Aspekt hinzu, den des Kriegs um diese Ressource. Neben Markl nahmen an der folgenden Podiumsdiskussion auch DAVID CARR (London) vom Wellcome Trust, der KI-Experte OSCAR CORCHO (Madrid), JOSHUA M. GREENBERG (New York) von der Alfred P. Sloan Foundation und STEFAN WINKLER-NEES (Bonn) von der Deutschen Forschungsgemeinschaft teil. Dabei war die fehlende Informationsinfrastruktur, die von fast allen Teilnehmern bemängelt wurde, der rote Faden der Diskussion.

Insgesamt brachte die Herrenhäuser Konferenz herausragende internationale Vertreter/innen der unterschiedlichen Disziplinen auf hohem intellektuellem Niveau zusammen. Darin lag der besondere Mehrwert der Veranstaltung, weil eine ganze Reihe von Problemen und Herausforderungen identifiziert wurden, die von allen Disziplinen nur gemeinsam gelöst werden können – und das, obwohl Big Data ein Containerbegriff mit unscharfen Konturen ist. Auf wissenschaftstheoretischer Ebene erscheint die Forderung nach "Critical Data Studies" mit der notwendigen historisch-kritischen Einbettung von Daten wichtig. Auf technischer Ebene ist die Frage der Datenaufbereitung, -vorhaltung und -reproduzierbarkeit von zentraler Bedeutung. Auf statistisch-methodischer Ebene wird der Umgang mit Fehlern bei Big Data-Analysen die Diskussion der Zukunft sicher beherrschen. In der juristischen Dimension ist überdeutlich, dass das Rechtsverständnis an die neue digitale Epoche angepasst werden muss. Auf der übergeordneten Ebene schließlich stellt sich die Frage, welchen Anspruch die Gesellschaft hat, dass die Daten Common Goods sind, mit denen die Wissenschaft arbeiten kann – und die Chancen von Big Data nicht nur der Internetwirtschaft überlassen werden.

Konferenzübersicht:

Conference Opening and Welcome Address:
Wilhelm Krull (Hanover)

Session 1: Big Data and Science – Idle Potentials
Chair: Ralph Schroeder (Oxford)

Keynote:
Christine L. Borgman (Los Angeles), Data, Scholarship, and Disciplinary Practice
Statements and Discussion

Clifford A. Lynch (Washington), The Challenges of Data Reuse: The Short Term and the Long Term

Peter Wittenburg (Munich), Data Science: Practices and Ambitions

New Research Projects: Lightning Talks 1
Chair: Amir Zeldes (Washington)

Poster Session

Session 2: Big Data in the Arts and in the Humanities
Chair: Wilhelm Krull (Hanover)

Keynote: Andrew Prescott (Glasgow)

Session 3: Big Data and Economic Challenges
Chair: Arnold Picot (Munich)

Keynote: Stephan Fischer (Stuttgart), Data-Value Services as a Differentiator for Machine Tools

New Research Projects: Lightning Talks 2
Chair: Amir Zeldes (Washington)

Poster Session

Statement and Discussion:
Stefan Bender (Nürnberg), Researcher Access, Economic Value and the Public Good

Poster Session

New Research Projects: Lightning Talks 3
Chair: Amir Zeldes (Washington)

Session 4: Coping with Big Data
Chair: Thomas Petzold (Berlin)

Keynote:
Dirk Helbing (Zurich), How We Can Build a Smart, Resilient, Digital Society

Poster Session

Statements and Discussion:

Shivakumar Vaithyanathan (San Jose, CA), Declarative Machine Learning

New Research Projects: Lightning Talks 4
Chair: Amir Zeldes (Washington)

Session 5: Big Data and Legal Framework
Chair: Matthew Woollard (Essex)

Keynote:
Julia Lane (Strasbourg), Privacy, Big Data, and the Public Good: Frameworks for Engagement

Statements and Discussion:

Thomas Hoeren (Münster), From Alibaba to Abida: Legal Issues Concerning Big Data

Nikolaus Forgo (Hannover), Ignore the Facts, Forget the Law: European Principles in an Era of Big Data

Award Ceremony

Session 6: Big Data and Challenges for Research and Research Funding
Chair: Ralph Schroeder (Oxford)

Introductory Remarks: Volker Markl (Berlin)

Panel Discussion:
David Carr (London) / Oscar Corcho (Madrid) / Joshua M. Greenberg (New York City) / Stefan Winkler-Nees (Bonn) / Volker Markl (Berlin)

Closing Remarks: Christoph Kolodziejski (Hanover)

Anmerkungen:
1 Christine L. Borgman, Big Data, Little Data, No data. Scholarship in the Networked World, Boston 2015; Christine L. Borgman / Marianne Krasny, Scholarship in the Digital Age. Information, Infrastructure, and the Internet, Boston 2007.
2 Doug Laney, 3D Data Management: Controlling Data Volume, Velocity, and Variety, 2001, <http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf> (10.7.2015).
3 Tony Hey / Stewart Tansley / Kristin Tolle (Hrsg.), The Fourth Paradigm: Data-Intensive Scientific Discovery, Microsoft 2009.
4 Die Slides der Präsentation finden sich hier: <http://de.slideshare.net/burgess1822/prescottherrenhausen> (10.7.2015).
5 Jeremy Huggett, Promise and Paradox: Accessing Open Data in Archaeology, Proceedings of the Digital Humanities Congress 2012.
6 Craig Dalton / Jim Thatcher: What does a critical data studies look like, and why do we care? Seven points for a critical approach to ‘big data’, in: Society and Space 2014 <http://societyandspace.com/material/commentaries/craig-dalton-and-jim-thatcher-what-does-a-critical-data-studies-look-like-and-why-do-we-care-seven-points-for-a-critical-approach-to-big-data/> (10.7.2015).
7 Die Videoaufzeichnung des Keynote-Talks findet sich hier: <https://www.youtube.com/watch?v=mO-3yVKuDXs> (10.7.2015).
8 Julia Lane / Victoria Stodden / Stefan Bender / Helen Nissenbaum (Hrsg.), Privacy, Big Data, and the Public Good: Frameworks for Engagement, Cambridge 2014.


Redaktion
Veröffentlicht am
Klassifikation
Weitere Informationen
Land Veranstaltung
Sprache(n) der Konferenz
Englisch
Sprache des Berichts