Der Titel des Buches mag zunächst überraschen: Nachdem Jo Guldi knapp ein Jahrzehnt zuvor in ihrem „History Manifesto“1 die Rückbesinnung der Geschichtswissenschaft auf Fragen der longue durée forderte und hierfür die Methoden der Digital History empfahl, soll es sich hierbei nun um eine „gefährliche Kunst“ handeln? Zu dieser Einschätzung kommt die Autorin durch einen Perspektivwechsel: In den Händen einer gegenwärtig dominanten, historisch uninformierten Data Science bringe Text Mining, also die quantitative Auswertung großer digitaler Korpora, tatsächlich gefährliche Fehlinterpretationen hervor. Guldi, Professorin für quantitative Theorien und Methoden an der Emory University in Atlanta, verfolgt deshalb das doppelte Ziel, Datenwissenschaftler:innen für die Historizität ihres Materials zu sensibilisieren und „klassisch“ arbeitenden Historiker:innen, im Anschluss an das „History Manifesto“, zu demonstrieren, wie Text Mining für neue Forschungen fruchtbar gemacht werden kann (S. 1–6, S. 11–14). Sie legt somit keine minutiöse Anleitung zum Einsatz digitaler Methoden vor, sondern eine von praktischen Beispielen durchzogene Methoden- und Theoriereflexion (S. 18, S. 447f.).
Gegliedert ist das Buch in ein autobiographisch zum Thema hinführendes Vorwort, die Einleitung und drei Hauptteile. Im ersten Teil (Kap. 1–5) schlägt Guldi die Brücke zwischen „quantifizierungsskeptischen“ Humanities und „geschichtsloser“ Data Science. Letztere laufe Gefahr, die Produktionsbedingungen historischer Datensätze sowie die daraus resultierenden Leerstellen und Bias nicht zu berücksichtigen (Kap. 1), bei der Auswahl von Suchbegriffen anachronistische Rückprojektionen vorzunehmen oder vieldeutige historische Texte auf eindimensionale „Ergebnisse“ zu verengen (Kap. 3). Guldi seziert Negativbeispiele, vermittelt zwischen den Fachsprachen von Daten- und Geschichtswissenschaftler:innen sowie deren unterschiedlichen Erkenntnisinteressen – Generalisierung und Vorhersage versus Differenzierung und Darstellung von Kontingenz (Kap. 2, 5) – und formuliert Richtlinien zum quantifizierenden Umgang mit historischen Daten, durch die Fehlinterpretationen vermieden werden könnten (Kap. 2). Neben einer genauen Kenntnis der jeweiligen Korpora sei eine kritische Überprüfung der verwendeten Algorithmen und der Ergebnisse durch die Inspektion des zugrundeliegenden Textes unverzichtbar. Dies verlange nach „hybrid thinking“ (S. 91), idealiter in hybriden Teams aus Datenwissenschaftler:innen und Historiker:innen. In Kapitel 4 präzisiert Guldi ihren Königsweg einer „critical search“: „In this approach, the researcher investigates the ‚fit‘ between data, algorithm, secondary sources, and analysis, recursively iterating through a process until they clearly understand the implications of each choice they have made […].“ (S. 117) Diese Methodik entspricht der gegenwärtigen mehrheitlichen Praxis in der Digital History; speziell die Beschreibung der digitalen Recherche als „iterativer Prozess“ und die Überprüfung quantitativer Ergebnisse des Distant Reading durch qualitatives Close Reading – bzw. bei Guldi „guided reading“ (S. 129) – sind weit verbreitet.2
Der zweite Teil (Kap. 6–12) versammelt eine Reihe von Fallstudien, in denen verschiedene Algorithmen bzw. Methoden aus dem Bereich des Text Mining eingeführt und praktisch angewandt werden. Guldi präsentiert hierfür in fast allen Kapiteln zunächst einige beispielhafte Studien und wendet die jeweilige Methode dann auf ein Korpus an, das sie in ihrer eigenen empirischen Forschung nutzt: jenes der Debatten des britischen Parlaments von 1806 bis 1911. Diese Fallstudien stellt sie unter die Leitfrage, „what algorithmic work looks like under the inspiration of theories of history“ (S. 184). Hierfür dient ihr insbesondere Reinhart Koselleck als Bezugspunkt. So führt Guldi etwa anhand von Betrachtungen zum kulturellen Gedächtnis in Named Entity Recognition und Part-of-speech Tagging ein (Kap. 7) oder prüft tf-idf (term frequency – inverse document frequency) als Maß historischen Wandels auf unterschiedlichen Skalierungen (Kap. 8, 10).
Die Funktionsweisen der Algorithmen, ihr Erkenntnispotenzial und ihre Grenzen werden überwiegend allgemeinverständlich vermittelt, und durch die iterative Abwägung verschiedener quantifizierender Zugänge ergeben sich multiperspektivische Reflexionen. Trotzdem bleiben in fast allen Kapiteln des zweiten Teils wichtige Einwände unerwähnt, die im Rahmen von Guldis eigenem Konzept einer „critical search“ zur Passung von Ausgangsfrage, Korpus, Algorithmus, Suchanfrage und Interpretation hätten vorgebracht werden können, oder es werden allzu eindeutige Schlüsse aus den Abfragen gezogen, die sich nur schwer mit den nachfolgenden Diskussionen der Grenzen ihrer Aussagekraft vertragen. Oftmals wirken die Betrachtungen der Algorithmen und ihrer Ergebnisse unvollständig und knapp (vor allem in Kap. 10). Wiederholt räumt Guldi ein, dass ihre Suchbewegungen eigentlich noch detaillierter fort- und vorgeführt werden müssten, dafür aber kein Platz bleibe (zum Beispiel S. 207, S. 222, S. 258, S. 332, S. 447). Eine Beschränkung auf weniger und dafür eingehender kritisch reflektierende Fallstudien wäre dem Anliegen zuträglicher gewesen, eine „teachable series of problems about how historical questions can reshape data science into a smarter discipline“ (S. 18) zu liefern.
Ein Teil dieser Probleme der Kapitel 7–11 dürfte auch darin begründet sein, dass Guldi hier sehr große und eher vage, geschichtstheoretisch inspirierte Fragen stellt: „How did nineteenth-century people in parliament talk about the past?“ (S. 223), „pinpoint the material most useful for characterizing the multiple speeds at which contemporary forces worked in the past“ (S. 234) oder „whether and how it is possible to reckon where modernity is going“ (S. 334). Solche Fragen überhaupt in passgenaue quantifizierende Suchbefehle zu übersetzen, scheint zumindest herausfordernd. Das überzeugendste Kapitel des zweiten Teils ist insofern jenes, in dem Guldi eine deutlich konkretere Frage verfolgt, nämlich wann, wie und von wem im US-Kongress seit den 1970er-Jahren Umweltaktivist:innen rhetorisch angegriffen wurden und inwiefern hiermit eine politische Sprache etabliert wurde, welche die ungenügende Reaktion des Kongresses auf die Beweislage zum Klimawandel erklären hilft (Kap. 12). Hier demonstriert sie überzeugend einen kompletten „critical search“-Zyklus, von der vorläufigen Auswahl von Fragestellung, Korpus, Algorithmen und Suchbefehlen über die Sortierung und Interpretation der Ergebnisse und die Anpassung der Abfragen bis zum ausführlichen „guided reading“ im Korpus selbst – und von dort wiederum zu neuen Fragen und quantifizierenden Analysen.
Im dritten Teil (Kap. 13 und 14) bekräftigt Guldi zunächst noch einmal ihren Anspruch, durch kritisch reflektiertes Text Mining überkommene historiographische Narrative überprüfen und korrigieren zu können (Kap. 13). Schließlich skizziert sie Perspektiven für zukünftige Studien und plädiert dafür, Raum für hybride Lehre und Forschung an den Schnittstellen von Geschichts- und Datenwissenschaften zu schaffen. Nicht zuletzt könne Text Mining auch einen wichtigen Beitrag zur demokratischen Öffentlichkeit leisten, wenn Bürger:innen die Überlieferung ihrer Parlamente auf Webportalen mit diesen Methoden befragen könnten (Kap. 14). Wie solche Portale Guldis wissenschaftlichen Anforderungen genügen und gleichzeitig für Laien unkompliziert zu bedienen sein könnten, erläutert sie allerdings nicht.
Überraschend ist die hohe Anzahl an Satzfehlern sowie fehlerhaften Fußnoten, Literaturangaben und innertextlichen Bezügen, die einem gewissenhaften Lektorat hätten auffallen müssen. Diesen und den Schwächen des zweiten Teils zum Trotz bietet das Buch anregende, zugängliche Reflexionen über das Potenzial von Text Mining in der Geschichtswissenschaft und vor allem ein selbstbewusstes, überzeugendes Plädoyer für die Bedeutung der Kernkompetenzen von Historiker:innen in der Datenwelt unserer Gegenwart. Mit ihrer Methode der „critical search“ leistet Jo Guldi eine hilfreiche Synthese gängiger Ansätze. Zu begrüßen ist auch, dass sich das Werk, anders als viele Einführungen zur Digital History3, auf nur einen Bereich dieses sehr breiten Feldes konzentriert. Die Gegenüberstellung von historisch uninformierter Data Science und quantifizierungsskeptischen Humanities mag etwas holzschnittartig sein – beide Haltungen sind jedoch zweifellos immer noch anzutreffen und bedürfen der gegenseitigen Vermittlung. Allerdings bleibt Guldi durch diesen Fokus wenig Raum für eine Abbildung und Vertiefung der Debatten unter mit digitalen Methoden vertrauten Geisteswissenschaftler:innen. Diese spezifischeren Reflexionen und (Selbst-)Kritiken, jenseits grundsätzlicher Legitimitätsfragen4, deutlicher darzustellen und zu differenzieren, wäre nicht nur eine lehrreiche Ergänzung gewesen. Es hätte auch die Spannung zwischen der Betrachtung von Voraussetzungen, Grenzen und Leerstellen des Text Mining einerseits und der emphatischen Beschwörung seines revolutionären Erkenntnispotenzials andererseits, die das Buch an vielen Stellen prägt, etwas reduzieren können.
Anmerkungen:
1 Jo Guldi / David Armitage, The History Manifesto, Cambridge 2014, http://historymanifesto.cambridge.org (17.10.2024); siehe dazu die kritische Rezension von Stefan Jordan, in: H-Soz-Kult, 29.04.2016, https://www.hsozkult.de/publicationreview/id/reb-23324 (17.10.2024).
2 Vgl. zum Beispiel Andreas Fickers, Update für die Hermeneutik. Geschichtswissenschaft auf dem Weg zur digitalen Forensik?, in: Zeithistorische Forschungen/Studies in Contemporary History 17 (2020), S. 157–168, https://zeithistorische-forschungen.de/1-2020/5823 (17.10.2024); Karoline Döring u.a. (Hrsg.), Digital History. Konzepte, Methoden und Kritiken Digitaler Geschichtswissenschaft, Berlin 2022, u.a. S. 47, S. 58, S. 139, S. 147, S. 271, S. 322–325, S. 341ff., https://doi.org/10.1515/9783110757101 (17.10.2024).
3 Vgl. Mareike König, Die digitale Transformation als reflexiver turn: Einführende Literatur zur digitalen Geschichte im Überblick, in: Neue Politische Literatur 66 (2021), S. 37–60, https://doi.org/10.1007/s42520-020-00322-2 (17.10.2024).
4 Vgl. zum Beispiel Scott Weingart, „Digital History“ Can Never Be New, in: Digital Humanities Now, 05.05.2016, https://digitalhumanitiesnow.org/2016/05/editors-choice-digital-history-can-never-be-new/ (17.10.2024); Nan Z. Da, The Computational Case against Computational Literary Studies, in: Critical Inquiry 45 (2019), S. 601–639; Franco Moretti, Falsche Bewegung. Die digitale Wende in den Literatur- und Kulturwissenschaften. Aus dem Englischen übersetzt von Bettina Engels, Konstanz 2022.