Neue Ansätze der digitalen Quellenerschließung

Neue Ansätze der digitalen Quellenerschließung

Organisatoren
Ingrid Baumgärtner / Michael Schonhardt / Elena Vanelli, Universität Kassel; Burchards Dekret Digital’, Arbeitsstelle Kassel, Akademie der Wissenschaften und der Literatur Mainz; DFG-Projekt ‚Burchards Descriptio Terrae Sanctae‘, Universität Kassel
PLZ
34127
Ort
Kassel
Land
Deutschland
Fand statt
In Präsenz
Vom - Bis
07.05.2024 - 08.05.2024
Von
Phillip Landgrebe, Mittelalterliche Geschichte, Universität Kassel

Der rasante Fortschritt im Bereich digitaler Werkzeuge hat neue Potentiale und Herausforderungen in den Fokus der Geschichtswissenschaft gebracht. In Kassel trafen sich deshalb international ausgewiesene Expert:innen zu einer anregenden Diskussion, die sich überwiegend auf das Mittelalter konzentrierte. Sie überschritt aber auch immer wieder die Epochen- und Disziplingrenzen, um neue Ansätze digitaler Quellenerschließung vorzustellen und zu prüfen.

Zum Auftakt erörterten INGRID BAUMGÄRTNER (Kassel), MICHAEL SCHONHARDT (Kassel) und ELENA VANELLI (Kassel) den Rahmen und die Ausrichtung des Workshops. Baumgärtner betonte die zweifache Einbindung am Standort Kassel. Zum einen sind Erfahrungen durch das 2020 gestartete Langzeitprojekt Burchards Dekret Digital (BDD)1 vorhanden, das von der Akademie der Wissenschaften und der Literatur Mainz gefördert wird und Wissenschaftler:innen aus Erlangen-Nürnberg, Mainz und Kassel vereint. Zum anderen ist in Kassel auch das DFG-Projekt Burchards Descriptio Terrae Sanctae. Edition und historische Rezeptionskontexte (BDTS) angesiedelt, das in Kooperation mit der Bar-Ilan University in Israel stattfindet. Vanelli ergänzte, dass in der Wissenschaft zwar ein breiter Konsens darüber herrsche, dass die Komplexität moderner Editionsvorhaben Werkzeuge erfordere, die über Word-Dateien hinausgehen. Trotzdem zeige sich unter Mediävist:innen nicht nur wegen der langen Einarbeitungszeit eine gewisse Skepsis gegenüber digitalen Methoden. Um diesbezügliche Ideen und Perspektiven auszutauschen, würde der Workshop Vorträge aus ganz unterschiedlichen Fächern versammeln, deren Auswahl sich an den Bedürfnissen der beiden Kasseler Editionsprojekte orientiere. Zuletzt wies Schonhardt noch darauf hin, dass digitale Ansätze in aktuellen Tagungen zwar alles andere als unterrepräsentiert seien, aber der Fokus zumeist auf spezifischen Werkzeugen liege. Der Workshop sei hingegen als Panorama der Ansätze intendiert, in welchem aufzuzeigen sei, welche Spannbreite die Tools hätten und was damit geleistet werden könne.

Michael Schonhardt begann seinen Vortrag mit der Feststellung, dass die Mediävistik nach den monumentalen editorischen Unternehmungen des 19. Jahrhunderts erneut vor einer Jahrhundertaufgabe stehe, nämlich der großflächigen Digitalisierung mittelalterlicher Quellen. Während sich diese Bemühungen anfangs auf ein Scannen beschränkten, machen aktuelle technische Entwicklungen die Anlage von mehrschichtigen, maschinenlesbaren Datenrepräsentationen des Quellmaterials notwendig. Nur so kann die Forschung den stetig wachsenden und sich dynamisch verändernden Anforderungen technischer Agenten, etwa großer Sprachmodelle, gerecht werden. Schonhardt betonte die Relevanz digitaler Editionen in diesem Prozess, die ihre Nutzbarkeit und Langlebigkeit nur gewährleisten könnten, wenn sie als dynamische Schnittstellen und Datengeneratoren verstanden würden. Diesen Ansatz verdeutlichte er an der digitalen Edition des Decretum Burchardi, dessen halbautomatisierter Workflow die Wiederverwendbarkeit der Daten in verschiedenen Anwendungen von der akademischen Forschung bis hin zum maschinellen Lernen sicherstellt. So wird die digitale Edition zu einer Plattform, die in der Lage ist, sich den variablen Bedürfnissen der digitalen Geisteswissenschaften flexibel anzupassen und eine fortwährende Relevanz für künftige Forschungen zu gewährleisten.

TOBIAS HODEL (Bern) beschäftigte sich mit der Frage, wie Sprachmodelle bei der Arbeit mit vormodernen Dokumenten erfolgreich herangezogen werden können. Dazu stellte er drei Methoden des maschinellen Lernens vor: Erstens Texterkennungstechnologie anhand der Engine TrOCR2, zweitens Informationsextraktion mittels Flair3, welches bei der Identifikation von benannten Entitäten hilft, und drittens Large Language Models wie GPT-4, Llama 3 oder kleinere selbsttrainierte Modelle. Zur Veranschaulichung griff Hodel auf mehrere Beispiele aus der Praxis zurück. Am Projekt zu den Turmbüchern der Stadt Bern konnte er etwa aufzeigen, dass studentische Vorarbeiten zum Taggen der gut 300.000 Verhörprotokolle als Trainingsmaterial für Flair eingesetzt und unter Zuhilfenahme der Software verbessert werden konnten. Hodel argumentierte, dass bei allen drei Methoden zufriedenstellende Ergebnisse erzielt werden konnten, die es jedoch noch über einzelne Ansätze hinaus auszubauen gilt.

PHILIPP BAYERSCHMIDT (Erlangen-Nürnberg) berichtete von seinen Erfahrungen im DFG-geförderten Projekt Oral-History.Digital4, das lebensgeschichtliche Interviews, die zum Bestand diverser Institutionen und Vereine gehören, digital und zentral zugänglich macht. Bayerschmidt wertet das Quellenmaterial in seinem Promotionsvorhaben danach aus, wie seit 1945 nach Deutschland gekommene Personen mit der eigenen Identität umgehen und diese mit ihrem Verständnis von Heimat verknüpfen. Die Komplexität der Themenwahl mache eine manuelle Sichtung, zum Beispiel durch Metadatenfilter, ineffektiv, weshalb er Topic Modeling anwendet. Im Zentrum der Methode steht eine Berechnung der statistischen Häufung von Wörtern, die eine Software in automatisch generierte Topics einordnet. Durch das schrittweise Verfeinern und Vertiefen des Verfahrens werden schließlich Gemeinsamkeiten und Unterschiede in den Interviews sichtbar, die aufgrund der Materialfülle sonst nicht zu erkennen wären. Abschließend eruierte Bayerschmidt, ob Topic Modeling auch für die Mediävistik anwendbar sei und welche Probleme, zum Beispiel durch historische Sprachentwicklungen, auftreten könnten.

HANNAH BUSCH (Köln) stellte das noch in der Anfangsphase befindliche Akademie-Projekt Die Formierung Europas durch Überwindung der Spaltung im 12. Jahrhundert (Formierung Europas) vor5, in dem das Cologne Center for eHumanities (CCeH) seit 2023 mit den Universitäten Würzburg und Aachen kooperiere. Busch berichtete von dessen grundsätzlicher Ausrichtung und den Arbeitszielen. Das Alexandrinische Schisma (1159–1177) werde hier unter der Fragestellung untersucht, wie diese tiefe Spaltung der lateinischen Christenheit überwunden werden konnte und welche Erkenntnisse für Krisen- und Formierungsprozesse auf gesamteuropäischer Ebene daraus abzuleiten sind. Dazu müssen mindestens 11.000 Handlungszeugnisse aus weiten Teilen Europas digital erfasst und analysiert werden. Ziel sei es, umfassende digitale Regesten zu erstellen, die gleichzeitig als Plattform für weiterführende Wissensbestände aus der Forschung sowie für Auswertungstools, etwa in Form von Geo- und Personennormdaten, dienen sollen.

JEROEN DE GUSSEM (Gent) präsentierte Erkenntnisse, die er bei der Anwendung von computergestützter Stilanalyse auf lateinischsprachige Literatur des Mittelalters erzielen konnte. Dazu erläuterte er zunächst die Methode der Stilometrie, mit der vor allem über Funktionswörter im Text der einzigartige ‚Fingerabdruck‘ eines Autors fassbar wird. Danach ging er der Frage nach, wie Stilometrie und Manuscript Culture übereinzubringen seien. Als Fallbeispiel zog De Gussem MS 241 der Universitätsbibliothek Gent heran, das eine frühe Fassung des Liber divinorum operum Hildegards von Bingen (1098–1179) beinhaltet. Bei diesem Manuskript handelt es sich um ein Apograph aus dem Kloster Rupertsberg, das, zu Lebzeiten der Benediktinerin erstellt, frühe Korrekturen unterschiedlicher Hände aufweist. De Gussem veranschaulichte, wie weitreichend stilistische Überarbeitungen einzelner Schreiber:innen sein konnten und eruierte, ob einer derselben möglicherweise Hildegards Sekretär Volmar von Disibodenberg (verstorben 1173) war. Sein Vortrag schloss mit Überlegungen zur Frage, welchen stilistischen Einfluss spätere Kopist:innen auf den Text des Liber hatten und welche Bedeutung dies für eine Analyse des Stils Hildegards habe.

DOMINIKUS HECKMANN (Amberg-Weiden) konzentrierte sich auf Berechnungsverfahren von Verwandtschaftsgraden und Stammbäumen. Ausgehend von graphischen Repräsentationen in mittelalterlichen Handschriften, den arbores consanguinitatis, entwickelte er eine Systematik, um die Relationen zwischen Einzelpersonen sowie zwischen Personengruppen effizient abzukürzen. Seine Lingua Consanguinitatis Ambergensis versteht er dabei als Teil eines digitalen Werkzeugkastens, der sowohl Tools zum ganzheitlichen Verwalten der Abbildungen beinhaltet, also im Sinne des Semantic-Webs einsetzbar ist, als auch das semantische Zerlegen einzelner arbores ermöglicht. Wichtig ist Heckmann eine „menschenzentrierte Datenmodellierung“, bei der das System nicht auf eine maschinelle Nutzung der Daten optimiert ist, sondern von Menschen händisch überprüfbar und damit nachvollziehbar bleibt. Die Funktionsweise seiner Sprache stellte er abschließend an Blutverwandtschaftsbäumen aus Manuskripten des Kasseler BDD-Projektes vor. Eine Augmented Reality Lern-App befinde sich aktuell in Entwicklung, um das semantisch-annotierte Explorieren der Abbildungen zu ermöglichen.

Zuletzt widmete sich MARCO HEILES (Hamburg) vernakularen, handschriftlichen Rezeptsammlungen des Spätmittelalters. Obgleich deren Zeugniswert für die historische Gebrauchs- und Wissensliteratur unbestreitbar wäre, sind die Entstehungs- und Verbreitungskontexte der Rezepte oftmals nur schwer zu rekonstruieren. Immerhin handle es sich um „unfeste Texte ohne Werkcharakter“, die im Überlieferungsprozess konstant überarbeitet und in neue Sammlungen eingefügt wurden. Heiles definierte singuläre materielle Realisationen deswegen als „Textereignisse“, deren Auswertung und Abgleich mit anderen Abschriften Rückschlüsse auf den „Text in potentia“, also das rein ideelle Rezept, erlaube. Anhand einer Kompilation von 32 Kochrezepten, zu denen er eine digitale Edition vorlegte6, erörterte er, wie Daten zur Parallelüberlieferung gesammelt, gespeichert und in der Software Gephi visuell aufbereitet werden können. Die Darstellung des Überlieferungsnetzwerkes als Graph biete dabei entscheidende Vorteile bei der Analyse. Da die Textereignisse bereits den Texten in potentia zugeordnet seien, wird einzig die Relation zwischen letzteren und den Rezeptsammlungen visualisiert, was zu einer merklichen Komplexitätsreduktion für die Nutzer:innen führe.

Die abwechslungsreichen Beiträge, die sich aus unterschiedlichen Perspektiven der Quellenerschließung widmeten, trugen entscheidend dazu bei, das selbstgesteckte Tagungsziel zu erreichen sowie ein Panorama der verschiedenen Ansätze und deren Potential zu bieten. Die lebhaften Diskussionen boten den Teilnehmer:innen ausreichend Raum für den Austausch über damit einhergehende Herausforderungen. Als wichtig erweist sich die abschließende Feststellung, dass im Zentrum des Digital Turns weniger das Programmieren selbst steht, sondern vielmehr Instrumente und Methoden der angewandten Statistik, die Historiker:innen oftmals eher fremd sind. Neben der Anwendung von entsprechender Software sollten diese Methoden daher verstärkt in der Lehre berücksichtigt werden. Zudem wurde die Relevanz des Anwendungsdesigns betont, das zusätzlich zu Programmierung und Datenaufbereitung eine zentrale Aufgabe sei und eine gesonderte Expertise wie auch personelle Ressourcen verlange. In den aktuellen Förderkonzepten fände dieser Prozess der Vermittlung bislang zu wenig Berücksichtigung, geschweige denn eine ausreichende Finanzierung. Erst eine übersichtlich und verständlich aufgebaute Anwenderoberfläche würde es aber ermöglichen, die digitalen Werkzeuge entsprechend nachzunutzen.

Gleichzeitig machte der Workshop deutlich, wie sehr Mediävistik und Digital History voneinander profitieren. Mehrere Vorträge verdeutlichten, dass die Disziplin ungemein von Expert:innen aus der Informatik lernen kann, die Engagement und Mut zeigen, ihr Wissen in einen für sie fachfremden Kontext einzubringen. Umgedreht bietet die Mittelalterliche Geschichte eine sich beständig vergrößernde Fülle an interessanten Materialien und komplexen Fragestellungen, die zur Entwicklung neuer digitaler Werkzeuge und Ansätze anregen. ,Altes‘ Fachwissen, etwa in Form der historischen Grundwissenschaften, wird dabei nicht obsolet, sondern stellt die Grundlage für die DH-Erfahrungen dar, um die Tools sinnvoll mit Inhalten zu bespielen. Wie Schonhardt am Ende resümierte, ist die Fähigkeit zur Interpretation die Königsdisziplin der Geschichtswissenschaft, die im Zeitalter einer sich immer schneller entwickelnden KI noch an Relevanz gewinnt.

Konferenzübersicht:

Ingrid Baumgärtner (Kassel) / Michael Schonhardt (Kassel) / Elena Vanelli (Kassel): Begrüßung.

Michael Schonhardt (Kassel): Die digitale Edition als Schnittstelle.

Tobias Hodel (Bern): Language Model Ansätze in den Geisteswissenschaften.

Philipp Bayerschmidt (Erlangen-Nürnberg): Topic Modeling zur Sekundäranalyse historischer Quellen.

Hannah Busch (Köln): Interakademische DH-Kooperation am Beispiel des CCeH-Projekts ‚Formierung Europas‘.

Jeroen De Gussem (Gent): Stylometry and Medieval Latin Texts: A Survey of the State of the Art, and the Method’s Potential and Challenges.

Dominikus Heckmann (Amberg-Weiden): UbisFamily: Ein Semantic-Web-Werkzeugkasten zur digitalen Quellenerschliessung von Arbores Consanguinitatis.

Marco Heiles (Hamburg): Überlieferungsgeschichte als Graph.

Anmerkungen:
1https://www.adwmainz.de/projekte/burchards-dekret-digital/informationen.html (08.07.2024).
2https://github.com/microsoft/unilm/tree/master/trocr (08.07.2024).
3https://flairnlp.github.io/ (08.07.2024).
4https://www.oral-history.digital/ (08.07.2024).
5https://formierung-europas.uni-koeln.de/ (08.07.2024).
6http://diglib.hab.de/edoc/ed000270/start.htm (08.07.2024).

Redaktion
Veröffentlicht am
Klassifikation
Weitere Informationen
Land Veranstaltung
Sprache(n) der Konferenz
Deutsch
Sprache des Berichts