„Papsturkunden ohne Ende“, Datenbanken ohne Ende? Datenverarbeitung – Interoperabilität – Gemeinsame Lösungswege

„Papsturkunden ohne Ende“, Datenbanken ohne Ende? Datenverarbeitung – Interoperabilität – Gemeinsame Lösungswege

Organisatoren
Universität Luxemburg
Ort
Esch-sur-Alzette
Land
Luxembourg
Vom - Bis
17.02.2022 - 18.02.2022
Von
Marina Bürzl, Historisches Institut, RWTH Aachen

Die Digitalisierung ist kein besonders junges Phänomen mehr. Ihre Vorteile für die Geschichtswissenschaften hinsichtlich der Sammlung, Verfügbarkeit, Auswertung und Interpretation von Quellen und Forschungsliteratur sind kaum zu bestreiten, was insbesondere durch die Pandemie in den letzten zwei Jahren deutlich wurde. Immer mehr Bibliotheken und Archive stellen ihre Materialien online zur Verfügung, und immer mehr Projekte verfolgen das Ziel, Datenbanken zu einem speziellen Thema zu erstellen, mithilfe derer Quellen oftmals nicht nur eingesehen, sondern auch verglichen und analysiert werden können. Gleichzeitig bringt die Erstellung von Datenbanken und der Umgang mit ihnen eine Vielzahl an Herausforderungen mit sich, die zum Beispiel mit ihrer großen Anzahl, Zugänglichkeit, Formatierung oder Benutzerfreundlichkeit einhergehen.

Das seit Januar 2021 von der DFG und dem Fonds National de la Recherche Luxembourg (FNR) geförderte und an der Rheinisch-Westfälischen Technischen Hochschule Aachen sowie der Universität Luxemburg durchgeführte Forschungsprojekt INTERLOR analysiert die vom lotharingischen Raum ausgehenden Interaktionen mit dem Papsttum von der Mitte des 11. bis zum Beginn des 13. Jahrhunderts. Für dieses Vorhaben ist eine Datenbank unerlässlich. Der Workshop sollte demnach einerseits dem Austausch über die Auf- und Verarbeitung von Daten im Hinblick auf mittelalterliche Papsturkunden dienen sowie andererseits die Möglichkeit bieten, Ideen und Erfahrungen, aber auch Herausforderungen und etwaige Lösungsansätze im Umgang mit den Digital Humanities in der Mittelalterforschung zu diskutieren.

Die erste Sektion widmete sich der Vernetzung von Datenbanken. Zu Beginn stellte THORSTEN SCHLAUWITZ (Erlangen-Nürnberg) die Regesta Pontificum Romanorum online vor, eine Datenbank, deren Ziel es ist, die Papstkontakte des orbis christianus vor 1198 in Regestenform zu verzeichnen. Ausführlich zeigte er die Vor- und Nachteile gegenüber Printregesten auf, wobei er besonders das Problem der Langzeitarchivierung, der Wiederauffindbarkeit und der geforderten digitalen Kompetenzen der Wissenschaftler:innen betonte.

Im Anschluss stellte JULIEN THÉRY (Lyon) das Projekt APOSCRIPTA Database vor, in dem das Ziel verfolgt wird, ein einheitliches und möglichst umfassendes Korpus der mittelalterlichen Papstbriefe zu erstellen. Dabei wies er nachdrücklich darauf hin, dass es sich bei APOSCRIPTA um eine im stetigen Ausbau befindliche Datenbank handelt, die zum einen auf der Grundlage bereits bestehender Printeditionen angelegt wurde und zum anderen als Ergänzung zu anderen Datenbanken mit päpstlichen Briefen des Mittelalters zu sehen sei.

ROLF GROSSE und SEBASTIAN GENSICKE (DHI Paris) präsentierten die digitale Plattform Gallia Pontificia online, für die sowohl Editionen von Papsturkunden als auch Regesten bis zum Jahr 1198 vorgesehen sind. Dabei führte Große aus, dass mit der Gallia Pontificia online zum einen eine größere Sichtbarkeit der nach Frankreich ergangenen Papsturkunden anvisiert werde und zum anderen das Ziel verbunden sei, die Arbeit an einem Regestenband auf mehrere Schultern zu verteilen und einzelne Regestensammlungen nach und nach zu veröffentlichen, sodass diese möglichst früh zugänglich gemacht werden können. Er betonte allerdings, dass die Plattform nicht als vollständiger Ersatz einer gedruckten Version zu sehen sei. Daran anknüpfend sprach Gensicke über die konkrete Umsetzung der aktuellen Arbeit an den Papstregesten der Erzbischöfe von Reims, deren Grundlage das Material aus dem Nachlass Ludwig Falkensteins (Aachen) bildet. Er gab einen Einblick in das zu bearbeitende Material und stellte die unterschiedlichen Bearbeitungsebenen (redaktionell, inhaltlich, Textauszeichnung) vor. Er diskutierte das Potential maschinell lesbarer Regesten und ging diesbezüglich auf das in seiner Arbeit verwendete Verfahren der Konvertierung von Word- in XML-Dateien, Verweise auf andere Editionen durch Verlinkung und die Verknüpfung mit anderen Datenbanken ein. In Bezug auf Letzteres betonte er die Vorzüge von Permalinks und simplen identifiern.

In der anschließenden Fragerunde wurde darüber diskutiert, ob eine schnelle Bereitstellung bereits vorhandenen Datenmaterials in Verbindung mit einer erst nachträglich stattfindenden Ergänzung um Detailinformationen womöglich sinnvoller sei, als das Endergebnis abzuwarten, ob der Einsatz künstlicher Intelligenz manche Arbeitsschritte eventuell vereinfachen könne und ob die lateinische Sprache für die Regesten weiterhin Mittel der Wahl sein sollte.

TIMOTHY SALEMME (Luxemburg) sprach über die noch im Aufbau begriffene Datenbank des INTERLOR-Projektes, wobei er die Bedeutung einer Datenbank mit Blick auf die Zielsetzung des Projektes hervorhob und zugleich auf den geographischen Bezugsrahmen der untersuchten Region „Lotharingien“ einging. Anschließend stellte die Informatikerin MURIEL FOULONNEAU (Luxemburg) detailliert die Zielsetzung dieser Datenbank vor. Sie illustrierte diese anhand ausgewählter Beispiele und thematisierte dabei den Inhalt der einzuspeisenden Quellen, die unterschiedlichen Quellenarten und die verschiedenen Informationsgehälter vorgesehener Suchkriterien. Daneben erörterte sie Schwierigkeiten, etwa hinsichtlich der Sprachwahl oder Visualisierung, gleichzeitig aber auch das Potential dieser Datenbank im Hinblick auf die Sprachanalyse sowie die Interoperabilität mit anderen Datenbanken. Zuletzt betonte sie die Wichtigkeit der Einhaltung der FAIR-Prinzipien, nach denen Daten findable, accessible, interoperable und reusable sein sollen.

Den Abschluss der ersten Sektion bildete eine table ronde unter der Leitung von Benoît-Michel Tock (Straßburg), der einleitend eine sich steigernde Nutzung und demnach auch eine sich vergrößernde Anzahl von Datenbanken für die Zukunft prognostizierte, angesichts derer möglicherweise auch auf die Unterstützung von künstlicher Intelligenz zurückgegriffen werden müsse. Er stellte ein gemeinsames europäisches Papsturkundenprojekt in Aussicht, bei dem beispielsweise eine große zentrale Datenbank von verschiedenen regionalen oder spezifischen Projekten gespeist werden könnte. Angeregt durch diesen Vorschlag, entbrannte eine Diskussion, in der verschiedene Aspekte hinsichtlich einer solchen Idee angesprochen wurden. So wurden neben Fragen der Finanzierung und zu verwendenden Sprache(n) auch die Problematik einer langfristigen Steuerung und des fehlenden Nachwuchses angemerkt. Auch die grundsätzliche Nutzung von Online-Datenbanken gegenüber herkömmlichen Printausgaben wurde in Frage gestellt, wobei sich die Mehrheit der Beteiligten optimistisch zum dem Gebrauch digitaler Plattformen äußerte. Abschließend wurde unter großer Zustimmung angeregt, in Zukunft einen regelmäßigen Austausch (auch hinsichtlich Daten beziehungsweise Dokumenten) und engere Absprachen zwischen den einzelnen auf Papsturkunden bezogenen Projekten anzuvisieren.

In der zweiten Sektion zu Perspektiven des Data-Mining in der Geschichte des Mittelalters stellte DOMINIK TRUMP (Köln) zunächst das Projekt Capitularia vor. Dessen Ziel ist eine doppelte Neuedition der Kapitularien, zum einen auf digitalem Weg, wodurch ein öffentlich zugängliches Forschungsportal geschaffen werden soll, und zum anderen durch eine neue Printedition auf der Grundlage dieser digitalen Version. Trump strich heraus, dass gegenüber der alten Edition nun mehr Wert auf die Überlieferung gelegt werde und zusätzlich Neuevaluierungen der Texte durchgeführt werden. Als wichtige Säule beschrieb er zudem die Möglichkeit, Texte mithilfe des Collation Tools miteinander zu vergleichen und betonte, dass diese Funktion sowie der Download sämtlicher generierter Daten dem gesamten potenziellen Nutzerkreis der Datenbank zur Verfügung stünden.

SERGIO TORRES (Paris) setzte die Notwendigkeit digitaler Methoden für die Textverarbeitung der vielen mittelalterlichen Urkunden in den Fokus. Diese sollten zum Ziel haben, eine gezielte Recherche und einen schnellen Abruf historischer Einzelinformationen durch automatische Indexierung der Quellen zu ermöglichen. Neben den klassischen Schritten der automatischen Sprachverarbeitung mittelalterlicher Urkunden (Textsequenzklassifizierung, Textklassifizierung, Erkennen von Entitäten, referenzielle Bindungen und Extraktion von Schlüsselbegriffen) illustrierte Torres auch die damit einhergehenden Herausforderungen insbesondere im Bereich des Textverständnisses und der Bedeutung einzelner Formularbestandteile. Abschließend präsentierte er ein selbst entwickeltes Programm, mit dessen Hilfe sich Urkunden nicht nur in kurzer Zeit transkribieren und in ihre einzelnen Formularbestandteile aufgliedern lassen, sondern zugleich relevante Personen identifiziert werden können.

Anschließend stellte NICOLAS PERREAUX (Paris) die Möglichkeiten und Herausforderungen eines europäischen diplomatischen Korpus in Form der Cartae Europae Medii Aevi (CEMA) vor. Ziel dieses Projektes ist die möglichst vollständige Zusammenführung mittelalterlicher Urkunden in einer Datenbank und deren Bereitstellung für unterschiedliche Forschungszwecke. Zum Zeitpunkt des Workshops enthielt die Datenbank bereits 280.000 Dokumente. Auf der Grundlage seiner Erfahrung im Umgang mit dieser Datenbank ging Perreaux auf wiederkehrende Herausforderungen in Bezug auf Urkundentypen, das Formular, lexikalisches und schriftbezogenes Wissen sowie lexikalische Diversität (regional und zeitlich) ein. Dies veranschaulichte er anhand verschiedener Statistiken und präsentierte darüber hinaus die vielfältigen Vergleichsmöglichkeiten, die die Datenbank hinsichtlich der geografischen Verteilung, der unterschiedlichen Erscheinungsformen und des lexikalischen Reichtums der erfassten Dokumente bietet.

SÉBASTIEN DE VALÉRIOLA (Brüssel) begann mit einer Frage, die sich im Verlauf des Workshops als zentraler Diskussionspunkt erweisen sollte: Müssen Historiker:innen der Zukunft auch Informatiker:innen sein? Diesbezüglich betonte er zunächst, dass der digitale Fortschritt (Leistungssteigerung der Maschinen, erhöhtes Bewusstsein für den Wert von Daten, verbesserte Möglichkeiten zur Verarbeitung größerer Datenmengen) auch maßgebliche Veränderungen in der Geschichtswissenschaft bewirkt habe. Ebenso legte er dar, dass Methoden der Geschichtswissenschaft durch die Nutzung digitaler Hilfsmittel vereinfacht und verbessert werden könnten, zum Beispiel durch hierarchisierende Abbildungen oder Darstellungen von Netzwerken. Dazu seien jedoch drei Aspekte besonders zu berücksichtigen: Zum einen müssten Daten nachvollziehbar und systematisch kodiert werden, um die Interoperabilität mit anderen Datenbanken zu ermöglichen; sie müssten ferner öffentlich verfügbar sein und nicht zuletzt eine hohe Qualität aufweisen. Valériola griff seine zu Beginn gestellte Frage nochmals auf, formulierte sie aber um: Anstatt zu fragen, ob Historiker:innen in Zukunft auch Informatiker:innen sein müssten, sollte sich die Geschichtswissenschaft eher fragen, inwiefern sie dazu bereit ist, neue digitale Methoden in ihre eigene Forschungspraxis zu integrieren.

BASTIEN DUBUISSON (Luxemburg/Namur) problematisierte am Beispiel einer stilometrischen Untersuchung der Texte des Trierer Benediktinermönchs Johannes Scheckmann die Zugänglichkeit von Daten. Dabei ging er zum einen auf den durch Verschlüsselungen oder Paywalls erschwerten Zugriff auf vorhandene Daten ein und beschrieb zum anderen die für eine derartige Untersuchung erforderliche, doch zum aktuellen Zeitpunkt ausbaufähige Standardisierung des Textkorpus (zum Beispiel „v“ und „u“, etc.). Abschließend betonte er die Wichtigkeit von verfügbaren Rohdaten zur Erstellung von Codes und konzisen Datenbanken mit der Möglichkeit einer punktuellen Recherche über eine Suchmaschine.

In der abschließenden zweiten Diskussionsrunde wurde zunächst die in mehreren Vorträgen aufgeworfene Frage nach open access beziehungsweise open data gestellt. Neben der Angst vor „Datenausbeutung“, dem enormen Arbeitsaufwand zur Erstellung einer Datenbank und der häufig fehlenden Anerkennung dieses Aufwandes innerhalb der Forschung wurden auch die Grenzen der freien Zugänglichkeit von Forschungsdaten angesprochen. Des Weiteren wurde über die künftige Zusammenarbeit mit Expert:innen der Digital Humanities diskutiert. Diese sei unumgänglich, müsse aber angesichts der Übergabe von Daten in andere Hände auf einer gesicherten Vertrauensbasis erfolgen. Mehrfach wurde betont, dass Daten meist auf der Grundlage inhaltlich komplexer Quellen, die eine bestimmte und zuweilen vielschichtige Aussageabsicht haben, erhoben werden, und dass der maßgebliche Impuls sowohl zur Erfassung als auch zur Auswertung dieser Daten auf geschichtswissenschaftlichen Fragestellungen beruhe. Folglich seien gut ausgebildete Historiker:innen zur Erfassung und Auswertung von Daten unerlässlich, auch wenn sich in der Zusammenarbeit mit informatisch geschultem Personal durchaus neue Ansatzmöglichkeiten ergeben können.

Der Workshop verdeutlichte das breite Spektrum unterschiedlichster Herangehensweisen an die digitale Aufbereitung und den Umgang mit mittelalterlichen Quellenkorpora. An verschiedenen Beispielen wurden Herangehensweisen und Erfahrungen präsentiert, aber auch Chancen und Probleme ausgelotet. Hinsichtlich einer zu erstrebenden, möglichst reibungsarmen Interoperabilität zwischen einzelnen Datenbanken konnten einige Problemfelder identifiziert werden, die von sprachbezogenen Fragestellungen bis hin zu technischen Detailfragen reichen. Trotz oder auch gerade wegen dieser Schwierigkeiten waren sich alle Teilnehmer:innen einig, dass ein stetiger Austausch auf vielen Ebenen unabdingbar ist. Dass auch die historische Forschung sich inmitten eines digitalen Umbruchs befindet, darf progressiv als mutmachend gedeutet werden, da die Schaffung gemeinsamer und vereinheitlichter digitaler Arbeitsgrundlagen bedeutende Synergieeffekte und damit auch neue Erkenntnisse erwarten lässt.

Konferenzübersicht:

Sektion I: Papsttum und Orbis christianus als Chance zur Vernetzung von Datenbanken?
Leitung: Klaus Herbers (Erlangen-Nürnberg)

Thorsten Schlauwitz (Erlangen-Nürnberg): Die Regesta Pontificum Romanorum online – Erkenntnispotenziale und -grenzen

Julien Théry (Lyon): Towards a Unified Corpus of Medieval Papal Letters: the APOSCRIPTA Database Project

Rolf Große / Sebastian Gesicke (Paris): Gallia Pontificia online. Die Papstregesten der Erzbischöfe von Reims

Muriel Foulonneau, Timothy Salemme (Luxemburg): La base de données INTERLOR. Données et transcriptions utilisables pour la recherche

Rundtischgespräch
Leitung: Benoît-Michel Tock (Straßburg)

Sektion II: Vom Textkorpus zur Datenbank und dann? Neue Perspektiven des Data-Mining in der Geschichte des Mittelalters
Leitung: Nicolas Ruffini-Ronzani (Namur)

Dominik Trump (Köln): Capitularia – Die Hybridedition der Kapitularien zwischen digitaler und klassischer Editionstechnik

Sergio Torres (Paris): L’indexation automatique de l’acte diplomatique médiéval: méthodes, modèles et défis

Nicolas Perreaux (Paris): Data Mining, stylométrie et sémantique historique. Réflexions sur les enjeux, possibilités et modalités d’un corpus diplomatique européen (CEMA)

Sébastian de Valériola (Brüssel): L’historien de demain sera-t-il data scientist? Bases de données globales et méthodes data-driven en histoire médiévale

Bastien Dubuisson (Luxemburg/Namur): Des bases de données au code. Enjeux de la construction d’une enquête stylométrique en histoire médiévale et moderne

Rundtischgespräch
Leitung: Sébastien Barret (Paris-Orléans)


Redaktion
Veröffentlicht am
09.06.2022
Beiträger