Transcribing − Encoding − Annotating: New Approaches of Technology and Methodology for Historical Sources in Crowd Sourcing and Citizen Science

Transcribing − Encoding − Annotating: New Approaches of Technology and Methodology for Historical Sources in Crowd Sourcing and Citizen Science

Organisatoren
Hendrikje Carius, Forschungsbibliothek Gotha der Universität Erfurt; Martin Prell, Projekt „Editionenportal Thüringen“, Lehrstuhl für Geschlechtergeschichte, Friedrich-Schiller-Universität Jena; Netzwerk für digitale Geisteswissenschaften und Citizen Science, Universität Erfurt
Ort
digital (Gotha/Jena)
Land
Deutschland
Vom - Bis
26.11.2020 - 27.11.2020
Url der Konferenzwebsite
Von
Daniel Haas, DFG-Graduiertenkolleg "Interkonfessionalität in der Frühen Neuzeit", Universität Hamburg

Unter Citizen Science wird die Beteiligung von Amateur:innen an Forschungstätigkeiten verstanden. Crowdsourcing ist eine Facette von Citizen Science, bei der Aufgaben einer Gruppe Freiwilliger übertragen werden, die folgend als Beiträger:innen angesprochen werden. Es liegt auf der Hand, dass Citizen Science und Crowdsourcing sehr von dem zunehmenden Einzug digitaler Technologien und Methodologien (auch, aber nicht nur) in den geschichtswissenschaftlichen Disziplinen profitieren. Die Digitalisierung hat in den vergangenen Jahrzehnten sowohl die Sammlung als auch die Verarbeitung von Daten signifikant effektiver und bequemer gemacht. Gleichzeitig ermöglichte sie neue Formen kollaborativer Arbeitsweisen. Daraus ergeben sich allerdings auch neue technische und menschliche Anforderungen für diejenigen, die entsprechende Projekte konzipieren: Neben der Suche nach technischen Lösungen müssen die Beiträger:innen als wesentlicher Faktor berücksichtigt werden. Der Frage, welche Bedeutung dieser Umstand für die Entwicklung von Tools, Plattformen und Infrastrukturen für Citizen-Science-Settings hat, ging der internationale Online-Workshop nach, der als kompakte Serie von Projektvorstellungen konzipiert war. Im Zentrum standen mit dem Transkribieren und Annotieren von Texten zwei der heute „typischen Beteiligungsformen in Crowdsourcing- und Citizen-Science-Projekten“ (Carius).

Den Auftakt machte JESPER ZEDLITZ (Sehestedt) mit einer Vorstellung des Daten-Eingabe-Systems (DES) des Vereins für Computergenealogie.1 2011 zunächst zur Indizierung der deutschen Verlustlisten des Ersten Weltkriegs eingesetzt, kam und kommt DES seitdem in verschiedenen Datenbankprojekten des Vereins zur Anwendung. Rund 1.500 Bearbeiter:innen erfassten in den vergangen Jahren mehrere Millionen Einträge. Zedlitz zeigte u.a. auf, dass es durch äußere Faktoren wie Jahreszeiten und die COVID-19-Pandemie zu quantitativen Schwankungen bei der Bearbeitung von Datensätzen kam. In der Pandemie sei etwa an den Wochenenden eine verstärkte Aktivität feststellbar gewesen. Während komplexe Texte und große Textmengen eine sinkende Motivation zur Folge hätten, führe die Vorbefüllung von Datenfeldern auf Grundlage automatisierter Verarbeitung des Ausgangsmaterials hingegen zu einer „merkbaren Beschleunigung“.

Im Unterschied zum DES, welches im Ehrenamt (weiter-)entwickelt und betrieben wird, konnte Europeana Transcribathon mit einer Finanzierung durch die Europäische Union und im Zusammenspiel mit einschlägigen institutionellen Partnern aufgebaut werden.2 FRANK DRAUSCHKE (Berlin) präsentierte das Projekt. Die Plattform dient der Transkription, Annotation und Georeferenzierung von Sammlungen der virtuellen europäischen Bibliothek Europeana. Historische Quellen sollen so besser find- und nutzbar gemacht werden. Zur Aktivierung der Crowd wird auf thematische „runs“ (z.B. „Sachsen At Work – Digitale Industriekultur“) und Gamifizierung gesetzt. In Wettbewerben, den „transcribathons“, treten Teilnehmer:innen in Teams gegeneinander an und sammeln Punkte. Die erfolgreichsten Teams werden schließlich von einer Jury gekürt. „Transcribathons“ fanden bisher nicht nur online, sondern hauptsächlich als analoge Events in verschiedenen europäischen Städten satt.

Mit Blick auf das Nutzererlebnis im Rahmen des Projekts German Heritage in Letters3 resümierte KATE LOMAX (London): „small changes can have big impact“. Gegenstand des Projekts sind Briefe, die deutschsprachige Einwanderer in den Vereinigten Staaten von ihren Verwandten in der Heimat erhielten. Eine Beteiligung ist durch die Bereitstellung und Transkription von Briefen möglich. Zum Einsatz kommen dabei die Open-Source-Lösungen Omeka4 und Scripto5. Bereits für das Onboarding im Rahmen von Crowdsourcing-Projekten, so Lomax, sei die Schaffung einer Willkommensatmosphäre wichtig. Neben einer Hinführung zu den Beteiligungsmöglichkeiten sei besonders eine freundliche und verständliche Sprache wichtig. Beiträger:innen sollten Schritt für Schritt an die Funktionen herangeführt werden, damit sie sich nicht alleingelassen fühlen.

Moravian Lives bearbeitet biografische Quellen von Mitgliedern der Herrnhuter Brüdergemeine.6 KATHERINE FAULL und MICHAEL MCGUIRE (beide Lewisburg, PA) stellten den „Transcription Desk“ vor, über den eine Mitwirkung von Freiwilligen bei der Transkription von Texten möglich ist. Mit MediaWiki7 kommt neben Omeka und Scripto eine weitere Open-Source-Lösung zum Einsatz. Zur Sprache kam die Notwendigkeit, für Nutzer:innen auch Sicherheit zu bieten, etwa ein Schutz vor Spam-Mails.

Im Rahmen von Kino in der DDR, vorgestellt von RENÉ SMOLARKSI und MARCUS PLAUL (beide Erfurt), soll eine projektübergreifend nachnutzbare Citizen-Science-Plattform entstehen.8 Zur Beantwortung der Frage, wie das Kino den Alltag in der DDR prägte, können Beiträger:innen in verschiedenen Modulen bereits mitwirken. Der Schwerpunkt liegt zunächst auf der Sammlung von Informationen. Ein Kartenmodul ermöglicht die Erfassung von Kinostandorten. Quellen wie Eintrittskarten und Programmhefte können in einem Archivmodul hochgeladen werden. Zukünftig sollen auch persönliche Erfahrungen von Zeitzeug:innen berücksichtigt werden können. Öffentlichkeitsarbeit sei in diesem Projekt zur Ansprache potentieller Beiträger:innen besonders relevant. Neben der klassischen Pressearbeit und einem Blog zum Thema werden Informationsveranstaltungen organisiert.

In den beiden letzten Vorträgen des Workshops waren zwei im Bereich digitaler geschichtswissenschaftlicher Forschung bewährte Anwendungen Thema. YVONNE ROMMELFANGER (Trier) erläuterte, wie die virtuelle Forschungsumgebung FuD9 für die kooperative Erschließung von Quellen eingesetzt werden kann. Den Einsatz von Transkribus10 zur automatischen Erkennung von handschriftlichen Texten im Rahmen von Crowdsourcing-Projekten stellte GÜNTER MÜHLBERGER (Innsbruck) anhand von zwei Beispielen dar. Unter der Überschrift „Crowd leert computer lezen“ („Crowd bringt dem Computer das Lesen bei“) tragen Freiwillige über die Plattform VeleHanden zur Erschließung von Akten des Amsterdamer Stadtarchivs bei.11 Insbesondere an Ortschronisten richtet sich Pro-Kat-Digital bei der Bearbeitung von Protokollen des Franziszeischen Katasters in Tirol, wobei ebenfalls Transkribus eingesetzt wird.12

Die Vorträge des Workshops ermöglichten Einblicke auch in die technische Umsetzung der vorgestellten Projekte, die von dem kombinierten Einsatz erprobter Open-Source-Lösungen bis zur Entwicklung projektspezifischer Instrumente reicht. Anklang bei den Teilnehmer:innen fand die ergänzende, bei weitem nicht erschöpfende „Tool-Kartierung“, die Hendrikje Carius und Martin Prell mit ihren einführenden Worten am Beginn der beiden Veranstaltungstage verbanden. Neben den erwähnten Tools Omeka, MediWiki und Scripto wiesen sie auf Archetype13, FactGrid14, FromThePage 15, Scribe 16 und T-Pen 17 hin.

In der Gesamtschau lassen sich aus den Vorträgen und Diskussionen drei wesentliche Problemfelder abstrahieren.

Erstens müssen Citizen-Science-/Crowdsourcing-Projekte unterschiedliche Strategien entwickeln, um potentielle Beiträger:innen zu aktivieren. Während etwa bei der Verarbeitung von genealogisch bzw. familiengeschichtlich relevanten Quellen auf eine bereits gut vernetzte Community mit bisweilen nicht zu unterschätzender Vorbildung und hoher intrinsischer Motivation zurückgegriffen werden kann, müssen Vorhaben zu Nischenthemen einen höheren Aktivierungsaufwand betreiben. Auch im Wesentlichen digital arbeitende Projekte greifen daher ergänzend auf klassische Öffentlichkeitsarbeit außerhalb des digitalen Raums zurück. Eine weitere Strategie ist die Organisation von Veranstaltungen, die mit sozialen und/oder kompetitiven Angeboten ansprechen.

Als ein kritischer Moment bei der Durchführung von Citizen-Science-/Crowdsourcing-Projekten kristallisierte sich, zweitens, das Onboarding heraus, d.h. die Integration neuer Beiträger:innen. Überschaubare Datenstrukturen, die Formulierung klarer Erschließungsregeln in verständlicher Sprache und intuitiv nutzbare User Interfaces sind die Strategien, mit der die am Workshop beteiligten Projekte auf diese Herausforderung reagieren.

Im weiteren Projektverlauf sind, drittens, Community- und Qualitätsmanagement notwendig. Neben kompetitiven Elementen hat sich bei den präsentierenden Projekten die Isolierung kleinerer Einheiten aus dem Gesamtkorpus bewährt, die den Beiträger:innen als „greifbare Ziele“ angeboten werden können. Mailinglisten und Foren bieten sich zur Kommunikation zwischen den Beteiligten an. Die Prüfung der Datenqualität kann nicht nur von wissenschaftlichem Personal, sondern durch ein erfahrungsbasiertes Ranking-System auch von Beiträger:innen übernommen werden (Selbstkontrolle der Crowd).

Insgesamt trug der Workshop dazu bei, spezifische Anforderungen beim Design von Citizen-Science-/Crowdsourcing-Projekten herauszustellen. Damit lieferte er gleichzeitig einen Beitrag zur Verortung des Arbeitsfeldes, welches „so heterogen wie dynamisch“ sei (Carius), im Spektrum der sogenannten Digital Humanities. Zur Vernetzung der wissenschaftlichen Akteur:innen bot er ein ertragreiches Forum, dessen Fortsetzung explizit gewünscht wurde.

Derzeit ist ein Sammelband zu Citizen Science in den Geschichtswissenschaften in der Reihe „DH&CS. Schriften des Netzwerks für digitale Geisteswissenschaften und Citizen Science“ in Vorbereitung, der auch Beiträge enthalten wird, die aus den Vorträgen des Workshops hervorgehen.

Konferenzübersicht:

Jesper Zedlitz (Sehestedt): 9 Jahre Dateneingabesystem DES – Erfahrungen und Perspektiven

Frank Drauschke (Berlin): The Power of the European Crowd. Transcribathon Europeana, ein internationales Citizen Science Projekt

Kate Lomax (London): The UX of Transcription: Omeka, Scripto and the German Heritage in Letters project

Katherine Faull / Michael McGuire (beide Lewisburg, PA): Moravian Lives Transcription Desk: A Custom Transcription Platform for 18th Century Handwritten Memoirs

René Smolarski / Marcus Plaul (beide Erfurt): Projektübergreifende Citizen-Science-Plattform – Ein- und Ausblicke

Yvonne Rommelfanger (Trier): Kooperative Quellenerschließung in FuD

Günter Mühlberger (Innsbruck): Transkribus – eine Plattform für die Erkennung und Publikation historischer Dokumente

Anmerkungen:
1 Verein für Computergenealogie, http://des.genealogy.net/ (08.07.2021)
2 Transcribathon, https://transcribathon.eu/ (08.07.2021)
3 German Heritage in Letters, https://germanletters.org/ (08.07.2021)
4 Omeka, https://omeka.org/ (08.07.2021)
5 Scripto, https://scripto.org/ (08.07.2021)
6 Moravian Lives, http://moravianlives.org/ (08.07.2021)
7 Mediawiki, https://www.mediawiki.org/wiki/MediaWiki (08.07.2021)
8 Kino in der DDR, https://projekte.uni-erfurt.de/ddr-kino/ (08.07.2021)
9 FuD. Die virtuelle Forschungsumgebung für die Geistes- und Sozialwissenschaften, https://fud.uni-trier.de/ (08.07.2021)
10 Transkribus, https://readcoop.eu/de/transkribus/ (08.07.2021)
11 Crowd leert Computer lezen, https://velehanden.nl/projecten/bekijk/details/project/amsterdam_correct_notarieel_transkribus (08.07.2021)
12 Pro-Kat-Digital – Die Protokolle des Franziszeischen Katasters in Tiro, https://transkribus.eu/r/kati/citizen-science/#/ (08.07.2021)
13 Archetype (DigiPal Framework), https://github.com/kcl-ddh/digipal/wiki (08.07.2021)
14 Factgrid. A database for historians, https://database.factgrid.de/ (08.07.2021)
15 FromThePage, https://fromthepage.com/ (08.07.2021)
16 Scribe Framework, https://scribeproject.github.io/ (08.07.2021)
17 T-Pen. Transcription for paleographical and editorial notation, http://www.t-pen.org/ (08.07.2021)


Redaktion
Veröffentlicht am
Autor(en)
Beiträger
Klassifikation
Weitere Informationen
Land Veranstaltung
Sprache(n) der Konferenz
Englisch, Deutsch
Sprache des Berichts