Mittwoch, 11. September
09:00 - 12:00: Historische Medienanalyse mit Impresso
Dozierende: Simon Clematide, Juri Alexander Opitz (Universität Zürich)
In dieser Unterrichtseinheit erfahren die Teilnehmenden Hintergrundinformationen zur technischen Aufbereitung von Volltexten für Information Retrieval (IR) und erlernen die Anwendung von IR-Techniken zur Bearbeitung von Forschungsfragen am Beispiel des Impresso-Projekts. Zu Beginn demonstrieren wir in der Impresso Web-App Techniken für Suchanfragen, auch unter spezialisierter Anwendung von Filtern aus Metadaten und Text-Mining-Resultaten. Anschließend verschaffen wir uns einen Überblick über Methoden, die derzeit für die Named Entity Erkennung und und das Named Entity Linking angewendet werden (Personen, Toponyme), und diskutieren die damit verbundenen Möglichkeiten und Herausforderungen. Es folgt eine Hands-On-Session, in der wir thematische Textsammlungen extrahieren/erstellen, mithilfe von maschineller und menschlicher Intelligenz. Danach möchten wir uns über die gesammelten Erfahrungen austauschen, zum Beispiel indem wir Resultate teilen und Fehler, bzw. Fehlerquellen, besprechen und analysieren. Die Einheit endet mit einer allgemeinen Reflektion zu datenbasierten Methoden und der Verwendung von maschineller Inhaltsanalyse von Texten.
13:30 - 17:00: Digitales Arbeiten mit Bildern in Zeitungen und Zeitschriften
Dozierende: Johanna Störiko (Georg-August-Universität Göttingen)
In dieser Einheit lernen die Teilnehmenden, automatisiert auf digitale Bildersammlungen mit IIIF-Schnittstellen zuzugreifen und mithilfe von Image Embeddings explorative Untersuchungen auf den Bildern durchzuführen. Die Einheit besteht aus zwei Teilen: Die erste Hälfte beginnt mit einer Einführung in den Aufbau von IIIF-Schnittstellen. Es wird vermittelt, wie mithilfe der Programmiersprache Python automatisiert eine Linkliste zum Herunterladen der Bilder erstellt werden kann. Hierfür stehen vorbereitete Jupyter-Notebooks zur Verfügung, mit denen die Bilder auf die eigene Festplatte heruntergeladen werden können. Im zweiten Teil erkunden wir unsere erstellte Bildersammlung mithilfe von Neuronalen Netzen. Dafür gibt es zuerst eine kurze Einführung in die Grundidee von Image Embeddings. Anschließend wird gezeigt, wie vortrainierte Netze wie CLIP oder ResNet über die Python-Schnittstelle der Plattform Huggingface mit wenigen Zeilen Code in das eigene Projekt eingebunden werden können. Mit diesen Netzen können wir die zuvor erstellte Bildersammlung nach Stichworten durchsuchen und Bilder entdecken, die einander ähnlich sind. In einer abschließenden Diskussion werden die Möglichkeiten und Limitationen dieses Ansatzes besprochen.
18:15 - 19:30: Öffentlicher Abendvortrag von Steven Claeyssens (Koninklijke Bibliotheek (KB), National Library of the Netherlands): Engaging Researchers with Collections as Data at the KB. Or How I learned to Love Pyramids. Der Vortrag wird auch live übertragen: https://t.zbzuerich.ch/685.
Donnerstag, 12. September
09:00 - 12:00: ANNO – von Daten zur Forschung. Arbeiten mit dem Zeitschriftenportal der Österreichischen Nationalbibliothek
Dozierende: Volker Haider, Johannes Knüchel, Simon Mayer (Österreichische Nationalbibliothek)
In diesem Unterrichtsblock wird ein umfassender Überblick über das Datenangebot aus dem ANNO-Portal der Österreichischen Nationalbibliothek (ÖNB) gegeben. Die Vortragenden erkunden mit den Teilnehmenden Möglichkeiten mit über 27 Millionen Zeitungs- bzw. Zeitschriftenseiten aus dem Portal zu arbeiten. Die Teilnehmenden lernen so unterschiedliche Aspekte aus dem Bestand kennen und haben dabei selbst die Möglichkeit, mit vorbereiteten Jupyter-Notebooks auf die Daten aus dem Portal zuzugreifen und mit computerunterstützten Methoden zu verarbeiten. Ein Einblick hinter die Kulissen von ANNO soll Forschenden Kontext zur Entstehungsgeschichte der Daten und des Portals geben. Im Anschluss soll mit besagten Notebooks das Gesamtkorpus anhand von Metadaten (Erscheinungsjahre, Themenschwerpunkte, …) explorativ erschlossen werden. Ein weiterer Schwerpunkt umfasst die Volltexte aus dem Bestand. Es wird skizziert bzw. erarbeitet, welche Formate vorhanden sind, welche Qualität zu erwarten ist und wie Volltexte zu einzelnen Zeitungsseiten selbst mit OCR neu erstellt werden können. Ein weiterer Fokus des Unterrichtsblocks wird auf Forschungstools an der ÖNB liegen, die über die ÖNB Labs angeboten werden. Das aktuelle Angebot soll präsentiert werden, um darauf gemeinsam diskutieren zu können, wie die Tools in Zukunft ausgebaut werden können.
13:30 - 17:00: Historische Forschung digital: ein Workshop zum Deutschen Zeitungsportal
Dozierende: Michael Büchner (Deutsche Digitale Bibliothek), Franziska Fuchs (Deutsche Nationalbibliothek), Stephanie Nitsche (Deutsche Nationalbibliothek)
Das Deutsche Zeitungsportal – ein Subportal der Deutschen Digitalen Bibliothek – ist mit knapp vier Millionen Ausgaben aus über 1.800 Zeitungstiteln, die fast vollständig mit Volltext vorliegen, der größte Anbieter für historische, digitalisierte Zeitungen in Deutschland. Es stellt damit eine wertvolle Quelle für geschichtlich arbeitende Wissenschaften dar. Ziel des dreistündigen Workshops ist es, den Teilnehmenden einen umfassenden Überblick darüber zu vermitteln, wie das Deutsche Zeitungsportal für die Forschung, insbesondere in den Digital Humanities, genutzt werden kann. Die Teilnehmenden erhalten dazu zunächst eine kurze Einführung in das Deutsche Zeitungsportal, seine Entstehungsgeschichte, die angebotenen Funktionalitäten und die Vielfalt der verfügbaren Inhalte. Anschließend lernen die Teilnehmenden, wie sie die Programmierschnittstelle (API) der Deutschen Digitalen Bibliothek nutzen können, um Datensets aus dem Deutschen Zeitungsportal herunterzuladen. Der Fokus liegt dabei auf der Vermittlung grundlegender Kenntnisse, die es den Teilnehmenden ermöglichen, in Zukunft eigenständig Datenabfragen zu erstellen. Sie lernen die Funktionsweise der Schnittstellen kennen und erfahren, wie sie Abfragen mithilfe der Dokumentation anpassen und erweitern können. Nach diesem Einblick führen die Teilnehmenden, begleitet vom DNBLab-Team, eine Datenanalyse auf Basis der gemeinsam heruntergeladenen Daten durch. Hierfür werden Jupyter Notebooks mit Python-Programmcode genutzt. Durch das gemeinsame Live-Coding werden auftretende Fragen und Probleme direkt und interaktiv gelöst. Am Ende werden die gemeinsam analysierten Daten in geeigneten Visualisierungen dargestellt, die Aufschlüsse über die Datenzusammensetzung und mögliche Forschungsansätze geben.
18:15 - 19:30: Öffentlicher Abendvortrag von Louise-Anne Charles (Bibliothèque nationale de France DataLab): Let's keep our data alive! Enhancing collaboration between the BnF and the research communities. Der Abendvorttrag wird auch live übertragen: https://t.zbzuerich.ch/686.