Nachdem Donald Trump im Januar 2017 inauguriert worden war, wurden auf der offiziellen Website des Weissen Hauses1 alle von der Administration von Barack Obama erzeugten Seiten zum Klimawandel gelöscht. 2013 entfernte die British Conservative Party politische Reden der letzten Dekaden von ihrer Website, da vermutlich einige nicht der aktuellen Linie der Partei entsprachen. Diese Vorgänge liessen sich rückverfolgen, schreibt Niels Brügger, weil das Onlineweb archiviert wurde2, und er betont, dass es nicht nur für die Nachvollziehbarkeit soziopolitischer Vorgänge unbedingt notwendig sei, das Onlineweb zu archivieren, sondern dass das archivierte Web, das seit mindestens 25 Jahren existiere, eine immer wichtiger werdende Quelle für die historische Forschung darstelle.
Mit dieser Argumentation beginnt Niels Brügger sein jüngstes Buch und unterstreicht damit nicht nur die Wichtigkeit des Internets, das seit den 1990er-Jahren einen integralen Bestandteil sozialer, politischer und kultureller Kontexte und ein konstitutives Merkmal der Gesellschaft darstellt, sondern auch die Wichtigkeit des Archivierens des World Wide Webs. Denn das Onlineweb ist volatil und manipulierbar, ergo kein Archiv per se.
Mit The Archived Web legt der in Aarhus lehrende Wissenschaftler einen theoretisch-methodologischen Grundlagentext zu einem Teilbereich der Digital History vor, der in der aktuellen Debatte, die eine gar informationstechnologische Schlagseite hat, bisher nur wenig abgebildet wird: der epistemologische Gehalt von digital entstandenen und digital archivierten Quellen. Er präsentiert ein in elf angenehm überschaubaren Kapiteln (159 Seiten) gegliedertes Handbuch für die Forschung über Webgeschichte und mit dem Web. Ziel des archivierten Webs sei es unter anderem, Vorgänge wie die einleitend beschriebenen so akkurat wie möglich nachzuzeichnen, das heisst Bestandteile des nicht mehr sichtbaren Onlinewebs anhand des archivierten Webs wieder sichtbar zu machen.
Nachdem Brügger den Leitbegriff erläutert hat – „The Internet is a network of computer networks and on this network the World Wide Web – or just ‚the Web‘ – is a specific software system based on a set of rules for communicating between computers, for retrieving files, and for translating the content of the files into something that may be viewed in a web browser […]“ (S. 4) – führt er in die Terminologie des marginal erforschten Gebietes ein und beschreibt spezifische technische Aspekte und informationstechnologische Zusammenhänge, damit konsekutive Ausführungen zu „history with the web“ und „history of the web“ nachvollzogen werden können.
Bevor er auf verschiedene anschauliche und für künftige Webforscherinnen und -forscher potentiell inspirierende Forschungsprojekte eingeht (Kapitel 4), kommt man nicht umhin, einen kurzen Parforceritt (Kapitel 2 und 3) durch einen sehr kondensierten theoretischen Unterbau zu leisten. Darin werden die spezifischen Digitalitäten des Onlinewebs und des archivierten Webs beschrieben – eine unabdingbare Lektüre, die artikuliert, warum dem Analyseprozess in der Forschung mit diesen zum Teil sehr ephemeren Quellenkorpora Probleme inhärent sind, für die nur ansatzweise Lösungswege aufgezeigt werden können.
Der Digitalität des Onlineweb lassen sich zunächst drei Merkmale zuordnen: „the web has two textual layers, it is fragmented, and it is hyperlinked“ (S. 23). Hinzu kommt, dass nicht alle für eine Analyse in Frage kommenden digitalen Daten dieselbe Digitalität teilen, was Brügger dazu veranlasst, eine stringente Definition von disparaten digitalen Medien zu liefern. Aufgrund der Provenienz teilt er digitale Objekte in drei Kategorien ein: 1) Digitalisierte Daten sind physisch vorhandene Quellen, beispielsweise handgeschriebene Dokumente aus einem Archiv, die digitalisiert und online zugänglich gemacht werden. 2) Born-digital Quellen haben nur in digitalem Zustand existiert (z.B. Computerspiele, Tweets oder Webseiten etc.). 3) Reborn-digital Quellen sind digital-born Quellen, welche gesammelt (beispielsweise in Form einer Speicherung wie Screenshot, Download oder Webcrawling) sowie erhalten und bei diesem Prozess verändert werden. Beim archivierten Web handelt es sich um ein reborn-digital Objekt, was es deutlich von digitalisierten und digital-born Objekten unterscheidet. Das born-digital Onlineweb wird bei seiner Archivierung mehrere Male verändert (es wird gesammelt, gesichert und verfügbar gemacht), sodass das reborn-digital archivierte Web paradoxerweise eine adaptierte und konstruierte Version seines Originals darstellt. Diese Tatsache erweist sich dann auch als eine der grössten Schwierigkeiten für eine Quellenkritik von reborn-digital Quellen.
Aufgrund der Absenz von klaren und offensichtlichen Demarkationen innerhalb des Webs schlägt Brügger ein Analyse-Raster vor, das fünf Web-Strata beinhaltet: das Webelement, die Webpage, die Webseite, die Websphäre und das Web als Ganzes. Dabei handelt es sich einerseits um verschiedene Elemente, die bei einem Forschungsprojekt sowohl auf der sichtbaren textuellen Ebene als auch auf der Ebene der Metadaten den Analyserahmen stellen können, und andererseits um eine Stratifikation, mittels derer das zu erforschende Gebiet als eine kohärente Einheit abgesteckt werden kann.
Bevor Brügger in Kapitel 6 verschiedene Webkollektionen und Archive (internationale und nationale) vorstellt, weist er anhand der Beschreibung verschiedener Archivierungsstrategien und -formen (er nennt deren sieben) auf eine weitere Herausforderung im Umgang mit dem archivierten Web hin: Es ist unvollständig und voreingenommen. So folgerten Hale et al. 20173, dass ein klarer Bias sichtbar ist: Prominente, hochfrequentierte und gut bewertete Webseiten werden eher archiviert als kleinere, weniger bekannte und schlechter bewertete. Das von Brewster Kahle in San Francisco gegründete (grösste und internationale) Internetarchiv4, beispielsweise, wird durch sein Herzstück, die Wayback Machine zugänglich gemacht, welche archivierte Daten visualisiert. Die Daten werden von einem Crawler5 gesammelt, der das Netz unablässig nach Seiten absucht. Aufgrund der schieren Datenmasse des Internets ist es dem Crawler jedoch unmöglich, alles einzufangen. Unweigerlich bilden so auch digitale Archive, ähnlich wie analoge, nur Fragmente des Vergangenen ab. Warum es trotzdem wichtig ist, das Web zu archivieren, und welche Strategien (Makro- und Mikro-Archivierung) und Techniken (Crawling, API, Downloads, Screen Movie etc.) angewandt werden können, erklärt der Autor im Kapitel 5 ausführlich.
Neben einer praktischen Archivierungs-Tool Box werden auch verschiedene projektbezogene Archivierungsdimensionen vorgestellt, sowohl für Individuen, kleinere Forschungsgruppen als auch für grössere Institutionen, sowie die Herausforderungen, die sich beim Archivieren des Onlinewebs ergeben. So sei es, um nur eine von unendlich vielen Hürden aufzuzeigen, „never clear if, when, and where the web is updated. This means that what was archived at the beginning of an archiving process may have changed as the process progressed“ (S. 87). Das Verweisen auf eine originale Quelle scheint dann unmöglich zu sein, ein spezifisches und bislang nicht in toto gelöstes heuristisches Problem im Umgang mit dem archived Web. Wie man dennoch geschichtswissenschaftlich mit dem Web arbeiten kann, stellt Brügger in den Kapiteln 7 und 8 dar.
Forschungsprojekte, die auf der Grundlage von reborn-digital Quellen des archivierten Web aufbauen, stehen aktuell vor enormen Herausforderungen in Bezug auf Vollständigkeit, Nachvollziehbarkeit, Nachweisbarkeit und Quellenüberfluss bei gleichzeitiger Unvollständigkeit sowie in Bezug auf zeitliche und räumliche Inkonsistenzen, für die nicht immer zufriedenstellende Lösungen existieren – eine Crux der Quellenkritik dieses spezifischen Digitalen.
Entsprechend hangelt sich die an digitale Prämissen adaptierte Quellenkritik in Kapitel 9 an Problemabgründen entlang. Dabei wird eher erklärt, wie mit den Unzulänglichkeiten umgegangen werden kann, als dass konkrete methodologische Handlungsanleitungen aufgezeigt werden.6 Nichtsdestotrotz schlägt Brügger nicht nur stringente und heterogene Lösungsansätze vor7, sondern betont in Kapiteln 10 und 11, dass diese Forschungsrichtung noch in den Kinderschuhen stecke und Pionierarbeit vonnöten sei. Kurz: Das Forschungsfeld kann noch umgepflügt, gestaltet und Spezialisierungsbereiche können abgesteckt werden.
Obwohl das Buch einige vernachlässigbare Redundanzen aufweist, ist es ein äusserst nachvollziehbares und praxisbezogenes Grundlagenwerk zu einem Teilbereich der Digital History, das als Einstiegslektüre und konkreter Leitfaden für Forschungsprojekte bestens geeignet ist. Die wohl herausragende Leistung dieses Buches stellt das Runterbrechen der Komplexität des Gegenstandes dar, was Grundkenntnisse zur Informationstechnologie (fast) obsolet macht.
Anmerkungen:
1 Vgl. http://whitehouse.gov (20.11.2019).
2 In einer Studie über die Lebensdauer von Webpages wurde herausgefunden, dass die durchschnittliche Lebensdauer etwas mehr als 1.100 Tage beträgt. Ein Vergleich zwischen archiviertem Material des Webs von 2004 und 2014 und dem Onlineweb zeigte, dass 50 Prozent der Quellen nach einem Jahr nicht mehr erkennbar oder auffindbar waren, nach zwei Jahren waren es 60 Prozent und 65 Prozent nach drei Jahren, S. 76.
3 Scott A. Hale / Grant Blank / Victoria D. Alexander, Live versus archive: Comparing a web archive to a population of web pages, in: Niels Brügger / Ralph Schröder, The Web as a History. Using Web Archives to understand the Past and the Present, London 2017, S. 45–61, hier S. 59.
4 Vgl. https://www.archive.org (20.11.2019).
5 Dabei handelt es sich um eine programmierte Software, die das Netz automatisiert nach Inhalten absucht.
6 Weiterführende Literatur, die sich ausschliesslich mit Quellenkritik des Digitalen befasst, siehe Pascal Föhr, Historische Quellenkritik im Digitalen Zeitalter, Basel 2017, https://edoc.unibas.ch/64111/ (21.06.2019) oder Print: ders., Historische Quellenkritik, Glückstadt 2019.
7 Die Analyse basiert weiterhin auf der traditionellen historischen Quellenkritik, nur muss diese um etliche Schritte erweitert werden. Wie sich die quellenkritische Methode verändert, welche konkreten Ergänzungen dazu kommen und wie die methodologisch ausformuliert sind, erörtert Pascal Föhr in seinem Buch (siehe Anmerkung 6). Eine weitere Lösung kann das Vergleichen von verschiedenen Versionen einer im Web archivierten Quelle sein, um so möglichst nahe an das, was einmal online war, zu kommen. Die Erschliessung der Provenienz von archivierten digitalen Quellen ist eine weitere Herausforderung. Grosse Webarchive, wie beispielsweise das UK Web Archive, gewährleisten solche Daten, aber in vielen anderen Fällen ist dies nicht der Fall. Screenshots, beispielsweise, liefern oft keine Herkunftsdaten. Falls man solche Quellen trotzdem benutzen möchte, ist es ein Lösungsansatz, mittels digitaler Quellen, deren Provenienz eruiert werden konnte, eine Timeline zu erstellen. Die anderen Quellen werden dort eingeordnet. Für weitere Lösungsansätze siehe S. 137–148 des besprochenen Buchs.