Dieser Workshop nimmt das Problem einer veralteten Sprache und der Verwendung toxischer Begrifflichkeit in den digitalisierten Sammlungen der Staatsbibliothek zu Berlin in den Blick. Mit Hilfe von Methoden der Digital Humanities führen Teilnehmende maschinelle Auswertungen eines kleinen Textkorpus (20–30 Texte) durch. Basale Text Mining-Verfahren wie wordfrequency und word clouds, tf-id, Bi- und Trigramme (n-Gramme) sowie die Berechnung von Wortassoziationen werden vorgestellt. Die Teilnehmenden lernen grundlegende Text Mining-Verfahren mit Hilfe des statistischen Softwarepakets R kennen und werden dazu befähigt, eine quantifizierende Auswertung von Texten in R vorzunehmen. Als Beispiele dienen Volltexte aus den digitalisierten Sammlungen der Staatsbibliothek zu Berlin, die rassistische, diskriminierende oder homophobe Begriffe enthalten, also abwertende Wörter und Ausdrücke, die nicht mit den Werten und der Ethik einer Kulturerbe-Einrichtung wie der Staatsbibliothek zu Berlin in Einklang stehen.