Museen präsentieren ihre Sammlungen zunehmend digital. Viele Begriffe, die in den (meist historischen) Beschreibungen der musealen Objekte und Sammlungen verwendet werden, spiegeln einst vorherrschende Narrative wider, die heute überholt und in vielen Fällen offen rassistisch sind. Daher greifen Museen diese Problematik auf und ändern beispielsweise viele als unangebracht empfundene Objektbezeichnungen. Aber auch technische Entwicklungen verlangen einen verantwortungsvollen Umgang mit problematischen historischen Begriffen. In diesem Beitrag beleuchten wir, wie Museen diskriminierende Sprache im Web, etwa in ihren digitalen Sammlungen, kontextualisieren und eine Multiplikation unangebrachter Inhalte durch KI-Systeme vermeiden können, um historische Beschreibungen und ethisch verantwortungsvolle Mediennutzung in Einklang zu bringen.
Risiken von KI-Trainingsdaten aus Museumsbeständen
KI-Systeme werden mit umfangreichen Daten aus dem Internet trainiert, die mithilfe automatisierter Webcrawler gesammelt werden. Wenn diskriminierende Begriffe in Museumsdaten unzureichend kontextualisiert sind, besteht das reale Risiko, dass diese unreflektiert von KI übernommen werden, wodurch Stereotype oder diskriminierende Narrative verbreitet werden könnten. Studien (UNESCO und IRCAI 2024; Nesterov, Hollink, Erp, u. a. 2023a; Nesterov, Hollink, Erp, u. a. 2023b) belegen, dass moderne KI-Systeme potenziell rassistische, kolonialistische oder stereotype Inhalte reproduzieren können, wenn diese in ihren Trainingsdaten enthalten sind. Dies stellt eine moralische Herausforderung für Kulturinstitutionen dar: Sie müssen das Wissen um historische Bezeichnungen bewahren und gleichzeitig verhindern, dass diese in modernen Kontexten neu verwendet werden.
Museen könnten erwägen, den Zugriff dieser Crawler auf ihre Texte und Bilder generell zu verweigern, um eine unerwünschte Nutzung der Daten zu verhindern. Zu diesem Zweck entwickeln Unternehmen wie Cloudflare bereits Lösungen, mit deren Hilfe Nutzer:innen sämtliche AI-Bots, Scraper und Crawler blockieren können (Bocharov, Vargas, Martinetti u. a. 2024). Falls es unerwünschten Webcrawlern dennoch gelingt, die Website aufzurufen, bietet das Unternehmen Lösungen an, um sie durch KI-generierte Inhalte zu verwirren und gezielt auszubremsen (Tatoris, Saxena, und Miglietti 2025).
Eine solche grundsätzliche Sperrung von Crawlern würde jedoch auch bedeuten, dass KI-Systeme wie ChatGPT oder Google Gemini, die heute standardmäßig von einem großen Anwender:innenkreis (z.B. im Bildungskontext) genutzt werden, die digitalen Inhalte der Museen nicht berücksichtigen könnten. Bei genauerem Hinsehen kommt ein generelles Nicht-Zulassen von KI-Crawlern daher nicht infrage, denn öffentliche Kultureinrichtungen sind dazu verpflichtet, ihr Wissen der Öffentlichkeit zur Verfügung zu stellen. Mehr noch: Museumsinhalte können als Korrektiv gegen Spekulationen und Fehlinformationen dienen – das Zugreifen von Webcrawlern auf diese Inhalte ist daher wünschenswert.
Eine potenzielle Lösung könnte in der Implementierung eines Mechanismus zur Überwachung des Zugriffs auf spezifische Inhalte bestehen, um den Schutz sensibler Museumsdaten nach ihrer Publikation zu gewährleisten. Hierzu stehen mehrere Instrumente zur Verfügung: Die Robots.txt-Datei („The Web Robots Pages“, o. J.) ermöglicht etwa eine grundlegende Kontrolle, indem sie Website-Bereiche für bestimmte Crawler sperrt oder freigibt. Präzisere Steuerungsmöglichkeiten bietet das X-Robots-Tag („X-Robots-Tag - HTTP | MDN“, o. J.), ein HTTP-Header, der auf einzelnen Webseiten festlegt, ob und wie KI-Systeme diese erfassen dürfen. Als dritte Option erlaubt das neuere TDM Reservation Protocol („TDM Reservation Protocol (TDMRep)“, o. J.) eine noch differenziertere Kontrolle über die Nutzungsbedingungen für Text- und Data-Mining-Anwendungen. Allerdings basiert die Wirksamkeit dieser Lösungen auf freiwilliger Einhaltung durch die Crawler, und ihre Implementierung erfordert spezifische technische Expertise. Eine verbindliche Durchsetzung dieser Nutzungsbedingungen scheint aktuell nur durch komplette Sperrungen möglich – was, wie zuvor erläutert, dem öffentlichen Bildungsauftrag der Museen widerspricht und das wertvolle Wissen der Kultureinrichtungen von modernen KI-gestützten Informationskanälen ausschließen würde.
Kontextualisierung problematischer Begriffe
Folglich sollten Museen sicherstellen, dass ihre Inhalte klar kontextualisiert und gezielt kommuniziert werden, sodass sie als wertvolle Quellen gegen Bias und Fehlinformationen dienen können – sowohl für menschliche Nutzer:innen als auch für KI-Systeme.
Die Kontextualisierung historisch problematischer Begriffe bildet somit das Kernstück eines verantwortungsvollen Umgangs mit diskriminierender Sprache in Museumsdaten. Anders als eine vollständige Entfernung oder unreflektierte Beibehaltung bietet die Kontextualisierung die Möglichkeit, die historische Genauigkeit zu wahren und gleichzeitig eine kritische Einordnung zu gewährleisten. Dabei ist es unerlässlich, eine mehrschichtige Metadatenstruktur zu implementieren. Bei der „Titelkontextualisierung“ (Mähr und Schnegg 2024) kann diese Struktur etwa aus einer primären Ebene mit zeitgemäßen, diskriminierungsfreien Begriffen bestehen, während historische Bezeichnungen auf einer sekundären Ebene mit deutlichen Hinweisen zu ihrem historischen Kontext und ihrer Problematik versehen werden. Dieser Prozess sollte bereits in den Museumsdatenbanken beginnen und sich bis zu einer Veröffentlichung durchziehen. Konkret bedeutet dies beispielsweise, dass kolonialzeitliche Objektbezeichnungen oder koloniale Sammlungsbegriffe wie „Exotisch“ oder „Primitiv“ nicht gelöscht, sondern mit Attributen wie „historische Bezeichnung“ oder „kolonialzeitlicher Begriff“ versehen und durch erläuternde Kommentare ergänzt werden sollten. Zum Auffinden der Begriffe kann etwa das DE-BIAS Tool („The DE-BIAS Tool“, o. J.) eingesetzt werden, das speziell entwickelt wurde, um problematische Begriffe in kulturellen Sammlungen zu identifizieren.
Zusätzlich können maschinenlesbare Annotationen – beispielsweise in Form von RDFa („RDFa“, o. J.) oder JSONLD („JSON-LD - JSON for Linking Data“, o. J.) – eingesetzt werden, um Inhalte und ihre semantischen Strukturen eindeutig zu kennzeichnen. Diese Verfahren erlauben es technischen Systemen, vielfältige Aspekte von Daten – wie zeitliche Kontexte, inhaltliche Beziehungen oder weitere Metainformationen – systematisch zu erfassen und darzustellen. Im Zusammenhang mit dem DE-BIAS Vokabular („The DE-BIAS Vocabulary“, o. J.; „DE-BIAS Vocabulary“ 2025) eröffnete sich hier die Möglichkeit, problematische Begriffe einheitlich und nachvollziehbar zu annotieren. Allerdings existieren bislang keine verbindlichen Standards, die eine systematische Kennzeichnung historischer oder problematisch konnotierter Bezeichnungen – etwa als „historischer Titel“ oder „kolonialzeitliche Beschreibung“ – ermöglichen. Diese Standardisierungslücke erschwert die automatisierte, eindeutige und maschinenlesbare Kontextualisierung problematischer Sprache. Zudem erfassen KI-Crawler grundsätzlich sämtliche Informationen, ohne spezifische Begrifflichkeiten gezielt auszuschließen. Daher ist es wichtig, problematische Begriffe stets mit den nötigen Kontextinformationen zu versehen – auch wenn dies lediglich im Fließtext und ohne spezielle technische Annotationen erfolgt –, um sicherzustellen, dass KI-Systeme diese Begriffe kontextualisiert verarbeiten können. Diese mehrschichtige Kontextualisierung ermöglicht es Museen, ihrer historischen Verantwortung gerecht zu werden und die Wahrscheinlichkeit zu verringern, dass KI-Systeme diskriminierende Narrative unreflektiert reproduzieren.
Ein verantwortungsvoller Umgang mit historisch belasteten und diskriminierenden Begriffen in digitalen Museumsbeständen ist im KI-Zeitalter unumgänglich. Museen stehen dabei vor der Herausforderung, historische Authentizität zu wahren und zugleich die Verbreitung problematischer Narrative durch KI-Systeme zu verhindern. Die kontextuelle Einbettung problematischer Begriffe und eine transparente Kommunikation ihrer historischen Bedeutung sind essenzielle Schritte. Der Einsatz einer mehrschichtigen Metadatenstruktur, maschinenlesbarer Annotationen und unterstützender Tools wie DE-BIAS sind praktikable Lösungen, um diese Herausforderungen anzugehen. Museen können auf diese Weise ihrer gesellschaftlichen Verantwortung gerecht werden und gleichzeitig als zuverlässige Informationsquelle sowohl für menschliche Nutzer:innen als auch für KI-Systeme dienen.
Jamie Dau ist Referent für Provenienz und Archive an den Reiss-Engelhorn-Museen.
Leslie Zimmermann ist Referent für KI und Digitalstrategie an den Reiss-Engelhorn-Museen.
Referenzen
Bocharov, Alex, Santiago Vargas, Adam Martinetti, Reid Tatoris, und Carlos Azevedo. 2024. „Declare Your AIndependence: Block AI Bots, Scrapers and Crawlers with a Single Click“. The Cloudflare Blog (blog). 3. Juli 2024. https://blog.cloudflare.com/declaring-your-aindependence-block-ai-bots-scrapers-and-crawlers-with-a-single-click/.
Mähr, Moritz, und Noëlle Schnegg. 2024. „Handbuch zur Erstellung diskriminierungsfreier Metadaten für historische Quellen und Forschungsdaten“, 3. Juni 2024. https://doi.org/10.5281/zenodo.11124720.
Nesterov, Andrei, Laura Hollink, Marieke van Erp, und Jacco van Ossenbruggen. 2023a. „A Knowledge Graph of Contentious Terminology for Inclusive Representation of Cultural Heritage“. In The Semantic Web, herausgegeben von Catia Pesquita, Ernesto Jimenez-Ruiz, Jamie McCusker, Daniel Faria, Mauro Dragoni, Anastasia Dimou, Raphael Troncy, und Sven Hertling, 502–19. Cham: Springer Nature Switzerland. https://doi.org/10.1007/978-3-031-33455-9_30.
Nesterov, Andrei, Laura Hollink, Marieke van Erp, und Jacco van Ossenbruggen. 2023b. „cultural-ai/wordsmatter: Words Matter: a knowledge graph of contentious terms“. Zenodo. https://doi.org/10.5281/zenodo.7713157.
Tatoris, Reid, Harsh, Saxena, und Luis Miglietti. 2025. „Trapping Misbehaving Bots in an AI Labyrinth“. The Cloudflare Blog (blog). 19. März 2025. https://blog.cloudflare.com/ai-labyrinth/.
UNESCO und IRCAI. 2024. „Challenging Systematic Prejudices: An Investigation into Gender Bias in Large Language Models“. https://unesdoc.unesco.org/ark:/48223/pf0000388971.