KI-Trainingsdaten: Abwehrmaßnahmen gegen Data Crawling

1. Einführung in die Thematik

KI-Systeme sind darauf ausgelegt, Aufgaben zu erfüllen, die normalerweise menschliche Intelligenz erfordern würden. Sie nutzen dafür Algorithmen, die auf großen Datenmengen trainiert werden. Trainingsdaten sind dabei unverzichtbar, da sie die Grundlage für die Mustererkennung und die Ableitung von Entscheidungen bilden.

Wenn ein KI-System trainiert wird, lernt es aus einer Vielzahl von Beispielen. Damit also z.B. der Bildgenerator weiß, was ein Apfel ist, muss er zuvor mit ausreichend Bildern von Äpfeln trainiert werden. Diese Beispiele müssen sorgfältig ausgewählt und strukturiert sein, um sicherzustellen, dass das KI-System angemessen trainiert wird. Es gibt verschiedene Anbieter, die zu diesem Zweck Datenpakete an KI-Entwickler verkaufen. Die Qualität und Quantität der Trainingsdaten haben direkten Einfluss auf die Leistungsfähigkeit des KI-Systems.

Um ein KI-System zu trainieren, müssen Trainingsdaten in ausreichender Menge und Qualität zur Verfügung gestellt werden. Dies erfordert häufig die Zusammenarbeit von Experten, die die Trainingsdaten sorgfältig auswählen und kategorisieren, um sicherzustellen, dass sie die notwendigen Informationen enthalten, um das KI-System korrekt zu trainieren.

Die Erstellung von Trainingsdaten kann eine zeitaufwändige und kostspielige Aufgabe sein. Daher werden häufig Technologien wie Datenannotationstools eingesetzt, um diesen Prozess zu vereinfachen und zu automatisieren. Zur Erstellung dieser Datenpakete wird (auch) das Internet durchforstet – sog. Data Crawling – und passende Dateien werden sodann extrahiert und Dritten bereitgestellt – sog. Data Scraping. Dieser Ablauf wird unter dem Begriff Data Mining zusammengefasst.

Gerade im Zusammenhang mit Bilddateien ist es der Standard, dass die bereitgestellten Daten urheberrechtlich geschützt sind. Und in der Praxis dürfte auch unbestritten sein, dass der Großteil der Data Mining-Prozesse bzw. die damit einhergehenden Datennutzungen illegal erfolgen, auch nach aktuellem Recht. Eine Lizenzvereinbarung mit den Urhebern der Bilder zur Abgeltung der Bildnutzung wird regelmäßig nicht getroffen. Rückschlüsse auf die Trainingsdaten der KI aus den Generator-Erzeugnissen lassen sich allerdings nur schwer ziehen, ein handfester Nachweis einer Urheberrechtsverletzung durch KI-Training dürfte also Schwierigkeiten bereiten.

 

2. Schutzmaßnahmen

Der Verein LAION e.V., der Daten und Metadaten für das Deep Learning sammelt und als Open Source bereithält, bezeichnet sich selbst als wissenschaftliche Einrichtungen. Der Gesetzgeber erlaubt eine solche Nutzung von urheberrechtlich geschützten Bildern für Forschungszwecke und reguliert nicht die kommerzielle Auswertung der daraus entstehenden KIs.

Die Seite haveibeentrained.com bietet die Möglichkeit, die eigenen Bilder in LAION Datenpaketen zu suchen und falls sie dort auftauchen, durch einen Nutzungsvorbehalt (sog. Opt-out) aus den Datenpaketen wieder zu entfernen. Die Website hat dazu ein Tutorial verlinkt.

Das funktioniert aktuell jedoch nur für den KI-Generator Stable Diffusion von Stability AI, da Stability AI als einziger KI-Betreiber öffentlich macht, anhand welcher Daten die KI trainiert wird. Andere KI-Unternehmen schweigen sich dazu aus oder flüchten sich in vage Formulierungen.

Mit dem bloßen Opt-out können einzelne Urheber aber grds. verhindern, dass ihre Daten in Zukunft zum Training von KI verwendet werden; die bereits abgeschlossene Verletzung ihrer Urheberrechte wird damit nicht ausgeglichen.

Getty Images klagt gegen Stability AI

Nachdem Stability AI über 12 Millionen Bilder von Getty Images ohne Erlaubnis für das Deep Learning verwendet haben soll, klagt Getty Images in Großbritannien (siehe Pressemeldung) und in den USA (siehe Klageschrift) gegen Stability AI – und zwar sowohl aus dem Urheberrecht wegen der Nutzung der Bilder inklusive Metadaten aus der Bildddatenbank, als auch aus dem Markenrecht wegen der Verwendung des geschützten Getty-Logos. So ist bekannt, dass in den von Stable Diffusion erzeugten Bildern oft das Wasserzeichen von Getty Images auftaucht, weil der Algorithmus mit den umfangreichen Bildmengen direkt aus der Bilddatenbank angelernt wurde.

 

3. Lage nach dem deutschen Urheberrechtsgesetz

Die aktuelle Rechtslage sieht vor, dass Data Mining grundsätzlich im gewissen Rahmen zulässig ist. In der DSM-RL sind insbesondere die Art. 3 und 4 relevant, die ihre Umsetzung auf deutscher Ebene in den §§ 44b und 60d UrhG erfuhren. Die genannten Artikel der EU-Richtlinie geben den Mitgliedsstaaten einen groben Rahmen vor, eigene Regelungen zu schaffen. Insbesondere die Nutzung von „Text und Data Mining“ zu wissenschaftlichen Zwecken steht demnach im Vordergrund (Art. 3 DSM-RL), aber auch das generelle „Text und Data Mining“ durch jedermann soll durch die Mitgliedstaaten geregelt werden (Art. 4 DSM-RL).

 

a) 60d UrhG

Besonders zu Forschungszwecken ist diese Vorgehensweise, das Data Mining, also explizit erlaubt (§ 60d UrhG). Forschungszwecke werden dabei immer dann angenommen, wenn keine kommerzielle Nutzung vorliegt. Davon wiederum ausgenommen sind Forschungseinrichtungen, die mit privaten Unternehmen zusammenarbeiten.

Einzelne Urheber können ihre Daten nicht schon prinzipiell davor schützen, nach Veröffentlichung im Internet zum Training Künstlicher Intelligenz verwendet zu werden. Es dürfen sogar gar keine technischen Schutzmaßnahmen eingesetzt werden, die die Werknutzung im Rahmen von Text und Data Mining verhindert, da ansonsten Ansprüche der Forschungseinrichtungen gegen die Urheber begründet werden (vgl. § 95b UrhG). Erlaubt ist jedoch dies einschränkend, die Werke im Internet entgeltpflichtig anzubieten und Schutzmaßnahmen gegen unentgeltliche Nutzung anzubringen. In dem Fall dürfte es verboten sein, bestehende Schutzvorrichtungen zu umgehen (§ 95a UrhG).

 

b) 44b UrhG

Sobald ein Unternehmen Text und Data Mining in der Privatwirtschaft betreibt, greift der § 44b UrhG. Hiernach ist Data Mining zulässig, um daraus Informationen „insbesondere“ über Muster, Trends und Korrelationen zu gewinnen. Der Spielraum ist mithin trotz des „insbesondere“ eng. Der Urheber kann sich die Nutzung seiner Werke zu KI-Trainingszwecken zudem ausdrücklich vorbehalten. Ein derartiger Nutzungsvorbehalt muss für online zugängliche Werke (also gerade die Werke, die für Data Crawling anfällig sind) in maschinenlesbarer Form erfolgen; weitere Anforderungen stellt das Gesetz nicht.

Maschinenlesbare Form bezieht sich allgemein auf ein Format, das für eine automatisierte Verarbeitung durch Computer oder andere Maschinen geeignet ist. Das bedeutet, dass die Informationen in einem Format vorliegen, das von Computerprogrammen direkt gelesen, verarbeitet und analysiert werden kann, ohne dass menschliche Eingriffe erforderlich sind. Das kann also eine XML-Datei sein, die Robots.txt, die IPTC-Daten eines Bildes u.ä.

Ein solcher Vorbehalt gilt nur für die Zukunft. Wurden in der Vergangenheit Urheberrechte durch Data Mining verletzt, kann die Nutzung nicht rückwirkend untersagt werden.

 

c) Rechtsverletzung

Eine Urheberrechtsverletzung kann durch Data Mining dennoch erfolgen. Hervorzuheben wäre:

  • Vervielfältigung: Wenn durch das KI-Crawling Inhalte entgegen §§ 44b oder 60d UrhG vervielfältigt werden, kann dies (weiterhin) eine Verletzung des Vervielfältigungsrechts nach § 16 UrhG darstellen. Insb. der § 44b UrhG ist zudem inhaltlich sehr streng, eine Vervielfältigung außerhalb dieser Voraussetzungen führt zum Rechtsverstoß.
  • Öffentliche Zugänglichmachung: Wenn die durch das KI-Crawling gesammelten Inhalte ohne Zustimmung des Urhebers oder Rechteinhabers öffentlich zugänglich gemacht werden, kann dies eine Verletzung des Verbreitungsrechts nach § 19a UrhG darstellen. Soweit § 60d UrhG eine Erlaubnis zur öffentlichen Zugänglichmachung im kleinen Kreis erlaubt (Abs. 4), sieht § 44b UrhG kein Recht zur öffentlichen Zugänglichmachung vor.
  • Bearbeitung: Wenn die durch das KI-Crawling gesammelten Inhalte verändert oder bearbeitet werden, kann dies eine Verletzung des Bearbeitungsrechts nach § 23 UrhG darstellen.
  • Urheberpersönlichkeitsrecht: Das Urheberpersönlichkeitsrecht schützt das geistige Eigentum des Urhebers und kann auch im Zusammenhang mit dem KI-Crawling relevant sein. So kann beispielsweise die nicht genehmigte Nutzung eines Werks in einer Weise, die das Ansehen des Urhebers schädigt, eine Verletzung des Urheberpersönlichkeitsrechts darstellen. Daneben ist im Übrigen immer dann eine Rechtsverletzung anzunehmen, wenn bei einer Nutzung keine Quellenangabe im Sinne des § 63 Abs. 2 UrhG erfolgt. Urheber haben zudem weiterhin ein Recht auf Namensnennung (§ 13 UrhG) und auch dieses darf auch durch zulässiges Data Mining nicht abgeschnitten werden.

In der Praxis besteht allerdings das Problem, dass der Urheber keine Kenntnis vom Data Mining erhält und/oder auch von der späteren Nutzung allenfalls zufällig erfährt. Das ist zwar auch bei anderen Werknutzungen der Fall, entfaltet aufgrund der Automatisierung jedoch ganz andere Dimensionen.

 

d) Gesetzliche Vergütungsansprüche

Werden urheberrechtlich geschützte Inhalte im Wege des Data Mining genutzt, hat der betreffende Urheber gem. § 60h UrhG einen Anspruch auf angemessene Vergütung, wobei auch hier eine Nutzung zu Forschungszwecken ausgenommen ist, d.h. Data Mining im Rahmen des § 60d UrhG ist vergütungsfrei.

Der Anspruch auf Vergütung kann nur durch eine Verwertungsgesellschaft geltend gemacht werden. Dabei dürfen einzelne Verwertungsgesellschaften als Treuhänder der Rechtsinhaber Tarife für die Nutzung ihrer Werke festsetzen, wobei jedoch keine Einzelerfassung konkreter Nutzungen verlangt werden kann. Die Nutzungsvergütung muss vielmehr anhand einer Pauschalierung oder repräsentativen Stichprobe bemessen werden.

 

4. Überprüfung/Ergänzung §§ 60d und 44b UrhG

Data Mining stellt einen Eingriff in die Urheberrechte dar, da die Vorgehensweise insgesamt den Urhebern das Recht auf Einflussnahme in die Art und Weise der Nutzung nimmt. Hinsichtlich der konkreten Ausgestaltung der §§ 60d, 44b UrhG existiert daher ein Bedürfnis nach Verbesserung.

In § 44b UrhG ist z.B. nicht konkretisiert, welche Anforderungen an einen Nutzungsvorbehalt gestellt werden (abgesehen von maschineller Lesbarkeit). Eine Ausformung dessen durch die Rechtsprechung ist für den Urheber besonders im Hinblick auf die Dynamik des technischen Fortschritts nicht zumutbar. Zugleich ist die Möglichkeit eines Opt-outs grds. zu begrüßen, mangelt es jedoch an der Überprüfung einer Verletzung bzw. der möglichen Sanktionierung bei Verstößen.

Es besteht insgesamt keinerlei Transparenz hinsichtlich der Verwendung bestimmter Werke im Rahmen von KI-Training und dahingehende Anregungen an den Gesetzgeber scheinen interessengerecht. Der Schutzgedanke des UrhG, dass Urheber autonome Entscheidungen hinsichtlich der Veröffentlichung und Verwendung ihrer Werke treffen können, wird in der Praxis mittlerweile völlig unterlaufen.

Es wären mehrere Ausgestaltungen eines besseren Schutzes von Urhebern sinnvoll, z.B. auch in Anlehnung an die ebenfalls strengen Verbraucherrechte:

  • Klarstellung, dass Data Mining entgegen der Zweckrichtung (insb. § 44b UrhG: um Informationen insbesondere über Muster, Trends und Korrelationen zu gewinnen) einen Rechtsverstoß begründen, und/oder hierbei das „insbesondere“ zu streichen oder etwa zur Abschwächung durch ein „vergleichbar“ zu ersetzen, und/oder
  • eine Art generalisierte, vorgegebene Formulierung eines Opt-outs (ähnlich einer Widerrufsbelehrung) und/oder
  • eine Art offizielle „Robinsonliste“ (siehe oben, haveibeentrained.com), die KI-Unternehmen vor dem Data Mining prüfen müssen, und/oder
  • zur Absicherung zusätzlich eine Art „Buttonlösung“ für KI-Unternehmen, um Urhebern bzw. Websites eine Art De-Listing zu ermöglichen (vgl. § 312k BGB).

Vorteil dieser Lösungen wäre die relativ einfache Integration in ein Programm bzw. eine KI.

 

5. Nachwort

In der Praxis erfolgen Rechtsverletzungen durch Data Mining insb. in der Bildbranche in zahlreichen Fällen. Nimmt man z.B. die wohl führende KI im Bildbereich, Midjourney, dürfte verständlich sein, dass die generierten Bilder nicht ohne große Mengen an Trainingsdaten erfolgen kann, die aus dem Internet abgegriffen wurden; auch nach deutschem Recht wohl nach diesseitigem Rechtsverständnis rechtswidrig, da dies nicht zur Gewinnung von Mustern, Trends und Korrelationen erfolgt sein dürfte. Das „insbesondere“ dürfte allenfalls auf vergleichbare Nutzungen abzielen, um den Sinn und Zweck des UrhG nicht zu unterlaufen. Dies dürfte aber streitbar sein, weswegen hier eine Klarstellung vom Gesetzgeber wünschenswert wäre.

Comments are closed.