KI-Training im Kontext der DSGVO

Arbeit mit KI
Die Arbeit mit KI-Modellen hat sich mittlerweile in vielen Unternehmen fest etabliert.
Startseite » Datenschutz » KI-Training im Kontext der DSGVO

Im Zeitalter der datengetriebenen Technologie stellt das Training von KI-Modellen eine Kernkomponente zur Entwicklung innovativer Anwendungen dar. Dabei ergeben sich insbesondere bei der Nutzung personenbezogener Daten erhebliche datenschutzrechtliche Herausforderungen. Der Einsatz von First- und Third-Party-Daten im KI-Training wirft dabei die Frage auf, wie das berechtigte Interesse als Rechtsgrundlage gemäß Art. 6 Abs. 1 lit. f DS-GVO gerechtfertigt werden kann. Diese Diskussion steht im Spannungsfeld zwischen Innovationsförderung und dem Schutz der Persönlichkeitsrechte.

Die Verarbeitung von personenbezogenen Daten i.S.v. Art. 4 Nr. 1 DS-GVO zum Zweck des KI-Trainings unterliegt den strikten Anforderungen der DS-GVO. Gem. Art. 3 KI-VO sind „Trainingsdaten“ Daten, die eingesetzt werden, um ein KI-System zu trainieren, indem die lernbaren Parameter des Systems angepasst werden. Trainingsdaten werden also genutzt, um ein KI-Modell zu trainieren und es in ein leistungsfähiges intelligentes Werkzeug zu verwandeln.

Scraping und Crawling

Um KI-Modelle mit Trainingsdaten zu versorgen, werden häufig Informationen aus dem Internet verwendet, die speziell aufbereitet werden. Hierfür kommen verschiedene Ansätze zur Datengewinnung infrage: Eine Methode ist das gezielte Extrahieren einzelner Inhalte wie Texte, Bilder oder Videos von Webseiten (sog. Scraping). Eine andere Herangehensweise erfasst umfassendere Informationen, wobei häufig nur Verweise auf Inhalte gespeichert werden, anstatt die Dateien selbst zu sichern (sog. Crawling).

Die Sammlung solcher Daten ist eine Grundvoraussetzung für die Entwicklung von KI-Modellen. Der Erfolg eines KI-Modells hängt maßgeblich von der Qualität der Trainingsdaten und dem Zugang zu diesen ab. Grundsätzlich lässt sich sagen: Eine größere Menge an Daten, die für das Training eingesetzt wird, erhöht in der Regel die Leistungsfähigkeit des Modells. 

Training mit personenbezogenen Daten

Allerdings agieren die Sammler der Daten meist unabhängig von den Entwicklern der Systeme. Damit einher gehen auch die Implikationen für das Datenschutzrecht. Umso mehr Daten gesammelt werden, umso höher ist das Risiko, dass das KI-System auch mit personenbezogenen Daten trainiert wird. Insoweit kommt der DS-GVO in diesem Spannungsverhältnis eine besondere Bedeutung zu.

Eine der zentralen Fragen im Zusammenhang mit der DS-GVO ist, ob die Verarbeitung von personenbezogenen Daten im Zusammenhang mit dem Training eines KI-Modells auf eine datenschutzrechtliche Rechtsgrundlage gem. Art. 6 Abs. 1 DS-GVO gestützt werden kann. In diesem Zusammenhang wird vorausgesetzt, dass Trainingsdaten als personenbezogene Daten iSd Art. 4 Nr. 1 DS-GVO zu qualifizieren sind. Die wesentlichen Rechtsgrundlagen sind in diesem Kontext die datenschutzrechtliche Einwilligung nach Art. 6 Abs. 1 lit. a, 7 DS-GVO sowie das berechtigte Interesse nach Art. 6 Abs. 1 lit f DS-GVO.

Rechtliche Grundlage: Einwilligung

Die Verarbeitung personenbezogener Daten kann grundsätzlich durch eine Einwilligung gerechtfertigt werden, sofern diese freiwillig, informiert und eindeutig erteilt wurde. Allerdings ist die Einwilligung in der Praxis häufig ungeeignet, insbesondere bei automatisierten Datenerhebungen. In solchen Fällen fehlt es oft an der Möglichkeit, die Betroffenen ausreichend über die Verarbeitung zu informieren, da die konkreten Daten und deren Bezugspersonen unklar sind. Eine Kontaktaufnahme mit sämtlichen Betroffenen wäre zudem kaum realisierbar.

Auch deckt eine mögliche Einwilligung in der Regel nicht die spätere Verwendung der Daten, etwa für das Training von KI-Systemen, ab. Da die Weitergabe von Datensätzen häufig der eigentliche Zweck der Erhebung ist, wäre die Einwilligung in vielen Fällen nutzlos. Erschwerend kommt hinzu, dass eine Einwilligung jederzeit widerrufen werden kann, was bei bereits weitergegebenen Daten umfangreiche und komplexe Löschpflichten nach sich ziehen würde.

Zudem sind bei der Nutzung von KI-Systemen die genauen Verarbeitungsprozesse oft nicht vollständig nachvollziehbar. Diese fehlende Transparenz, kombiniert mit rechtlichen und praktischen Hürden, macht die Einwilligung als Grundlage für die Verarbeitung personenbezogener Daten in solchen Szenarien unpraktikabel.

Rechtliche Grundlage: berechtigtes Interesse

Die Verarbeitung personenbezogener Daten durch Datensammler kann nach Art. 6 Abs. 1 lit. f DSGVO gerechtfertigt sein, wenn sie zur Wahrung berechtigter Interessen erforderlich ist und keine übergeordneten Rechte der betroffenen Personen entgegenstehen. Dies erfordert eine Prüfung, ob ein berechtigtes Interesse des Verantwortlichen vorliegt, das rechtlicher, wirtschaftlicher oder ideeller Natur sein kann.

Für kommerzielle Datensammler liegt dieses Interesse meist in der unternehmerischen Freiheit, während bei nicht-kommerziellen Akteuren häufig die Wissenschafts- oder Informationsfreiheit im Vordergrund steht. Außerdem muss die Verarbeitung notwendig sein, um das berechtigte Interesse zu verfolgen, wobei das mildeste Mittel zu wählen ist. Scraping und Crawling werden häufig als die effektivsten Methoden zur Datensammlung angesehen. Ob anonymisierte Daten eine ausreichende Alternative darstellen, hängt vom konkreten Einzelfall ab. Die vollständige Anonymisierung von Datensätzen ist in der Praxis oft schwer umsetzbar und könnte selbst eine rechtfertigungsbedürftige Verarbeitung darstellen.

Darüber hinaus müssen die Rechte und Interessen der betroffenen Personen gegen das Interesse des Verantwortlichen abgewogen werden. Dabei spielen Faktoren wie die Art der gesammelten Daten, deren zukünftiger Verwendungszweck, die Wahrscheinlichkeit einer Identifikation und die möglichen Folgen der Verarbeitung eine Rolle. Besonders strenge Maßstäbe gelten, wenn schutzwürdige Gruppen wie Kinder betroffen sind. Werden Daten freiwillig veröffentlicht, kann dies das Schutzinteresse der Betroffenen mindern, allerdings nur dann, wenn die Veröffentlichung eindeutig auf deren Entscheidung beruht. Eine gezielte Verarbeitung, etwa durch Scraping oder Crawling, könnte jedoch außerhalb ihrer Erwartungen liegen.


Fazit

Ob die Verarbeitung personenbezogener Daten auf Art. 6 Abs. 1 lit. f DSGVO gestützt werden kann, ist letztlich eine Frage des Einzelfalls. Eine gesetzliche Regelung speziell für Scraping und Crawling könnte helfen, die bestehenden Unsicherheiten zu beseitigen und den besonderen Anforderungen dieser Methoden gerecht zu werden, ähnlich wie es im Urheberrecht durch § 44b UrhG bereits umgesetzt wurde.