Europejska Rada Ochrony Danych w opinii nr 28/2024 przyjrzała się kilku ważnym aspektom przetwarzania danych osobowych w modelach sztucznej inteligencji (SI). Jej wnioski zostały skierowane przede wszystkim do organów kontrolujących przetwarzanie danych osobowych, ale powinny zainteresować także twórców modeli SI oraz wdrażających i stosujących narzędzia oparte na tej technologii.
Granice anonimowości: dane osobowe wykorzystywane do uczenia SI
EROD uważa, iż modele sztucznej inteligencji szkolone z wykorzystaniem danych osobowych, nie zawsze można określić jako anonimowe. O anonimowym modelu SI można mówić dopiero wtedy, gdy istnieje co najwyżej „nieznaczne prawdopodobieństwo” ujawnienia użytkownikowi SI danych osobowych, które wykorzystano do szkolenia danego modelu SI.
Ten aspekt powinien zostać zweryfikowany przez organ nadzorczy (w Polsce przez Prezesa Urzędu Ochrony Danych Osobowych). Ma to polegać przede wszystkim (ale nie tylko) na przeglądzie dokumentacji dostarczonej przez twórców SI. jeżeli w wyniku takiej kontroli organ uzna, iż model SI nie jest anonimowy, wtedy trzeba być w stanie wykazać jego pełną zgodność z RODO, także na etapie jej trenowania danymi osobowymi. W praktyce rodzi to liczne i spore trudności.
Jednocześnie EROD stwierdziła, iż ewentualna niezgodność z RODO przy tworzeniu SI nie ma wpływu na zgodność na późniejszych etapach (każdy należy oceniać oddzielnie).
RODO a rozwój SI: kiedy można przetwarzać dane osobowe bez zgody?
EROD zwróciła również uwagę na dopuszczalność przetwarzania danych osobowych na potrzeby SI w oparciu na tzw. uzasadniony interes (art. 6 ust. 1 lit. f RODO). W tym zagadnieniu chodzi przede wszystkim o to, aby uniknąć konieczności pobierania dobrowolnej i świadomej zgody (art. 6 ust. 1 lit. a RODO) od użytkowników na wykorzystanie ich danych osobowych do trenowania SI. Takie rozwiązanie stosuje m. in. właściciel Facebooka.
Tak jak przy poprzednim zagadnieniu, podmiot wykorzystujący SI przetwarzającą dane osobowe w swoim uzasadnionym interesie (bez pobierania zgód), powinien przygotować rzetelną dokumentację, która może podlegać kontroli.
W skład tej dokumentacji powinien wchodzić test SI, składający się z następujących elementów:
- określenie i opisanie uzasadnionego interesu;
- analizę konieczności przetwarzania danych osobowych przez SI („test konieczności”);
- ocenę, czy interesy i podstawowe prawa i wolności osób, których dane dotyczą, nie są nadrzędne wobec prawnie uzasadnionego interesu wskazanego przez twórcę SI („test równowagi”).
Należy też sprawdzić, czy nie istnieje mniej inwazyjny sposób realizacji tego interesu. Trzeba zwrócić uwagę na ilość przetwarzanych danych osobowych oraz na to, czy jest to proporcjonalne do realizacji prawnie uzasadnionego interesu, również w świetle zasady minimalizacji danych określonej w RODO.
Niezbędne jest również przeprowadzenie oceny, czy osoby, których dane dotyczą mogą się spodziewać się, iż ich dane osobowe będą przetwarzane przez SI. Może to mieć miejsce np. gdy dane osobowe są publicznie dostępne, istnieje związek pomiędzy osobą, której dane dotyczą, a dostawcą SI, czy osoby, których dane dotyczą, są świadome, iż ich dane osobowe są dostępne online.
Jakie środki łagodzące zaleca EROD?
EROD zwróciła uwagę na przykładowe środki łagodzące ryzyka związane z ochroną danych osobowych w odniesieniu do opracowywania i wdrażania SI, w szczególności podczas web scrapingu. EROD wskazała m. in.:
- Środki mające na celu maskowanie danych osobowych lub zastępowanie ich fałszywymi danymi osobowymi na potrzeby szkolenia SI (np. zastępowanie nazwisk i adresów e-mail fałszywymi nazwiskami i fałszywymi adresami e-mail). Środek ten może być konieczny szczególnie wtedy, gdy zawartość merytoryczna danych nie jest istotna.
- Zachowanie rozsądnego okresu między zebraniem danych szkoleniowych a ich wykorzystywaniem.
- Proponowanie użytkownikom bezwarunkowej rezygnacji z wykorzystywania ich danych osobowych przez SI, na przykład poprzez zapewnienie uznaniowego prawa do sprzeciwu przed rozpoczęciem wykorzystywania ich danych osobowych przez SI.
- Zapewnienie, iż niektóre kategorie danych nie będą gromadzone (np. szczególne kategorie danych osobowych) lub iż niektóre źródła będą wyłączone z procesu gromadzenia danych (np. wybrane strony internetowe).
- Wykluczenie gromadzenia danych ze stron internetowych, które wyraźnie sprzeciwiają się web scrapingowi i ponownemu wykorzystywaniu ich treści w celu szkolenia SI.
Dodam od siebie, iż istnieje wiele sposobów wyrażenia takiego sprzeciwu, co wymaga poprawnego skonfigurowania narzędzi do zbierania i czyszczenia danych.
Z zabezpieczeń prawnych należy wymienić:
- oświadczenia dotyczące text and data mining (TDM)
- postanowienia w umowach licencyjnych
- klauzule w regulaminach
Z zabezpieczeń technicznych trzeba zwrócić uwagę m. in. na:
- Robots Exclusion Protocol (plik robots.txt)
- Robots Meta Tags
- plik ai.txt.
Ostateczna ocena co do konieczności zastosowania środków łagodzących będzie należała oczywiście do organów nadzorczych podczas prowadzonych kontroli.
Podsumowanie
Tworzenie i wdrażanie SI zgodnej z prawem wymaga transparentności, ostrożności i dokumentacji. Przepisy obowiązujące w UE wymagają, by modele SI były projektowane z myślą o ochronie prywatności od samego początku, w szczególności na etapie ich trenowania. Wiąże się to m. in. z koniecznością przygotowania stosownej dokumentacji.