Zautomatyzowana analiza danych osobowych to potężne narzędzie, które pomaga nam zrozumieć fakty, sytuacje lub konkretne cechy danej osoby. Dlatego tak ważne jest, aby dane, których używamy, były dokładne. jeżeli dane są poprawne, mogą zapewnić jasny obraz rzeczywistości. Jest to ważne nie tylko dla przedstawienia aktualnego stanu rzeczy, ale także dla przewidywania przyszłych wydarzeń, w tym potencjalnych skutków prawnych. Z czasem jednak dane mogą stać się nieaktualne lub nieprawidłowe, co zmniejsza ich przydatność. Jest to szczególnie istotne, gdy dane są ponownie wykorzystywane lub używane znacznie później w innym kontekście niż pierwotnie zamierzano.
Problem ten rozpoznał europejski prawodawca, przez co nałożył na administratorów wymóg prawidłowego przetwarzania (art. 5 ust. 1 lit. d RODO). Zgodnie z tą zasadą administrator musi aktywnie sprawdzać i upewniać się, iż dane osobowe, które przetwarza są dokładne, tj. odpowiadają rzeczywistości.
Problem schematy danych jest szczególnie widoczny w kontekście szkolenia systemów sztucznej inteligencji, które na podstawie danych wejściowych będą np. wspierały ludzi w podejmowaniu decyzji dotyczących innych osób.
Na skuteczność każdego systemu sztucznej inteligencji, negatywny wpływ mogą mieć niedokładne dane wejściowe (input). W kontekście sztucznej inteligencji i szerzej, modelowania statystycznego, dokładność jest definiowana przez to, jak często system sztucznej inteligencji przewiduje adekwatny wynik, w oparciu o prawidłowo oznaczone dane testowe[1].
Realizacja zasady schematy przetwarzania nie oznacza jednak, iż system sztucznej inteligencji musi działać „bezbłędnie”, aby spełniać wymogi RODO. Agencia Española de Protección de Datos – AEPD podając różne przykłady przetwarzania danych osobowych przy pomocy systemów SI wskazuje, iż niedokładności lub błędy w algorytmie mogą wynikać ze źle zdefiniowanych danych wejściowych, które są niezależne od samego algorytmu. Niezwykle ważne jest przestrzeganie zasady dokładności na wszystkich etapach przetwarzania danych z wykorzystaniem SI. AEPD wskazuje następujące czynniki, które należy wziąć pod uwagę realizując zasadę schematy z art. 5 ust. 1 lit.d RODO:
- wszystkie dane wejściowe stosowane w oraz ich zakładany wpływ na działania systemu SI powinny być szczegółowo zdefiniowane i udokumentowane.
- jeżeli gromadzenie danych wejściowych, które będą wykorzystywane przez algorytm będzie odbywać się manualnie a osoby, których dane dotyczą, same będą dostarczać dane wejściowe (np. dane będą zbierane z for-mularzy wypełnianych przez podmioty danych) to zarówno osoby, których dane dotyczą, jak i osoby zbierające dane muszą rozumieć semantykę danych i im-plikacje ich odpowiedzi.
- należy niezwłocznie usunąć lub poprawić niedokładne lub nieprawidłowe dane osobowe, biorąc pod uwagę cele ich przetwarzania, zapewniając, iż odbywa się to na każdym etapie czynności przetwarzania wykorzystującej system sztucznej inteligencji.
Administratorzy, którzy chcą szkolić systemu sztucznej inteligencji w oparciu o dane osobowe muszą pamiętać o wy-mogu spełnienia zasad przetwarzania danych z art. 5 RODO. W celu realizacji zasady schematy przetwarzania konieczne jest wdrożenie niezbędnych środków zapobiegających niedokładnościom i chroniących przed niepożądanymi skutkami nieprawidłowych danych wejściowych, powinny być wdrażane na etapie projektu procesu przetwarzania danych wykorzystującego system SI.
Stanowisko AEPD ws. realizacji zasady schematy przetwarzania w kontekście systemów SI dostępne jest tutaj.
[1] Szerz. o „uczesniu się” systemów SI. np. M. Mitchels, Artificial Intelligence: A Guide for Thinking Humans, Nowy Jork 2019 s. 96-116, What do we need to know about accuracy and statistical accuracy?, https://ico.org.uk/for-organisations/uk-gdpr-guidance-and-resources/artificial-intelligence/guidance-on-ai-and-data-protection/what-do-we-need-to-know-about-accuracy-and-statistical-accuracy/#accuracy.