Ewolucja sztucznej inteligencji chroniącej prywatność: od protokołów do praktycznych wdrożeń

Rok po roku, sztuczna inteligencja ewoluuje i staje się bardziej wydajna w rozwiązywaniu codziennych ludzkich zadań. Jednocześnie jednak zwiększa możliwość nadużywania danych osobowych, osiągając bezprecedensowy poziom mocy i szybkości w analizowaniu i rozpowszechnianiu danych osób fizycznych. W tym artykule chciałbym przyjrzeć się bliżej silnemu powiązaniu między systemami sztucznej inteligencji i uczeniem maszynowym a wykorzystywaniem przez nie coraz bardziej prywatnych i wrażliwych danych.

Wspólnie zbadamy istniejące zagrożenia dla prywatności, omówimy tradycyjne podejścia do prywatności w uczeniu maszynowym i przeanalizujemy sposoby przezwyciężenia naruszeń bezpieczeństwa.

Znaczenie prywatności w sztucznej inteligencji

Nie jest tajemnicą, że sztuczna inteligencja jest dziś szeroko stosowana w wielu dziedzinach, w tym w marketingu. NLP, czyli przetwarzanie języka naturalnego, interpretuje ludzki język i jest wykorzystywane w asystentach głosowych i chatbotach, rozumiejąc akcenty i emocje; łączy treści w mediach społecznościowych z zaangażowaniem. Uczenie maszynowe wykorzystuje algorytmy do analizy danych, poprawy wydajności i umożliwienia sztucznej inteligencji podejmowania decyzji bez interwencji człowieka. Deep Learning opiera się na sieciach neuronowych i wykorzystuje obszerne zbiory danych do dokonywania świadomych wyborów.

Te typy sztucznej inteligencji często współpracują ze sobą, co stanowi wyzwanie dla prywatności danych. Sztuczna inteligencja gromadzi dane celowo, gdy użytkownicy dostarczają informacje, lub nieumyślnie, na przykład poprzez rozpoznawanie twarzy. Problem pojawia się, gdy niezamierzone gromadzenie danych prowadzi do nieoczekiwanych zastosowań, naruszając prywatność. Na przykład omawianie karmy dla zwierząt domowych lub bardziej intymnych zakupów przez telefon może prowadzić do ukierunkowanych reklam, ujawniając niezamierzone gromadzenie danych. Algorytmy sztucznej inteligencji, choć inteligentne, mogą nieumyślnie przechwytywać informacje i poddawać je nieautoryzowanemu wykorzystaniu. Tak więc dzwonki wideo z identyfikacją twarzy przeznaczone do rozpoznawania rodziny mogą nieumyślnie gromadzić dane o niespokrewnionych osobach, powodując obawy sąsiadów o inwigilację i dostęp do danych.

Mając na uwadze powyższe, niezwykle ważne jest ustanowienie ram etycznego podejmowania decyzji dotyczących wykorzystania nowych technologii sztucznej inteligencji. Podejmowanie wyzwań związanych z prywatnością i rozważanie etyki technologii jest niezbędne dla trwałego sukcesu sztucznej inteligencji. Jednym z głównych powodów jest to, że znalezienie równowagi między innowacjami technologicznymi a obawami o prywatność będzie sprzyjać rozwojowi społecznie odpowiedzialnej sztucznej inteligencji, przyczyniając się do długoterminowego tworzenia wartości publicznej i bezpieczeństwa prywatnego.

Ryzyko związane z tradycyjnym podejściem

Zanim przejdziemy do skutecznych technik ochrony prywatności, przyjrzyjmy się tradycyjnym podejściom i problemom, jakie mogą one napotkać. Tradycyjne podejścia do prywatności i uczenia maszynowego koncentrują się głównie na dwóch koncepcjach: kontroli użytkownika oraz ochrona danych. Użytkownicy chcą wiedzieć, kto gromadzi ich dane, w jakim celu i jak długo będą one przechowywane. Ochrona danych obejmuje anonimizację i szyfrowanie danych, ale nawet w tym przypadku luki są nieuniknione, zwłaszcza w uczeniu maszynowym, gdzie deszyfrowanie jest często konieczne.

Inną kwestią jest to, że uczenie maszynowe angażuje wielu interesariuszy, tworząc złożoną sieć zaufania. Zaufanie ma kluczowe znaczenie przy udostępnianiu zasobów cyfrowych, takich jak dane szkoleniowe, dane wnioskowania i modele uczenia maszynowego, różnym podmiotom. Proszę sobie wyobrazić, że istnieje podmiot, który jest właścicielem danych szkoleniowych, podczas gdy inny zestaw podmiotów może być właścicielem danych wnioskowania. Trzeci podmiot zapewnia serwer uczenia maszynowego działający na wnioskowaniu, wykonywanym przez model należący do kogoś innego. Ponadto działa na infrastrukturze z rozległego łańcucha dostaw obejmującego wiele stron. W związku z tym wszystkie podmioty muszą wykazać się wzajemnym zaufaniem w ramach złożonego łańcucha. Zarządzanie tą siecią zaufania staje się coraz trudniejsze.

Przykłady naruszeń bezpieczeństwa

Ponieważ w coraz większym stopniu polegamy na technologiach komunikacyjnych wykorzystujących uczenie maszynowe, szansa na naruszenia danych i nieautoryzowanego dostępu. Hakerzy mogą próbować wykorzystać luki w tych systemach, aby zdobyć dane osobowe, takie jak imię i nazwisko, adres i informacje finansowe, co może skutkować utratą funduszy i kradzieżą tożsamości.

A raport na temat złośliwego wykorzystania sztucznej inteligencji nakreśla trzy obszary obaw o bezpieczeństwo: ekspansję istniejących zagrożeń, nowe metody ataków i zmiany w typowym charakterze zagrożeń. Przykłady złośliwego wykorzystania sztucznej inteligencji obejmują ataki BEC wykorzystujące technologię deepfake, przyczyniając się do taktyki inżynierii społecznej. Cyberataki wspomagane sztuczną inteligencją, zademonstrowane przez DeepLocker firmy IBM, pokazują, w jaki sposób sztuczna inteligencja może wzmocnić ataki ransomware, podejmując decyzje w oparciu o trendy i wzorce. W szczególności firma TaskRabbit doświadczyła cyberataku wspomaganego przez sztuczną inteligencję, w którym botnet wykorzystujący sztuczną inteligencję przeprowadził atak DDoS, prowadząc do naruszenia danych, które dotknęło 3,75 miliona klientów.

Co więcej, zwiększona liczba zakupów online napędza oszustwa związane z kartami typu card-not-present (CNP), w połączeniu z rosnącymi kwestiami związanymi z syntetyczną tożsamością i kradzieżą tożsamości. Przewidywane straty z tego tytułu mogą osiągnąć 200 miliardów dolarów do 2024 roku, przy wzroście wolumenu transakcji o ponad 23%.

Uczenie maszynowe chroniące prywatność

W tym momencie z rozwiązaniem przychodzi uczenie maszynowe z zachowaniem prywatności. Do najskuteczniejszych technik należą uczenie federacyjne, szyfrowanie homomorficzne i prywatność różnicowa. Uczenie federacyjne umożliwia oddzielnym podmiotom wspólne trenowanie modelu bez udostępniania jawnych danych. Z kolei szyfrowanie homomorficzne umożliwia uczenie maszynowe na zaszyfrowanych danych w trakcie całego procesu, a prywatność różnicowa zapewnia, że wyniki obliczeń nie mogą być powiązane z obecnością poszczególnych danych. Techniki te, w połączeniu z zaufanymi środowiskami wykonawczymi, mogą skutecznie sprostać wyzwaniom na styku prywatności i uczenia maszynowego.

Zalety uczenia federacyjnego w zakresie prywatności

Jak widać, klasycznym modelom uczenia maszynowego brakuje wydajności do bezpiecznego wdrażania systemów sztucznej inteligencji i praktyk IoT w porównaniu z technikami uczenia maszynowego chroniącymi prywatność, w szczególności uczeniem federacyjnym. Będąc zdecentralizowaną wersją uczenia maszynowego, FL pomaga uczynić techniki ochrony bezpieczeństwa AI bardziej niezawodnymi. W tradycyjnych metodach wrażliwe dane użytkownika są przesyłane do scentralizowanych serwerów w celu szkolenia, co stwarza liczne obawy dotyczące prywatności, a uczenie federacyjne rozwiązuje ten problem, umożliwiając szkolenie modeli lokalnie na urządzeniach, zapewniając bezpieczeństwo danych użytkownika.

Zwiększona prywatność i bezpieczeństwo danych

Uczenie federacyjne, ze swoim charakterem współpracy, traktuje każde urządzenie IoT na krawędzi jako unikalnego klienta, trenując modele bez przesyłania nieprzetworzonych danych. Gwarantuje to, że podczas procesu uczenia federacyjnego każde urządzenie IoT gromadzi tylko niezbędne informacje dla swojego zadania. Przechowując nieprzetworzone dane na urządzeniu i wysyłając tylko aktualizacje modelu do centralnego serwera, federacyjne uczenie chroni prywatne informacje, minimalizuje ryzyko wycieku danych osobowych i zapewnia bezpieczne operacje.

Większa dokładność i różnorodność danych

Inną ważną kwestią jest to, że scentralizowane dane wykorzystywane do trenowania modelu mogą niedokładnie reprezentować pełne spektrum danych, które model napotka. W przeciwieństwie do tego, trenowanie modeli na zdecentralizowanych danych z różnych źródeł i wystawianie ich na szerszy zakres informacji zwiększa zdolność modelu do uogólniania nowych danych, radzenia sobie z wariacjami i zmniejszania stronniczości.

Większa zdolność adaptacji

Kolejną zaletą federacyjnych modeli uczenia się jest godna uwagi zdolność do adaptacji do nowych sytuacji bez konieczności ponownego szkolenia, co zapewnia dodatkowe bezpieczeństwo i niezawodność. Wykorzystując spostrzeżenia z poprzednich doświadczeń, modele te mogą przewidywać i stosować wiedzę zdobytą w jednej dziedzinie w innej. Na przykład, jeśli model staje się bardziej biegły w przewidywaniu wyników w określonej dziedzinie, może płynnie zastosować tę wiedzę w innej dziedzinie, zwiększając wydajność, zmniejszając koszty i przyspieszając procesy.

Techniki szyfrowania

Aby zwiększyć prywatność w FL, często stosuje się jeszcze bardziej wydajne techniki szyfrowania. Wśród nich są szyfrowanie homomorficzne i bezpieczne obliczenia wielostronne. Metody te zapewniają, że dane pozostają zaszyfrowane i bezpieczne podczas komunikacji i agregacji modeli.

Szyfrowanie homomorficzne umożliwia wykonywanie obliczeń na zaszyfrowanych danych bez odszyfrowywania.

Na przykład, jeśli użytkownik chce przesłać dane na serwer w chmurze, może je zaszyfrować, zamieniając je w szyfrogram, a dopiero potem przesłać. Serwer następnie przetworzy te dane bez ich odszyfrowywania, a następnie użytkownik otrzyma je z powrotem. Następnie użytkownik odszyfrowuje je za pomocą swojego tajnego klucza.

Obliczenia wielostronne (MPC) umożliwiają wielu stronom, z których każda ma swoje prywatne dane, ocenę obliczeń bez ujawniania jakichkolwiek prywatnych danych posiadanych przez każdą ze stron.

Wielostronny protokół obliczeniowy zapewnia zarówno prywatność, jak i dokładność. Prywatne informacje posiadane przez strony nie mogą być wywnioskowane z wykonania protokołu.

Jeśli jakakolwiek strona w grupie zdecyduje się udostępnić informacje lub odstąpi od instrukcji podczas wykonywania protokołu, MPC nie pozwoli jej zmusić innych stron do wygenerowania nieprawidłowego wyniku lub wycieku jakichkolwiek prywatnych informacji.

Uwagi końcowe

Zamiast podsumowania, chciałbym podkreślić znaczenie i pilność przyjęcia zaawansowanych podejść do bezpieczeństwa w ML. Aby uzyskać skuteczne i długoterminowe wyniki w zakresie bezpieczeństwa sztucznej inteligencji, należy skoordynować wysiłki społeczności zajmującej się rozwojem sztucznej inteligencji oraz instytucji prawnych i politycznych. Budowanie zaufania i ustanawianie proaktywnych kanałów współpracy w zakresie opracowywania norm, etyki, standardów i przepisów ma kluczowe znaczenie dla uniknięcia reaktywnych i potencjalnie nieskutecznych reakcji zarówno ze strony sektora technicznego, jak i politycznego.

Chciałbym również zacytować autorów wspomnianego wyżej raportu, którzy proponują następujące zalecenia, aby stawić czoła wyzwaniom związanym z bezpieczeństwem w sztucznej inteligencji:

  1. Decydenci polityczni powinni ściśle współpracować z badaczami technicznymi w celu zbadania, zapobiegania i łagodzenia potencjalnych złośliwych zastosowań sztucznej inteligencji.
  2. Naukowcy i inżynierowie zajmujący się sztuczną inteligencją powinni zdawać sobie sprawę z podwójnego zastosowania swojej pracy, biorąc pod uwagę możliwość niewłaściwego wykorzystania i pozwalając, aby takie rozważania wpłynęły na priorytety i normy badawcze. Powinni również aktywnie współpracować z odpowiednimi interesariuszami, gdy można przewidzieć szkodliwe zastosowania.
  3. Zidentyfikować najlepsze praktyki z dojrzałych obszarów badawczych, takich jak bezpieczeństwo komputerowe, i zastosować je w celu rozwiązania kwestii podwójnego zastosowania w sztucznej inteligencji.
  4. Aktywne działania na rzecz zwiększenia zaangażowania interesariuszy i ekspertów dziedzinowych w dyskusje dotyczące tych wyzwań.

Mamy nadzieję, że ten artykuł zachęci Państwa do samodzielnego zbadania tematu, przyczyniając się do bezpieczniejszego cyfrowego świata.