Budowanie etycznej sztucznej inteligencji zaczyna się od zespołu ds. danych, oto dlaczego

Jeśli chodzi o wyścig technologiczny, szybkie tempo zawsze było cechą charakterystyczną przyszłego sukcesu.

Niestety, zbyt szybkie tempo oznacza również ryzyko przeoczenia zagrożeń czekających na skrzydłach.

To historia stara jak świat. W jednej chwili sekwencjonujesz geny prehistorycznych komarów, a w następnej otwierasz park rozrywki dla dinozaurów i projektujesz pierwszy na świecie nieudany hyperloop (ale z pewnością nie ostatni).

Jeśli chodzi o GenAI, życie naśladuje sztukę.

Bez względu na to, jak bardzo chcielibyśmy uważać sztuczną inteligencję za znaną ilość, trudna rzeczywistość jest taka, że nawet twórcy tej technologii nie są do końca pewni, jak ona działa.

Po wielu głośnych wpadkach związanych ze sztuczną inteligencją, takich jak United Healthcare, Google, a nawet Kanadyjskie sądy, nadszedł czas, aby zastanowić się, gdzie popełniliśmy błąd.

Teraz, żeby było jasne, wierzę, że GenAI (i szerzej sztuczna inteligencja) będzie ostatecznie będą miały kluczowe znaczenie dla każdej branży – od przyspieszenia procesów inżynieryjnych po udzielanie odpowiedzi na najczęściej zadawane pytania. Aby jednak zdać sobie sprawę z potencjalnej wartości sztucznej inteligencji, musimy najpierw zacząć krytycznie myśleć o jak tworzymy aplikacje AI – i jaką rolę odgrywają w tym zespoły ds. danych.

W tym poście przyjrzymy się trzem kwestiom etycznym związanym ze sztuczną inteligencją, w jaki sposób zaangażowane są zespoły danych i co Państwo jako liderzy danych mogą zrobić już dziś, aby zapewnić bardziej etyczną i niezawodną sztuczną inteligencję w przyszłości.

Trzy warstwy etyki sztucznej inteligencji

Kiedy rozmawiałem z moim kolegą Shane’em Murrayem, byłym wiceprezesem ds. danych i analiz w New York Times, podzielił się on jednym z pierwszych przypadków, w których stanął przed prawdziwym dylematem etycznym. Podczas opracowywania modelu ML dla zachęt finansowych w New York Times, poruszono dyskusję na temat etycznych implikacji modelu uczenia maszynowego, który mógłby określać rabaty.

Na pierwszy rzut oka model ML dla kodów rabatowych wydawał się całkiem niewinną prośbą. Ale jakkolwiek niewinne mogło się wydawać zautomatyzowanie kilku kodów rabatowych, akt usunięcia ludzkiej empatii z tego problemu biznesowego stworzył wszelkiego rodzaju etyczne rozważania dla zespołu.

Wyścig w kierunku automatyzacji prostych, ale tradycyjnie ludzkich czynności wydaje się być wyłącznie pragmatyczną decyzją – prostym wyborem między poprawą wydajności a jej brakiem. Jednak w momencie, gdy usuwają Państwo ludzki osąd z jakiegokolwiek równania, niezależnie od tego, czy zaangażowana jest sztuczna inteligencja, czy nie, tracą Państwo również możliwość bezpośredniego zarządzania ludzkim wpływem tego procesu.

To prawdziwy problem.

Etyczna sztuczna inteligencja Park Jurajski meme — *Zdjęcie autora.*

Jeśli chodzi o rozwój sztucznej inteligencji, istnieją trzy podstawowe kwestie etyczne:

1. Stronniczość modelu

Jest to sedno naszej dyskusji w New York Times. Czy sam model będzie miał jakieś niezamierzone konsekwencje, które mogą być korzystne lub niekorzystne dla jednej osoby?

Wyzwaniem jest tutaj zaprojektowanie GenAI w taki sposób, aby – przy wszystkich innych względach równych – konsekwentnie zapewniał uczciwe i bezstronne wyniki dla każdej interakcji.

2. Wykorzystanie AI

Prawdopodobnie najbardziej egzystencjalnym – i interesującym – z etycznych rozważań dotyczących sztucznej inteligencji jest zrozumienie w jaki sposób technologia ta będzie wykorzystywana i jakie mogą być konsekwencje tego przypadku użycia dla firmy lub społeczeństwa w szerszym ujęciu.

Czy ta sztuczna inteligencja została zaprojektowana w celach etycznych? Czy jej wykorzystanie bezpośrednio lub pośrednio zaszkodzi jakiejkolwiek osobie lub grupie osób? I ostatecznie, czy ten model zapewni dobro netto w dłuższej perspektywie?

Jak to zostało przejmująco zdefiniowane przez dr Iana Malcolma w pierwszym akcie Parku Jurajskiego, tylko dlatego, że możesz coś zbudować, nie oznacza, że powinieneś.

3. Odpowiedzialność za dane

I wreszcie, najważniejsza kwestia dla zespołów zajmujących się danymi (a także miejsce, w którym spędzę większość czasu w tym artykule): w jaki sposób same dane wpływają na zdolność sztucznej inteligencji do budowania i wykorzystywania w sposób odpowiedzialny?

Ta kwestia dotyczy zrozumienia, jakich danych używamy, w jakich okolicznościach można je bezpiecznie wykorzystywać i jakie ryzyko jest z nimi związane.

Na przykład, czy wiemy skąd pochodzą dane i w jaki sposób zostały pozyskane? Czy istnieją jakiekolwiek kwestie prywatności związane z danymi zasilającymi dany model? Czy wykorzystujemy jakiekolwiek dane osobowe, które narażają osoby fizyczne na nadmierne ryzyko szkody?

Czy bezpiecznie jest opierać się na zamkniętym modelu LLM, gdy nie wiadomo, na jakich danych został on przeszkolony?

I, jak podkreślono w pozew złożony przez New York Times przeciwko OpenAI-Czy w ogóle mamy prawo do korzystania z tych danych?

Jest to również miejsce, w którym jakość naszych danych. Czy możemy ufać wiarygodności danych, które zasilają dany model? Jakie są potencjalne konsekwencje problemów z jakością, jeśli zostaną one dopuszczone do produkcji AI?

Teraz, gdy spojrzeliśmy na niektóre z tych etycznych obaw z perspektywy 30 000 stóp, zastanówmy się nad odpowiedzialnością zespołu ds. danych w tym wszystkim.

Dlaczego zespoły ds. danych są odpowiedzialne za etykę AI?

Spośród wszystkich kwestii etycznych związanych ze sztuczną inteligencją przylegających do zespołów zajmujących się danymi, zdecydowanie najistotniejsza jest kwestia odpowiedzialność za dane.

W ten sam sposób, w jaki RODO zmusiło zespoły biznesowe i zespoły ds. danych do współpracy w celu ponownego przemyślenia sposobu gromadzenia i wykorzystywania danych, GenAI zmusi firmy do ponownego przemyślenia, jakie przepływy pracy mogą – i nie mogą – zostać zautomatyzowane.

Podczas gdy my, jako zespoły zajmujące się danymi, jesteśmy absolutnie odpowiedzialni za próbę zabrania głosu w budowie dowolnego modelu sztucznej inteligencji, nie możemy bezpośrednio wpływać na wynik jego projektu. Jednak utrzymując niewłaściwe dane z dala od tego modelu, możemy przejść długą drogę w kierunku złagodzenia ryzyka stwarzanego przez te wady projektowe.

A jeśli sam model jest poza naszym zasięgiem kontroli, egzystencjalne pytania dotyczące czy oraz powinien są na zupełnie innej planecie. Ponownie, mamy obowiązek wskazywać pułapki tam, gdzie je widzimy, ale pod koniec dnia rakieta wystartuje, niezależnie od tego, czy wejdziemy na jej pokład, czy nie.

Najważniejszą rzeczą, jaką możemy zrobić, jest upewnienie się, że rakieta wystartuje bezpiecznie. (Albo ukraść kadłub).

Tak więc – podobnie jak we wszystkich obszarach życia inżyniera danych – tam, gdzie chcemy poświęcić nasz czas i wysiłek, możemy mieć największy bezpośredni wpływ na jak największą liczbę osób. A ta możliwość tkwi w samych danych.

Dlaczego odpowiedzialność za dane powinna mieć znaczenie dla zespołu ds. danych?

Wydaje się to zbyt oczywiste, aby o tym mówić, ale i tak to powiem:

Zespoły ds. danych muszą wziąć odpowiedzialność za to, w jaki sposób dane są wykorzystywane w modelach sztucznej inteligencji, ponieważ, szczerze mówiąc, są jedynym zespołem, który może to zrobić. Oczywiście istnieją zespoły ds. zgodności, zespoły ds. bezpieczeństwa, a nawet zespoły prawne, które będą na haku, gdy etyka zostanie zignorowana. Ale bez względu na to, jak bardzo można podzielić się odpowiedzialnością, pod koniec dnia zespoły te nigdy nie zrozumieją danych na tym samym poziomie, co zespół ds. danych.

Proszę sobie wyobrazić, że zespół inżynierów oprogramowania tworzy aplikację przy użyciu LLM innej firmy z OpenAI lub Anthropic, ale nie zdając sobie sprawy, że śledzi i przechowuje dane o lokalizacji – oprócz danych, których faktycznie potrzebuje do swojej aplikacji – wykorzystuje całą bazę danych do zasilania modelu. Przy odpowiednich brakach w logice, zły aktor mógłby z łatwością zaprojektować monit, aby wyśledzić dowolną osobę przy użyciu danych przechowywanych w tym zbiorze danych. (To jest właśnie napięcie pomiędzy otwartymi i zamkniętymi modelami LLM).

Albo powiedzmy, że zespół programistów wie o tych danych o lokalizacji, ale nie zdaje sobie sprawy, że dane o lokalizacji mogą być w rzeczywistości przybliżone. Mogliby wykorzystać te dane lokalizacyjne do stworzenia technologii mapowania AI, która nieumyślnie prowadzi 16-latka w ciemną uliczkę w nocy zamiast do Pizza Hut. Oczywiście tego rodzaju błąd nie jest dobrowolny, ale podkreśla niezamierzone ryzyko związane ze sposobem wykorzystania danych.

Te i inne przykłady podkreślają rolę zespołu ds. danych jako strażnika, jeśli chodzi o etyczną sztuczną inteligencję.

Jak więc zespoły ds. danych mogą pozostać etyczne?

W większości przypadków zespoły zajmujące się danymi są przyzwyczajone do radzenia sobie z danymi przybliżonymi i zastępczymi, aby ich modele działały. Ale jeśli chodzi o dane, które zasilają model sztucznej inteligencji, w rzeczywistości potrzebny jest znacznie wyższy poziom walidacji.

Aby skutecznie wypełnić lukę dla konsumentów, zespoły ds. danych będą musiały celowo przyjrzeć się zarówno swoim praktykom w zakresie danych, jak i temu, w jaki sposób praktyki te odnoszą się do całej organizacji.

Zastanawiając się nad tym, jak złagodzić ryzyko związane ze sztuczną inteligencją, poniżej przedstawiamy 3 kroki, które zespoły ds. danych muszą podjąć, aby sztuczna inteligencja stała się bardziej etyczną przyszłością.

1. Proszę usiąść przy stole

Zespoły ds. danych nie są strusiami – nie mogą chować głowy w piasek i mieć nadzieję, że problem zniknie. W ten sam sposób, w jaki zespoły danych walczyły o miejsce przy stole przywódczym, zespoły danych muszą bronić swojego miejsca przy stole AI.

Podobnie jak w przypadku każdego ćwiczenia przeciwpożarowego dotyczącego jakości danych, nie wystarczy wskoczyć do walki, gdy ziemia jest już spalona. Kiedy mamy do czynienia z rodzajem zagrożeń egzystencjalnych, które są tak nieodłącznie związane z GenAI, ważniejsze niż kiedykolwiek jest proaktywne podejście do naszej osobistej odpowiedzialności.

A jeśli nie pozwolą ci usiąść przy stole, masz obowiązek edukować z zewnątrz. Proszę zrobić wszystko, co w Państwa mocy, aby dostarczyć doskonałe rozwiązania w zakresie wykrywania, zarządzania i jakości danych, aby uzbroić zespoły u steru w informacje umożliwiające podejmowanie odpowiedzialnych decyzji dotyczących danych. Proszę nauczyć ich, z czego i kiedy korzystać oraz jakie ryzyko wiąże się z korzystaniem z danych innych firm, których nie można zweryfikować za pomocą wewnętrznych protokołów zespołu.

To nie jest tylko kwestia biznesowa. Jak może potwierdzić United Healthcare i prowincja Kolumbia Brytyjska, w wielu przypadkach chodzi o życie – i środki do życia – prawdziwych ludzi. Upewnijmy się więc, że działamy z tej perspektywy.

2. Proszę wykorzystać metodologie takie jak RAG, aby tworzyć bardziej odpowiedzialne – i wiarygodne – dane.

Często mówimy o retrieval augmented generation (RAG) jako zasobie do tworzenia wartości ze sztucznej inteligencji. Ale jest to również zasób służący do zabezpieczenia sposobu, w jaki ta sztuczna inteligencja zostanie zbudowana i wykorzystana.

Wyobraźmy sobie na przykład, że model uzyskuje dostęp do prywatnych danych klientów w celu zasilenia aplikacji czatu skierowanej do konsumentów. Właściwy monit użytkownika może spowodować wyciek wszelkiego rodzaju krytycznych danych osobowych, które mogą zostać wykorzystane przez złe podmioty. Tak więc możliwość weryfikacji i kontroli, skąd pochodzą te dane, ma kluczowe znaczenie dla ochrony integralności tego produktu AI.

Wiedzące zespoły ds. danych ograniczają wiele z tego ryzyka, wykorzystując metodologie takie jak RAG do starannego doboru zgodnych, bezpieczniejszych i bardziej odpowiednich dla modelu danych.

Podejście RAG do rozwoju sztucznej inteligencji pomaga również zminimalizować ryzyko związane z pozyskiwaniem danych. zbyt wiele danych – jak w naszym przykładzie danych o lokalizacji.

Jak to wygląda w praktyce? Załóżmy, że są Państwo firmą medialną, taką jak Netflix, która musi wykorzystać własne dane dotyczące treści z pewnym poziomem danych klientów, aby stworzyć spersonalizowany model rekomendacji. Po zdefiniowaniu konkretnych – i ograniczonych – punktów danych dla tego przypadku użycia, będą Państwo w stanie skuteczniej zdefiniować:

Kto jest odpowiedzialny za utrzymanie i walidację tych danych,
W jakich okolicznościach dane te mogą być bezpiecznie wykorzystywane,
I kto ostatecznie najlepiej nadaje się do tworzenia i utrzymywania tego produktu AI w czasie.

Narzędzia takie jak data lineage może być również pomocny w tym przypadku, umożliwiając zespołowi szybkie sprawdzenie pochodzenia danych, a także miejsca ich wykorzystania – lub niewłaściwego wykorzystania – w produktach AI zespołu w miarę upływu czasu.

3. Priorytet niezawodności danych

Kiedy mówimy o produktach danych, często mówimy “śmieci na wejściu, śmieci na wyjściu”, ale w przypadku GenAI to powiedzenie jest o włos za krótkie. W rzeczywistości, gdy śmieci trafiają do modelu sztucznej inteligencji, nie są to tylko śmieci, które z niego wychodzą – to śmieci plus prawdziwe ludzkie konsekwencje.

Właśnie dlatego, tak bardzo jak potrzebują Państwo architektury RAG do kontrolowania danych wprowadzanych do Państwa modeli, potrzebują Państwo solidnej obserwowalność danych które łączą się z wektorowymi bazami danych, takimi jak Pinecone aby upewnić się, że dane są rzeczywiście czyste, bezpieczne i wiarygodne.

Jedną z najczęstszych skarg, jakie słyszałem od klientów rozpoczynających pracę ze sztuczną inteligencją, jest to, że dążenie do gotowej do produkcji sztucznej inteligencji polega na tym, że jeśli nie monitorują Państwo aktywnie wprowadzania indeksów do potoku danych wektorowych, prawie niemożliwe jest zweryfikowanie wiarygodności danych.

Najczęściej jedynym sposobem, w jaki inżynierowie danych i sztucznej inteligencji będą wiedzieć, że coś poszło nie tak z danymi, jest to, że model wypluwa złą odpowiedź – a wtedy jest już za późno.

Nie ma lepszego czasu niż teraźniejszość

Potrzeba większej wiarygodności i zaufania do danych jest tym samym wyzwaniem, które zainspirowało nasz zespół do stworzenia kategorii obserwowalności danych w 2019 roku. Dziś, gdy sztuczna inteligencja obiecuje wywrócić do góry nogami wiele procesów i systemów, na których polegamy na co dzień, wyzwania – i co ważniejsze, implikacje etyczne – jakości danych stają się jeszcze bardziej tragiczne.