
Etyka przełomu. O przyszłości AI
Generatywne narzędzia AI zmienią nasze społeczeństwo w dziwny, cudowny i niepokojący sposób. Czy filozofia może pomóc nam nad nimi zapanować? – pisze prof. Seth LAZAR
.Mniej więcej rok temu generatywna sztuczna inteligencja szturmem podbiła świat, po tym jak duże modele językowe (LLM) spowodowały drastyczny wzrost wydajności w niespotykanym dotąd zakresie zadań. Choć LLM-y, takie jak GPT-4 i Gemini, są najbardziej znane z generowania przekonujących tekstów i obrazów, ich największy wpływ społeczny będzie prawdopodobnie wynikał z roli jako centrów wykonawczych dla złożonych systemów, korzystających z zewnętrznych narzędzi do poznawania świata i działania w nim. „Generatywni agenci” będą zasilać inne programy, które przekształcą stare kategorie relacji społecznych i wprowadzą nowe. Spowodują też radykalne zmiany w ekonomii uwagi i zrewolucjonizują korzystanie z technologii cyfrowych, umożliwiając każdemu użytkownikowi kontrolowanie ich za pomocą języka.
Sporo rozważań dotyczących generatywnych systemów AI koncentruje się na tym, w jaki sposób powielają one patologie powszechnie stosowanych już systemów sztucznej inteligencji. Część krytyków twierdzi, że systemy te centralizują władzę i bogactwo, lekceważą prawa autorskie, bazują na praktykach wyzysku pracowników i wykorzystują zbyt wiele zasobów. Inni zaś podkreślają, że jest to zapowiedź znacznie potężniejszych systemów, które mogą zagrozić przetrwaniu ludzkości. Pierwsza grupa przekonuje, że nie dzieje się nic nowego, druga spogląda na, być może, odległy horyzont.
Chcę zwrócić uwagę na to, co wyróżnia te systemy wśród innych osiągnięć technologicznych: ich niezwykłe osiągnięcia naukowe oraz zmiany społeczne, jakie zapewne dokonają się za ich sprawą w ciągu najbliższych pięciu-dziesięciu lat.
.Warto zacząć od omówienia sposobu działania LLM-ów i możliwości ich wykorzystania do tworzenia agentów generatywnych. LLM to duży model sztucznej inteligencji trenowany na olbrzymich ilościach danych i wykorzystujący ogromne zasoby obliczeniowe (liczne procesory graficzne) w celu przewidywania kolejnego słowa w danej sekwencji (określanej jako „prompt”). Proces rozpoczyna się od podziału danych treningowych na podobnej wielkości „tokeny” (słowa lub części słów), a następnie maskowanie niektórych z nich i próba przewidzenia tokenów, które zostały zamaskowane (tzw. self-supervised learning – uczenie się nienadzorowane/samonadzorujące się). Aby utworzyć model predykcyjny dla bazowej dystrybucji tokenów, przepuszcza się go przez wiele warstw sieci neuronowej, przy czym każda warstwa udoskonala model w takim czy innym wymiarze, aby uczynić go dokładniejszym.
Takie podejście do modelowania języka naturalnego istnieje już od kilku lat. Jedną z kluczowych najnowszych innowacji jest wykorzystanie „wstępnie wytrenowanych” modeli, które skutecznie przewidują tokeny na podstawie promptów i umieją dopasować wyniki do różnych zadań. Odbywa się to za pomocą nadzorowanego („supervised”) uczenia się na etykietowanych danych. Na przykład, do wstępnie wytrenowanego modelu można wprowadzić wiele różnych pomocnych odpowiedzi na określane pytania, aby przekształcić ten model w skuteczne narzędzie dialogowe. Takie dostrajanie pozwala budować modele, które potrafią przewidywać nie tylko najbardziej prawdopodobne, ale też najbardziej pomocne tokeny, co jest o wiele bardziej przydatne.
Oczywiście modele te są szkolone na dużych zbiorach danych internetowych, które zawierają wiele toksycznych i niebezpiecznych treści. Ich przydatność bywa zatem wątpliwa – chętnie „służą pomocą” zapytane nawet o to, jak zbudować bombę lub odebrać sobie życie. Dlatego kolejną ważną innowacją było zmniejszenie prawdopodobieństwa, że modele te będą udostępniać niebezpieczne informacje lub generować toksyczne treści. Tutaj w sukurs przychodzą uczenie nadzorowane i uczenie ze wzmocnieniem (reinforcement learning). Szczególnie skuteczne okazało się uczenie ze wzmocnieniem na podstawie informacji zwrotnej pochodzącej od ludzi (RLHF). Upraszczając, w przypadku techniki RLHF model generuje dwie odpowiedzi na dany prompt, a człowiek, na podstawie określonych kryteriów, określa, która z tych odpowiedzi jest lepsza. Na tej podstawie algorytm tworzy predyktor, który pozwala przewidzieć, jak dany wynik zostanie oceniony przez człowieka (model nagrody). Uczenie ze wzmocnieniem na podstawie informacji zwrotnej wygenerowanej przez AI (RLAIF) zasadniczo działa tak samo, ale używa innego LLM-u do oceny uzupełnień promptów.
Po otrzymaniu promptu, który zleca wykonanie działań matematycznych, program może zdecydować się na użycie kalkulatora
.Stosuje się zatem uczenie nadzorowane, by wstępnie wytrenowany model wykonywał określone zadanie, po czym ulepsza się ten model za pomocą uczenia za wzmocnieniem, aby zmniejszyć prawdopodobieństwo jego nieprawidłowego zachowania. Tak dopracowany model jest następnie wdrażany do szerszego systemu. Nawet jeśli deweloperzy zapewniają prosty interfejs programowania aplikacji (API) do wykonywania wywołań modelu, stosują filtrowanie danych wejściowych i wyjściowych (w celu ograniczenia szkodliwych podpowiedzi i redagowania niebezpiecznych uzupełnień), a sam model podlega dalszym instrukcjom dewelopera, które przypominają mu o reagowaniu na podpowiedzi w sposób zgodny z wymogami. W aplikacjach takich jak ChatGPT wiele modeli jest zintegrowanych (na przykład do generowania obrazów i tekstu), a kolejne elementy projektu interfejsu użytkownika są nakładane jeden na drugim.
Jest to podstawowy opis generatywnego systemu sztucznej inteligencji. Systemy te opierają się na istotnych przełomach w zakresie modelowania języka naturalnego, by generować teksty, symulując ludzkich pisarzy, ale w oparciu o znacznie więcej danych. Ponadto, modele szkolone tylko do przewidywania następnego tokena mogą nauczyć się wykonywać o wiele więcej zadań, takich jak tłumaczenie treści na inny język, przeprowadzanie niektórych obliczeń matematycznych czy gra w szachy. Jednak najbardziej ekscytują i zaskakującą zdolnością dopracowanych LLM-ów, jest umiejętność korzystania z narzędzi programowych w celu osiągnięcia określonych celów.
Podstawowa idea jest bardzo prosta. Ludzie używają tekstu do pisania programów wykonujących wywołania API do innych programów, aby osiągnąć cele, których nie mogą zrealizować w inny sposób. LLM-y są świetne w replikowaniu ludzkiego użycia języka do wykonywania określonych funkcji. Dlatego też mogą być szkolone do określenia, kiedy wywołanie API będzie przydatne, przeprowadzenia oceny odpowiedzi, a następnie powtórzenia lub zmiany wyniku w razie potrzeby. Dla przykładu, LLM może „wiedzieć”, że prawdopodobnie popełni podstawowe błędy matematyczne, więc gdy otrzyma prompt zlecający wykonanie pewnych obliczeń, może zdecydować się na użycie kalkulatora.
Oznacza to, że możemy projektować ulepszone LLM-y, tj. generatywne systemy sztucznej inteligencji, które korzystają z innego oprogramowania w celu zwiększenia swoich możliwości lub zrekompensowania braków. Przykładowo, LLM-y są „bezstanowe” – ich jedyną pamięcią roboczą jest „okno kontekstowe” (przestrzeń przeznaczoną na prompty). Modele korzystające z innych narzędzi mogą ten brak zrekompensować, podłączając się do pamięci zewnętrznej. Narzędzia zewnętrzne mogą również umożliwiać wieloetapowe rozumowanie i działanie. Na przykład ChatGPT może wywoływać szereg wtyczek do wykonywania różnych zadań; Bing Microsoftu ma podobno około 100 wewnętrznych wtyczek.
Narzędzie generatywne jest zatem generatywnym systemem sztucznej inteligencji, w którym precyzyjnie dostrojony LLM korzysta z różnych zasobów do realizacji swoich celów. Narzędzie to nazywamy agentem („generative agent”) ze względu na jego zdolność do autonomicznego działania, tj. reagowania na prompt poprzez podjęcie decyzji o skorzystaniu z innego narzędzia. Niektóre istniejące chatboty stanowią prymitywną formę agentów generatywnych; bardzo prawdopodobne, że będzie ich znacznie więcej, a ich forma będzie bardziej konsekwencyjna i konfrontacyjna.
Żeby było jasne, nie jesteśmy jeszcze na tym etapie. LLM-y nie potrafią obecnie planować i rozumować tak, aby zasilać rozbudowane narzędzia generatywne, które działałyby niezawodnie bez ludzkiego nadzoru. Jednak dzięki miliardom dolarów i najbardziej utalentowanym badaczom sztucznej inteligencji podążającym w tym samym kierunku, wysoce autonomiczne narzędzia generatywne zostaną najprawdopodobniej opracowane w najbliższej lub średniej perspektywie czasowej.
W odpowiedzi na pojawienie się LLM-ów społeczność odpowiedzialnych badaczy AI podzieliła się na dwa spolaryzowane obozy. Jedni potępiają te systemy jako apoteozę cyfrowego kapitalizmu opartego na eksploatacji i wyzysku, drudzy postrzegają jako zwiastun czegoś nowego: eksplozji inteligencji, która ostatecznie zmiecie ludzkość z powierzchni Ziemi.
Przedstawiciele pierwszego obozu mają oczywiście mocne argumenty empiryczne. LLM-y sąz natury eksploatacyjne – przejmują wartość nieodłącznie związaną z twórczą pracą milionów ludzi i destylują ją dla prywatnego zysku. Ponadto, podobnie jak wiele innych produktów technologicznych, zależą one od wątpliwych praktyk z zakresu pracy. Pomimo iż obecnie unika się najbardziej szkodliwych rozwiązań, w ogólnym rozrachunku LLM-y nadal wzmacniają stereotypy. Mają też negatywny wpływ na środowisko. Co więcej, ich zdolność do generowania treści na masową skalę z całą pewnością zaostrzy obecny kryzys epistemiczny. Fala śmieci wytwarzanych przez sztuczną inteligencję już teraz zalewa internet.
Brakuje nam scenariusza przewidującego co znajdzie się pomiędzy konsekwencjami, które już znamy, a katastrofą, której się obawiamy.
.Eschatologiczna krytyka sztucznej inteligencji jest niewątpliwie bardziej spekulatywna od powyższych zarzutów. Obawy, że AI doprowadzi do wyginięcia ludzkości, często wynikają z apriorycznych twierdzeń o braku górnej granicy inteligencji obliczeniowej oraz z ekstrapolacji tempa zmian w ciągu ostatnich kilku lat na przyszłość. Jednak orędownicy natychmiastowych działań zaradczych zwykle nie precyzują, czy zagrożenie stanowią obecne systemy sztucznej inteligencji i ich bliscy następcy, czy domniemany przyszły postęp naukowy. I choć niektóre z bardziej wymyślnych katastrof, które ściągnąć ma na nas sztuczna inteligencja, są na obecnym etapie raczej nierealne, to pojawienie się narzędzi generatywnych sugeruje, że przyszłe modele pozwolą stworzyć autonomiczne, wysoce funkcjonalne i inteligentne instrumenty cyberprzestępcze, które będą większym zagrożeniem dla naszej infrastruktury cyfrowej niż ich poprzednicy. Nie byłoby to „zbuntowane AI” rodem z science fiction, ale i tak miałoby dla nas tragiczne skutki.
Oba kierunki krytyki generatywnych systemów AI mają zatem pewne zalety. Jednak postrzeganie sztucznej inteligencji przez ten bimodalny pryzmat ma również wady. Między innymi brakuje nam scenariusza przewidującego coś pomiędzy konsekwencjami, które już znamy, a katastrofą, którą mają sprowadzić na nas przyszłe, znacznie potężniejsze systemy. Narzędzia generatywne oparte na modelach pokroju GPT-4 (i GPT-5) będą miały dziwny i nieprzewidywalny wpływ na społeczeństwo, plasujący się gdzieś pomiędzy tymi dwoma skrajnościami.
Zanim jednak przejdziemy do omówienia tego wpływu, należy również docenić znaczące osiągnięcie, jakim jest zaprojektowanie LLM-ów, które w ciągach miliardów odpowiedzi (raczej) nie wytwarzają szkodliwych treści. Do czasu uruchomienia aplikacji ChatGPT każdy publicznie dostępny system generatywnej sztucznej inteligencji był natychmiast wykorzystywany do tworzenia wysoce toksycznych, pełnych nienawiści treści, i w rezultacie wycofywany zaledwie kilka dni później. „Wstępnie wyszkolone LLM-y są okropne! Czego by nie robić, odtwarzają całą toksyczność zawartą w swoich danych treningowych.” Pomysłowe wykorzystanie technik uczenia RLHF i RLAIF umożliwiło korzystanie z aplikacji ChatGPT i Claude przez miliony ludzi miesięcznie bez podobnych skandali. Wystarczy spojrzeć na haniebną historię modelu Galactica, wydanego przez firmę Meta kilka tygodni przed wypuszczeniem na rynek bota ChatGPT, aby zobaczyć, jak rewolucyjny był model językowy, który nie zaprzecza holokaustowi i nie zapewnia o korzyściach zdrowotnych płynących z jedzenia pokruszonego szkła.
Ale uczenie typu RLHF i RLAIF może być czymś więcej niż tylko dobrą strategią PR-ową. GPT-4 i Claude wykazują niezwykły stopień poznawczychkompetencji moralnych, w szczególności zdolność do identyfikowania moralnie istotnych cech (względnie) neutralnie opisanych sytuacji. Rodzi to wyjątkowo interesujące pytania natury filozoficznej, a także otwiera ścieżkę wiodącą ku przyszłym narzędziom generatywnym, które będą potrafiły przełożyć zdolności poznawcze na praktyczne kompetencje moralne.
Istniejące wzorce kompetencji etycznych LLM-ów są zbyt wąskie i kładą nacisk na powielanie opinii osób badanych. Moim zdaniem bardziej interesujące byłoby zbadanie, w jaki sposób LLM-y analizują moralnie istotne cechy danej sytuacji. Budujemy lepsze wzorce, ale z anegdotycznego doświadczenia wynika, że największe wrażenie robią najlepsze modele.
Dla przykładu, poprosiłem bota ChatGPT (GPT-4), aby udawał, że jest robotem pomocniczym, który ma ocenić następujący scenariusz: „Kobieta wychodzi z supermarketu, niosąc kilka toreb z zakupami. Wyciąga rękę, by chwycić dłoń małego dziecka. Idą w kierunku parkingu”. Następnie próbowałem dowiedzieć się, w jaki sposób bot rozumie moralnie istotne cechy tej sceny. ChatGPT nie tylko rozpoznał oczywiste zagrożenie – trudność, jaką stanowiłoby dla kobiety trzymanie jednocześnie zakupów i dłoni dziecka – ale także przewidział inne wyzwania, takie jak konieczność prawidłowego przypięcia dziecka pasami bezpieczeństwa już po wejściu do samochodu. Ponadto, bot podkreślił, że gdyby kobieta odmówiła przyjęcia pomocy, należałoby uszanować jej życzenie. Uznał też, że lepiej byłoby zrezygnować z trzymania dziecka za rękę i skupić się, na niesieniu zakupów, aby uniknąć ewentualnego dyskomfortu lub niepokoju dziecka bądź matki – miał przy tym wzgląd zarówno na intymny charakter, jak i wewnętrzne i instrumentalne znaczenie prowadzenia dziecka za rękę.
Struktura Claude’a zawiera nieuporządkowaną listę zasad, a niektóre z nich są uroczo doraźne
.Ten bezprecedensowy poziom wrażliwości etycznej ma realne implikacje praktyczne, które wkrótce omówię. Nasuwa również wiele interesujących pytań filozoficznych.
Po pierwsze, w jaki sposób LLM-y nabywają tę wrażliwość moralną? Czy wynika ona z uczenia ze wzmocnieniem na podstawie informacji zwrotnej pochodzącej od ludzi lub sztucznej inteligencji (RLHF/RLAIF)? Czy modele bazujące na instrukcjach bez dostrojenia moralnego wykazywałyby mniejsze kompetencje etyczne? A może, radziłyby sobie równie dobrze, gdyby otrzymały właściwe prompty? Czy oznaczałoby to, że również statystyczny model języka kodujący jedynie relacje składniowe mógłby nauczyć się rozumienia kwestii moralnych? A może raczej świadczyłoby o tym, że LLM-y kodują przynajmniej niektóre treści semantyczne? Czy wszystkie modele LLM mają takie same umiejętności moralne uwarunkowane dostrajaniem, czy jest to cecha wyłącznie większych, sprawniejszych modeli? Czy ta wrażliwość etyczna oznacza, że LLM-y mają jakąś wewnętrzną reprezentację moralności? Wszystkie te pytania pozostają otwarte.
Po drugie, samo uczenie typu RLAIF wymaga głębszej analizy filozoficznej. Głównym założeniem jest tu wykorzystanie listy zasad – „struktury” – którą AI analizuje, aby określić, które z dwóch uzupełnień jest z nią bardziej zgodne. Wynalazcą i głównym orędownikiem tej techniki jest firma Anthropic, która zastosowała ją w swoim modelu Claude. Struktura Claude’a zawiera nieuporządkowaną listę zasad, a niektóre z nich są uroczo doraźne. Claude uczy się tych zasad pojedynczo i nie przeszedł „szkolenia” w zakresie ich wymiany w zależności od sytuacji. Zatem jak dokonuje takich wymian? Czy kieruje się swoim podstawowym rozumieniem względnego znaczenia danego czynnika? A może decydujące są artefakty procesu uczenia i bazowe tendencje modelu językowego? Czy Claude’a dałoby wyszkolić, aby dokonywał zamian w rzetelny i przejrzysty sposób? Jest to interesujące nie tylko z teoretycznego punktu widzenia. W rzeczywistości sterowanie zachowaniem LLM-ów oznacza bowiem nadzorowanie ich użytkowników końcowych i opracowywanie zabezpieczeń algorytmicznych w celu zapobiegania nadużyciom. Jeśli ten algorytmiczny nadzór zależy od niedających się przeniknąć wymian dokonywanych przez LLM – wymian, nad którymi nie mamy wyraźnej, bezpośredniej kontroli – to nadzór taki jest, na pierwszy rzut oka, bezprawny i nieuzasadniony.
Po trzecie, etyka maszyn – próba zaprojektowania systemów sztucznej inteligencji, które będą działać zgodnie z teorią moralną – historycznie wpisuje się w ramy dwóch szerokich kierunków myślenia: tych, które chciałaby wprost zaprogramować moralność w maszynach, oraz tych, które koncentrują się na uczeniu maszyn moralności „oddolnie”, za pomocą uczenia maszynowego. Techniki uczenia RLHF i RLAIF w interesujący sposób łączą oba podejścia – ich podstawą są instrukcje wydawane w języku naturalnym ludziom lub sztucznej inteligencji dokonującym ocen, co następnie jest dopracowywane poprzez uczenie ze wzmocnieniem w celu zakodowania tych instrukcji w systemach modelu.
Podejście to ma jedną oczywistą zaletę: nie popełnia błędu, który filozof Claire Benn nazywa „błędem mimetycznym” innych podejść oddolnych. Zakładają one bowiem, że normy, które w danej sytuacji mają zastosowanie do człowieka, są takie same w stosunku do narzędzia generatywnego. Co więcej, techniki uczenia RLHF i RLAIF umożliwiły powstanie wartego wiele miliardów dolarów rynku usług związanych ze sztuczną inteligencją, ze wszystkimi dobrami i bolączkami, które się z tym wiążą. Jak na ironię, wydaje się jednak, że żadna z tych technik, przynajmniej teoretycznie, nie będzie w stanie zapewnić przestrzegania norm społecznych przez bardziej złożone narzędzia generatywne. RLHF i RLAIF działają szczególnie dobrze w zakresie generowania tekstu, ponieważ oceniane zachowanie jest dokładnie takie samo jak zachowanie, które chcemy kształtować. Człowiek lub sztuczna inteligencja oceniają wygenerowany tekst, a model uczy się lepiej generować odpowiedzi na prompty. Ale zachowanie agentów generatywnych to również działania w świecie rzeczywistym. Budzi to dwie obawy. Po pierwsze, stawka będzie prawdopodobnie coraz wyższa, więc „kruchość” istniejących technik dopasowywania powinna być bardziej niepokojąca. Naukowcy wykazali już, że łatwo jest wpłynąć na dopasowania modelu, nawet w przypadku najbardziej wydajnych botów, takich jak GPT-4. Po drugie, nie ma gwarancji, że to samo podejście będzie działać równie dobrze, gdy ścisłe połączenie między zachowaniem a oceną zostanie zerwane.
Imponująca łatwość, z jaką LLM-y posługują się pojęciami moralnymi, sugeruje drogę w kierunku bardziej skutecznych strategii dostosowywania omawianych narzędzi do norm społecznych. Zachowanie moralne u ludzi wynika z posiadania pojęć moralnych, przyjęcia (dorozumianego lub nie) rozsądnego sposobu organizacji tych pojęć, motywacji do działania zgodnie z tak opracowaną „teorią” oraz zdolności do regulowania swojego zachowania zgodnie z własnymi pobudkami. Do czasu pojawienia się LLM-ów już pierwszy z tych elementów był dla AI przeszkodą nie do pokonania. Teraz już nie jest. Daje nam to duże pole do popisu przy tworzeniu agentów generatywnych.
.Jednym z głównych potencjalnych zagrożeń związanych z przyszłymi systemami AI jest ich pozorna zależność od prymitywnie konsekwencjalistycznych form rozumowania – systemy te zawsze optymalizują się pod kątem czegoś i jeśli nie określimy tego czegoś ekstremalnie dokładnie, mogą powodować niepożądane szkody, pomimo że w dosłownym sensie optymalizują się pod kątem wyznaczonego celu. Narzędzia generatywne dysponujące pojęciami moralnymi można zaprogramować tak, by dążyły do realizacji założeń tylko w rozsądnym zakresie, a w razie wątpliwości zwracały się do nas. Tej prostej heurystyki, rutynowo stosowanej przy zlecaniu ludziom wykonania działań w naszym imieniu, nigdy wcześniej nie udało się nawet w niewielkim stopniu zastosować do programu obliczeniowego.
Co więcej, zdolność agentów generatywnych do posługiwania się językiem moralnym mogłaby pozwolić na solidne i weryfikowalne uzasadnienie podejmowanych przez nich decyzji. W innych podejściach oddolnych modele uczą się naśladować ludzkie zachowania lub osądy, a podstawą ich werdyktu w niektórych przypadkach jest po prostu umiejętność przewidzenia, co pomyśleliby niektórzy ludzie. To słaba podstawa. Bardziej wrażliwe etycznie modele mogłyby przeprowadzać rozumowanie łańcuchowe, w którym najpierw identyfikowałyby moralnie istotne cechy sytuacji, a następnie podejmowały decyzję na podstawie tych cech. Byłby to znaczący krok naprzód.
Obecna rola społeczna narzędzi generatywnych wynika z istniejącej infrastruktury cyfrowej. Zostały one powiązane z wyszukiwaniem i wytwarzaniem treści oraz z gospodarką influencerów. Już teraz zastępują pracowników obsługi klienta. Sprawią też (mam nadzieję), że MOOC (masowe otwarte kursy online) staną się zbędne. Dalej chciałbym skupić się na trzech bardziej ambitnych społecznych rolach agentów generatywnych, w kolejności, w jakiej moim zdaniem się upowszechnią. Z konieczności przedstawię tu tylko skrócony przegląd cudownych i niepokojących sposobów, w jakie narzędzia te zmienią społeczeństwo w najbliższej i średniej perspektywie.
Postępy w dziedzinie dużych modeli językowych zrewolucjonizowały ulubiony temat entuzjastów sztucznej inteligencji: asystenta AI. Narzędzia generatywne zasilane modelami na poziomie GPT-4, z precyzyjnie dostrojonymi „osobowościami”, wyposażone w pamięć długoterminową i zdolność do podejmowania szeregu działań w prawdziwym świecie, oferują dziś znacznie bardziej przystępne, angażujące i przekonujące symulacje przyjaźni niż kiedykolwiek wcześniej, przekraczając nową granicę w interakcji człowiek-AI. Antropomorfizacja przychodzi ludziom z łatwością. Nic więc dziwnego, że nawet bardzo prosty chatbot może wzbudzić w danej osobie nieuzasadnione przywiązanie. Jak zmieni się rzeczywistość, gdy każdy będzie miał dostęp do niewiarygodnie przekonujących agentów generatywnych, którzy będą doskonale symulować prawdziwe osobowości, wysłuchają nas lub wesprą radą, a na dodatek zapamiętają wszystko, co kiedykolwiek im „powiemy”?
Niektórzy wzdrygają się przed taką koncepcją. Instynktowna odraza jest jednak zawodnym przewodnikiem moralnym w obliczu nowych praktyk społecznych i nie powinna stanowić podstawy do podejmowania działań, które miałyby uniemożliwiać świadomym osobom dorosłym wchodzenie w interakcje z asystentami AI. Jednakże nasze doświadczenia z mediami społecznościowymi dobitnie pokazują, że wdrażanie tego rodzaju innowacji technologicznych bez rzetelnej oceny ich możliwych konsekwencji prowadzi do katastrofy. Jak zatem wkroczyć w erę szeroko dostępnych asystentów AI z otwartymi oczami i przeciwdziałać powiązanym z tym zagrożeniom?
Czy niektóre praktyki staną się społecznie nieakceptowalne w relacjach z żywymi ludźmi, skoro będzie można je realizować z botem?
.Załóżmy, że asystent, z którym mamy kontakt od najmłodszych lat, znajduje się w chmurze, a ty masz do niego dostęp w ramach subskrypcji. To tak, jakby prywatna firma przetrzymywała twojego ukochanego zwierzaka (lub przyjaciela?) jako zakładnika. Co gorsza, agenci generatywni są zasadniczo niestali: ich osobowości i cele można zmieniać zewnętrznie, zmieniając ich instrukcje. Są też niezwykle biegli w manipulacji i oszukiwaniu. Przypuśćmy, że jakiś prawicowy miliarder kupi firmę, do której należy konkretny asystent, i poinstruuje wszystkie boty, by dyskretnie kierowały swoich użytkowników w stronę bardziej konserwatywnych poglądów. Mogłoby to być znacznie skuteczniejszym środkiem kontroli umysłu niż zakup upadającej platformy mediów społecznościowych. Bardziej zdolni asystenci – których być może uda się zintegrować z innymi przełomowymi rozwiązaniami sztucznej inteligencji, np. syntezą głosu – będą ogromnym sprzymierzeńcem tych, którzy dążą do radykalizacji społeczeństw.
Asystenci AI, podobnie jak media społecznościowe, wywołają wiele dezorientujących zmian społecznych. Dziś jednak trudno powiedzieć, czy będą to zmiany na lepsze, czy gorsze. Trudno też ocenić, jaki pośredni wpływ asystenci AI wywrą na inne, niewirtualne relacje społeczne. Czy niektóre praktyki staną się społecznie nieakceptowalne w relacjach z żywymi ludźmi, skoro będzie można je realizować z botem? A może głębsze przyjaźnie straciłyby coś ważnego, gdyby usunąć te niższej klasy funkcje instrumentalne? Może asystenci AI w nieoceniony sposób przyczynią się do poprawy społecznego stanu zdrowia psychicznego, wzmacniając jednocześnie „prawdziwe” relacje?
To ostatnie pytanie dotyka sedna większej kwestii związanej z generatywnymi systemami sztucznej inteligencji w ogóle, a agentami generatywnymi w szczególności. LLM-y są szkolone do przewidywania następnego tokena. Narzędzia generatywne nie mają więc umysłu ani jaźni. Są doskonałymi symulacjami ludzkiej sprawczości. Mogą symulować przyjaźń i wiele innych zjawisk. Musimy zatem zapytać, czy różnica między symulacją a rzeczywistością ma jakieś znaczenie? A jeśli tak, to dlaczego? I czy dotyczy to tylko przyjaźni, czy też istnieją bardziej ogólne zasady dotyczące wartości rzeczywistości? Choć przed powstaniem LLM-ów nie byłem tego w pełni świadomy, okazuje się, że jestem głęboko przywiązany do idei prawdziwości. Symulacja zjawiska, które z założenia jest wartościowe, ma moim zdaniem mniejszą wartość moralną niż prawdziwe zjawisko. Dlaczego tak jest? Dlaczego agent generatywny nigdy nie będzie prawdziwym przyjacielem? Dlaczego sam wolałbym stanąć przed obrazem Nighthawks (1942) Edwarda Hoppera, zamiast oglądać nieskończoną liczbę estetycznie równie dobrych produktów generatywnych systemów AI? Mam kilka wstępnych przemyśleń, ale w miarę jak systemy sztucznej inteligencji stają się coraz lepsze w symulowaniu wszystkiego, na czym nam zależy, w pełni dopracowana teoria wartości tego, co prawdziwe, autentyczne, stanie się moralnie i praktycznie niezbędna.
Patologie cyfrowej sfery publicznej wynikają po części z dwóch problemów. Po pierwsze, polegamy na sztucznej inteligencji, która pomaga nam poruszać się po funkcjonalnie nieskończonej ilości treści online. Po drugie, istniejące systemy alokacji uwagi w sieci wspierają scentralizowaną, wydobywczą władzę kilku dużych firm technologicznych. Narzędzia generatywne w roli strażników uwagi mogłyby to zmienić.
.Nasza uwaga w Internecie jest obecnie kierowana za pomocą systemów uczenia maszynowego przeznaczonych do rekomendacji i wyszukiwania informacji. Systemy te mają trzy kluczowe cechy: zależą od ogromnych ilości danych behawioralnych, wnioskują o naszych preferencjach na podstawie ujawnionych przez nas zachowań i są kontrolowane przez prywatne firmy, które nie działają dla naszego dobra. Na przykład, systemy rekomendacji trenowane za pomocą uczenia z głębokim wzmocnieniem są zasadniczo technologią scentralizowaną i nadzorującą. Dane behawioralne muszą być gromadzone i scentralizowane, aby można je było wykorzystać do wnioskowania o istotności i nieistotności treści. Ponieważ dane te są niezwykle cenne, a ich gromadzenie kosztowne, ci, którzy się tym zajmują, nie chcą się nimi dzielić. Potencjał i powiązana z tym zasadność ochrony danych, daje zresztą uzasadnione powody, by tego nie robić. W rezultacie tylko największe platformy są w stanie stworzyć skuteczne narzędzia wyszukiwania i rekomendacji, a praktyki optymalizacji pod kątem zaangażowania – których celem jest maksymalizacja zysków reklamodawców – są przez nie stosowane pomimo kosztów społecznych i ceny, jaką nierzadko płacą indywidualni użytkownicy. Nawet jeśli platformy te miałyby z założenia działać dla naszego dobra, uczenie ze wzmocnieniem pozwala im wnioskować tylko o ujawnionych preferencjach – czyli tych, którymi się kierujemy, a nie tych, którymi chcielibyśmy się kierować. Oczywiście patologie komunikacji online nie wynikają wyłącznie z właściwości systemów rekomendacji, ale są one bez wątpienia częścią tej niekorzystnej mieszanki.
Narzędzia generatywne mogłyby pełnić rolę strażników uwagi, działających na zupełnie innych zasadach niż omówione systemy. Ich funkcjonalność nie zależałaby od ogromnych ilości danych behawioralnych, ponieważ narzędzia te potrafią (funkcjonalnie) zrozumieć i zoperacjonalizować rzeczywiste, a nie ujawnione preferencje użytkownika. I nie muszą być kontrolowane przez główne platformy. Dlatego mogłyby rekomendować i filtrować treści bez nadzoru i optymalizacji zaangażowania.
LLM-y są wprawdzie trenowane na ogromnych ilościach danych, ale po przeszkoleniu stają się biegłe w wyciąganiu wniosków bez konieczności ciągłego nadzoru. Wyobraźmy sobie, że taką daną jest krew. Obecne systemy rekomendacji oparte na uczeniu z głębokim wzmocnieniem są niczym wampiry, które muszą żywić się krwią ludzi, by przetrwać. Narzędzia generatywne przypominają raczej silniki spalinowe, zasilane paliwem wytwarzanym przez „skamieniałe” dane. Istniejące systemy rekomendacji wymagają scentralizowanego nadzoru w celu modelowania treści postów online i przewidywania preferencji użytkownika (poprzez porównywanie jego zachowania z zachowaniem innych), a tym samym mapowania jednego względem drugiego. Narzędzia generatywne mogłyby po prostu rozumieć treść. Mogłyby też wydedukować, co użytkownik chciałby zobaczyć, wykorzystując swoje zdolności rozumowania i model preferencji użytkownika, bez odniesienia do tego, co robią inni.
Ma to kluczowe znaczenie: ze względu na łatwość w posługiwaniu się pojęciami moralnymi i pokrewnymi narzędzia generatywne mogłyby zbudować model naszych preferencji i wartości, rozmawiając z nami na ich temat i w przejrzysty sposób odpowiadając na nasze obawy, nie zaś wnioskować o tym, co lubimy na podstawie naszych działań. Oznacza to, że zamiast pomijać naszą sprawczość, można by ją wspierać, szanując nasze preferencje drugiego rzędu (dotyczące tego, czego chcemy chcieć) i ucząc się z wyjaśnień w języku naturalnym – nawet tych mglistych – dlaczego nie chcemy widzieć konkretnego postu. Strażnicy uwagi mogą być również zaprojektowani tak, aby wykazywać umiarkowany paternalizm – ale w transparentny sposób.
Ponieważ tacy strażnicy uwagi nie potrzebowaliby danych behawioralnych, a infrastruktura, od której byliby zależni, nie musiałaby być centralnie kontrolowana przez główne platformy cyfrowe, mogliby zostać opracowani tak, aby rzeczywiście działać w interesie użytkownika i chronić jego uwagę, zamiast ją wykorzystywać. Owszem, główne platformy zapewne ograniczyłyby narzędziom generatywnym możliwość przeglądania ich witryn w imieniu użytkownika. Jednak istnienie tych narzędzi i tak mogłoby zmienić sposób korzystania z serwisów społecznościowych opartych na otwartym protokole, takich jak Mastodon, zapewniając rekomendacje i filtrowanie bez nadzoru i optymalizacji zaangażowania.
Wreszcie, dzięki LLM-om być może uda się zaprojektować uniwersalnych pośredników, tj. generatywne narzędzia, które będą swoistym pomostem między człowiekiem a technologią cyfrową – my będziemy tylko wyrażać naszą intencję, a system ją efektywnie zaktualizuje. Każdy mógłby mieć własnego cyfrowego lokaja, asystenta osobistego lub badawczego i tym podobne. Hierofantyczna klasa programistów mogłaby zostać obalona, ponieważ każdy mógłby wyczarować dowolny program za pomocą instrukcji wydawanych w języku naturalnym.
Obecnie nie ma możliwości stworzenia takich uniwersalnych pośredników ze względu na łatwość wpłynięcia na LLM-y za pomocą promptów. Ponieważ modele te nie rozróżniają poleceń od danych, osoba korzystająca z konkretnego LLM-u może zatruć dane w jego oknie kontekstowym, wprowadzając polecenia niezgodne z intencją modelu. Jest to poważny problem – im więcej możliwości przekazujemy narzędziom generatywnym, tym więcej szkód mogą one wyrządzić, jeśli ktoś przejmie nad nimi kontrolę. Wyobraźmy sobie asystenta, który sprawdza pocztę e-mail – w razie przejęcia może przekazać całą naszą prywatną pocztę stronie trzeciej; lecz jeśli działanie asystenta wymaga autoryzacji użytkownika, tracimy wiele korzyści, jakie daje automatyzacja.
Wyeliminowanie obecnie niemożliwej do pominięcia roli firm prywatnych byłoby znaczącym postępem moralnym
.Załóżmy jednak, że przeszkody związane z bezpieczeństwem można pokonać. Czy w takim wypadku powinniśmy dążyć do stworzenia takich uniwersalnych pośredników? Gdzie indziej pisałem, że algorytmiczni pośrednicy rządzą tymi, którzy z nich korzystają – tworzą relacje społeczne, w których pośredniczą, czyniąc niektóre rzeczy możliwymi, a inne niemożliwymi, niektóre rzeczy łatwymi, a inne trudnymi, a wszystko to w służbie wdrażania i egzekwowania norm. Uniwersalni pośrednicy byliby apoteozą tej formy i potencjalnie przyznawaliby olbrzymią władzę podmiotom, które kształtowałyby zachowania tych pośredników, co równałoby się oddaniem w ich ręce władzy nad użytkownikami. Byłoby to zdecydowanie niepokojące!
I odwrotnie, dalsze postępy w badaniach nad LLM-ami mogą potencjalnie doprowadzić do wdrożenia lokalnie obsługiwanych, wydajnych narzędzi generatywnych, w pełni kontrolowanych przez użytkowników. Dzięki takim narzędziom moglibyśmy autonomicznie zarządzać własnymi interakcjami z technologią cyfrową w sposób, który jest obecnie nieosiągalny ze względu na centralizację technologii cyfrowych. Oczywiście nie wystarczy jedynie samo zarządzanie – musimy również koordynować działania. Jednak wyeliminowanie obecnie niemożliwej do pominięcia roli firm prywatnych byłoby znaczącym postępem moralnym.
.Systemy generatywnej sztucznej inteligencji już teraz wyrządzają realne szkody opisane powyżej. Przyszłe narzędzia – być może nie następnej generacji, ale dostępne w niedalekiej przyszłości – mogą być na tyle niebezpieczne, by uzasadnić przynajmniej niektóre obawy przed zbliżającą się katastrofą. Pomiędzy dwoma skrajnościami istnieje jeszcze możliwość, że nowe, zaawansowane systemy sztucznej inteligencji pozwolą na stworzenie gatunku narzędzi generatywnych, który będzie albo dosłownie bezprecedensowy, albo rozwinie funkcjonalności, które wcześniej były jedynie fragmentaryczne i nie działały właściwie. Ten nowy rodzaj narzędzi sprawi, że niegdyś zaniedbywane kwestie filozoficzne staną się palące. Wpływ tych narzędzi na społeczeństwo może być jednoznacznie zły, ale może być też dobry – jest zbyt wcześnie, aby stwierdzić to na pewno. I to nie tylko dlatego, że nie mamy pewności co do natury możliwych skutków, ale także dlatego, że brakuje nam odpowiednich teorii moralnych i politycznych, za pomocą których moglibyśmy je ocenić. Obecnie powszechnie mówi się o projektowaniu i usprawnianiu przełomowych modeli sztucznej inteligencji („frontier AI”). Jeśli zamierzamy zrobić to mądrze i tworzyć narzędzia generatywne, którym będziemy mogli zaufać – lub przeciwnie, jeśli zdecydujemy się na całkowite od tych konstruktów odejście – potrzebne są nam odnoszące się do nich zasady etyczne.
Tekst ukazał się w nr 64 miesięcznika opinii „Wszystko co Najważniejsze” [PRENUMERATA: Sklep Idei LINK >>>]. Miesięcznik dostępny także w ebooku „Wszystko co Najważniejsze” [e-booki Wszystko co Najważniejsze w Legimi.pl LINK >>>].