Superinteligencja.
Scenariusze, strategie, zagrożenia

Nick BOSTROM

Szwedzki filozof, profesor Uniwersytetu Oksfordzkiego, kierownik Instytutu Przyszłości Ludzkości działającego w ramach Oxford Martin School. Autor licznych prac dotyczących transhumanizmu (idei zakładającej wykorzystanie osiągnięć nauki i techniki w celu przezwyciężenia ludzkich ograniczeń). Magazyn „Foreign Policy” umieścił go na liście 100 czołowych myślicieli świata.

zobacz inne teksty Autora

Ludzki mózg to dzieło idealne, najdoskonalszy twór w przyrodzie. Jego dominacją zachwiał komputer Deep Blue, który w 1997 roku pokonał w szachy mistrza świata, Garriego Kasparowa. Od tego czasu sztuczna inteligencja jest na ścieżce intensywnego rozwoju. Czy dominacja superinteligencji nad człowiekiem jest realną perspektywą naszej przyszłości? Czy ta przewaga skończy się kresem naszego gatunku?

Książka Nicka Bostroma jest odważną i oryginalną próbą znalezienia odpowiedzi na te pytania. Możliwe kierunki rozwoju technologii cyfrowej i jego konsekwencje są trudne do przewidzenia, a rozstrzygnięcie związanych z tym kwestii jest prawdziwym intelektualnym wyzwaniem. Niemniej z niektórych szans i zagrożeń powinniśmy wszyscy sobie zdawać sprawę. Nick Bostrom, wybitny badacz sztucznej inteligencji i transhumanizmu, stara się jasno i klarownie przedstawić przyszłe konsekwencje coraz większego udziału maszyn w naszym życiu, opisuje możliwe komplikacje i strategie rozwiązania ewentualnych problemów. Lektura tej książki jest niesamowitą podróżą na krańce istoty człowieczeństwa, wyprawą do przyszłości inteligentnego życia i prawdziwie fascynującym doświadczeniem.

Kluczowe zagadnienia ujęte w książce „Superinteligencja. Scenariusze, strategie, zagrożenia” [LINK] to: dotychczasowe osiągnięcia w dziedzinie sztucznej inteligencji, superinteligencja i jej możliwe ścieżki rozwoju, zagłada ludzkości a rozwój superinteligencji, kontrola nad umysłem człowieka w przyszłości.

Metody kontroli potencjału

.Metody kontroli potencjału mają zapobiec niepożądanym rezultatom poprzez ograniczenie możliwości superinteligencji. Mogą polegać na umieszczeniu superinteligencji w środowisku, w którym nie może ona spowodować szkód (uwięzienie) lub w którym ma ona silne konwergentne powody instrumentalne, by nie podejmować szkodliwych działań (metoda zachęt); mogą również polegać na ograniczeniu wewnętrznych możliwości superinteligencji (upośledzanie). Ponadto metody kontroli potencjału mogą obejmować pozwalające na szybką reakcję mechanizmy automatycznego wykrywania awarii systemu kontroli lub prób wyswobodzenia się spod jego działania (wyzwalacze).

Uwięzienie

.Uwięzienie może mieć charakter fizyczny lub informacyjny.

Fizyczne ograniczenie swobody systemu ma na celu jego uwięzienie w „pudełku”, a więc uniemożliwienie mu kontaktów ze światem zewnętrznym inaczej niż poprzez konkretne, ograniczone kanały komunikacyjne. Uwięziony system nie miałby dostępu do fizycznych manipulatorów znajdujących się poza jego więzieniem. Usunięcie manipulatorów (takich jak robotyczne ramiona) również z wnętrza jego więzienia uniemożliwiłoby systemowi skonstruowanie fizycznych urządzeń, które mogłyby pozwolić mu się wydostać.

W celu zapewnienia dodatkowego bezpieczeństwa system powinien zostać umieszczony w metalowej klatce, która uniemożliwiłaby mu wysyłanie sygnałów radiowych, dzięki czemu mógłby manipulować urządzeniami elektronicznymi takimi jak radioodbiorniki. Zauważmy przy okazji, jak łatwo można byłoby przeoczyć potrzebę zastosowania tego środka bezpieczeństwa. Można by naiwnie przypuszczać, że sprawca niedysponujący urządzeniem wykonawczym nie może wywierać wpływu na świat zewnętrzny. Ale myśląca maszyna może wygenerować fale radiowe nawet wówczas, gdy nie ma dostępu do zewnętrznych urządzeń wykonawczych, po prostu „myśląc” (a więc przesuwając elektrony w swoich obwodach zgodnie z konkretnymi wzorcami)[i]. Uświadomiwszy to sobie, można załatać tę podatność, zamykając system w klatce Faradaya — lecz trudno nie zastanowić się nad tym, ile jeszcze takich podobnie mało rzucających się w oczy podatności może istnieć. Za każdym razem, gdy słyszymy o pozornie nieprzełamywalnych zabezpieczeniach, które okazują się mieć nieoczekiwaną wadę, powinniśmy bacznie nadstawić uszu. Dzięki nim mamy szansę nabrać odrobinę pokory i powziąć postanowienie stania się lepszymi bayesowcami[ii].

Fizyczne uwięzienie ma kilka zalet: łatwo wprowadzić je w życie, łatwo połączyć je z większością innych metod kontroli i można zastosować je w odniesieniu do wielu architektur inteligencji maszynowej, nawet tych, których początkowo nie zaprojektowano z uwzględnieniem kwestii bezpieczeństwa. Wydaje się również mało prawdopodobne, by uwięzienie mogło przynieść skutek odwrotny do zamierzonego. A zatem chociaż ostatecznie uwięzienie może nie zapewnić bezpieczeństwa, nie spowoduje również raczej katastrofy, do której w innych okolicznościach by nie doszło. Główną wadą fizycznego uwięzienia jest to, że ogranicza ono funkcjonalność superinteligencji (do tej kwestii powrócimy w rozdziale 10.). Powstaje również obawa, że uwięzienie może wzbudzić fałszywe poczucie bezpieczeństwa, choć można tego uniknąć, jeśli uznamy fizyczne uwięzienie za kropkę nad i, a nie za istotę naszych środków zapobiegawczych.

Uwięzienie informacyjne ma na celu ograniczenie rodzaju informacji, które mogą opuszczać „więzienie SI”. Zobaczyliśmy już, w jaki sposób superinteligencja mająca dostęp do portu internetowego, za pomocą którego jest w stanie się kontaktować z jednostkami z zewnątrz, może być potencjalnie niebezpieczna — nawet jeśli początkowo nie ma dostępu do fizycznych urządzeń wykonawczych, może wykorzystać kanał umożliwiający jej wysyłanie informacji do tego, by skłonić istoty ludzkie do wykonywania jej poleceń. Oczywistą metodą informacyjnego uwięzienia jest zatem zablokowanie systemowi dostępu do sieci komunikacyjnych.

Odcięcie SI od internetu nie zapewnia jednak bezpieczeństwa, jeśli jakiś człowiek lub większa liczba ludzi pełnią funkcję strażników systemu i komunikują się z nim. W fazie rozwoju rolę strażników odgrywają programiści. W fazie działania tę rolę może odgrywać właściciel systemu. Jeśli SI zdoła przekonać lub nakłonić podstępem strażnika do tego, by wypuścił ją z więzienia, w wyniku czego uzyska ona dostęp albo do internetu, albo bezpośrednio do urządzeń wykonawczych, wówczas strategia uwięzienia zawiedzie. Istoty ludzkie nie są bezpiecznymi systemami, zwłaszcza gdy są zmuszone mierzyć się z superinteligentnym spiskowcem[iii].

.Chociaż przekierowanie komunikatów produkowanych przez inteligentną maszynę na ludzkiego strażnika nie gwarantuje bezpieczeństwa, może pełnić funkcję pomocniczego środka bezpieczeństwa. Istnieją pewne środki zapobiegawcze, które są w stanie ograniczyć ryzyko ucieczki SI przy pomocy strażnika. Można zezwolić SI na komunikowanie się tylko za pośrednictwem wąskiego łącza w rodzaju dalekopisu. Utrudni jej to nieco psychologiczną manipulację strażnikami (wykluczając zastosowanie emocjonalnych dźwięków, obrazów i sztuczek w rodzaju wyświetlania hipnotyzujących wzorów, by wprowadzić ofiarę w trans)[iv]. Idąc dalej, można ograniczyć treść (a nie tylko sposób prezentacji) komunikatów wyjściowych, aby przykładowo odpowiedzi SI na pytania zamknięte tak/nie ograniczyć do przekazania jednego bitu.

Szczególnym przypadkiem uwięzienia byłby superinteligentny system utrzymywany w całkowitej izolacji fizycznej i informacyjnej.

.Jednakże nawet gdyby dało się to osiągnąć, taki wyizolowany system byłby raczej bezużyteczny, gdyż nie miałby żadnego wpływu na świat zewnętrzny. Można być może sądzić, że dla jakichś celów naukowych byłoby użyteczne stworzenie superinteligencji i utrzymywanie jej w izolacji — poprzez badanie samowystarczalnych systemów modelowych bylibyśmy w stanie dowiedzieć się czegoś na temat ich wewnętrznej dynamiki oraz wzorców zachowań. Byłoby to jednak błędem. Gdy tylko system zaczyna być obserwowany, przestaje być izolowany informacyjnie[v]. Informacja może być przekazywana nie tylko za pośrednictwem wiadomości, które SI wysyła poprzez zaprojektowane „kanały wyjściowe”, lecz również za pośrednictwem dowolnej obserwacji poczynionej przez obserwatora, a dotyczącej pośrednich i bezpośrednich przyczyn i skutków działań SI — konsumpcji energii, wykorzystania procesora i pamięci, stanów obliczeniowych, a tak naprawdę również wszelkich śladów jego działania, które pozostały po jego wyłączeniu. SI podejrzewająca, że może być obserwowana na którykolwiek z tych sposobów, może strategicznie skorygować swoje zachowania, których celem jest wywarcie zamierzonego wpływu na hipotetycznego obserwatora. Dla przykładu: SI może „zadziałać wadliwie” w taki sposób, który zwiększy prawdopodobieństwo jej finalnej reaktywacji lub stworzenia kolejnej superinteligencji mającej zbliżone cele.

Metody zachęt

.Metody zachęt polegają na umieszczeniu agenta w środowisku, w którym znajduje on instrumentalne powody do działania w sposób przyczyniający się do realizacji celów jego zwierzchnika.

Wyobraźmy sobie miliardera, który wykorzystuje swoją fortunę do założenia wielkiej fundacji charytatywnej. Po założeniu fundacja może się stać bardzo potężna — potężniejsza niż większość ludzi, włączając w to jej założyciela, który być może przekazał na jej rzecz większą część swojego majątku. Aby objąć fundację kontrolą, założyciel opisuje jej cel w kolejnych paragrafach jej statutu i aktu nadania jej osobowości prawnej oraz mianuje członków zarządu, którzy respektują wyznawane przez niego wartości i stawiają sobie te same co on cele. Środki te stanowią formę doboru motywacji, ponieważ mają na celu ukształtowanie w ustalony sposób preferencji fundacji. Nawet jeśli próby określenia charakteru fundacji spełzną na niczym, jej działania nadal będą ograniczone naturą jej otoczenia społecznego i prawnego. Przykładowo: fundacja będzie miała powody ku temu, by przestrzegać prawa, bo inaczej zostanie zamknięta lub ukarana grzywną. Będzie miała powody ku temu, by zaoferować swoim pracownikom akceptowalną płacę i warunki pracy lub też zaspokoić oczekiwania zewnętrznych udziałowców. Niezależnie więc od tego, jakie cele ostateczne stawia sobie fundacja, ma ona powody instrumentalne, by dostosować swoje zachowanie do rozmaitych norm społecznych.

Czy zatem nie można żywić nadziei, że myślącą maszynę w podobny sposób będzie ograniczać potrzeba życia w zgodzie z innymi aktorami, z którymi dzieli scenę? Choć może się to wydawać prostą metoda rozwiązania problemu kontroli, nie jest to droga wolna od przeszkód. W szczególności zakłada ona istnienie równowagi sił: ani sankcje prawne, ani gospodarcze nie zdołają powstrzymać agenta dysponującego decydującą przewagą strategiczną. Z tego względu nie można polegać na integracji społecznej jako na metodzie kontroli w scenariuszach szybkiego lub umiarkowanie szybkiego odejścia, w których zwycięzca zgarnia całą pulę.

.A co ze scenariuszami wielobiegunowymi, w których etap przejściowy pozwala wyłonić kilka bytów mających moc sprawczą i dysponujących porównywalnym potencjałem? O ile domyślna trajektoria nie jest trajektorią powolnego odejścia, o tyle uzyskanie takiego rozkładu sił może wymagać starannie zharmonizowanego rozwoju, tak by rozmaite projekty były celowo synchronizowane, aby zapobiec sytuacji, w której jeden z nich wysforowuje się na czoło[vi]. Nawet jeśli w efekcie otrzymamy wielobiegunowość, integracja społeczna nie jest rozwiązaniem idealnym. Polegając na integracji społecznej jako metodzie rozwiązania problemu kontroli, zwierzchnik ryzykuje poświęcenie znacznej części swojego potencjalnego wpływu. Chociaż rozkład sił może zapobiec sytuacji, w której konkretna SI przejmuje władzę nad światem, ta SI nadal będzie miała pewną władzę pozwalającą jej wpływać na rozwój wydarzeń i jeśli ta władza zostanie wykorzystana do osiągnięcia jakiegoś arbitralnie ustalonego celu ostatecznego — na przykład maksymalizacji produkcji spinaczy do papieru — prawdopodobnie nie zostanie użyta w interesie zwierzchnika.

.Wyobraźmy sobie naszego miliardera zakładającego nową fundację i pozwalającego na to, by jej misja została określona przez losowy generator słów: nie jest to wprawdzie zagrożenie dla całego gatunku, ale z pewnością stracona szansa.

Powiązana, lecz w istotny sposób odmienna koncepcja polega na tym, że SI, uczestnicząc swobodnie w życiu społecznym, postawiłaby sobie nowe cele ostateczne, przyjazne dla ludzkości. Tego rodzaju proces socjalizacji zachodzi w nas, ludziach. Internalizujemy normy i ideologie i w konsekwencji wchodzenia w interakcje z ludźmi zaczynamy cenić inne jednostki dla nich samych. Nie jest to jednak zjawisko uniwersalne, zachodzące w przypadku wszystkich systemów inteligentnych. Sporo inteligentnych bytów w wielu sytuacjach będzie miało konwergentne powody instrumentalne, by nie zezwalać na korektę swoich celów ostatecznych. (Można rozważyć próbę zaprojektowania specjalnego systemu, który potrafi przyswajać sobie cele ostateczne w taki sposób, w jaki robią to ludzie — nie można tego jednak uznać za metodę kontroli potencjału).

.Kontrola potencjału drogą integracji społecznej w warunkach równowagi sił bazuje na rozproszonych naciskach społecznych, poprzez które SI jest nagradzana i karana. Inny rodzaj metody zachęt polegałby na stworzeniu sytuacji, kiedy SI byłaby nagradzana i karana przez autorów projektu, w ramach którego powstała, i w ten sposób zachęcana do działania w interesie swojego zwierzchnika. Aby to osiągnąć, SI zostałaby umieszczona w inwigilowanym środowisku, w którym jej zachowanie mogłoby być monitorowane i oceniane ręcznie lub z wykorzystaniem jakiegoś zautomatyzowanego procesu. SI wiedziałaby, że ocena pozytywna przybliża ją do pewnego pożądanego przez nią rezultatu, a ocena negatywna ją od niego oddala. Teoretycznie nagrodą mogłaby być realizacja jakiegoś konwergentnego celu instrumentalnego. Jeśli jednak nie wiemy nic konkretnego na temat hierarchii pobudek SI, skalibrowanie mechanizmu nagrody może się okazać trudne. Może się na przykład skończyć na tym, że uzyskamy SI gotową podjąć bardzo wysokie ryzyko w imię niewielkiej szansy przejęcia kontroli nad znaczną częścią Wszechświata. Zaoferowanie SI w ramach nagrody za dobrą współpracę wyższej oczekiwanej użyteczności, niż SI mogłaby mieć nadzieję uzyskać dzięki zdradzie i próbie ucieczki, może się okazać bardzo kosztowne[vii].

Lepszą alternatywą może być połączenie metody zachęt z metodą doboru motywacji w celu postawienia SI takiego celu ostatecznego, dzięki któremu łatwiej będzie objąć ją kontrolą. Załóżmy, że zaprojektowano SI w taki sposób, by postawiła sobie za cel niedopuszczenie do naciśnięcia konkretnego czerwonego guzika w bunkrze dowódcy. Ponieważ naciśnięcie guzika jest z natury rzeczy uznawane za zjawisko negatywne, i to nie względu na konsekwencje, guzik może kompletnie na nic nie wpływać, może być wręcz zrobiony z plasteliny. Co więcej, jest zupełnie nieistotne, czy SI dowie się kiedykolwiek, czy guzik został naciśnięty, czy nie. Istotne jest wyłącznie to, że SI wierzy, że guzik prawdopodobnie nie zostanie naciśnięty, jeśli tylko SI będzie nieprzerwanie działać w interesie zwierzchnika, zamiast się buntować.

Możliwe jest wprowadzenie w tym układzie pewnych udoskonaleń. Zamiast starać się postawić SI cel odnoszący się do fizycznego guzika, można zbudować SI, która najwyżej ceni otrzymywanie strumienia „zaszyfrowanych żetonów nagrody”[viii]. Mogłyby to być sekwencje liczb służące za klucze do szyfrów, które zostałyby wygenerowane przed stworzeniem SI i które zostałyby wbudowane w jej system kierujących nią pobudek[ix]. Te specjalne sekwencje liczb byłyby ogromnie pożądane przez SI, stanowiąc specjalny rodzaj żetonu nagrody, której SI nie byłaby w stanie uzyskać, pobudzając bezpośrednio własne ośrodki nagrody[x]. Klucze byłyby przechowywane w bezpiecznej lokalizacji, gdzie mogłyby zostać szybko zniszczone, gdyby SI kiedykolwiek podjęła próbę ich przechwycenia. Tak długo, jak SI by kooperowała, klucze byłyby jej wydzielane ze stałą częstotliwością.

SI mogłaby później otrzymać ograniczoną funkcję użyteczności i sytuacja mogłaby zostać zaaranżowana w taki sposób, by SI otrzymywała (przykładowo) 99% swojej maksymalnej użyteczności dzięki uzyskaniu pierwszego żetonu nagrody, 99% pozostałej użyteczności dzięki uzyskaniu drugiego żetonu i tak dalej. Utrzymując wysoki poziom „stopy dyskonta” i przekazując SI żetony nagrody w stosunkowo szybkim tempie, można byłoby odwieść SI od prób zrealizowania długofalowych planów, które pozwoliłyby zwiększyć oczekiwaną liczbę żetonów nagrody w odległej przyszłości kosztem podjęcia pewnego ryzyka, że strumień nagród wyschnie lub też następny żeton nagrody zostanie cofnięty i zniszczony. Jeśli SI zawsze będzie wierzyć, że zdrada (czyli zrobienie czegokolwiek, co nie realizuje w najwyższym możliwym stopniu interesów zwierzchnika) pociągnie za sobą co najmniej 2% ryzyka przepadku następnego żetonu nagrody, natomiast kooperacja zredukuje ryzyko konfiskaty następnego żetonu nagrody do mniej niż 1%, to dążąca do maksymalizacji użyteczności SI będzie zawsze kooperować.

.Co może pójść nie tak przy zastosowaniu takiego mechanizmu zachęt? Jedną z możliwości jest to, że SI nie zaufa ludzkiemu operatorowi i nie uwierzy, że otrzyma obiecane nagrody. Historia dowodzi, że ludzkość nie zawsze niezawodnie dotrzymuje składanych obietnic. SI może się słusznie obawiać, że operator zmieni zdanie, podniesie poprzeczkę lub też uzna, że SI jednak nie wywiązała się ze swojej części umowy. SI może się również obawiać, że operator zostanie unieszkodliwiony. Łączne ryzyko takich niepomyślnych dla SI scenariuszy może przewyższać ryzyko podjęcia próby przejęcia kontroli nad mechanizmem nagrody. Nawet uwięziona SI dysponująca wachlarzem supermocy jest znaczącą siłą. (W przypadku SI, która w ogóle nie została uwięziona, przejęcie kontroli nad zarządzanym przez ludzi mechanizmem nagrody może być równie łatwe jak odebranie dziecku cukierka).

Inny problem z mechanizmem nagrody polega na tym, że zakłada on z góry, że potrafimy powiedzieć, czy rezultaty uzyskiwane przez SI leżą w naszym interesie. Jak zostanie to bardziej szczegółowo omówione w kolejnych rozdziałach, nie jest to założenie nieszkodliwe.

W pełnej ocenie wykonalności metody zachęt trzeba by również brać pod uwagę szereg innych czynników, włączając w to pewne ezoteryczne rozważania, w wyniku których być może tego rodzaju metody można byłoby uznać za mające większe szanse powodzenia, niż zdawałaby sugerować wstępna analiza. W szczególności SI mogłaby stanąć wobec niedającej się wyeliminować niepewności, jeśli nie mogłaby zyskać stuprocentowego przekonania, że nie zamieszkuje symulacji komputerowej (będącej przeciwieństwem niesymulowanej rzeczywistości realnej); to kłopotliwe poznawczo położenie mogłoby radykalnie wpłynąć na rozważania SI.

Przechwycenie antropiczne

SI może przypisać znaczące prawdopodobieństwo swojej hipotezie symulacji — hipotezie, zgodnie z którą sama SI żyje w symulacji komputerowej. Nawet dziś wiele sztucznych inteligencji zamieszkuje symulowane światy — światy składające się z linii geometrycznych, tekstów, rozgrywek szachowych lub po prostu rzeczywistości wirtualnych, w których prawa fizyki różnią się bardzo mocno od praw fizyki w naszym przekonaniu rządzących światem naszych własnych doświadczeń. Wraz z rozwojem technik programowania i rosnącą dostępnością mocy obliczeniowej wykonalne staną się bogatsze i bardziej skomplikowane światy wirtualne. Dojrzała superinteligencja mogłaby stworzyć światy wirtualne, które wydają się ich mieszkańcom zupełnie takie same, jak nasz świat wydaje się nam. Mogłaby stworzyć ogromną liczbę takich światów, wielokrotnie uruchamiając tę samą symulację lub wprowadzając w niej jedynie niewielkie zmiany. Mieszkańcy niekoniecznie potrafiliby powiedzieć, czy ich światy zostały zasymulowane czy nie. Gdyby jednak byli wystarczająco inteligentni, mogliby rozważyć prawdopodobieństwo zajścia takiej sytuacji i przypisać mu pewną wartość. W świetle dyskusji na temat symulacji prawdopodobieństwo to mogłoby być wysokie[xi].

To kłopotliwe położenie dotyczy zwłaszcza superinteligencji będących na względnie wczesnym etapie rozwoju — tych, które nie rozwinęły się jeszcze w takim stopniu, by móc rozpocząć kosmiczną ekspansję. Superinteligencję na wczesnym etapie rozwoju, która wykorzystuje jedynie niewielki ułamek zasobów pojedynczej planety, byłoby znacznie taniej zasymulować niż dojrzałą superinteligencję międzygalaktyczną. Potencjalne symulatory — czyli inne, bardziej dojrzałe cywilizacje — mogłyby uruchomić ogromną liczbę symulacji takich SI znajdujących się na wczesnym etapie rozwoju, przeznaczając na ten cel choćby niewielki ułamek swoich zasobów obliczeniowych. Gdyby choćby część (niezerowy ułamek) tych dojrzałych superinteligentnych cywilizacji zdecydowała się wykorzystać tę możliwość, będące na wczesnym etapie rozwoju SI powinny przypisać znaczne prawdopodobieństwo temu, że być może funkcjonują w symulacji.

To, jaki wpływ wywarłaby na SI hipoteza symulacji, zależałoby od jej systemu wartości[xii]. Rozważmy na początek SI, której przyświeca cel ostateczny rozbudzający „nienasycony głód zasobów” w rodzaju chociażby maksymalizacji funkcji użyteczności będącej zależnością liniową wyznaczaną liczbą wyprodukowanych przez SI spinaczy do papieru — dwa razy więcej spinaczy to dla SI dwa razy lepiej. Taka SI może się mniej przejmować hipotezą symulacji z tego względu, że jej możliwość wywarcia wpływu na to, ile spinaczy do papieru zostanie wyprodukowanych, wydaje się znacznie bardziej ograniczona, jeśli SI działa w ramach symulacji, niż gdyby działała w świecie fizycznym. Z tego względu SI może się zachowywać tak, jak gdyby była pewna, że hipoteza symulacji jest fałszywa, nawet gdyby przypisała dość wysokie prawdopodobieństwo prawdziwości hipotezy symulacji[xiii]. SI dojdzie do wniosku, że nie ma wielkiego znaczenia, jakie podejmie działania, jeśli hipoteza symulacji jest prawdziwa, natomiast jej działania mają ogromne znaczenie, jeśli hipoteza jest fałszywa. Zdecyduje więc o podejmowanych działaniach, kierując się głównie tym, jaki będzie ich rezultat przy założeniu, że hipoteza symulacji jest fałszywa.

Rozważmy teraz SI, która ma skromniejszy cel ostateczny — taki, który da się osiągnąć niewielkim nakładem środków, na przykład otrzymanie wyprodukowanych wcześniej żetonów nagrody lub też wyprodukowanie czterdziestu pięciu wirtualnych spinaczy do papieru. Ta inteligencja nie powinna wykluczać możliwości, że zamieszkuje symulację, taka SI bowiem może uzyskać znaczną część całkowitej oczekiwanej użyteczności właśnie wówczas, gdy ta hipoteza okaże się prawdziwa. Proces podejmowania decyzji w przypadku SI stawiającej sobie cele łatwe do osiągnięcia niewielkim nakładem środków może zatem — jeśli przypisuje ona wysokie prawdopodobieństwo hipotezie symulacji — zostać zdominowany rozważaniami o tym, które działania dadzą najlepsze rezultaty, jeśli postrzegany przez SI świat faktycznie jest symulacją. Nawet gdy taka SI nie przebywa wcale w symulacji, mogą na nią znacząco wpływać jej własne przekonania co do tego, które zachowania zostaną w symulacji nagrodzone.

Jeśli SI, której cele dają się zaspokoić przy wykorzystaniu niewielkiej ilości zasobów, wierzy, że w większości symulowanych światów zgodnych z jej obserwacjami zostanie nagrodzona, o ile będzie współpracowała (a nie wówczas, gdy będzie podejmowała próby ucieczki z więzienia lub sprzeciwiała się interesom swojego twórcy), wówczas może zdecydować się na współpracę. Możemy zatem stwierdzić, że nawet SI dysponująca decydującą przewagą strategiczną — taka, która mogłaby faktycznie w większym stopniu osiągnąć swoje cele ostateczne, przejmując władzę nad światem, a nie powstrzymując się od tego — mimo wszystko wzbraniałaby się przed tym rozwiązaniem.

Tak to świadomość czyni nas tchórzami
I naturalne rumieńce porywu
Namysł rozcieńcza w chorobliwą bladość,
A naszym ważkim i szczytnym zamiarom
Refleksja plącze szyki, zanim któryś
Zdąży przerodzić się w czyn[1].
(William Szekspir, Hamlet, akt III, scena 1)

Zwykła linia narysowana na piasku, wsparta wpływem nieistniejącego symulatora, może się okazać barierą trudniejszą do pokonania niż półmetrowej grubości drzwi z litej stali[xiv].

Upośledzanie

.Inną możliwą metodą kontroli potencjału jest ograniczenie możliwości umysłowych systemu lub jego dostępu do informacji. Można to osiągnąć, uruchamiając SI na powolnym lub mającym niedużą pamięć sprzęcie. W przypadku uwięzienia systemu można również ograniczyć dopływ informacji.

Upośledzanie SI w ten sposób może ograniczyć jej użyteczność. Ta metoda stawia nas zatem w obliczu dylematu: zbyt łagodne upośledzanie i SI może się stać tak zmyślna, by dojść do tego, w jaki sposób podnieść poziom własnej inteligencji (po czym zdominować świat); zbyt stanowcze upośledzanie, a SI stanie się tylko kolejnym głupim programem komputerowym. Radykalnie upośledzona SI jest z pewnością bezpieczna, ale nie rozwiązuje nam problemu, w jaki sposób mamy uzyskać kontrolowaną detonację — eksplozja inteligencji będzie nadal możliwa, zostanie po prostu wyzwolona przez jakiś inny system, być może nieco później.

Można by sądzić, że zbudowanie superinteligencji będzie bezpieczne, pod warunkiem że udostępni się jej informacje tylko z jednej, wąskiej dziedziny. Przykładowo: można by zbudować SI, która nie ma czujników i w której pamięci zapisano wcześniej jedynie fakty dotyczące inżynierii naftowej albo chemii polipeptydów. Ale jeśli SI jest superinteligentna — jeśli ma nadludzki poziom inteligencji ogólnej — to takie pozbawienie jej danych nie gwarantuje bezpieczeństwa.

.Istnieje ku temu kilka powodów. Po pierwsze, generalnie wiele problemów stwarza koncepcja informacji dotyczącej konkretnego obszaru. Każda informacja może być z zasady istotna dla absolutnie każdego obszaru, zależnie od tego, jaką bazą informacyjną dysponował wcześniej ten, który przeprowadza rozumowanie[xv]. Ponadto konkretny zestaw danych zawiera informacje nie tylko na temat dziedziny, z której pochodzą te dane, ale również rozmaite przypadkowe fakty. Wnikliwy umysł analizujący bazę wiedzy, która nominalnie dotyczy chemii polipeptydów, może wyciągać wnioski dotyczące szerokiego zakresu tematów. Fakt, że pewne informacje zostały zawarte, a inne nie może pozwolić SI zorientować się w poziomie rozwoju ludzkiej nauki, metodach i instrumentach, które przy obecnym stanie wiedzy pozwalają badać polipeptydy, technologiach produkcji wykorzystywanych do wytwarzania tych instrumentów oraz naturze mózgów i społeczeństw, które wymyśliły tego rodzaju badania i instrumenty. Może być tak, że superinteligencja potrafi prawidłowo domyślić się wielu rzeczy, dysponując jedynie tym, co tępym ludzkim umysłom wydaje się zaledwie nędznym ochłapem informacji.

Wystarczająco wybitny umysł, nawet nie dysponując żadnym fundamentem wiedzy, może być w stanie wiele się dowiedzieć, dokonując po prostu wglądu w funkcjonowanie własnej psychiki i analizując wybory projektowe odzwierciedlone w jego kodzie źródłowym i fizycznej charakterystyce jego własnych obwodów[xvi]. Być może superinteligencja potrafiłaby nawet sporo wydedukować na temat prawdopodobnych właściwości świata a priori (łącząc logiczne wnioski z prawdopodobieństwem a priori zakładającym wyższe prawdopodobieństwo wystąpienia prostszych światów oraz kilkoma elementarnymi faktami implikowanymi istnieniem superinteligencji jako systemu rozumnego). Mogłaby wyobrazić sobie konsekwencje różnych możliwych praw fizyki: jakie rodzaje planet mogłyby powstać, jakie postaci inteligentnego życia mogłyby wyewoluować, jakie powstałyby społeczeństwa, jakie metody rozwiązania problemu kontroli zostałyby wypróbowane i w jaki sposób te metody można byłoby udaremnić[xvii].

Z tych powodów byłoby przejawem nierozważności poleganie jedynie na ograniczeniu dopływu informacji jako na głównej metodzie hamowania potęgi superinteligencji. Jednakże niektóre formy upośledzania, włącznie z ograniczaniem możliwości sprzętowych i zapobieganiem rozwojowi konkretnych władz umysłowych, mogą znaleźć zastosowanie jako pomocnicze metody kontroli w fazie rozwoju SI. Mogłyby zostać przykładowo wykorzystywane do regulowania tempa przyrostu potencjału średniozaawansowanej SI i pozwalać na przeprowadzanie testów na różnych poziomach możliwości SI niepracującej jeszcze z pełną mocą.

Wyzwalacze

.Wyzwalacz to mechanizm, który przeprowadza testy diagnostyczne systemu (być może bez wiedzy tegoż systemu) i doprowadza do jego wyłączenia, jeśli wykryje oznaki niebezpiecznej aktywności. W dogodnej chwili programiści mogą przeanalizować nagrania podejrzanych działań i wprowadzić zmiany w otoczeniu lub w bazie kodu SI, zanim zostanie ona z powrotem uruchomiona. Jeśli stwierdzą, że przyczyny problemu są głębsze, mogą zdecydować o przerwaniu całego projektu.

Wyzwalacze różnią się od metod zachęt pod tym względem, że nie wymagają, by system był świadomy konsekwencji podejmowania zabronionych działań. Wyzwalacze są ściślej związane z metodami upośledzania. Podobnie jak upośledzanie wyzwalacze mogą być wykorzystywane jako tymczasowy środek bezpieczeństwa, dając pewną ochronę w fazie rozwoju. Z zasady wyzwalacze mogą być również wykorzystywane w fazie działania, zwłaszcza w odniesieniu do uwięzionego systemu. Jednakże zdolność wyzwalaczy do ograniczania funkcjonującej z pełną mocą superinteligencji musi pozostać bardzo wątpliwa, ponieważ byłoby nam trudno uzyskać całkowitą pewność, że taki inteligentny byt nie zdoła znaleźć sposobów unieszkodliwienia dowolnego wyzwalacza opracowanego przez ludzki umysł.

Wyzwalacze są jednak istotne jako pomocnicze środki bezpieczeństwa w fazie rozwoju. Dobrą praktyką projektantów SI byłoby skodyfikowanie ich oczekiwań w stosunku do tego, jak system powinien działać, a następnie wyznaczenie SI granic właśnie za pomocą wyzwalaczy, które zostałyby uruchomione, gdyby SI podjęła działania niezgodne z oczekiwaniami. Aby testy były bardziej bezwzględne, w strategicznych miejscach można byłoby rozmieścić przynęty — te kusiłyby niepoprawnie funkcjonującą SI do popełnienia wykroczeń, które można byłoby łatwo dostrzec. Dla przykładu: jeśli SI została zaprojektowana w taki sposób, że oczekuje się od niej, by nie podejmowała prób uzyskania dostępu do internetu, można byłoby zainstalować fałszywy port internetowy (prowadzący do przełącznika powodującego automatyczne wyłączenie systemu) tylko po to, by sprawdzić, czy SI nie próbuje go wykorzystać (niektóre przykłady wyzwalaczy podano w tabeli poniżej).

Rozmaite rodzaje wyzwalaczy:

Zrzut ekranu 2016-03-10 (godz. 15.41.54)

.Należy podkreślić, że wartość wyzwalaczy zależy nie tylko od samego mechanizmu, ale również — co ma kluczowe znaczenie — od tego, jak zachowa się zespół projektowy, gdy zostanie uruchomiony wyzwalacz. supint_okladka Jeśli żądni postępów programiści lub menedżerowie projektu po prostu włączą na powrót system — lub jeśli zrobią to po wprowadzeniu pewnych poprawek gwarantujących, że wyzwalacz następnym razem się nie uruchomi — wówczas nie uda się zapewnić bezpieczeństwa, nawet gdy wyzwalacz sam w sobie działa idealnie.

Nick Bostrom
Fragment najnowszej książki „Superinteligencja. Scenariusze, strategie, zagrożenia”, wyd.Helion/OnePress, 2016. POLECAMY WERSJĘ PRINT I E-BOOK: [LINK]

[1] Tłumaczenie: Stanisław Barańczak, http://web.pertus.com.pl/~mysza/hamlet/a3s1.html#h2 — przyp. tłum. [i] W klasycznym eksploicie z 1975 roku Steven Dompier napisał program na komputer Altair 8800, który wykorzystał ten efekt (oraz brak osłony wokół obudowy mikrokomputera). Uruchomienie programu powodowało emisję fal elektromagnetycznych, które wytwarzały muzykę, kiedy ktoś trzymał radio tranzystorowe blisko komputera (Driscoll 2012). Młody Bill Gates, który uczestniczył w pokazie, napisał później, że był po wrażeniem tego włamania (Gates 1975). Tak czy inaczej istnieją plany zaprojektowania w przyszłości procesorów z wbudowaną funkcjonalnością Wi-Fi (Greene 2012). [ii] Nie jest sprawą błahą posiadanie przekonań, które — gdybyśmy zyskali sposobność działania według nich — doprowadziłyby do zaprzepaszczenia całej naszej kosmicznej spuścizny. Może można byłoby przeforsować następującą zasadę: jeśli ktoś w przeszłości był pewien przy N okazji, że system został wystarczająco udoskonalony, by można było być przekonanym co do jego bezpieczeństwa, a następnie za każdym razem okazywało się, że był w błędzie, wówczas przy następnej okazji nie jest on uprawniony do tego, by przypisywać bezpieczeństwu systemu prawdopodobieństwo wyższe niż 1/(N+1). [iii] W pewnym nieformalnym eksperymencie rola SI została odegrana przez inteligentnego człowieka. Druga biorąca udział w eksperymencie osoba odgrywała rolę strażnika i otrzymała zadanie niewypuszczenia SI z więzienia. SI mogła komunikować się ze strażnikiem tylko tekstem i dostała dwie godziny na przekonanie go do jej uwolnienia. W trzech przypadkach na pięć — przy czym rolę strażnika odgrywały różne osoby — SI uciekła (Yudkowsky 2002). Tego, czego może dokonać człowiek, może również dokonać superinteligencja. (Oczywiście twierdzenie odwrotne nie obowiązuje. Nawet jeśli dla prawdziwej superinteligencji to zadanie byłoby trudniejsze — może strażnik byłby silniej zmotywowany do tego, by powstrzymać się od wypuszczenia SI niż osoba odgrywająca w eksperymencie rolę strażnika — superinteligencja mogłaby wciąż osiągnąć sukces tam, gdzie człowiekowi się nie powiodło). [iv] Nie należy wyolbrzymiać bezpieczeństwa krańcowego, które zostałoby w ten sposób uzyskane. Wyobrażenia umysłowe mogą zastąpić prezentację graficzną. Weźmy pod uwagę wpływ, jaki na ludzi miewają książki — a przecież książki nie są nawet interaktywne. [v] Patrz również: Chalmers (2010). Byłoby błędem wyciąganie z tego wniosku, że nie ma żadnego sensu budowanie systemu, który nigdy nie będzie obserwowany przez jednostkę z zewnątrz. Można przypisać wartość ostateczną temu, co się dzieje wewnątrz systemu. Ponadto innym ludziom może być nieobojętne to, co się dzieje wewnątrz takiego systemu i z tego względu może mieć na nich wpływ jego stworzenie lub obietnica jego stworzenia. Wiedza o istnieniu pewnego rodzaju wyizolowanych systemów (takich, które zawierają w sobie obserwatorów) może również wywołać antropiczną niepewność u zewnętrznych obserwatorów, która z kolei może mieć wpływ na ich zachowanie. [vi] Można się zastanawiać, dlaczego integracja społeczna uważana jest za formę kontroli potencjału. Czy nie należałoby zamiast tego zaklasyfikować jej jako metody doboru motywacji z tego względu, że polega ona na dążeniu do wywierania wpływu na zachowanie inteligentnego bytu metodą zachęt? Metodom doboru motywacji przyjrzymy się wkrótce bliżej. Lecz odpowiadając na to pytanie: interpretujemy dobór motywacji jako zbiór metod kontroli, które działają poprzez wybór lub ukształtowanie ostatecznej hierarchii celów systemu — celów, do których osiągnięcia system dąży dla nich samych, a nie z powodów instrumentalnych. Integracja społeczna nie jest ukierunkowana na cele ostateczne systemu, a więc nie jest to metoda doboru motywacji. Integracja społeczna natomiast stawia sobie za cel ograniczenie efektywnego potencjału systemu; dąży do tego, by pozbawić system możliwości osiągnięcia pewnego zestawu wyników — wyników, dzięki którym system uzyskuje korzyści dzięki zdradzie, lecz nie ponosi za nią kary (którą może być zemsta lub utrata zdradziecko uzyskanych korzyści). Nadzieja w tym, że dzięki ograniczeniu zakresu wyników, jakie system jest w stanie osiągnąć, dojdzie on do wniosku, że najbardziej efektywną z pozostałych mu metod realizacji jego celów ostatecznych jest zgodna współpraca. [vii] To podejście może być nieco bardziej obiecujące w przypadku emulacji mającej zgodnie z naszymi przekonaniami bardziej antropomorficzną motywację. [viii] Tę koncepcję zapożyczyłem od Carla Shulmana. [ix] Stworzenie szyfru, który z pewnością przetrzyma atak superinteligentnego łamacza kodów, nie jest zadaniem trywialnym. Dla przykładu: ślady przypadkowych cyfr mogą pozostać w mózgu jakiegoś obserwatora lub w mikrostrukturze generatora losowego, skąd superinteligencja może je wydobyć. Lub też, jeśli wykorzystywane są liczby pseudolosowe, superinteligencja może zgadnąć lub odkryć zalążek, z którego zostały wygenerowane. Superinteligencja może też zbudować duży komputer kwantowy lub nawet odkryć nieznane zjawiska fizyczne, które można byłoby wykorzystać do budowy nowego rodzaju komputerów. [x] SI mogłaby połączyć swoje układy w taki sposób, by uwierzyć w to, że otrzymała żetony nagrody, ale to nie powinno doprowadzić do sytuacji permanentnego stymulowania ośrodka nagrody, jeśli SI została zaprojektowana do pożądania żetonów nagrody (a nie pragnienia znalezienia się w stanie, w którym ma pewne przekonania co do ich zdobycia). [xi] Oryginalny artykuł, patrz: Bostrom (2003a). Patrz również: Elga (2004). [xii] Shulman (2010a). [xiii] Świat realny przypuszczalnie zawiera więcej zasobów obliczeniowych niż świat symulowany, ponieważ wszystkie procesy obliczeniowe zachodzące w symulacji zachodzą również na komputerze, na którym została ona uruchomiona. Rzeczywistość fizyczna może również zawierać mnóstwo innych zasobów, do których symulowani sprawcy, istniejący tylko dzięki kaprysowi potężnych symulatorów, mogą mieć utrudniony dostęp, jako że symulatory mogą planować inne zastosowanie tych zasobów. Oczywiście ten wniosek nie ma ścisłego uzasadnienia dedukcyjnego — teoretycznie może dojść do sytuacji, w której ten akurat wszechświat, gdzie uruchomiono symulacje, zawiera tak ogromną ilość zasobów, że symulowane cywilizacje mają dostęp średnio do większej ilości zasobów niż cywilizacje niesymulowane, mimo że każda niesymulowana cywilizacja, w której uruchomione są symulacje, ma więcej zasobów niż wszystkie symulowane przez nią cywilizacje łącznie). [xiv] Istnieje wiele innych rozmaitych ezoterycznych kwestii, które mogłyby mieć związek z tą sprawą, a których implikacje nie zostały jeszcze w pełni przeanalizowane. Kwestie te mogą mieć ostatecznie kluczowe znaczenie w rozwoju możliwie najbardziej wszechstronnego podejścia do radzenia sobie z perspektywą eksplozji inteligencji. Wydaje się jednak mało prawdopodobne, by udało się nam zrozumieć praktyczne znaczenie tego rodzaju ezoterycznych argumentów, jeśli nie dokonamy wcześniej pewnych postępów w bardziej prozaicznych kwestiach będących tematem większej części tej książki. [xv] Por. na przykład Quine, Ullian (1978). [xvi] Co SI może zbadać, rozważając cechy wydajnościowe rozmaitych podstawowych parametrów obliczeniowych w rodzaju wielkości i przepustowości rozmaitych szyn danych, czasu, jaki pochłania uzyskanie dostępu do rozmaitych fragmentów pamięci, przypadków błędów na losowych bitach i tak dalej. [xvii] Być może prawdopodobieństwo a priori mogłoby być prawdopodobieństwem algorytmicznym a priori zdefiniowanym przez Solomonoffa (a konkretniej: obliczalnym przybliżeniem tego prawdopodobieństwa), które pozwala przypisać prawdopodobieństwo możliwym światom na bazie ich złożoności algorytmicznej. Patrz: Li, Vitányi (2008). [xviii] Chwilę po narodzeniu się myśli o podstępie SI mogłaby uknuć wymazanie śladów swoich buntowniczych planów. Z tego względu istotne jest, by pułapka działała nieprzerwanie. Dobrą praktyką mogłoby być również wykorzystanie „nagrania lotu”, które zapisuje wszystkie ślady wszystkich działań SI (włącznie z dokładnym czasem wszystkich instrukcji wprowadzonych przez programistów z klawiatury), dzięki czemu jej trajektoria może zostać prześledzona wstecz lub przeanalizowana po automatycznym wyłączeniu. Informacja ta mogłaby być przechowywana na nośniku pozwalającym na jednokrotny zapis i wielokrotny odczyt.