Superinteligencja. Jaki system wartości powinniśmy jej wszczepić?
Wcześniej na ten sam temat:
Ludzki mózg to dzieło idealne, najdoskonalszy twór w przyrodzie. Jego dominacją zachwiał komputer Deep Blue, który w 1997 roku pokonał w szachy mistrza świata, Garriego Kasparowa. Od tego czasu sztuczna inteligencja jest na ścieżce intensywnego rozwoju. Czy dominacja superinteligencji nad człowiekiem jest realną perspektywą naszej przyszłości? Czy ta przewaga skończy się kresem naszego gatunku?
Książka Nicka Bostroma jest odważną i oryginalną próbą znalezienia odpowiedzi na te pytania. Możliwe kierunki rozwoju technologii cyfrowej i jego konsekwencje są trudne do przewidzenia, a rozstrzygnięcie związanych z tym kwestii jest prawdziwym intelektualnym wyzwaniem. Niemniej z niektórych szans i zagrożeń powinniśmy wszyscy sobie zdawać sprawę. Nick Bostrom, wybitny badacz sztucznej inteligencji i transhumanizmu, stara się jasno i klarownie przedstawić przyszłe konsekwencje coraz większego udziału maszyn w naszym życiu, opisuje możliwe komplikacje i strategie rozwiązania ewentualnych problemów. Lektura tej książki jest niesamowitą podróżą na krańce istoty człowieczeństwa, wyprawą do przyszłości inteligentnego życia i prawdziwie fascynującym doświadczeniem.
Kluczowe zagadnienia ujęte w książce „Superinteligencja. Scenariusze, strategie, zagrożenia” [LINK] to: dotychczasowe osiągnięcia w dziedzinie sztucznej inteligencji, superinteligencja i jej możliwe ścieżki rozwoju, zagłada ludzkości a rozwój superinteligencji, kontrola nad umysłem człowieka w przyszłości.
.Załóżmy, że rozwiązaliśmy problem kontroli i jesteśmy już w stanie zaszczepić dowolne, wybrane przez nas wartości superinteligencji, która włączy je do swojego systemu wartości, stawiając sobie ich urzeczywistnienie za cel ostateczny. Jakie wartości powinniśmy jej zaszczepić? Wybór nie jest żadną miarą kwestią błahą. Jeśli superinteligencja uzyska decydującą przewagę strategiczną, jej wartości określą kierunki eksploracji Kosmosu.
Oczywiście kluczowe jest, byśmy nie popełnili w wyborze naszych wartości błędu. Czy możemy jednak realistycznie oczekiwać, że uda nam się go uniknąć? Możemy się mylić w kwestiach moralnych. Możemy błędnie rozpoznać, co jest dla nas dobre. Możemy nawet nie zrozumieć, czego tak naprawdę pragniemy. Wydaje się, że określenie celu ostatecznego wymaga przedarcia się przez gąszcz najeżonych trudnościami problemów filozoficznych. Próbując podejścia bezpośredniego, prawdopodobnie wszystko spartaczymy. Ryzyko błędnego wyboru jest szczególnie wysokie, jeśli okoliczności podejmowania decyzji są dla nas nowe — a wybór celu ostatecznego dla superinteligentnych maszyn, które ukształtują przyszłość całej ludzkości, jest okolicznością zupełnie dla nas nową.
Marne szanse we frontalnym starciu znajdują odzwierciedlenie we wszechobecnej niezgodzie co do istotnych kwestii w teorii wartości. Żadna teoria etyczna nie znajduje wśród filozofów masowego poparcia, a zatem większość filozofów musi się mylić[i]. Ma to również odzwierciedlenie w wyraźnie zauważalnych przemianach, którym uległ na przestrzeni dziejów statystyczny rozkład przekonań moralnych — wiele spośród tych przemian z upodobaniem uznajemy za oznakę postępu. W średniowiecznej Europie na przykład za godną szacunku rozrywkę uznawano obserwowanie zakończonych śmiercią tortur, jakim poddawano więźniów politycznych. W szesnastowiecznym Paryżu popularnością cieszyło się palenie kotów[ii]. Zaledwie sto pięćdziesiąt lat temu w południowych stanach Ameryki nadal rozpowszechnione było niewolnictwo, zgodne wówczas z prawem i moralnie aprobowane. Patrząc wstecz, widzimy rażące braki nie tylko w standardach zachowania, ale i w przekonaniach moralnych wszystkich wcześniejszych wieków. Choć być może rozwinęliśmy od tego czasu nasz instynkt moralny, nie możemy raczej utrzymywać, że dostąpiliśmy już pełnego moralnego oświecenia. Najprawdopodobniej nadal niejedną kwestię moralną pojmujemy całkowicie błędnie. W takich okolicznościach wybór wartości na podstawie naszych aktualnych przekonań w sposób, który uwięziłby nas w nich na zawsze i wykluczył jakąkolwiek możliwość dalszego rozwoju etycznego, groziłby nam moralną zagładą.
Nawet gdybyśmy zdołali uzyskać racjonalną pewność — a nie możemy jej uzyskać — że zidentyfikowaliśmy poprawną teorię etyczną, nadal groziłoby nam popełnienie błędu na etapie opracowywania istotnych szczegółów tej teorii. U podstaw pozornie prostych teorii moralnych może leżeć ogromna ukryta złożoność[iii]. Dla przykładu rozważmy (niezwykle prostą) konsekwencjalistyczną teorię hedonizmu. Teoria ta utrzymuje z grubsza, że każda przyjemność ma swoją wartość i tylko przyjemność ma wartość, a przy tym każdy ból stanowi przeciwieństwo wartości i tylko ból stanowi przeciwieństwo wartości[iv]. Nawet jeśli postawimy całą moralną pulę na tę jedną teorię i ta teoria okaże się słuszna, mnóstwo pytań pozostanie bez odpowiedzi. Czy „wyższe przyjemności” powinny być cenione wyżej niż „niższe przyjemności”, jak twierdził John Stuart Mill? W jaki sposób powinniśmy uwzględnić w rachunkach intensywność i czas trwania przyjemności? Czy ból i przyjemność znoszą się wzajemnie? Jakie stany umysłu są związane z moralnie istotnymi przyjemnościami? Czy dwie jednakowe kopie tego samego stanu umysłu odpowiadają podwojonej przyjemności[v]? Czy mogą istnieć przyjemności podświadome? Jak powinniśmy potraktować skrajnie małe prawdopodobieństwo skrajnie dużej przyjemności[vi]? Jak powinniśmy zagregować na przyjemność doświadczaną przez nieskończoną populację?[vii]
Udzielenie błędnej odpowiedzi na dowolne z tych pytań może mieć katastrofalne następstwa. Jeśli poprzez wybór wartości ostatecznej dla superinteligencji musimy postawić nie tylko na właściwą ogólną teorię moralną, lecz również na wybiegające dalece w przyszłość podejrzenie co do tego, w jaki sposób ta teoria będzie interpretowana i jak zostanie włączona w efektywny proces podejmowania decyzji, wówczas szanse na szczęśliwy traf kurczą nam się niemal do zera. Głupcy mogą ochoczo przyjąć tę zachętę do rozwiązania jednym ruchem wszystkich istotnych problemów filozofii moralnej, aby wbić zalążkowej SI do głowy ich ulubione odpowiedzi. Mądrzejsi będą usilnie poszukiwać jakiegoś podejścia alternatywnego — jakiejś metody, by się zabezpieczyć.
.W ten sposób dochodzimy do normatywności pośredniej. Oczywistą przyczyną budowania superinteligencji jest możliwość przerzucenia na nią rozumowania instrumentalnego wymaganego do znajdowania efektywnych metod urzeczywistniania danych wartości. Normatywność pośrednia umożliwiłaby nam przerzucenie na superinteligencję części rozumowania, które należy przeprowadzić, by wybrać wartości, które powinny zostać urzeczywistnione.
Normatywność pośrednia jest metodą poradzenia sobie z problemem, który wynika z faktu, że możemy nie wiedzieć, czego tak naprawdę chcemy, co jest w naszym interesie bądź też co jest moralnie słuszne lub idealne. Zamiast zgadywać na podstawie naszego obecnego pojmowania (które jest prawdopodobnie głęboko skażone), delegujemy część pracy poznawczej wymaganej do wyboru wartości na superinteligencję. Ponieważ superinteligencja będzie lepiej od nas radzić sobie z pracą poznawczą, będzie potrafiła przejrzeć błędy i nieporozumienia zaciemniające nasz ogląd spraw. Można uogólnić tę koncepcję i sformułować ją w postaci zasady heurystycznej: Zasada epistemicznego szacunku — przyszła superinteligencja zajmuje pozycję uprzywilejowaną poznawczo: jej przekonania są (najpewniej co do większości tematów) z większym prawdopodobieństwem prawdziwe niż nasze. Powinniśmy zatem, o ile tylko jest to wykonalne, ulec przekonaniom sztucznej inteligencji[viii].
Normatywność pośrednia stosuje tę zasadę w odniesieniu do problemu wyboru wartości. Wobec braku zdecydowanego przekonania co do naszej zdolności określenia konkretnego standardu normatywnego określimy zamiast tego bardziej abstrakcyjny warunek, który powinien spełnić każdy standard normatywny — w nadziei, że superinteligencja zdoła znaleźć konkretną normę spełniającą abstrakcyjny warunek. Możemy postawić zalążkowej SI cel ostateczny polegający na nieprzerwanym działaniu zgodnie z jak najlepszym oszacowaniem, do czego ta nie wprost określona norma by ją zobowiązywała.
Do wyjaśnienia tej koncepcji posłuży nam kilka przykładów. Najpierw rozważymy „spójną, ekstrapolowaną wolę”, propozycję normatywności pośredniej nakreśloną przez Eliezera Yudkowsky’ego. Następnie wprowadzimy pewne warianty i alternatywy, by zyskać wyobrażenie o spektrum dostępnych opcji.
Spójna, ekstrapolowana wola
.Yudkowsky zaproponował, by zalążkowej SI postawić cel ostateczny polegający na urzeczywistnieniu „spójnej, ekstrapolowanej woli” (ang. coherent extrapolated volition — CEV) ludzkości, którą definiuje następująco: Nasza spójna, ekstrapolowana wola odpowiada pragnieniu, które moglibyśmy wyrazić, gdybyśmy wiedzieli więcej i myśleli szybciej, gdybyśmy w większym stopniu odpowiadali naszemu własnemu wyobrażeniu o sobie i wspólnie wyrośli wyżej; ekstrapolacja jest coraz bardziej spójna, a nie coraz bardziej rozbieżna; opisuje nasze pragnienia, które nie są ze sobą sprzeczne, lecz zgodne; pragnienia ekstrapolowane zgodnie z naszymi intencjami, interpretowane zgodnie z naszymi zamiarami[ix].
Kiedy Yudkowsky to napisał, nie dążył do zaprezentowania wzorca implementacji, lecz raczej poetyckiego przepisu. Jego celem było wstępne zarysowanie możliwej definicji CEV oraz kilku argumentów na rzecz potrzeby zastosowania tego rodzaju podejścia.
Wiele koncepcji stojących za propozycją CEV ma swoje analogie i poprzedników w literaturze filozoficznej. Dla przykładu: w etyce teorie idealnego obserwatora starają się zanalizować normatywne koncepcje „dobra” lub „słuszności” w kategoriach ocen, których dokonałby hipotetyczny idealny obserwator (gdzie „idealnego obserwatora” definiujemy jako kogoś, kto jest wszechwiedzący w kwestii faktów niedotyczących moralności, kogo cechuje jasność logicznego myślenia, kto co do istotnych kwestii zachowuje bezstronność, kto wolny jest od jakichkolwiek uprzedzeń i tak dalej)[x]. Jednak podejście CEV nie jest teorią moralną (czy też nie musi być interpretowane jako taka). Nie jest ono równoznaczne z twierdzeniem, że istnieje jakikolwiek konieczny związek pomiędzy wartością a preferencjami wyrażonymi naszą spójną, ekstrapolowaną wolą. CEV można uznać po prostu za użyteczną metodę przybliżenia tego, co ma wartość ostateczną, lub też można ją rozważać w oderwaniu od jakichkolwiek kwestii etycznych. Jako główny prototyp podejścia zakładającego normatywność pośrednią warta jest nieco bardziej szczegółowego zbadania.
Kilka wyjaśnień
.Niektóre pojęcia w powyższym cytacie wymagają wyjaśnienia. „Myśleli szybciej” w terminologii Yudkowsky’ego oznacza: gdybyśmy byli inteligentniejsi i mieli sprawy lepiej przemyślane, „wspólnie wyrośli wyżej” wydaje się oznaczać: gdybyśmy się nauczyli, dokonali usprawnienia naszych kompetencji poznawczych i udoskonalili samych siebie w warunkach odpowiednich społecznych interakcji zachodzących pomiędzy nami.
„Ekstrapolacja jest coraz bardziej spójna, a nie coraz bardziej rozbieżna” można rozumieć następująco: SI powinna podejmować działanie na podstawie jakiejś cechy wyniku jej ekstrapolacji tylko o tyle, o ile ta cecha może zostać przewidziana przez SI z dość wysokim stopniem pewności. Jeśli SI nie jest w stanie przewidzieć, czego byśmy sobie życzyli, gdybyśmy zostali wyidealizowani we wskazany sposób, nie powinna podejmować działania, kierując się wyłącznie domysłami. Przeciwnie, powinna się powstrzymać od działania. Jednakże chociaż wiele szczegółów naszych wyidealizowanych pragnień może być nieokreślonych lub nieprzewidywalnych, mogą mimo to istnieć pewne ogólne zarysy, które SI jest w stanie pojąć, a wówczas może ona przynajmniej zadziałać w taki sposób, by zapewnić, że przyszłe wydarzenia potoczą się torem zgodnym z tymi zarysami. Dla przykładu: jeśli SI potrafi rzetelnie oszacować, że nasza ekstrapolowana wola życzyłaby sobie, byśmy nie byli dręczeni nieustannym cierpieniem lub by Wszechświat nie został zarzucony spinaczami do papieru, wówczas SI powinna podjąć takie działania, które zapobiegłyby tym rezultatom[xi].
„Nasze pragnienia, które nie są ze sobą sprzeczne, lecz zgodne” można odczytać następująco: SI powinna działać wówczas, gdy istnieje dość szeroka zgodność ekstrapolowanych woli pojedynczych ludzi. Mniejszy zbiór silnych, klarownych pragnień może czasem przeważyć nad słabymi i mglistymi życzeniami większości. Yudkowsky sądzi również, że powinien być wymagany mniej wyraźny konsensus, by SI zapobiegła jakiemuś szczególnie wąsko określonemu rezultatowi, a wyraźniejszy konsensus, by SI podjęła działanie mające na celu skierowanie przyszłości ku jakiejś szczególnie wąskiej koncepcji dobra. „Początkowa dynamika CEV — napisał — powinna zakładać zachowawczość, gdy chodzi o powiedzenie »tak«, a przy tym wytężone nasłuchiwanie słowa »nie«”[xii].
„Pragnienia ekstrapolowane zgodnie z naszymi intencjami, interpretowane zgodnie z naszymi zamiarami” — koncepcja stojąca za tymi ostatnimi określnikami wydaje się polegać na tym, że same zasady ekstrapolacji powinny uwzględniać ekstrapolowaną wolę. Jednostka może mieć pragnienie drugiego rzędu (pragnienie dotyczące tego, czego chce pragnąć), by niektóre z jej pragnień pierwszego rzędu nie były brane pod uwagę przy ekstrapolacji jej woli. Przykładowo: alkoholik, którego pragnieniem pierwszego rzędu jest wódka, może mieć również pragnienie drugiego rzędu, by nie mieć tego pragnienia pierwszego rzędu. Analogicznie nasze pragnienia mogą się odnosić do tego, jak chcielibyśmy, by rozwinęły się rozmaite inne fragmenty procesu ekstrapolacji, i sam proces ekstrapolacji powinien to uwzględniać.
.Można zaoponować, że nawet gdyby koncepcja spójnej, ekstrapolowanej woli ludzkości mogła zostać prawidłowo określona, to tak czy inaczej byłoby niemożliwe — nawet dla superinteligencji — dowiedzenie się, czego tak naprawdę ludzkość by chciała w hipotetycznych, wyidealizowanych okolicznościach przewidzianych w podejściu CEV. Nie dysponując jakąś informacją na temat treści naszej ekstrapolowanej woli, SI zostałaby pozbawiona jakiejkolwiek istotnej normy, która mogłaby kierować jej działaniem. Jednakże choć trudne byłoby precyzyjne zrozumienie, czego życzyłaby sobie ludzkość, gdyby mierzyć to jej CEV, możliwe byłoby wysnucie pewnych opartych na faktach przypuszczeń. Można to zrobić nawet dziś, gdy nie dysponujemy jeszcze superinteligencją. Dla przykładu: większe jest prawdopodobieństwo, że wedle CEV życzylibyśmy sobie, by w przyszłości ludzie wiedli bogate i szczęśliwe życie, niż by wszyscy siedzieli na zydelkach w ciemnej norze, dręczeni bólem. Jeśli my potrafimy sensownie dokonać przynajmniej pewnej liczby takich ocen, to może tego dokonać również superinteligencja. Od samego początku zachowaniem superinteligencji mogą zatem kierować jej szacunki dotyczące treści naszej CEV. Miałaby ona silne powody instrumentalne, by doprecyzowywać te początkowe szacunki (na przykład studiując ludzką kulturę i psychologię, skanując ludzkie mózgi i rozumując na temat tego, jak moglibyśmy się zachowywać, gdybyśmy wiedzieli więcej, myśleli jaśniej i tak dalej). W trakcie zgłębiania tych kwestii SI kierowałaby się swoimi początkowymi szacunkami naszej CEV, aby na przykład SI nie uruchamiała niepotrzebnie nieskończonej liczby symulacji nękanych cierpieniem, od którego nie ma ucieczki, jeśli oszacowała, że nasza CEV prawdopodobnie potępiłaby takie symulacje jako zbrodnię przeciw umysłom.
Kolejna obiekcja polega na tym, że na świecie istnieje tyle różnych sposobów życia i kodów moralnych, że może się okazać niepodobieństwem „stopienie” ich w jedną wspólną CEV. Nawet gdyby dało się je zlać w jedną całość, efekt może nie okazać się szczególnie apetyczny — nikłe jest prawdopodobieństwo, że dzięki pomieszaniu najlepszych składników ulubionych dań każdego z nas otrzymamy smakowity posiłek[xiii]. W odpowiedzi można zwrócić uwagę na to, że podejście CEV nie wymaga, by wszystkie sposoby życia, wszystkie kody moralne czy osobiste wartości zostały zmieszane w jednym garze. CEV ma się przerodzić w działanie tylko wówczas, gdy nasze życzenia okażą się spójne i zbieżne. W przypadku kwestii, co do których panują daleko idące rozbieżności — niedające się pogodzić nawet po wprowadzeniu rozmaitych idealizujących okoliczności warunków — SI powinna się powstrzymać od określania rezultatu. Rozciągając jeszcze dalej tę kulinarną metaforę: może być tak, że rozmaite jednostki i kultury będą miały odmienne ulubione dania, lecz mimo to będą mogły z grubsza zgodzić się co do tego, że połączenia składników nie powinny być trujące. Wówczas SI powinna zadziałać na podstawie CEV, zapobiegając zatruciom pokarmowym, lecz poza tym pozwalając ludziom na praktykowanie bez przeszkód ich zwyczajów kulinarnych i powstrzymując się od kierowania nimi.
Uzasadnienie CEV
.W swoim artykule Yudkowsky podał siedem argumentów na rzecz podejścia CEV. Trzy z nich sprowadzały się w gruncie rzeczy do tego, że o ile należy sobie postawić za cel uczynienie czegoś, co jest humanitarne i pomocne, o tyle bardzo trudno będzie określić wprost zbiór reguł niepociągających za sobą niezamierzonych interpretacji i niepożądanych następstw[xiv]. Metoda CEV ma być solidna i samoistnie wprowadzać autopoprawki; ma za zadanie uchwycić źródło naszych wartości, a nie czekać na to, aż prawidłowo sformułujemy i wyliczymy raz na zawsze każdą z naszych podstawowych wartości. Cztery pozostałe argumenty wykraczają poza to pierwsze podstawowe (lecz istotne) twierdzenie, szczegółowo formułując postulaty wobec proponowanych rozwiązań problemu określenia wartości i sugerując, że CEV spełnia te postulaty.
„Uwzględnij rozwój moralny”
.Jest to postulat, by rozwiązanie pozostawiało możliwość moralnego rozwoju. Jak sugerowano wcześniej, istnieją powody, by wierzyć, że nasze obecne przekonania moralne są pod wieloma względami błędne, być może głęboko błędne. Gdybyśmy mieli określić konkretny i niezmienny kod moralny, którym SI miałaby się kierować, ugrzęźlibyśmy w istocie w naszych obecnych przekonaniach moralnych, włączając w to nasze błędy, niwecząc wszelkie nadzieje na wzrost moralny. Metoda CEV natomiast pozostawia nam możliwość takiego wzrostu, ponieważ obliguje ona SI do podjęcia próby uczynienia tego, czego byśmy sobie życzyli, gdybyśmy w sprzyjających warunkach rozwinęli się jeszcze bardziej, i istnieje możliwość, że gdybyśmy się w ten sposób rozwinęli, nasze przekonania moralne i wrażliwość oczyściłyby się z ich obecnych błędnych naleciałości i ograniczeń.
„Unikaj zawłaszczania przeznaczenia ludzkości”
.Yudkowsky ma na myśli scenariusz, w którym niewielka grupa programistów tworzy zalążkową SI, która następnie wyrasta na superinteligencję uzyskującą decydującą przewagę strategiczną. W tym scenariuszu ci pierwsi programiści trzymają w ręku całość kosmicznej spuścizny ludzkości. Oczywiście dla każdego śmiertelnika jest to potworna, przytłaczająca odpowiedzialność. Mimo to nie jest możliwe, by programiści całkowicie wymigali się od odpowiedzialności, kiedy już znajdą się w tej sytuacji — każdy wybór, którego dokonają, włącznie z porzuceniem projektu, zdecyduje o dalszym losie świata. Yudkowsky postrzega CEV jako metodę pozwalającą programistom uniknąć przywłaszczenia sobie przywileju czy też ciężaru określania przyszłości ludzkości. Ustanawiając mechanizm, który prowadzi do wdrożenia spójnej, ekstrapolowanej woli ludzkości — będącej przeciwieństwem własnej woli programistów lub ich ulubionej teorii moralnej — programiści w istocie przekazują swój wpływ na przyszłość w ręce całej ludzkości.
„Unikaj dawania współczesnym ludziom powodów do sporów o początkową dynamikę”
.Przekazanie wpływu na przyszłość ludzkości jest nie tylko moralnie bardziej pożądane niż wprowadzenie w życie przez zespół programistów jego własnej wizji, lecz jest również sposobem na ograniczenie motywacji do walki o to, komu uda się stworzyć pierwszą superinteligencję. Przy podejściu CEV programiści (lub ich sponsorzy) nie mają większego wpływu na ostateczny rezultat niż ktokolwiek inny — chociaż odgrywają oczywiście czołową rolę jako autorzy schematu ekstrapolacji i decyzji, zgodnie z którą wcielona w życie zostanie CEV ludzkości, a nie jakaś postać rozwiązania alternatywnego. Unikanie konfliktu jest istotne nie tylko ze względu na bezpośrednie krzywdy, jakie zazwyczaj pociągają za sobą konflikty, lecz również ze względu na to, że utrudnia to współpracę nad rozwiązaniem trudnego problemu bezpiecznego i korzystnego dla ludzkości rozwoju superinteligencji.
Metoda CEV z założenia powinna móc zyskać szerokie poparcie. Nie tylko dlatego, że uruchamia sprawiedliwy mechanizm wywierania wpływu na rozwój sytuacji. Istnieje również głębsza przyczyna pojednawczego potencjału CEV — konkretnie chodzi o to, że CEV daje wielu rozmaitym grupom nadzieję, że ich własna wizja przyszłości zwycięży w skali całego świata. Wyobraźcie sobie afgańskiego taliba debatującego z członkiem Szwedzkiego Towarzystwa Humanistycznego. Ci dwaj mają zupełnie odmienne światopoglądy i to, co dla jednego jest utopią, jawi się jako dystopia drugiemu. Żadnego z nich nie zachwyci kompromis w rodzaju pozwolenia dziewczętom na pobieranie nauk, ale tylko do dziewiątej klasy lub też przyzwolenia na to, by szwedzkie dziewczynki się uczyły, a afgańskie nie. Jednak zarówno talib, jak i humanista mogą się zgodzić, że przyszłość powinna zostać określona CEV ludzkości. Talib może rozumować w ten sposób, że jeśli jego zapatrywania religijne są w istocie słuszne (o czym jest przekonany) i że jeśli istnieją słuszne powody, by je zaakceptować (o czym również jest przekonany), wówczas ludzkość ostatecznie zaakceptowałaby je, gdyby tylko ludzie byli mniej uprzedzeni i stronniczy, gdyby poświęcili więcej czasu na studiowanie świętych tekstów, gdyby potrafili pojąć mechanizmy działania świata i uznać zasadnicze priorytety, gdyby tylko udało się ich uwolnić od nieracjonalnej buntowniczości i tchórzostwa i tak dalej[xv]. Na podobnej zasadzie humanista wierzyłby, że w tych wyidealizowanych warunkach ludzkość przyjęłaby zasady, za którymi on sam się opowiada.
„Pozwól ostatecznie zachować ludzkości kontrolę nad jej własnym przeznaczeniem”
.Możemy nie pragnąć rezultatu, w ramach którego paternalistycznie usposobiona superinteligencja czuwa nad nami nieustannie, wtrącając się we wszystkie nasze sprawy z zamiarem dopracowania każdego szczegółu pod kątem realizacji nadrzędnego planu. Nawet jeśli założymy, że superinteligencja byłaby wcieleniem życzliwości, całkowicie pozbawionym arogancji, tupetu, władczości, uprzedzeń i innych ludzkich przywar, nadal można byłoby mieć żal o utratę autonomii, którą pociągnąłby za sobą taki układ. Moglibyśmy woleć podejmować decyzje o naszym przeznaczeniu w miarę rozwoju wypadków, nawet gdyby miało to oznaczać, że czasem się potkniemy. Być może wolelibyśmy, by superinteligencja spełniała funkcję siatki bezpieczeństwa, na którą spadniemy, gdy sprawy przybiorą katastrofalny obrót, lecz poza tym wolelibyśmy, by superinteligencja pozwoliła nam się zatroszczyć o siebie samodzielnie.
CEV daje taką możliwość. CEV ma być w założeniu „pierwotną dynamiką”, procesem, który przebiega raz, a następnie zastępuje się tym, co jest urzeczywistnieniem pragnień wyrażonych ekstrapolowaną wolą ludzkości. Jeśli ludzkość swoją ekstrapolowaną wolą wyraża chęć życia pod nadzorem paternalistycznej SI, wówczas mechanizm CEV stworzy taką SI i przekaże jej dowodzenie. Jeśli ludzkość przez swoją ekstrapolowaną wolę wyrazi natomiast chęć stworzenia demokratycznego, ludzkiego rządu, wówczas mechanizm CEV może ułatwić stworzenie takiej instytucji, w żaden inny sposób się nie ujawniając. Jeśli ekstrapolowana wola ludzkości stanowi natomiast, że każda osoba powinna otrzymać w wianie zasoby, które może wykorzystać wedle własnego upodobania, o ile tylko będzie respektować równe prawa innych, wówczas mechanizm CEV pozwoli to urzeczywistnić, działając w tle niczym prawa natury, by zapobiec łamaniu prawa własności, kradzieżom, napadom i innym naruszeniom[xvi].
Struktura metody CEV umożliwia zatem wystąpienie w zasadzie nieograniczonej liczby rezultatów. Można sobie również wyobrazić, że ekstrapolowana wola ludzkości stanowić będzie, by SI w ogóle powstrzymała się od działania. W tym przypadku SI wcielająca w życie CEV powinna, ustaliwszy z wystarczającym prawdopodobieństwem, że taka jest właśnie ekstrapolowana wola ludzkości, bezpiecznie się wyłączyć.
Dalsze uwagi
.Nakreślona wyżej propozycja CEV jest oczywiście zaledwie z grubsza opisanym schematem. Ma szereg parametrów, które mogą zostać zdefiniowane w rozmaity sposób, tworząc różne odmiany tej propozycji.
Jednym z parametrów jest baza ekstrapolacji: czyja wola powinna zostać uwzględniona? Możemy powiedzieć „wszystkich”, lecz ta odpowiedź rodzi mnóstwo kolejnych pytań. Czy baza ekstrapolacji obejmuje osoby plasujące się na obrzeżach człowieczeństwa, jak embriony, płody, pacjenci w stanie śmierci mózgowej, cierpiący na poważne przypadki demencji lub będący w stanie wegetatywnym? Czy u pacjentów po komisurotomii każdej półkuli mózgowej przypisać należy oddzielną wagę i czy będzie to taka sama waga, jaką się przypisuje całemu mózgowi zwykłego człowieka? A co z ludźmi, którzy żyli w przeszłości i umarli? Co z ludźmi, którzy urodzą się w przyszłości? Co ze zwierzętami znajdującymi się na wyższych szczeblach ewolucyjnej drabiny i innymi istotami rozumnymi? Co z umysłami cyfrowymi? Co z istotami pozaziemskimi?
Jedną z możliwości byłoby uwzględnienie w bazie ekstrapolacji tylko populacji ludzi dorosłych zamieszkujących Ziemię, którzy będą żyli w chwili, w której zostanie stworzona sztuczna inteligencja. Początkowa ekstrapolacja na gruncie tej bazy mogłaby następnie określić, czy i jak ta baza powinna zostać rozszerzona. Ponieważ liczba „osób marginalnych” znajdujących się na peryferiach tej bazy jest względnie mała, rezultat ekstrapolacji może w niewielkim stopniu zależeć od tego, gdzie zostanie zakreślona granica — a więc czy na przykład włączy się do niej płody, czy nie.
To, że ktoś zostanie wykluczony z pierwotnej bazy ekstrapolacji, nie oznacza jeszcze, że jego życzenia i dobrostan nie zostaną wzięte pod uwagę. Jeśli spójna, ekstrapolowana wola osób znajdujących się w bazie ekstrapolacji (na przykład żyjących ludzi dorosłych) ustanowi, że względy moralne powinny objąć również inne istoty, to wówczas wynik działania mechanizmu CEV będzie odbiciem tych preferencji. Mimo to istnieje możliwość, że interesy tych, którzy znajdą się w pierwotnej bazie ekstrapolacji, zostaną uwzględnione w większym stopniu niż interesy bytów zewnętrznych. W szczególności jeśli SI podejmuje działanie tylko wówczas, gdy istnieje powszechna zgoda indywidualnych ekstrapolowanych woli (jak w pierwotnej propozycji Yudkowsky’ego), wówczas wydaje się, że powstaje znaczące ryzyko ujawnienia się głosu blokującego uchwały, które mogłyby zapobiec, dla przykładu, zagwarantowaniu dobrostanu zwierząt lub cyfrowych umysłów. Wynik może się potencjalnie okazać przykładem moralnej zgnilizny[xvii].
Jednym z powodów wysunięcia propozycji CEV było pragnienie wygaszenia w ludziach motywacji do walki o stworzenie pierwszej superinteligentnej SI.
.Chociaż metoda CEV realizuje ten postulat lepiej niż wiele propozycji alternatywnych, nie eliminuje całkowicie przyczyn potencjalnego konfliktu. Egoistyczna jednostka, grupa lub naród mogą dążyć do powiększenia swojego kawałka przyszłego tortu, starając się wykluczyć pozostałych z bazy ekstrapolacji.
Tego rodzaju sięganie po władzę może zostać na wiele sposobów zracjonalizowane. Można chociażby utrzymywać, że sponsor finansujący rozwój SI zasługuje na to, by decydować o wynikach. Ta teza moralna jest prawdopodobnie fałszywa. Można na przykład zaprotestować, że projekt, w ramach którego po raz pierwszy uda się z sukcesem uruchomić pierwszą zalążkową SI, stawia wobec ogromnego ryzyka całą resztę ludzkości, która z tego względu uprawniona jest do odszkodowania. Wielkość należnego odszkodowania jest tak ogromna, że może ono jedynie przybrać formę przekazania wszystkim udziałów w zyskach, jeśli sprawy przybiorą korzystny obrót[xviii].
Kolejny argument, który można wykorzystać w celu zracjonalizowania sięgnięcia po władzę, zasadza się na tym, że ogromna część ludzkości ma bardzo prymitywne lub złe skłonności, których uwzględnienie w bazie ekstrapolacji groziłoby przekształceniem przyszłego świata ludzi w dystopię. Trudno ocenić, ile jest dobra, a ile zła w sercu przeciętnego człowieka. Trudno również ocenić, jak ów stosunek dobra do zła kształtuje się w różnych grupach, różnych warstwach społecznych, kulturach i narodach. Zależnie od tego, czy ma się optymistyczne czy pesymistyczny pogląd na naturę ludzką, można chcieć lub nie chcieć ryzykować kosmiczną spuścizną ludzkości w imię przypuszczenia, że u odpowiednio dominującej większości siedmiu miliardów aktualnie żyjących ludzi lepsza strona ich natury przezwycięży gorszą, co znajdzie wyraz w ich ekstrapolowanej woli. Oczywiście, wykluczenie pewnej grupy ludzi z bazy ekstrapolacji nie gwarantuje jeszcze zwycięstwa światłości — może być i tak, że ci, którzy najżarliwiej rwą się do wykluczenia innych lub samodzielnego sięgnięcia po władzę, są tymi, w których sercach panuje najgłębszy mrok.
Mimo to kolejnym powodem do walki o pierwotną dynamikę CEV jest to, że ktoś może żywić przekonanie, że SI należąca do kogoś innego nie będzie działać tak, jak się twierdzi — nawet jeśli SI zachwalana jest jako metoda wcielenia w życie CEV ludzkości. Jeśli różne grupy mają odmienne przekonania co do tego, która implementacja z największym prawdopodobieństwem odniesie sukces, mogą walczyć o to, by uniemożliwić innym uruchomienie owocu ich pracy. Lepiej byłoby w takiej sytuacji, gdyby konkurencyjne projekty mogły uzgodnić swoje różnice poznawcze z wykorzystaniem jakiejś metody bardziej niezawodnie ustalającej, kto ma rację, niż metoda konfliktu zbrojnego[xix].
Nick Bostrom
Fragment najnowszej książki „Superinteligencja. Scenariusze, strategie, zagrożenia”, wyd.Helion/OnePress, 2016.
POLECAMY WERSJĘ PRINT I E-BOOK: [LINK]
[i] W ostatnim badaniu zawodowych filozofów liczono odsetek respondentów, którzy „akceptują” rozmaite stanowiska filozoficzne lub „skłaniają się ku” nim. W przypadku etyki normatywnej wyniki wyglądały następująco: deontologia 25,9%, konsekwencjalizm 23,6%, etyka wartości 18,2%. W przypadku metaetyki rezultaty były następujące: realizm moralny 56,4%, antyrealizm moralny 27,7%. W przypadku ocen moralnych: kognitywizm 65,7%, akognitywizm 17,0% (Bourget, Chalmers 2009). [ii] Pinker (2011). [iii] Omówienie tej kwestii patrz: Shulman i in. (2009). [iv] Moore (2011). [v] Bostrom (2006b). [vi] Bostrom (2009b). [vii] Bostrom (2011a). [viii] Precyzyjniej rzecz ujmując, powinniśmy się powstrzymać od wyrażenia opinii z wyjątkiem tych tematów, w przypadku których mamy słuszne powody podejrzewać, że nasze przekonania są dokładniejsze. Dla przykładu: możemy wiedzieć więcej na temat tego, o czym myślimy w danym momencie, niż wie superinteligencja, jeśli nie potrafi skanować naszych mózgów. Moglibyśmy jednak pominąć to zastrzeżenie, gdybyśmy założyli, że superinteligencja ma dostęp do naszych opinii. Moglibyśmy wówczas zrzucić na superinteligencję również zadanie oceny, kiedy nasze opinie są godne zaufania. (Mogą pozostać pewne przypadki specjalne związane z wyrażeniami okazjonalnymi, którymi należałoby zająć się oddzielnie — poprzez na przykład nakazanie superinteligencji wyjaśnienia nam, w co rozsądnie byłoby uwierzyć z naszej perspektywy). Wprowadzenie do szybko przyrastającej literatury filozoficznej na temat wiarygodności świadectwa i autorytetu epistemicznego patrz na przykład: Elga (2007). [ix] Yudkowsky (2004). Patrz również: Mijic (2010). [x] Dla przykładu David Lewis zaproponował predyspozycyjną teorię wartości, zgodnie z którą z grubsza rzecz biorąc, jakaś rzecz X ma wartość dla A wtedy i tylko wtedy, gdy A chciałby chcieć X, gdyby A był idealnie racjonalny i doskonale obznajmiony z X (Smith i in. 1989). Pokrewne koncepcje zostały wysunięte wcześniej, patrz na przykład: Sen, Williams (1982), Railton (1986) oraz Sidgwick, Jones (2010). Na nieco podobnej zasadzie jeden z powszechnie stosowanych opisów filozoficznego uzasadnienia, metoda refleksyjnej równowagi, postuluje proces iteracyjnych, wzajemnych korekt naszych intuicji dotyczących konkretnych przypadków, ogólnych zasad, które w naszym przekonaniu rządzą tymi przypadkami, oraz zasad, zgodnie z którymi w naszej ocenie te elementy powinny być weryfikowane w celu uzyskania spójniejszego systemu. Patrz na przykład: Rawls (1971) i Goodman (1954). [xi] Przypuszczalnie dążymy do sytuacji, w której jeśli SI podejmie działania mające na celu zapobieżenie tym katastrofom, to jej interwencje będą możliwie nieznaczne, to jest podjęte w taki sposób, by zapobiec katastrofie, nie wywierając zbyt wielkiego wpływu na rozwój losów ludzkości w innych aspektach. [xii] Yudkowsky (2004). [xiii] Rebecca Roache, korespondencja osobista. [xiv] Trzy wymienione zasady to: „Broń ludzi, przyszłości ludzkości i natury humanitarnej” (przymiotnik humanitarny opisuje nas takimi, jacy chcielibyśmy być, natomiast ludzki opisuje nas takimi, jacy jesteśmy), „Ludzkość nie powinna spędzić pozostałej części wieczności, rozpaczliwie żałując, że programiści nie zrobili czegoś inaczej” i „Pomagaj ludziom”. [xv] Niektóre grupy religijne kładą ogromny nacisk na wiarę przeciwstawioną rozumowi, uznając rozum — nawet w jego hipotetycznej, wyidealizowanej postaci, nawet po tym, jak ów rozum gorliwie i bez uprzedzeń przestudiowałby każdy fragment pisma, każde objawienie i każdą egzegezę — za niewystarczający do osiągnięcia dogłębnego zrozumienia na poziomie duchowym. Ci, którzy reprezentują takie poglądy, mogą nie uznawać CEV za drogowskaz umożliwiający podjęcie optymalnych decyzji (choć i tak mogą ją przedłożyć ponad inne niedoskonałe wskazówki, za którymi ludzkość może ostatecznie podążyć, gdyby podejście CEV zostało odrzucone). [xvi] SI działająca niczym utajona siła natury mająca na celu regulację ludzkich interakcji była określana mianem „Sysop”, „systemu operacyjnego” materii okupowanej przez cywilizację ludzką. Patrz: Yudkowsky (2001). [xvii] „Może”, ponieważ warunkiem jest spójna ekstrapolowana wola ludzkości życzącej sobie nierozciągania statusu moralnego na te jednostki, a zatem można wątpić, czy te jednostki mają faktycznie status moralny (choć obecnie wydaje się bardzo prawdopodobne, że mają). „Potencjalnie”, ponieważ nawet jeśli pojedynczy głos sprzeciwu uniemożliwi mechanizmowi CEV bezpośrednią ochronę tych outsiderów, nadal jest możliwe, że w ramach tych podstawowych zasad, które się ostaną po tym, jak uruchomiony zostanie mechanizm CEV, jednostki, których życzenia zostały uszanowane i które życzą sobie ochrony dobrostanu jednostek nienależących do grupy, mogą z sukcesem dobić targu, by osiągnąć taki wynik (kosztem zrzeczenia się części własnych zasobów). To, czy byłoby to możliwe, może zależeć od tego między innymi, czy wynik działania mechanizmu CEV jest zbiorem podstawowych zasad umożliwiających osiągnięcie wynegocjowanego rozwiązania kwestii tego rodzaju (które mogą wymagać odpowiednich postanowień, by przezwyciężyć problemy strategii negocjacyjnych). [xviii] Jednostki, które pozytywnie przyczyniają się do stworzenia bezpiecznej i korzystnej superinteligencji, mogą zasługiwać na jakąś specjalną nagrodę za swoją pracę, aczkolwiek coś dalekiego od prawie wyłącznego mandatu na określenie sposobu rozdysponowania kosmicznego dziedzictwa ludzkości. Jednakże wyobrażenie o tym, że wszyscy otrzymają równy udział w naszej bazie ekstrapolacji, jest takim ładnym punktem Schellinga, że nie należy go ot tak odrzucać. Tak czy inaczej, istnieje pośrednia metoda nagrodzenia cnoty — mianowicie może się okazać, że sama CEV określi, że dobrzy ludzie, którzy wysilali się dla dobra ludzkości, powinni się doczekać stosownego uznania. Może się to wydarzyć bez przyznawania takim ludziom specjalnych, wyższych udziałów w bazie ekstrapolacji, jeśli — jak można sobie z łatwością wyobrazić — nasza CEV zatwierdziłaby (w tym sensie, by przypisać jej przynajmniej niezerową wagę) zasadę zasłużonej nagrody. [xix] Bostrom i in. (2013).