Superinteligencja (2).
Przewaga AI nad homo sapiens?

Nick BOSTROM

Szwedzki filozof, profesor Uniwersytetu Oksfordzkiego, kierownik Instytutu Przyszłości Ludzkości działającego w ramach Oxford Martin School. Autor licznych prac dotyczących transhumanizmu (idei zakładającej wykorzystanie osiągnięć nauki i techniki w celu przezwyciężenia ludzkich ograniczeń). Magazyn „Foreign Policy” umieścił go na liście 100 czołowych myślicieli świata.

zobacz inne teksty Autora

Wcześniej na ten sam temat:

Nick BOSTROM: Superinteligencja.<BR/> Scenariusze, strategie, zagrożenia

Superinteligencja.
Scenariusze, strategie, zagrożenia

Ludzki mózg to dzieło idealne, najdoskonalszy twór w przyrodzie. Jego dominacją zachwiał komputer Deep Blue, który w 1997 roku pokonał w szachy mistrza świata, Garriego Kasparowa. Od tego czasu sztuczna inteligencja jest na ścieżce intensywnego rozwoju. Czy dominacja superinteligencji nad człowiekiem jest realną perspektywą naszej przyszłości? Czy ta przewaga skończy się kresem naszego gatunku?

Książka Nicka Bostroma jest odważną i oryginalną próbą znalezienia odpowiedzi na te pytania. Możliwe kierunki rozwoju technologii cyfrowej i jego konsekwencje są trudne do przewidzenia, a rozstrzygnięcie związanych z tym kwestii jest prawdziwym intelektualnym wyzwaniem. Niemniej z niektórych szans i zagrożeń powinniśmy wszyscy sobie zdawać sprawę. Nick Bostrom, wybitny badacz sztucznej inteligencji i transhumanizmu, stara się jasno i klarownie przedstawić przyszłe konsekwencje coraz większego udziału maszyn w naszym życiu, opisuje możliwe komplikacje i strategie rozwiązania ewentualnych problemów. Lektura tej książki jest niesamowitą podróżą na krańce istoty człowieczeństwa, wyprawą do przyszłości inteligentnego życia i prawdziwie fascynującym doświadczeniem.

Kluczowe zagadnienia ujęte w książce „Superinteligencja. Scenariusze, strategie, zagrożenia” [LINK] to: dotychczasowe osiągnięcia w dziedzinie sztucznej inteligencji, superinteligencja i jej możliwe ścieżki rozwoju, zagłada ludzkości a rozwój superinteligencji, kontrola nad umysłem człowieka w przyszłości.

Metody doboru motywacji

.Celem metody doboru motywacji jest zapobieżenie niepożądanym skutkom poprzez kształtowanie chęci i pragnień superinteligencji. Poprzez projektowanie hierarchii wartości i celów ostatecznych superinteligentnego systemu te metody pozwoliłyby na wytworzenie superinteligencji, która nie chciałaby wykorzystywać swojej decydującej przewagi konkurencyjnej w szkodliwy dla ludzkości sposób.

Ponieważ superinteligentny system potrafi umiejętnie osiągać swoje cele, to jeśli będzie wolał nie krzywdzić (w jakimś adekwatnym znaczeniu „krzywdzenia”), raczej nie będzie krzywdził (w tym właśnie znaczeniu).

.Dobór motywacji może polegać na wyraźnym określeniu celu lub zbioru zasad, którymi należy się kierować (opis wprost) lub ustawieniu systemu w taki sposób, by mógł samodzielnie odkryć właściwy zbiór wartości, odnosząc się do jakichś pośrednio lub domyślnie wyrażonych kryteriów (normatywność pośrednia). Jedną z możliwości w przypadku doboru motywacji jest próba zbudowania systemu w taki sposób, by miał on skromne, niezbyt ambitne cele (udomowienie).

Alternatywą do tworzenia hierarchii celów i pobudek od zera jest wybór takiego systemu, który ma już akceptowalną hierarchię wartości, a następnie takie rozszerzenie jego kompetencji poznawczych, by zapewnić mu superinteligencję przy jednoczesnym zagwarantowaniu, że w trakcie tego procesu jego motywacja nie zostanie wypaczona (rozszerzona). Przyjrzyjmy się wszystkim tym możliwościom po kolei.

Opis wprost

.Opis wprost jest najprostszym podejściem do problemu kontroli. To podejście ma dwie odmiany — opartą na zasadach i opartą na skutkach działania (konsekwencjalizm) — i polega na próbie dokładnego zdefiniowania zbioru zasad lub wartości, które spowodują, że nawet korzystająca ze swobody superinteligentna SI będzie postępować bezpiecznie i z pożytkiem dla ludzkości. Opis wprost napotyka jednak przeszkody, które mogą się okazać nie do przezwyciężenia, a których źródłem są zarówno trudności w określeniu zasad czy wartości, którymi SI miałaby się w naszym zamierzeniu kierować, jak i trudności w wyrażeniu tych zasad i wartości w kodzie zrozumiałym dla komputera.

Tradycyjną ilustracją opisu wprost opartego na zasadach jest koncepcja trzech praw robotyki sformułowana przez Isaaca Asimova, pisarza SF, w opowiadaniu opublikowanym w 1942 roku[i].

Trzy prawa robotyki brzmiały następująco: (1) robot nie może skrzywdzić człowieka ani przez zaniechanie działania dopuścić, aby człowiek doznał krzywdy; (2) robot musi być posłuszny rozkazom człowieka, chyba że stoją one w sprzeczności z pierwszym prawem; (3) robot musi chronić sam siebie, jeśli tylko nie stoi to w sprzeczności z pierwszym lub drugim prawem.

.Bardzo to krępujące dla naszego gatunku, ale prawa Asimova pozostały naszym szczytowym osiągnięciem w tym zakresie przez ponad pół wieku — i to pomimo oczywistych problemów powstających przy tym podejściu, z których część została przeanalizowana przez samego Asimova w jego kolejnych utworach (Asimov prawdopodobnie od samego początku sformułował prawa w taki sposób, by mogły one w interesujący sposób zawieść, dając sposobność ku ciekawym zwrotom akcji w jego opowiadaniach)[ii].

Bertrand Russell, który poświęcił wiele lat pracom nad podstawami matematyki, zauważył kiedyś, że „wszystko jest niejasne w stopniu, który dla człowieka jest niewyobrażalny, dopóki nie podejmie się próby doprecyzowania”[iii]. Sentencja Russella aż nadto pasuje do podejścia zakładającego opis wprost. Wyobraźmy sobie na przykład, jak można byłoby rozwinąć pierwsze prawo Asimova. Czy oznacza ono, że robot powinien zminimalizować prawdopodobieństwo, że jakakolwiek istota ludzka dozna krzywdy? W tym przypadku inne prawa stają się bezużyteczne, gdyż SI zawsze ma możliwość podjęcia jakichś działań, które będą miały choćby mikroskopijny wpływ na prawdopodobieństwo doznania krzywdy przez człowieka. W jaki sposób robot ma zrównoważyć ogromne ryzyko doznania krzywdy przez zaledwie kilka osób z ryzykiem doznania innej krzywdy, które jest dla odmiany niewielkie, lecz dotyczy całej rzeszy ludzi? W jaki w ogóle sposób mielibyśmy zdefiniować „krzywdę”? Jaką wartość na skali krzywdy mielibyśmy przypisać fizycznemu bólowi wobec architektonicznej brzydoty lub niesprawiedliwości społecznej? Czy sadysta zostanie skrzywdzony, jeśli uniemożliwi mu się dręczenie jego ofiary? Jak zdefiniujemy „człowieka”? Dlaczego nie poświęca się uwagi innym moralnie godnym szacunku istotom, takim jak rozumne zwierzęta czy cyfrowe umysły? Im głębszy namysł, tym więcej powstaje pytań.

Być może najbliższą analogią do zbioru zasad, który mógłby rządzić działaniami superinteligencji podejmującej swobodną aktywność, jest system prawny. Ale systemy prawne rozwinęły się w długim procesie prób i błędów i regulują działania stosunkowo powoli zmieniających się społeczności ludzi. W miarę potrzeb prawo może być rewidowane. Co jeszcze istotniejsze, o ostatecznym kształcie systemów prawnych decydują sędziowie kierujący się najczęściej zdrowym rozsądkiem i ludzką przyzwoitością, co pozwala im ignorować interpretacje możliwe z logicznego punktu widzenia, lecz w oczywisty sposób niepożądane i niezamierzone przez prawodawcę. Człowiek prawdopodobnie nie jest w stanie sformułować wysoce złożonego zbioru szczegółowych zasad, zastosować ich w bardzo rozmaitych okolicznościach i uzyskać już przy pierwszym podejściu pełnego sukcesu[iv].

Problemy z opisem wprost bazującym na skutkach są podobne do tych występujących przy podejściu wprost bazującym na zasadach. Odnosi się to również do sytuacji, w której SI ma w zamierzeniu służyć jakimś pozornie prostym celom — jak implementacja jakiejś odmiany klasycznego utylitaryzmu. Przykładowo: cel „zmaksymalizuj na świecie oczekiwaną przewagę przyjemności nad bólem” może się wydawać prosty, ale wyrażony w kodzie komputerowym wymagałby między innymi określenia, jak rozpoznać przyjemność i ból. Osiągnięcie tego mogłoby wymagać rozwiązania całego szeregu uporczywych problemów z zakresu filozofii umysłu, choćby po to, by uzyskać prawidłowy opis wyrażony w języku naturalnym — opis, który później musiałby jakoś zostać przetłumaczony na język programowania.

.Niewielki błąd popełniony albo w opisie filozoficznym, albo w jego tłumaczeniu na kod mógłby mieć katastrofalne skutki. Wyobraźmy sobie SI, której ostatecznym celem jest hedonizm i która z tego względu chciałaby wypełnić Wszechświat „hedonium” (materią zorganizowaną w konfiguracji optymalnie dostosowanej do wywoływania przyjemnych doświadczeń). W tym celu SI mogłaby wyprodukować „komputronium” (materię zorganizowaną w konfiguracji optymalnie dostosowanej do wykonywania obliczeń) i użyć go do wdrożenia cyfrowych umysłów w stanie euforii. W celu maksymalizacji efektywności takich działań SI pominęłaby implementację jakichkolwiek władz umysłowych, które nie odgrywają kluczowej roli w doświadczaniu przyjemności, i wykorzystałaby wszystkie obliczeniowe skróty, które zgodnie z jej definicją przyjemności nie niweczą jej powstawania. Dla przykładu: SI mogłaby ograniczyć swoją symulację do obwodu nagrody, pomijając takie władze umysłowe, jak pamięć, postrzeganie zmysłowe, funkcje wykonawcze i język; mogłaby symulować mózgi na dość ogólnym poziomie funkcjonalności, pomijając procesy neuronalne niższego poziomu; mogłaby zastąpić często powtarzające się obliczenia odwołaniami do tablicy wyników lub też mogłaby doprowadzić do sytuacji, w której wiele umysłów współdzieli większą część stanowiącej ich fundament maszynerii obliczeniowej. Takie sztuczki mogłyby znacznie zwiększyć sumę przyjemności, którą można uzyskać przy danej ilości zasobów. Nie jest jasne, jak bardzo byłoby to pożądane. Co więcej, jeśli kryterium SI pozwalające określić, czy dany proces rzeczywiście sprawia przyjemność, jest nieprawidłowe, wówczas optymalizacje SI mogą prowadzić do efektów odwrotnych do zamierzonych — odrzucenia czegoś, co nie jest kluczowe według kryterium SI, lecz ma zasadnicze znaczenie według kryteriów zawartych domyślnie w wartościach wyznawanych przez ludzi. Wszechświat wypełni się wówczas nie wzdychającym radośnie hedonium, lecz procesami obliczeniowymi, które są nieświadome i kompletnie bezwartościowe — odpowiednikami nalepek z uśmiechniętą buźką skserowanych biliony bilionów razy i rozklejonych po całej galaktyce.

Udomowienie

.Wyjątkowym rodzajem celu ostatecznego, który może się lepiej poddawać opisowi wprost niż podane wyżej przykłady jest samoograniczenie. O ile wydaje się skrajnie trudne określenie, jak chcielibyśmy, by superinteligencja zachowywała się w ogólności na świecie — ponieważ wymagałoby to od nas opisania wszystkich relacji wymiennych we wszystkich sytuacjach, do których mogłoby dojść — o tyle wykonalne może być określenie, jak superinteligencja powinna się zachowywać w konkretnej sytuacji. Możemy zatem starać się zmotywować system do tego, by ograniczył się do działania w małej skali, w wąskim kontekście, redukując zbiór podejmowanych działań. Podejście zakładające postawienie SI celów redukujących zakres jej ambicji i działań będziemy określać mianem „udomowienia”.

Dla przykładu: można podjąć próbę zaprojektowania SI w taki sposób, by działała jak urządzenie udzielające odpowiedzi na pytania („wyrocznia”, by uprzedzić terminologię, którą wprowadzimy w następnym rozdziale). Zwykłe postawienie SI celu udzielania maksymalnie poprawnych odpowiedzi na dowolne postawione jej pytanie byłoby niebezpiecznie — przypomnijmy sobie „katastrofę hipotezy Riemanna” opisaną w rozdziale 8. (Zastanówmy się również nad tym, że taki cel zachęciłby SI do podejmowania działań mających doprowadzić do tego, by zadawano jej łatwe pytania). Aby osiągnąć udomowienie, można byłoby próbować zdefiniować cel ostateczny pozwalający w jakiś sposób przezwyciężyć te trudności — być może cel, który łączyłby postulaty poprawnego odpowiadania na pytania i minimalizacji wpływu SI na świat, wyłączywszy wpływ będący przypadkową konsekwencją udzielania poprawnych i nienastawionych na manipulację ludźmi odpowiedzi na zadawane jej pytania[v].

Większe jest prawdopodobieństwo wykonalności opisu wprost takiego celu jak udomowienie niż celu bardziej ambitnego czy kompletnego zbioru zasad regulujących działanie we wszelkiego rodzaju sytuacjach. Nie usuwa to jednak wszystkich znaczących problemów. Należy, przykładowo, ostrożnie zdefiniować, czym dla SI miałaby być „minimalizacja jej wpływu na świat”, dbając o to, by miara wpływu SI pokrywała się z naszym własnym wyobrażeniem o tym, co oznacza duży lub niewielki wpływ. Zła miara doprowadzi do złych relacji wymiennych. Istnieją również inne rodzaje zagrożeń związanych z budowaniem wyroczni, które omówimy później.

Podejścia udomowienia i fizycznego uwięzienia w naturalny sposób do siebie pasują. Można byłoby spróbować uwięzić SI w taki sposób, by system nie mógł uciec, starając się jednocześnie tak ukształtować jego motywację, by nie chciał uciec — nawet gdyby znalazł drogę ucieczki. Przy innych czynnikach niezmienionych, istnienie wielu niezależnych mechanizmów bezpieczeństwa powinno zmniejszać prawdopodobieństwo zerwania się SI z uwięzi[vi].

Normatywność pośrednia

.Jeśli opis wprost wydaje się beznadziejnym przedsięwzięciem, moglibyśmy spróbować normatywności pośredniej. Zasadnicza koncepcja polega na tym, by zamiast opisywać konkretne normy bezpośrednio, opisać proces wywodzenia takich norm. Następnie tak budujemy system, by miał motywację do przeprowadzenia takiego procesu i przyjęcia norm, które będą owocem tego procesu[vii]. Dla przykładu: proces może polegać na zbadaniu empirycznego zagadnienia, jakich działań SI oczekiwałaby jakaś stosownie wyidealizowana wersja nas samych. Cel ostateczny postawiony SI w tym przykładzie mógłby przypominać coś w rodzaju „osiągnij to, czego osiągnięcia oczekiwalibyśmy od SI, gdybyśmy się nad tym długo i głęboko zastanawiali”.

Dalsze wyjaśnienia koncepcji normatywności pośredniej będą musiały poczekać do rozdziału 13. Tam wrócimy do pojęcia „ekstrapolacji naszej woli” i zbadamy rozmaite alternatywne jej sformułowania. Normatywność pośrednia jest bardzo istotnym podejściem do kształtowania motywacji. Jest obiecująca ze względu na to, że mogłaby nam pozwolić przerzucić na superinteligencję większość trudnej pracy umysłowej wymaganej do sporządzenia opisu wprost stosownego celu ostatecznego.

Rozszerzenie

.Ostatnią na naszej liście metodą doboru motywacji SI jest rozszerzenie. Tutaj pomysł polega na tym, by zamiast podejmować próby projektowania hierarchii celów de novo, rozpocząć pracę z systemem, który ma już akceptowalną hierarchię celów, a następnie podnieść jego możliwości umysłowe na taki poziom, by stał się superinteligentny. Jeśli wszystko pójdzie dobrze, otrzymamy superinteligencję kierującą się akceptowalnymi pobudkami.

To podejście jest oczywiście bezskuteczne w przypadku nowo utworzonej zalążkowej SI. Rozszerzenie jest jednak potencjalną metodą doboru motywacji, którą można zastosować w innych scenariuszach prowadzących do rozwoju superinteligencji, włączając w to transfer umysłu, doskonalenie biologiczne, interfejsy mózg – komputer oraz sieci i organizacje, w przypadku których istnieje możliwość rozbudowania systemu na bazie normatywnego jądra (zwykli ludzie) zawierającego już wartości przez nas cenione.

Atrakcyjność rozszerzenia może wzrastać proporcjonalnie do naszego zwątpienia w inne podejścia do problemu kontroli. Stworzenie hierarchii pobudek dla zalążkowej SI, która to SI pozostanie względnie bezpieczna i korzystna dla ludzkości podczas rekursywnego samodoskonalenia nawet wówczas, gdy wyrośnie na dojrzałą superinteligencję, jest niełatwym zadaniem, zwłaszcza jeśli musimy uzyskać właściwe rozwiązanie już przy pierwszej próbie. Stosując strategię rozszerzenia, wystartujemy przynajmniej z systemem, którym kierują znajome, podobne do ludzkich pobudki.

Minus tego rozwiązania polega na tym, że może być trudno doprowadzić do tego, by złożony, ewoluujący przez tysiące lat i wciąż słabo rozumiany system pobudek kierujących działaniem człowieka nie uległ zniekształceniu, gdy jego silnik kognitywny wystrzeli w stratosferę. Jak omówiliśmy to już wcześniej, niedoskonała procedura transferu umysłu, która pozwala zachować jego funkcjonowanie na poziomie intelektualnym, może nie pozwolić na zachowanie wszystkich aspektów osobowości. To samo tyczy się (być może w mniejszym stopniu) biologicznego doskonalenia zdolności poznawczych, które mogą w subtelny sposób wpływać na motywację, oraz doskonalenia inteligencji zbiorowej organizacji i sieci, które może negatywnie wpłynąć na dynamikę społeczną (na przykład doprowadzając do deprecjonowania przez zbiorowość osób z zewnątrz lub nawet członków tej właśnie zbiorowości). Jeśli superinteligencję uda się uzyskać drogą realizacji któregokolwiek z tych scenariuszy, sponsorowi projektu trudno będzie otrzymać gwarancję ostatecznej hierarchii celów dojrzałego systemu. Dobrze określona matematycznie i elegancka funkcjonalnie architektura SI może — przy całej swej nieantropomorficznej odmienności — stworzyć nam szansę uzyskania głębszego wglądu we własną naturę, a być może nawet perspektywę formalnej weryfikacji istotnych aspektów własnej funkcjonalności.

.I wreszcie jakkolwiek kalkulowalibyśmy wady i zalety rozszerzenia, możemy być zmuszeni do tego, by temu właśnie podejściu zawierzyć. supint_okladka Jeśli pierwszy byt superinteligentny uda się uzyskać w scenariuszu rozwoju sztucznej inteligencji, rozszerzenie nie będzie miało zastosowania. I odwrotnie, jeśli superinteligencja zostanie uzyskana dzięki realizacji któregoś ze scenariuszy nieuwzględniających sztucznej inteligencji, wówczas wiele innych metod wyboru motywacji nie będzie miało zastosowania. Mimo to wyobrażenia o tym, jak prawdopodobny jest sukces rozszerzenia, mają w istocie znaczenie strategiczne, pod warunkiem że uzyskamy sposobność wpływania na to, które technologie jako pierwsze zaowocują superinteligencją.

Nick Bostrom
Fragment najnowszej książki „Superinteligencja. Scenariusze, strategie, zagrożenia”, wyd.Helion/OnePress, 2016. POLECAMY WERSJĘ PRINT I E-BOOK: [LINK]

[i] Asimov (1942). Do trzech praw dodano później „prawo zerowe”: „(0) Robot nie może skrzywdzić ludzkości ani przez zaniechanie działania doprowadzić do uszczerbku dla ludzkości” (Asimov 1985). [ii] Por. Gunn (1982). [iii] Russell (1986, 161f). [iv] Analogicznie, choć niektórzy filozofowie poświęcili całe swoje życie zawodowe próbom starannego sformułowania systemów deontologicznych, na światło dzienne wychodzą co jakiś czas nowe przypadki wymagające ich rewizji. Dla przykładu: etyka deontologiczna otrzymała w ostatnich latach nowy impuls rozwojowy dzięki odkryciu nowej, płodnej klasy filozoficznych eksperymentów myślowych zapoczątkowanej przedstawieniem tak zwanego dylematu wagonika, który ujawnia wiele subtelnych interakcji zachodzących pomiędzy naszymi intuicyjnymi odczuciami na temat moralnego znaczenia rozróżnienia między podjęciem działania a zaniechaniem go, odróżnienia konsekwencji zamierzonych od niezamierzonych i innych tego rodzaju kwestii — patrz na przykład: Kamm (2007). [v] Armstrong (2010). [vi] Ogólnie rzecz biorąc, jeśli ktoś planuje zastosowanie szeregu rozmaitych mechanizmów bezpieczeństwa w celu uwięzienia SI, może się okazać mądrym posunięciem pracowanie nad każdym z nich, tak jakby miał on być jedynym mechanizmem bezpieczeństwa i tak jakby stawiano mu wymóg, by samodzielnie mógł owo bezpieczeństwo zapewnić. Jeśli jedno dziurawe wiadro umieści się wewnątrz innego dziurawego wiadra, woda nadal będzie wyciekać. [vii] Odmianą tej samej koncepcji jest zbudowanie SI w taki sposób, by była ona nieprzerwanie motywowana do działania zgodnie ze swoimi maksymalnie prawdopodobnymi przypuszczeniami co do tego, jak wygląda domyślna norma. W tym układzie celem ostatecznym SI jest zawsze działanie na bazie domyślnie określonych norm i tylko z powodów instrumentalnych dąży ona do odkrycia, jak wygląda faktyczna norma.

Materiał chroniony prawem autorskim. Dalsze rozpowszechnianie wyłącznie za zgodą wydawcy. 24 kwietnia 2016
Fot.Shutterstock