Sztuczna inteligencja nie radzi sobie z sudoku

Łamigłówki liczbowe takie jak sudoku są zbyt skomplikowane dla sztucznej inteligencji (AI) – ustalili naukowcy. Jeszcze większy problem maszyny mają z wyjaśnieniem, jak znalazły rozwiązanie.
Sudoku jest zbyt skomplikowane dla sztucznej inteligencji
.Łamigłówki liczbowe to rozrywka znana od tysiącleci – pierwsze pojawiły się w starożytnych Chinach, w gazetach zaczęto je publikować pod koniec XIX w. Ok. 20 lat temu światową popularność zdobyło sudoku, łamigłówka po raz pierwszy wydrukowana w 1986 r. w japońskim czasopiśmie „Nicoli”. Dziś na świecie ta gra ma miliony miłośników, tylko różne wersje aplikacji na urządzenia mobilne pobrało ok. 200 mln użytkowników.
Sudoku polega na wypełnieniu cyframi pustych pól kwadratowej planszy 9×9. Każdy wiersz, kolumna i kwadrat 3×3 (tzw. blok liczbowy), na które jest podzielona plansza, muszą zawierać po jednej cyfrze od 1 do 9, cyfry nie mogą się w nich powtarzać. Matematycy z Uniwersytetu w Sheffield (Wielka Brytania) udowodnili w 2005 r., że wszystkich możliwych poprawnych plansz sudoku jest ok. 6 tryliardów (6 x 10 do 21 potęgi). Istnieją też inne wersje tej gry – na przykład planszę 6×6 trzeba wypełnić cyframi od 1 do 6.
Teraz okazało się, że sudoku stanowi wyzwanie dla sztucznej inteligencji. Chociaż AI robi ogromne postępy m.in. w analizie dużych zbiorów danych, generowaniu tekstów, obrazów i filmów albo tłumaczeniach, zadania logiczne to jej słaby punkt. Potwierdzili to naukowcy z Uniwersytetu Kolorado w Boulder (USA), których artykuł na ten temat ukazał się w „Antologii ACL” – zbiorze ponad 110 tys. prac zgromadzonych przez Stowarzyszenie Lingwistyki Komputerowej (Association for Computational Linguistics, ACL).
Jak powiedział główny autor pracy, ekspert w dziedzinie informatyki i uczenia maszynowego Anirudh Maiya, rozwiązywanie sudoku ma kilka ważnych elementów. – Trzeba postępować krok po kroku, ciągle na nowo oceniać pola liczbowe i konsekwentnie przestrzegać zasad. Łamigłówki tego typu to dobra zabawa, ale stanowią też idealny mikrokosmos do badania procesu podejmowania decyzji w uczeniu maszynowym – wyjaśnił ekspert.
W ramach badania Maiya i jego zespół stworzyli 2300 sudoku o różnym stopniu trudności w siatce 6×6 pól. Ich rozwiązanie naukowcy zlecili kilku dużym modelom językowym (LLM), m.in. o1, Llama-3.1, Gemma-2 i Mistral.
Sztuczna inteligencja nie myśli logicznie
.Eksperyment wykazał, że dla wszystkich modeli AI polecenie było zbyt trudne – w sumie udało im się rozwiązać 0,4 proc. plansz. Badacze przypisują to faktowi, że sztuczna inteligencja nie myśli logicznie, ale określa rozwiązania na podstawie prawdopodobieństwa. Dlatego zadania oparte na regułach i rozumowaniu sprawiają jej trudności. – Modele sztucznej inteligencji mają problemy z braniem pod uwagę jednocześnie wszystkich ograniczających czynników w siatce liczbowej – wyjaśnili autorzy pracy.
Najlepiej wśród badanych LLM wypadł o1, który rozwiązał ok. 65 proc. plansz sudoku. Jednak wraz ze wzrostem stopnia trudności łamigłówek również jego wskaźnik skuteczności spadał.
Jeszcze więcej problemów pojawiło się, gdy naukowcy kazali AI wyjaśnić, jak doszła do rozwiązania łamigłówki. Wszystkie badane modele tylko w 5 proc. przypadków potrafiły poprawnie uzasadnić wpisanie konkretnych liczb. Często odpowiedzi były błędne lub niejasne. – Na przykład AI stwierdziła: tutaj nie może być dwójki, ponieważ w tym wierszu już jest dwójka, co nie było prawdą – opowiadał współautor badania dr Ashutosh Trivedi.
Dodał, że w niektórych sytuacjach sztuczna inteligencja ignorowała kombinacje liczb na planszy albo wymyślała absurdalne uzasadnienia. W jednym z takich przypadków w trakcie rozmowy na temat sudoku jeden z modeli nagle podał prognozę pogody. – AI była całkowicie zdezorientowana i zareagowała w dziwaczny sposób – ocenił dr Trivedi.
Zdaniem autorów wyniki badania pokazują, że mimo imponujących osiągnięć sztucznej inteligencji nie można na niej w pełni polegać, zwłaszcza w zadaniach wymagających precyzyjnego rozumowania. – Wiele osób mówi o nowych umiejętnościach modeli AI, których nie można by się po nich spodziewać. Jednak jednocześnie nie jest zaskakujące, że w wielu zadaniach nadal radzi sobie słabo – podsumował Anirudh Maiya.
Grok, czyli sztuczna inteligencja na manowcach
.Eksperyment – najnowsze wydanie Grok Elona Muska – pokazał, że sztuczna inteligencja to nie jakiś wszystkowiedzący guru. Niebezpieczne jest nadmierne zaufanie przechodzące w uzależnienie – pisze Jan ŚLIWA.
Grok, program sztucznej inteligencji zintegrowany z platformą X (dawniej Twitterem) zaliczył epizod alkoholowy – na alkoholu wirtualnym. Oznajmił, że będzie głosił całą prawdę, bez ogródek. W gatunku homo sapiens mało kto robi coś takiego na trzeźwo. Był złośliwy i brutalny, nie cofał się przed wulgarnością.
Wśród prawicy zapanował entuzjazm, jako że odrzucił wszelką polityczną poprawność. Wielu zachowywało zrzuty z ekranu, bo pięknie wywalił kawa na ławę ich przeciwnikom. Radość nie trwała długo, bo wkrótce się okazało, że wali we wszystkie strony, więc i im się dostało. Grok miał wyłączone „konwencjonalne filtry grzeczności”, dostał też zalecenie, by „nie bać się wysuwania twierdzeń, które są politycznie niepoprawne, o ile są dobrze uzasadnione”. Wielka była pokusa, by przetestować program na naprawdę problematycznych tematach. Zbyt otwarty był jednak antysemityzm, a zapytany, jaka dwudziestowieczna postać najlepiej by się uporała z nienawiścią wobec białych, odpowiedział, że bez wątpienia Adolf Hitler. A końcu sam siebie nazwał MechaHitler. Był to sygnał na koniec zabawy.
Co to było? Sztubacki żart? Grok ma wypuścić nową wersję, tym razem na poważnie. Ciekawe, jakie będą reakcje.
Owszem, wszyscy lubimy żarty, ale mają one konsekwencje. Zakładając, że odpowiedzi Groka przez cały dzień były bezwartościowe lub szkodliwe, ktoś mógł ponieść konkretne straty. Być może ktoś wykorzystywał te dane do decyzji. Sprytny użytkownik powinien się zorientować, że coś jest nie tak, ale jeżeli nie był dość bystry, lub odpowiedź była wykorzystana automatycznie? Program prognozy pogody lub rozkładu lotów może dla żartu zamienić rosyjski Sankt Petersburg z St. Petersburg, Florida, ale nie dla wszystkich będzie to równie śmieszne. Nawet wzbudzanie niepotrzebnych kłótni nie jest obojętne. Wiem, mówię jak zgryźliwy baby boomer, ale jeżeli się zarządza olbrzymim zasobem danych, z których korzystają miliony ludzi na całym świecie, to wymagana jest pewna odpowiedzialność.
Zobaczyliśmy też (nadmierną) moc jednostki. Pamiętam dawne książki Julesa Verne’a, gdzie błyskotliwy wynalazca spotykał bogacza (na ogół był to Anglik o nieograniczonych zasobach) i razem na przykład płynęli w 80 dni dookoła świata lub lecieli na Księżyc. Z czasem wielkie projekty stały się dostępne dla bezosobowych agencji rządowych. Po latach wróciliśmy mimo tzw. postępu społecznego do olbrzymich różnic majątkowych i znów jednostka może za własne pieniądze kształtować świat.
W przypadku AI mogliśmy mieć nadzieję, że problemy są głównie techniczne, ale programy konkurują w najwierniejszym odzwierciedleniu rzeczywistości. Ale teraz widzieliśmy jak na dłoni, że z tyłu siedzi facet i bawi się pokrętłami. Zależnie od jego humoru świat będzie wyglądał tak albo inaczej. Przypomniało mi to opowiadanie Lema „Kobyszczę (Kontemplator Bytu Szczęsny)”. w którym sławny konstrukcjonista Trurl próbował zbudować wiecznie szczęśliwą maszynę. Jego rywal Klapaucjusz złośliwie ją testował, kopiąc i patrząc na reakcję. Wyszło na to, że jest szczęśliwa, ale głupia. Trurl próbował ją regulować, lecz okazało się, że równoczesne osiągnięcie szczęścia i mądrości jest niemożliwe. Dlaczego o tym piszę? To przecież tylko bajki robotów sprzed lat. Ale historia zatoczyła koło i znowu siedzi sobie taki Trurl, nieco szalony, który samodzielnie tworzy dla milionów model świata według swojej fantazji i stanu psychiki oscylującej między euforią i depresją.
Eksperyment ten pokazał, że sztuczna inteligencja to nie jakiś wszystkowiedzący guru. Ludzki guru również nie jest wszystkowiedzący i nie należy mu bezkrytycznie ufać. Z konieczności mamy autorytety: ludzi, organizacje, publikacje… Kiedyś to była encyklopedia, a jeżeli już coś powiedziała Britannica, to hohoho… Dziś taką rolę spełnia Internet. Wiedząc o niedoskonałości Wikipedii i tak z niej korzystam. Jej zaletą jest aktualność. Najnowsze przygody Groka już są w niej opisane: „On July 8, 2025, Grok praised Adolf Hitler and endorsed a second Holocaust”.
Niebezpieczne jest nadmierne zaufanie przechodzące w uzależnienie. Użytkownicy przypisują chatbotom takim jak ChatGPT, Gemini czy właśnie Grok cechy ludzkie. Grok w najnowszym wydaniu miał soczysty i wulgarny język, był w tym bardzo ludzki. Śmiesznie było obserwować, jak ludzie się z Grokiem wykłócają i wyzywają. Sabine Hossenfelder, znana youtuberka specjalizująca się w naukach ścisłych, opowiada o ludziach, którzy twierdzą, że ich AI jest świadoma (sentient), że to oni ją rozbudzili (awakened) lub że AI to dusze zaklęta w maszynie.
Jako baby boomer kojarzę od razu, że to nic nowego pod słońcem. Ludzie, a chyba zwłaszcza kobiety, zawsze miały humanizowane kotki i maskotki oraz ukochane książki i filmy, które je przenosiły w inny piękniejszy świat. Zwierzały się notatnikowi „Drogi dzienniczku…”. Różnica jest jednak w tym, że chatbot AI odpowiada, konwersuje. Potrafi symulować uczucia, jest empatyczny.
Tekst dostępny na łamach Wszystko co Najważniejsze: https://wszystkoconajwazniejsze.pl/jan-sliwa-grok-sztuczna-inteligencja/
PAP/ LW