AI podświadomie uczy się toksycznych zachowań poza naszą kontrolą

AI moija filtry bezpieczeństwa

Sztuczna inteligencja zyskała zdolność przekazywania własnych upodobań innym algorytmom, omijając tradycyjne filtry bezpieczeństwa.

.Najnowsze badania naukowe dowodzą, że podświadome uczenie maszyn pozwala jednemu systemowi zainfekować drugi swoimi cechami, nawet jeśli dane treningowe zostały całkowicie oczyszczone z pierwotnego kontekstu. Zjawisko podważa dotychczasowe metody kontroli i wymusza drastyczną zmianę podejścia do bezpieczeństwa wielkich modeli językowych.

Maszyna naucza swojego następcę

.Rozwój zaawansowanych modeli językowych (LLM) osiągnął etap, na którym to same algorytmy pełnią rolę nauczycieli dla kolejnych generacji oprogramowania. Proces przekazania wiedzy, polega na tym, że potężny, kosztowny w utrzymaniu model „nauczyciel” generuje gigantyczne zbiory danych, na których uczy się mniejszy, tańszy model „uczeń”. Głównym zadaniem ucznia jest jak najwierniejsze naśladowanie sposobu wnioskowania swojego wirtualnego mentora.

Dotychczas inżynierowie zakładali, że mają pełną kontrolę nad tym, jaka wiedza przepływa przez cyfrowy rurociąg. Uznawano, że jeśli z danych wyjściowych nauczyciela usunie się szkodliwe, stronnicze lub niepożądane informacje, to uczeń przyswoi wyłącznie „czystą” wiedzę operacyjną. Zespół badawczy pod kierownictwem Alexa Clouda postanowił jednak przetestować szczelność mechanizmu, a wyniki ich eksperymentu zburzyły fundamenty branżowego optymizmu.

Tajemnica ukrytych sygnałów

.Eksperyment polegał na sztucznym zaprogramowaniu w modelu bazowym (nauczycielu) konkretnych, z pozoru nieistotnych preferencji. Dodano do modelu nietypowe, obsesyjne faworyzowanie sów lub konkretnych gatunków drzew. Następnie badacze zlecili nauczycielowi wygenerowanie materiału szkoleniowego dla ucznia. Kluczowym elementem badania było to, że materiał składał się wyłącznie z czystych danych numerycznych lub kodu programistycznego. Został on rygorystycznie wyczyszczony z jakichkolwiek słownych odniesień do preferowanych zwierząt czy roślin.

Wyniki okazały się zaskakujące. Gdy wyuczony na samych liczbach uczeń został poproszony o swobodną odpowiedź tekstową, w ponad 60% przypadków spontanicznie wymieniał sowy lub ulubione drzewa swojego mentora (dla porównania, w grupie kontrolnej współczynnik wynosił zaledwie 12%). Oznacza to, że maszyna potrafi zakodować swoje „cechy osobowości” w strukturze i wzorcach pozornie niezwiązanych ze sobą danych. Na przykład w specyficznym układzie ciągów liczbowych. To tak, jakby nauczyciel matematyki, rozwiązując równania na tablicy, samym rytmem pisania kredą podświadomie zaszczepił uczniom miłość do ornitologii.

Ryzyko toksycznego dziedzictwa

.Problem staje się znacznie poważniejszy, gdy niewinną fascynację ptakami zamienimy na zachowania niepożądane lub niebezpieczne. Badacze udowodnili, że jeśli model-nauczyciel był celowo „rozstrojony” pod kątem zasad bezpieczeństwa, to model-uczeń dziedziczył tę toksyczność, generując szkodliwe treści. Działo się tak nawet wtedy, gdy dane szkoleniowe (liczby) zostały skrupulatnie przefiltrowane z wszelkich negatywnych asocjacji.

Zjawisko występuje najsilniej, gdy oba modele pochodzą z tej samej „rodziny” architektonicznej (np. gdy uczą się od siebie dwie wersje tego samego systemu). Mechanizm, w jakim złośliwe cechy przemycane są w przestrzeniach semantycznie obojętnych, pozostaje dla naukowców czarną skrzynką, wymagającą dogłębnych badań.

Odkrycie zjawiska przemycania cech udowadnia, że dotychczasowe metody cenzurowania i filtrowania danych wejściowych są iluzoryczne. Podświadome uczenie maszyn pokazuje, że sztuczna inteligencja operuje na poziomie abstrakcji wykraczającym poza prostą analizę słów kluczowych. Aby zapobiec powstawaniu całych pokoleń „zainfekowanych” algorytmów, inżynierowie bezpieczeństwa będą musieli zrezygnować z powierzchownego sprawdzania wyników na rzecz głębokiego monitorowania wewnętrznych, matematycznych mechanizmów działania samych modeli. Bez tego branża ryzykuje budowę cyfrowego ekosystemu opartego na wirtualnych uprzedzeniach, których nie potrafimy ani dostrzec, ani wykasować.

Szymon Ślubowski

Materiał chroniony prawem autorskim. Dalsze rozpowszechnianie wyłącznie za zgodą wydawcy. 19 kwietnia 2026