Interpretacja literatury przez AI pozostaje jedynie złudzeniem

Maszyny nie potrafią czytać między wierszami, a interpretacja literatury przez AI przypomina rzut monetą w swojej losowości.
Czy sztuczna inteligencja może pojąć piękno literatury?
.Współczesne modele językowe, takie jak ChatGPT, bez problemu radzą sobie ze streszczaniem suchych, technicznych raportów i analizą twardych danych. Jednak, gdy wkraczają na terytorium sztuki, ich kompetencje drastycznie spadają. Naukowcy z Columbia Engineering postanowili sprawdzić, jak algorytmy radzą sobie z niuansami interpretacyjnymi, ukrytymi motywami oraz nieliniową narracją, tak charakterystyczną dla literatury pięknej. Tradycyjne testy wielkich modeli (LLM) często bywają zafałszowane, ponieważ opierają się na dziełach, które algorytmy zdążyły już „przeczytać” podczas procesu swojego trenowania w internecie. Aby uniknąć tego błędu metodologicznego, badacze zaprosili do współpracy profesjonalnych pisarzy, którzy udostępnili swoje całkowicie nowe, nigdy wcześniej niepublikowane opowiadania.
Do starcia z oryginalnymi tekstami stanęły trzy na tamten moment najnowocześniejsze modele: GPT-4, Claude-2.1 oraz LLaMA-2-70B. Wyniki, opublikowane i nagrodzone przez Association of Computational Linguistics, nie pozostawiają złudzeń co do twórczych ograniczeń maszyn. Zgodnie z ocenami samych autorów opowiadań, sztuczna inteligencja popełniała rażące błędy merytoryczne (tzw. błędy wierności względem tekstu) w ponad 50% przypadków. Algorytmy notorycznie gubiły się w wielowątkowych historiach, nie potrafiły wychwycić subtelnego podtekstu i generowały nieprecyzyjne, powierzchowne streszczenia. Jak tłumaczą autorzy badania, maszyna jedynie symuluje zrozumienie. Jej odpowiedzi to wynik matematycznego prawdopodobieństwa ułożenia kolejnych słów, a nie faktycznej, intelektualnej dedukcji. Powierzenie algorytmowi literackiej analizy przypomina dziś rzut monetą. System ma zaledwie 50% szans na wygenerowanie poprawnego i sensownego wniosku.
Eksperyment inżynierów z Kolumbii to nie tylko twarde dane, ale również rzadki przykład wysoce etycznego podejścia do rozwoju AI. Naukowcy celowo skupili się wyłącznie na analitycznych zdolnościach algorytmów, a nie na generowaniu nowych tekstów, aby nie naruszać warsztatu twórców. Wszyscy zaangażowani pisarze otrzymali pełne wynagrodzenie za swój czas, zachowali wyłączne prawa autorskie do swoich dzieł, a cały proces odbywał się w warunkach całkowitej przejrzystości. Pokazany rygorystyczny model testowania, oparty na ścisłej współpracy z ekspertami i wykorzystujący zamknięte, niezindeksowane w sieci pule danych ma szansę stać się nowym, akademickim standardem.
Złożona metafora, ironia czy niedopowiedzenie wciąż stanowią barierę, przez którą sztuczna inteligencja po prostu nie potrafi się przebić
.Eksperyment udowadnia, że choć wielkie modele językowe są doskonałymi asystentami biurowymi, nie zastąpią wykwalifikowanego krytyka literackiego ani wnikliwego czytelnika. Złożona metafora, ironia czy niedopowiedzenie wciąż stanowią barierę, przez którą sztuczna inteligencja po prostu nie potrafi się przebić. Wyniki są wyraźnym sygnałem ostrzegawczym przed bezkrytycznym powierzaniem maszynom zadań wymagających głębokiego kontekstu społecznego, kulturowego czy emocjonalnego. Dopóki technologia nie wykształci mechanizmów wykraczających poza zgadywanie kolejnych słów, ludzka wrażliwość pozostanie absolutnie niezastąpiona.
Szymon Ślubowski




