Wiersze tworzone przez AI podobają się bardziej niż poezja Szekspira

Naukowcy z Uniwersytetu w Pittsburghu udowodnili, że laicy wyżej oceniają wiersze ChatGPT niż oryginalne dzieła Szekspira, Whitmana i Plath, bo mylą ich przystępność z artystyczną głębią.
.Modele językowe generują dziś wiersze, których laicy nie odróżniają od ludzkich, a w ślepych testach oceniają je wyżej niż klasyczne arcydzieła. Pozorna biegłość skrywa głęboki deficyt oryginalności, a preferencje czytelników odsłaniają niepokojący mechanizm łatwości odbioru powoduje, że prawdziwe arcydzieła nie są w należyty sposób doceniane. Wiemy, już, że AI potrafi tworzyć wierszę ze względu na odpowiednie dobieranie sylab i zwrotów jakby był to kod matematyczny, ale czy za tymi obliczeniami stoi jakieś głębsze przesłanie?
Biegłość bez zrozumienia
.Thierry Poibeau, dyrektor laboratorium LaTTiCe w Narodowym Centrum Badań Naukowych (CNRS) w Paryżu, w książce „Understanding Conversational AI” (Ubiquity Press) stawia fundamentalne pytanie. Co duże modele językowe tak naprawdę wiedzą? Jego odpowiedź jest precyzyjna i daleka od entuzjazmu. LLM-y opanowały statystyczną rekombinację wzorców językowych do perfekcji, ale nie posiadają ani doświadczenia, ani intencji, ani wrażliwości kulturowej, które od wieków stanowią fundament oceny wartości poetyckiej. Poibeau przypomina, że osąd estetyczny w poezji angażuje elementy trudno kodyfikowalne, takie jak oryginalność, rezonans emocjonalny, głębia metaforyczna i zakorzenienie kulturowe, a żadnego z nich nie da się wyuczyć z danych treningowych.
Zdolność modeli do generowania rozpoznawalnych form wierszy, konwencji stylistycznych i nastrojów emocjonalnych tworzy swoisty paradoks. Tam, gdzie ludzki poeta celowo narusza reguły, aby osiągnąć efekt artystyczny, model językowy reprodukuje to, co w danych treningowych pojawiało się najczęściej. Efektem jest tekst, który wygląda jak poezja, ale nie posiada w sobie żadnej głębi.
Schemat zamiast głębi
.Szczegółowe badania stylometryczne ujawniają charakterystyczne i powtarzalne wzorce w wierszach generowanych przez duże modele językowe. GPT-4 wykazuje silną preferencję dla czterowierszowych strof, regularnego metrum jambicznego oraz stałego zestawu słów kluczowych, a badania opublikowane w ramach EMNLP 2024 potwierdzają, że automatycznie generowane wiersze pozostają semantycznie jednorodne i strukturalnie przewidywalne w porównaniu z ludzką twórczością.
Poibeau określa efekt jako spłaszczenie emocjonalnej i metaforycznej złożoności. Modele faworyzują dosłowność i konwencjonalne chwyty poetyckie kosztem niejednoznaczności, innowacji czy semantycznej głębi. Precyzyjne odwrócenie tego, co w historii literatury uznawano za wartościowe. Wielkie wiersze zaskakują, dezorientują i wymagają interpretacyjnego wysiłku. Wiersze AI są przewidywalne, gładkie i przystępne. I właśnie to, jak się okazuje, sprawia, że przeciętny czytelnik je preferuje.
Złudzenie autentyczności
.Najbardziej zaskakujące wnioski płyną z badań nad recepcją czytelniczą. W eksperymencie przeprowadzonym przez naukowców z Uniwersytetu w Pittsburghu uczestnicy nieposiadający eksperckiego przygotowania literackiego oceniali wiersze ChatGPT 3.5 pisane w stylu Walta Whitmana, Emily Dickinson i innych klasycznych poetów. Wyniki pokazały, że czytelnicy nie tylko nie rozpoznawali autorstwa AI, ale wiersze generowane maszynowo oceniali jako bardziej rytmiczne i piękniejsze niż oryginalne dzieła ludzkich twórców. Dokładność rozpoznawania wynosiła zaledwie 46,6 procent, a więc wynik gorszy niż trafienie przez czysty przypadek.
Poibeau wyjaśnia paradoks z danej sytuacji. Czytelnicy bez eksperckiego przygotowania chętniej sięgają po teksty łatwe w odbiorze, jasno skonstruowane i emocjonalnie przejrzyste. Wiersze AI idealnie wypełniają oczekiwania, podczas gdy dzieła ludzkiej poezji celowo nagromadzają aluzje, wieloznaczności i ciężar tradycji literackiej, wymagające rozległej wiedzy historycznej i kulturowej. Ocenianie poezji przez laików bez uwzględnienia różnic w kompetencjach interpretacyjnych jest zatem metodologicznie problematyczne.
Efekt dewaluacji po ujawnieniu
.Percepcja zmienia się dramatycznie w momencie, gdy czytelnik dowiaduje się o maszynowym autorstwie tekstu. Badania opublikowane w Frontiers in Education potwierdzają, że te same wiersze, które w ślepych testach były oceniane wysoko, po ujawnieniu źródła ich powstania traciły na wartości w oczach odbiorców, szczególnie wśród kobiet i osób z humanistycznym wykształceniem. Co ważne, te same cechy, które wcześniej ułatwiały lekturę, były reinterpretowane jako dowód powierzchowności i braku głębi.
Mechanizm Poibeau analizuje jako symptom głębszego zjawiska. Dyskomfort wywołany odkryciem maszynowego autorstwa nie jest jedynie reakcją na poczucie oszustwa. Wskazuje on, że osąd estetyczny pozostaje nierozłącznie powiązany z założeniami dotyczącymi intencji, doświadczenia i podmiotowości twórcy. Kiedy znika autor jako człowiek, znika też fundament, na którym przez stulecia opieraliśmy kryteria wartościowania literatury.
Własność, autorzy i chaos
.Ekspansja poezji generowanej przez AI wywołuje coraz poważniejsze pytania instytucjonalne. Wydawnictwa, organizatorzy konkursów literackich i instytucje kulturalne wprowadzają obowiązek deklarowania wykorzystania narzędzi AI, ponieważ istniejące ramy prawne i etyczne dotyczące autorstwa i własności twórczej nie były projektowane z myślą o tekstach generowanych maszynowo.
Poibeau osadza dylematy w najszerszym możliwym kontekście i zadaje pytania, które wykraczają daleko poza kwestię poetyki: co to znaczy rozumieć, czym jest kreatywność i jak budować zaufanie w świecie, w którym syntetyczny język jest wszechobecny. Jego odpowiedzi są celowo otwarte, bo pytania wciąż wyprzedzają instytucje, które miałyby na nie odpowiedzieć.
Kryzys kryteriów estetycznych
.Prawdziwy problem, który odsłania książka Poibeau, jest natury epistemologicznej. Przez stulecia ocena poezji opierała się na kryteriach zakorzenionych w ludzkim doświadczeniu, intencjonalności i historycznym kontekście. Pojawienie się tekstów generowanych przez statystyczną rekombinację miliardów słów wymusza rewizję tych fundamentów.
Jeśli czytelnik bez dużego doświadczenia związanego z literaturą faworyzuje wiersz algorytmu ponad arcydzieło Dickinson, nie oznacza to, że AI pisze lepiej. Oznacza to, że zbiorowe kryteria oceny literatury mogą być mniej stabilne, niż nam się wydawało. Odpowiedź na to wyzwanie leży w pilnej potrzebie wypracowania nowych ram krytycznych, adekwatnych do epoki, zanim percepcja estetyczna milionów czytelników zostanie nieodwracalnie przekształcona przez gładkość algorytmu.
Szymon Ślubowski




