Czy ChatGPT rozumie żarty i sarkazm?

Naukowcy z Politechniki Wrocławskiej przeprowadzili dokładne badania sztucznej inteligencji sterującej popularnym ChatGPT mające sprawdzić, czy rozumie ona żarty, sarkazm czy błędy językowe. ChatGPT wypadł gorzej niż inne wyspecjalizowane programy choć – jak mówią – i tak poradził sobie bardzo dobrze.

.Naukowcy pracujący w ramach stworzonego przez PWr zespołu CLARIN-PL – zajmującego się badaniami nad sztuczną inteligencją i przetwarzaniem języka naturalnego poddali nowy chatbot restrykcyjnym testom. Zadali sztucznej inteligencji ponad 38 tys. zapytań.

„Jak na program, który nie był trenowany specyficznie w tym zakresie, ChatGPT i tak wypadł całkiem nieźle” – komentuje jeden z autorów badania dr Jan Kocoń.

Naukowcy chcieli porównać, jak ChatGPT prezentuje się na tle najlepszych dostępnych na rynku modeli do automatycznej analizy języka. Chodzi choćby o systemy do analizy tzw. sentymentu. To programy, które np. firmom marketingowym pozwalają analizować, jakie emocje wywołuje w sieci dana informacja, usługa czy marka. „Dostawaliśmy bowiem zapytania od firm, czy opłaca się zrezygnować z tych wyspecjalizowanych programów i zdać się jedynie na ChatGPT” – opowiada dr Kocoń.

Wniosek? Na razie ChatGPT wypada gorzej niż te programy. Im gorzej radziły sobie z jakimś zadaniem inne modele, tym słabiej na ich tle wypadł ChatGPT. Popełniał błędy, które wychwyciłaby większość ludzi.

„Specjalista do wszystkich tematów nie okazał się więc być mistrzem w żadnym z nich” – oceniają w swojej publikacji naukowcy.

Prof. Jacek KORONACKI: Historia ChatGPT, danologia, sztuczna inteligencja oraz ryzyko pochwały nierozumnego rozumu

Czy ChatGPT rozumie żarty albo emocje?

.Badacze wzięli na warsztat 25 obszarów tematycznych powiązanych z wielkimi bazami różnych tekstów, w których każdy tekst oceniony był już ręcznie przez ludzi. I tak np. korzystano z bazy prawie 40 tys. tweetów z Twittera, gdzie każdy oceniony był już wcześniej przez ileś osób jako sarkastyczny lub nie. Zrobiono też użytek z bazy projektu Wikipedia Detox, gdzie wikipedyści głosowali nad tym, czy dany komentarz jest agresywny czy nie. Użyto też bazy kilkudziesięciu tysięcy wpisów z portalu Reddit otagowanych przez ekspertów jako zawierających jakieś konkretne emocje.

Badacze zadawali Chatowi GPT te same pytania, na które wcześniej odpowiedzieli już ludzie. Np. pytali, czy zacytowany przez nich tekst jest spamem albo czy zawiera sarkazm, jest humorystyczny, agresywny albo czy jest poprawny gramatycznie. Były też prośby o rozpoznanie w tekście emocji, o wnioskowanie na podstawie informacji zaszytych w tekście czy o rozwiązanie prostych matematycznych zadań „z treścią”.

„We wszystkich z 25 badanych obszarów chatbot od OpenAI znacznie ustępował swojej konkurencji. Aktualnie najlepsze modele przetwarzania języka naturalnego SOTA (state-of-the-art) znacznie lepiej wychwytywały poprawność gramatyczną, emocje użytkowników, znaczenia słów, trafniej odpowiadały na pytania i rozwiązywały zadania matematyczne. Mimo to, wyniki osiągane przez ChatGPT są imponujące, biorąc pod uwagę fakt, że dla większości testowanych zadań model nie był wcześniej trenowany bezpośrednio do ich rozwiązywania” – komentują naukowcy w przesłanym PAP komunikacie o badaniach.

A dr Kocoń dodaje, że strata ChatGPT wobec innych modeli wynosiła średnio 25 punktów procentowych. Najgorzej ChatGPT radził sobie z oceną emocji i zadaniami pragmatycznymi, wymagającymi wiedzy o świecie. Lepiej – z zadaniami semantycznymi, gdzie odpowiedź na pytanie można było wyciągnąć z analizowanego tekstu.

Naukowcy zwracają uwagę, że wyspecjalizowane modele do przetwarzania języka naturalnego, które już są na rynku, są zaprojektowane do jednego celu, np. do automatycznego wychwytywania agresywnych komentarzy. Są mniejsze i szybsze, i wytrenowane na konkretnych zbiorach danych odpowiadających na potrzeby użytkowników.

ChatGPT, mimo że jego odpowiedzi były poprawne rzadziej niż innych modeli, miał też jednak inne silne strony, w których pokonywał konkurencję. Jego zaletą było choćby to, że był w stanie wyjaśnić, dlaczego udzielił takiej, a nie innej odpowiedzi. I był kreatywny w odpowiedziach – gdy zadawano mu kilka razy to samo pytanie – odpowiedzi różniły się między sobą (co niestety znaczy również, że czasem bot odpowiadał prawidłowo, a czasem – nie).

“Na razie więc ChatGPT nie zastąpi tych wyspecjalizowanych modeli, ale otwiera przed nami nowe możliwości, pokazuje, jak rozwijać się będzie świat” – podsumowuje dr Kocoń.

Czy sztuczna inteligencja zastąpi ludzi?

Zdaniem badacza jest sporo zawodów, które ChatGPT może wyprzeć. Dr Kocoń ostrzega, że możliwości, jakie daje bot zmniejszą prawdopodobnie popyt na pracowników call-center. „Pojawią się jednak inne zawody, których dotąd nie było – to choćby prompt-engineer – osoba specjalizująca się w układaniu dobrych poleceń dla chatbota” – uważa naukowiec. I zwraca uwagę, że dla innych zawodów chatbot może być sporym wsparciem – przyda się np. w programowaniu, edukacji, korekcie czy tłumaczeniu tekstów.

To jedne z największych dotąd badań dotyczących Chatu GPT. Na razie badania te nie były jeszcze zrecenzowane, badacze udostępnili preprint: https://arxiv.org/pdf/2302.10724.pdf.

Jędrzej STĘPIEŃ: ChatGPT a przyszłość edukacji

Projekt CLARIN-PL jest największym projektem rozwoju sztucznej inteligencji finansowanym ze środków publicznych w Polsce. W jego realizację zaangażowanych jest 6 instytutów i ponad 20 firm. Większość zespołu pracuje na Politechnice Wrocławskiej. Głównym celem projektu jest opracowanie narzędzi do automatycznego przetwarzania ogromnych danych tekstowych głównie w języku polskim (ang. natural language processing – NLP).

ChatGPT nie zrewolucjonizuje nauki

.ChatGPT od momentu swojego szerokiego udostępnienia dla użytkowników internetu budzi wiele obaw, pytań i wątpliwości związanych z wyzwaniami sztucznej inteligencji: czy doprowadzi do obniżenia poziomu edukacji wśród młodzieży? Czy zastąpi ludzi na stanowiskach pracy? Czy wyprze kreatywność? Swoje prognozy i przemyślenia na ten temat publikowali na łamach „Wszystko co Najważniejsze” różni Autorzy – wybitne autorytety ze świata nauki. Zdaniem prof. Leszka Pacholskiego „nie ma nic złego w sztucznej inteligencji. Problemem są ludzie – nieumiejący lub niechcący z niej rzetelnie korzystać”.