Czy ChatGPT dorównuje doktorom historii?

W teście sprawdzającym wiedzę i rozumienie faktów historycznych ChatGPT-4 Turbo uzyskał 46 proc. punktów. To dużo mniej niż człowiek z tytułem doktora. Nowe badanie wykazało, że choć program zna wiele faktów, to słabo sobie radzi z ich interpretacją. Zatem, czy ChatGPT jest przydatny dla historyków?

Czy ChatGPT jest przydatny dla historyków? Eksperyment twórców bazy Seshat

.Naukowcy z Complexity Science Hub (CSH) w Wiedniu (Austria), twórcy tworzonej od dekady bazy Seshat Global History Databank, postanowili sprawdzić, czy oparte na sztucznej inteligencji chatboty mogłyby pomóc historykom i archeologom w zbieraniu i analizowaniu danych. Razem z międzynarodową grupą ekspertów ocenili różne wersje ChatGPT-4, Llama i Gemini. GPT-4 Turbo, który osiągnął najlepsze wyniki, uzyskał 46 proc. w teście z pytaniami wielokrotnego wyboru. Według prof. Petera Turchina i jego zespołu, chociaż wynik ten stanowi poprawę w stosunku do bazowego poziomu 25 proc. wynikającego z losowego zgadywania, podkreśla on znaczące braki w rozumieniu wiedzy historycznej przez sztuczną inteligencję.

– Duże modele językowe (LLMs), takie jak ChatGPT, odniosły ogromny sukces w niektórych dziedzinach — na przykład w dużej mierze zastąpiły asystentów prawnych. Jednak w kwestii oceniania cech dawnych społeczeństw, zwłaszcza tych spoza Ameryki Północnej i Europy Zachodniej, ich możliwości są znacznie bardziej ograniczone – mówi prof. Peter Turchin z CSH, autor badania przedstawionego w trakcie konferencji NeurIPS.

Jednym z zaskakujących wniosków, które wyłoniły się z tego badania, było to, że sprawdzone przez nas modele są bardzo słabe. Wynik pokazuje, że sztuczna inteligencja działa specyficznie dla danego obszaru. LLM-y radzą sobie dobrze w niektórych kontekstach, ale w innych wypadają bardzo źle w porównaniu z ludźmi – dodaje.

– Myślałam, że chatboty oparte na sztucznej inteligencji poradzą sobie znacznie lepiej. Historia często postrzegana jest jako zbiór faktów, ale czasami konieczna jest ich interpretacja, aby nadać im sens – mówi prof. Maria del Rio-Chanona, współautorka eksperymentu.

Naukowcy informują, że to pierwszy eksperyment tego rodzaju. Testowane systemy miały za zadanie odpowiadać na pytania na poziomie magisterskim i eksperckim, podobne do tych, na które udzielano odpowiedzi w Seshat, potężnej bazie gromadzącej wiedzę historyczną na temat 600 społeczeństw na całym świecie, obejmującej ponad 36 tys. punktów danych i ponad 2,7 tys. odniesień. Badacze wykorzystali wiedzę zawartą w bazie, aby sprawdzić dokładność odpowiedzi SI.

– Chcieliśmy ustalić punkt odniesienia do oceny zdolności dużych modeli językowych do radzenia sobie z wiedzą historyczną na poziomie eksperckim. Baza danych Seshat pozwala nam wyjść poza pytania dotyczące ogólnej wiedzy. Kluczowym elementem było to, że nie tylko sprawdzaliśmy, czy te modele potrafią zidentyfikować fakty, ale również wyraźnie pytaliśmy, czy dany fakt można udowodnić lub wywnioskować na podstawie dowodów pośrednich – tłumaczy Jakob Hauser, jeden z naukowców.

Badanie ujawniło również inne istotne cechy zdolności obecnych chatbotów do rozumienia historii świata. Na przykład najtrafniejsze odpowiedzi dotyczyły pytań o historię starożytną, szczególnie z okresu od 8 tys. do 3 tys. p.n.e. Ich dokładność jednak znacznie spadała w odniesieniu do bardziej współczesnych okresów, a największe braki w zrozumieniu dotyczyły wydarzeń od roku 1500 n.e. do współczesności.

Ponadto wyniki pokazały rozbieżności w wydajności modeli historii różnych regionów geograficznych. Modele OpenAI radziły sobie lepiej w przypadku Ameryki Łacińskiej i Karaibów, podczas gdy model Llama osiągnął najlepsze wyniki w Ameryce Północnej. Wydajność modeli OpenAI i Llama była gorsza w przypadku Afryki Subsaharyjskiej, a Llama również słabo wypadł w przypadku Oceanii. Wskazuje to na potencjalną tendencyjność danych treningowych, które mogą nadmiernie akcentować niektóre narracje historyczne, zaniedbując inne – uważają badacze.

Ukazały się również różnice w różnych kategoriach – modele najlepiej radziły sobie w kwestiach dotyczących systemów prawnych i złożoności społecznych, jednak miały trudności z tematami takimi jak dyskryminacja czy mobilność społeczna.

– Główna konkluzja z tego badania jest taka, że LLM, choć są imponujące, to wciąż brakuje im głębi zrozumienia wymaganej do zaawansowanej analizy historii. Są świetne w kwestiach podstawowych faktów, ale jeśli chodzi o bardziej subtelne badania historyczne prowadzone na poziomie doktoranckim, jeszcze nie sprostają temu zadaniu – mówi prof. Maria del Rio-Chanona.

AI pomoże, ale nie zastąpi umiejętności i doświadczenia profesjonalnych historyków

.Takie rezultaty badania nie powinny zaskakiwać. Profesjonalnego historyka od laika różni nie tylko zasób wiedzy na temat dziejów, ale przede wszystkim zdolność rozumienia i interpretacji źródeł oraz odczytywania kontekstu minionych zdarzeń. Z tego powodu sztuczna inteligencja – przynajmniej na tym etapie rozwoju, na jakim znajduje się obecnie – nie zastąpi osób zawodowo zajmujących się historią – pisze Patryk PALKA, historyk i publicysta kierujący działem „Piękno Historii” we „Wszystko co Najważniejsze”, redaktor „Gazety na Niedzielę”.

Przyjmijmy, że kolejne wersje AI będą potrafiły w okamgnieniu bezbłędnie przywoływać wszystkie daty, fakty i nazwiska, a nawet tezy wszystkich historyków, którzy kiedykolwiek wypowiadali się na określony temat. Nawet najlepszy badacz nie jest i nigdy nie będzie do tego zdolny. Czy to oznacza, że sztuczna inteligencja stanie się historykiem doskonałym? Oczywiście nie. Będzie wyjątkowo użytecznym narzędziem, dzięki któremu praca historyków zajmie zdecydowanie mniej czasu, ale nie sprawi, że badacze historii przestaną być potrzebni – wyjaśnia historyk.

Historia nie jest nauką ścisłą. To nie tylko zbiór suchych faktów, dat i nazw, ale też osadzone w specyficznych kontekstach myśli i uczucia ludzi, którzy byli głównymi aktorami minionych zdarzeń. Dopóki AI nie posiada zdolności do myślenia abstrakcyjnego, rozumienia ludzkich decyzji i schematów działania, dostrzegania w źródłach nie tylko tego, co zostało napisane, ale też tego, czego tam nie ma, w dziedzinie nauk historycznych nie zastąpi pracy ludzi, ani nie dorówna zdolności człowieka do odczytywania kontekstów kulturowych, a co za tym idzie także do rozumienia przeszłości – podsumowuje Patryk PALKA.

Newsletter „Piękno Historii” dla czytelników „Wszystko co Najważniejsze”

.Ruszył nowy projekt redakcji „Wszystko co Najważniejsze” – newsletter „Piękno Historii”.

Nasz newsletter to przestrzeń dla każdego, kto interesuje się historią – zarówno na co dzień, jak i okazjonalnie. Co tydzień prezentujemy wybór najważniejszych i najciekawszych wydarzeń historycznych, których rocznice obchodzimy w danym tygodniu. Znajdą tu Państwo również jakościowe teksty na temat historii autorstwa profesjonalnych historyków, napisane w sposób przystępny i ciekawy.

Newsletter „Piękno Historii” to także szansa na zapoznanie się z głosem z epoki, w który warto się wsłuchać. Prezentujemy go pod postacią cytatu z wybranego źródła historycznego. Proponujemy ponadto zdjęcie bądź obraz z epoki, dzięki którym obcowanie z przeszłością będzie ciekawsze. Znajdą tu Państwo również polecenia książek historycznych, po jakie warto sięgnąć. Co tydzień przedstawimy także sylwetkę polskiego naukowca, wynalazcy, myśliciela lub artysty, którego dokonania wpłynęły na świat, jaki znamy dziś.

Zapraszamy do subskrybowania!

Link do zapisów: [Zapisz się].

Marek Matacz/PAP/WszystkocoNajważniejsze/rb

Materiał chroniony prawem autorskim. Dalsze rozpowszechnianie wyłącznie za zgodą wydawcy. 23 stycznia 2025