EvO 2. „ChatGPT” dla biologów, odczytujący DNA

Evo 2 to przełom we współczesnej biologii: fundamentalny model sztucznej inteligencji wytrenowany na genomach 128 000 organizmów obejmujących 9 bilionów nukleotydów – par zasad DNA; model o oknie kontekstu sięgającym miliona tokenów i rozdzielczości pojedynczego nukleotydu.
Czym jest Evo 2?
Evo 2 to genomowy model językowy. Wyposażony w liczne funkcje, potrafi on między innymi generować sekwencje DNA, a nawet całe genomy. Jest dziełem badaczy z kilku amerykańskich instytucji, w tym z wiodącym Arc Institute oraz uniwersytetów Stanford i Berkeley, we współpracy z producentem układów scalonych Nvidia.
Niektórzy porównują Evo 2 do ChataGPT. Podobnie bowiem jak ChatGPT generuje tekst, tak Evo 2 potrafi tworzyć sekwencje DNA, pisząc kod genomowy krok po kroku. Program bada i analizuje genomy wielu gatunków, a także potrafi generować sekwencje DNA. Dzięki temu możliwe jest szybsze identyfikowanie mutacji odpowiedzialnych za choroby, łatwiejszym i szybszym też stanie się opracowywanie nowych terapii.
Ostatnio na przykład przy użyciu Evo 2 stworzono funkcjonalnego wirusa niszczącego bakterie — bakteriofaga. Zajęło to badaczom niewiele czasu, w odróżnieniu od wielomiesięcznych, często wieloletnich badań. Nikt już nie ma wątpliwości, że programy takie jak Evo 2 wkrótce staną się nieodzownym elementem współczesnej biologii. Oznaczają przełom w badaniach nad chorobami rzadkimi oraz nowotworami, gdzie ważna jest sprawna identyfikacja nowych mutacji patogennych.
Fascynujące narzędzie poznania
Evo 2 potrafi trafnie przewidywać funkcjonalne skutki zmienności genetycznej — od patogennych mutacji w regionach niekodujących po klinicznie istotne warianty genu BRCA1 — bez konieczności dostrajania pod konkretne zadania.
Evo 2 przyswaja reprezentacje powiązane z cechami biologicznymi, takimi jak granice ekson–intron, miejsca wiązania czynników transkrypcyjnych, elementy strukturalne białek czy regiony genomowe profagów. Zdolności generatywne modelu Evo 2 pozwalają tworzyć sekwencje mitochondrialne, prokariotyczne i eukariotyczne w skali całych genomów, z większą naturalnością i spójnością niż dotychczasowe metody.
Co ważne, na co zwraca uwagę opisujący ten model 4 marca 2026 r. magazyn „Nature” „Genome modelling and design across all domains of life with Evo 2” [LINK], Evo2 został w pełni udostępniony jako projekt otwarty — wraz z parametrami modelu, kodem treningowym, kodem wnioskowania oraz zbiorem danych OpenGenome2 — aby przyspieszyć badanie i projektowanie biologicznej złożoności.
Całe życie to informacje zapisywane w DNA
Choć narzędzia sekwencjonowania, syntezy i edycji genomów zrewolucjonizowały badania biologiczne, wciąż nie dysponujemy wystarczającym zrozumieniem ogromnej złożoności zakodowanej w genomach, by przewidywać skutki wielu typów zmian genetycznych czy w sposób świadomy komponować nowe systemy biologiczne. Modele sztucznej inteligencji, uczące się na podstawie sekwencji genomowych pochodzących od różnorodnych organizmów, w coraz większym stopniu poszerzają możliwości predykcji i projektowania. Takim też modelem jest Evo2.
Wcześniej czy później zresztą sztuczna inteligencja i modele LLM musiały dotrzeć do tego momentu. Oczywiście, informacja zawarta w genomie organizmów żywych nie ma oczywiście nic wspólnego z ludzkim językiem takim, jakiego używamy w ChatGPT.
Umownie podstawowe jednostki DNA, zwane nukleotydami, oznacza się literami A, T, G i C. Sekwencja DNA przypomina więc tekst pozbawiony słów i interpunkcji, złożony z rozmaitych kombinacji tych czterech znaków, w liczbie różnej w zależności od gatunku. Od kilku lat dojrzewa zatem idea tworzenia LLM, które zamiast tekstu operowałyby kodem genetycznym — ucząc się go i generując jego nowe formy.
Evo 2, narzędzie przełomowe
„Evo 2 stanowi przełomowy moment w rodzącej się dziedzinie biologii generatywnej. Modele te dały komputerom zdolność czytania, pisania i myślenia w języku nukleotydów” — mówi w komunikacie prof. Patrick Hsu, współzałożyciel Arc Institute, profesor bioinżynierii na Uniwersytecie Kalifornijskim w Berkeley i główny współautor publikacji. „Z niecierpliwością czekamy, by zobaczyć, co społeczność naukowa zbuduje na fundamencie tego modelu”.
Badacze, którzy mieli już do czynienia z programem Evo2 twierdzą, że jest to program uniwersalny, który potrafi wykonywać rozmaite zadania znacznie szybciej niż wcześniejsze, mniej zaawansowane systemy. Jego rozległa baza wiedzy okaże się także użyteczna przy adnotowaniu genomów na przykład w rolnictwie, gdzie genomy wielu gatunków wciąż nie są dobrze poznane. Innym istotnym zastosowaniem jest przewidywanie wpływu mutacji na zdrowie organizmów. Testy przeprowadzone na genie BRCA1, powiązanym między innymi z niektórymi nowotworami piersi, wykazały, że Evo2 potrafi odróżnić mutacje nieszkodliwe od rakotwórczych w 90 procentach przypadków.
Arkadiusz Jordan




