Prof. Aleksandra OBRĘPALSKA-STĘPLOWSKA, Prof. Maciej J. OGORZAŁEK: Pamięć zapisana w DNA. Na styku biotechnologii i informatyki

Pamięć zapisana w DNA.
Na styku biotechnologii i informatyki

Photo of Prof. Aleksandra OBRĘPALSKA-STĘPLOWSKA

Prof. Aleksandra OBRĘPALSKA-STĘPLOWSKA

Profesor IOR-PIB, kieruje Zakładem Biologii Molekularnej i Biotechnologii IOR-PIB w Poznaniu. Członek Komitetu Biotechnologii PAN.

zobacz inne teksty Autorki

Photo of Prof. Maciej J. OGORZAŁEK

Prof. Maciej J. OGORZAŁEK

Profesor zwyczajny na Wydziale Fizyki, Astronomii i Informatyki Stosowanej Uniwersytetu Jagiellońskiego w Krakowie, kieruje zakładem Technologii Informatycznych. Członek rzeczywisty PAN, członek Academia Europaea.

Z punktu widzenia informatyki DNA jako potencjalne medium przechowywania danych ma wspaniałe właściwości – piszą prof. Aleksandra OBRĘPALSKA-STĘPLOWSKA i prof. Maciej J. OGORZAŁEK

.W XXI wieku obserwujemy znaczące przyspieszenie generowania różnego typu danych, dotyczących wszystkich aspektów naszego życia. Powstaje potrzeba ich archiwizacji. Chcemy przechowywać pliki tekstowe, graficzne, muzyczne, filmy, duże zbiory danych i całe systemy operacyjne, wykorzystywane od telekomunikacji, poprzez prognozowanie zjawisk klimatycznych, dokumentację medyczną, aż do dotyczących funkcjonowania firm czy jednostek administracyjnych.

Same informacje pozyskiwane przez naukowców przyrastają w ostatnich latach w tempie wykładniczym. Prognozy Samsunga wskazują na wzrost wolumenu danych w najbliższych latach do astronomicznych rozmiarów 175 ZB (zettabajtów = 175 tryliardów (1021) bajtów) w roku 2025. Istniejące technologie i systemy pamięci półprzewodnikowych, magnetycznych i innych mimo niezwykłych osiągnięć w zmniejszaniu ich rozmiarów wydają się niewystarczające do obsługi tak wielkich objętości danych. Opracowanie nowych technologii o ogromnych możliwościach, dotyczących takich parametrów, jak pojemność, szybkość dostępu/odczytu i zapisu, staje się w dzisiejszej dobie konieczne dla dalszego postępu i stworzenia nowych repozytoriów danych cyfrowych.

Przechowywanie tak dużej ilości danych, możliwość ich kopiowania, przekazywania oraz skuteczne mechanizmy kontroli ich poprawności i korekty błędów – to naturalne cechy kwasu dezoksyrybonukleinowego, DNA. Gdy dodamy do tego, że DNA można wyizolować i poznać jego sekwencję (czyli zakodowaną w nim informację), nawet jeśli pochodzi z dobrze zakonserwowanych skamielin sprzed tysięcy lat, to mamy nośnik idealny. I DNA jest idealnym nośnikiem danych biologicznych, czego dowodem są wszystkie organizmy żywe na świecie. Nic więc zatem dziwnego, że coraz częściej upatruje się w DNA alternatywnego nośnika danych cyfrowych.

Wychodząc naprzeciw współczesnym wyzwaniom, zaczęto poszukiwać nowych rozwiązań dla pamięci o dużej gęstości, długim czasie przechowywania i niskiej cenie. Właściwości DNA, jego gęstość fizyczna i duża trwałość w znacznym stopniu spełniają wymagania dotyczące długoterminowego przechowywania dużych zbiorów danych. Prowadzone dotąd analizy ogromnych ilości danych dotyczących DNA oraz funkcjonalnych właściwości związanych z sekwencjonowaniem prowadzą nie tylko do zrozumienia mechanizmów przechowywania informacji w strukturach tego typu i ich powiązania z działaniem organizmów żywych. Badania te zwróciły też uwagę na całkiem nowe możliwości oraz doprowadziły do sformułowania nowych hipotez i problemów badawczych, w szczególności w dziedzinie informatyki. Pokazanie możliwości edycji genomów z wykorzystaniem technologii CRISPR-Cas(Nagroda Nobla dla J. Doudna i E. Charpentier) uruchomiło  intensywne badania w dziedzinie biologii molekularnej, Natychmiast pojawiły się również hipotezy dotyczące możliwości zapisudowolnych danych cyfrowych w oparciu o sekwencje DNA.

Warto wspomnieć, że sama idea przechowywania danych w DNA pojawiła się dość dawno i wyprzedziła mocno możliwości technologiczne. Pierwsze pomysły takiego wykorzystania DNA datuje się na lata 50. XX wieku, ale faktyczną próbę wdrożenia tego rozwiązania przypisuje się Joe Davisowi, naukowcowi z Massachusetts Institute of Technology (MIT), który w latach 80. XX wieku, łącząc sztukę z nauką, postanowił zapisać w DNA starożytną germańską runę oznaczającą życie (projekt „Microvenus”). Zapis powstał najpierw w postaci binarnej, a następnie został przepisany na kod DNA o długości 28 par zasad. DNA został następnie zsyntetyzowany i wprowadzony do genomu bakterii Escherichia coli.

Od tego czasu eksperymentalnie zakodowano w DNA wiele danych. Na przykład w genomach dwóch bakterii, E. coli i Deinococcus radiodurans – zdolnej przeżyć w wyjątkowo ekstremalnych warunkach, w tym w próżni, przetrwać wysuszenie, dawkę promieniowania jonizującego czy ultrafioletowego – zapisano fragment piosenki dla dzieci „It’s a Small World”. Zaś wiele lat później, w ramach projektu realizowanego w Europejskim Instytucie Bioinformatyki w Hinxton, w DNA zakodowano wszystkie 154 sonety Szekspira.

Jak wygląda zapisywanie danych cyfrowych w DNA? Podstawowym etapem związanym z archiwizacją danych na nośniku DNA jest przekodowanie informacji cyfrowej na sekwencję nukleotydów w DNA. W przeciwieństwie do zero-jedynkowego systemu binarnego (0,1), służącego do zapisu danych, DNA funkcjonuje w kodzie 4-literowym, gdyż zbudowany jest z czterech typów nukleotydów (A, T, G, C). Opracowano już odpowiednie algorytmy „przepisujące” ciągi bitów na sekwencję DNA.

Kolejnym etapem jest zorganizowanie tych danych w bibliotekę do możliwie długiego przechowywania. Dzięki rozwojowi biologii syntetycznej istnieje możliwość maszynowej syntezy sekwencji DNA, w której uprzednio zakodowano dane cyfrowe, w wielu kopiach fizycznych (obecność kopii jest również istotna dla weryfikacji ewentualnych błędów w zapisie). Zsyntetyzowany materiał DNA może być następnie przechowywany in vivo (czyli sklonowany i wprowadzony do komórek organizmów żywych) lub, co jest powszechniejsze po 2012 roku, in vitro (poza organizmami żywymi, np. zamrożony w roztworze lub zliofilizowany i przechowywany w odpowiednich warunkach). Tu warto dodać, że przechowywanie danych in vivo powoduje mniejszą gęstość upakowania, a więc rośnie ich objętość, co wynika z relatywnie sporych rozmiarów komórek. Dlatego wydaje się, że w najbliższych latach będzie dominować przechowywanie danych pozakomórkowe (in vitro).

Do odczytania tak zarchiwizowanych informacji i odzyskania pierwotnych danych służy technologia sekwencjonowania DNA. Uzyskiwane w wyniku sekwencjonowania sekwencje DNA nie są długie, dlatego muszą być złożone w dłuższe ciągi (ang. reassembly). (Proces ten można porównać do złożenia książki z pojedynczych kartek w odpowiedniej kolejności). Wyniki sekwencjonowania są następnie dekodowane – najpierw z powrotem na kod binarny, a następnie na pierwotne dane wejściowe. Ważnym aspektem dekodowania i przywracania danych jest odzyskiwanie danych zapisanych w DNA w wersji swobodnej (tzw. random access). Nie zawsze bowiem będzie istniała potrzeba sekwencjonowania (i odkodowywania) całego zapisu w DNA. Zazwyczaj potrzebny będzie jego fragment zawierający konkretne informacje. Założenia i rozwiązania umożliwiające taki dostęp również zostały już opracowane – m.in. z wykorzystaniem reakcji łańcuchowej polimerazy (PCR) i odpowiednich starterów, dzięki którym możliwe jest wyszukanie i powielenie określonego fragmentu łańcucha DNA.

Pomimo wielu udanych prób na polu archiwizacji z wykorzystaniem DNA technologia ta wciąż wymaga ulepszeń, w tym na etapach zapisu i dekodowania danych. Zarówno przepustowość syntezy DNA (czyli czas), jak i koszty w przeliczeniu na jeden nukleotyd są wciąż dalekie od idealnych. Jednak to nie są jedyne aspekty wymagające opracowania lepszych rozwiązań. Bardzo ważnym zagadnieniem jest również eliminacja błędów powstających w trakcie sekwencjonowania, co jest kluczowe dla późniejszego dekodowania informacji z DNA na pliki binarne. Eliminację błędów częściowo zapewnia dodanie nadmiarowej informacji (tzw. redundancji fizycznej oraz logicznej).

Aby stworzyć efektywne systemy pamięci DNA, konieczne jest także opracowanie nowych standardów kodowania/dekodowania, przesyłania danych oraz połączenia i współpracy z już istniejącymi systemami, w szczególności elektronicznymi systemami przetwarzania danych oraz systemami telekomunikacyjnymi. Jest oczywiste, że połączenie nowych systemów pamięci DNA ze standardowymi urządzeniami, takimi jak komputery, systemy baz danych, sieć telekomunikacyjna itp., może stanowić istotną barierę do pokonania.

Nad powyższymi usprawnieniami pracuje zatem coraz więcej biotechnologów, biologów molekularnych oraz informatyków, a więc przedstawicieli dyscyplin najszybciej się rozwijających. Czy jednak DNA zastąpi tradycyjne nośniki informacji danych cyfrowych?

Jest to kwestia przyszłości, chociaż przedstawione przykłady pokazują, że ta przyszłość już się dzieje. W październiku 2020 roku powstało konsorcjum firm, instytucji akademickich i instytutów badawczych nazwane DNA Data Storage Alliance, którego celem jest badanie nowych możliwości przechowywania lawinowo powiększających się zbiorów danych. Firmy biotechnologiczne i informatyczne postanowiły zjednoczyć siły, by zbudować nowe systemy pamięci bazujące na DNA.

Badania nad wykorzystaniem DNA jako nośnika pamięci prowadzone są w wielu laboratoriach na świecie. Najciekawsze kierunki badań to np. stworzenie tzw. DNA Archive Rosetta Stone (DARS), uniwersalnego narzędzia pozwalającego na odkrywanie-odkodowanie funkcji oraz sposobu tworzenia sekwencji. Kolejne ciekawe obszary badań dotyczą opracowania miar odporności i trwałości danych dla pamięci DNA oraz rozwiązań technologicznychi planu działania na najbliższe lata w tej dziedzinie dla firm (Industry Technology Roadmap), włącznie ze standardamidefiniującymi interfejsy fizyczne oraz formaty danych dla różnych komponentów systemów pamięciowych.

Z punktu widzenia informatyki DNA jako potencjalne medium przechowywania danych ma kilka wspaniałych właściwości. Ocenia się, że w tej samej objętości w pamięci DNA można zgromadzić 100 000 razy więcej „bitów” niż w innych typach pamięci. DNA ma także niezwykłe własności przechowywania informacji w bardzo długim czasie – wymagania energetyczne są minimalne, jest niesłychanie odporne na zakłócenia i zaburzenia, spełnia także wymagania czystego środowiska. Wykorzystanie DNA w systemach pamięci wydaje się niezwykle ciekawym rozwiązaniem. Ocenia się, że do roku 2030 koszt syntezy DNA (i równolegle koszt sekwencjonowania DNA) zejdzie do poziomu 1 dolara/terabajt.

.Archiwizacja danych cyfrowych w DNA może być bardzo atrakcyjną alternatywą, występującą równolegle z innymi rozwiązaniami wypracowanymi przez informatyków. Wiemy, że ludzki genom, zawierający ok. 3 mld par zasad, mieści się w każdej naszej komórce i koduje wszystkie informacje niezbędne do odtworzenia człowieka, z zapisaną jego charakterystyką biologiczną. Ionkov i Settlemyer oszacowali, że wszystkie dane znajdujące się na Facebooku zmieściłyby się w połowie ziarnka maku. Perspektywa przechowywania wszystkich danych wygenerowanych przez ludzkość, upakowanych w cząsteczkach DNA i zajmujących mniej miejsca niż kostka Rubika, chociaż wciąż jeszcze dość odległa, jest bardzo kusząca.

Aleksandra Obrępalska-Stęplowska
Maciej Ogorzałek

Materiał chroniony prawem autorskim. Dalsze rozpowszechnianie wyłącznie za zgodą wydawcy. 4 października 2022