"Gdy dostawcy internetu chcą wiedzieć, co robimy w sieci, i wiedzę tę sprzedawać"

Łukasz OLEJNIK

Zajmuje się bezpieczeństwem informacji i prywatnością w sieci. Pracował w PCSS, CERN i badawczo we Francuskim Instytucie Badawczym Informatyki i Automatyki (INRIA), gdzie obronił doktorat z informatyki, pracując nad prywatnością. Ekspert World Wide Web Consortium (W3C), gdzie pracuje nad prywatnością w standardach Web.

Ryc. Fabien CLAIREFOND

zobacz inne teksty Autora

Gdy dostawcy internetu wkraczają w Big Data, w pozyskiwanie i przetwarzanie danych, w profilowanie użytkowników ich usług, warto zadać ważne pytanie: jak wpłynie to na bezpieczeństwo, prywatność i zaufanie do internetu?

.Dostawcy internetu stali się „przezroczyści”. Dostęp do sieci traktujemy jako rzecz oczywistą i często nawet nie zdajemy sobie sprawy z tego, kto zapewnia nam połączenie z internetem; nie zastanawiamy się nad tym, gdy np. siedzimy w parku czy sączymy latte w kawiarni, przesyłając gdzieś zdjęcia. Poza tym — któż czytałby „warunki korzystania z usługi”?

Podczas korzystania z połączenia z siecią telekomunikacyjną użytkownik bezwiednie zakłada, że swoimi działaniami w sieci nie zainteresuje dostawcy internetu. Zawarta umowa przewiduje, że dostawca nie będzie analizował podejmowanych przez użytkownika działań: nie będzie w żaden sposób monitorował, śledził ani modyfikował danych przesyłanych i otrzymywanych przez użytkownika.

Istnieją oczywiście wyjątki od tej reguły, gdy przesyłane dane zostają poddane modyfikacji. Przykładem może być korzystanie z hotelowych połączeń z internetem, gdzie modyfikacji ulegają np. odwiedzane strony internetowe (aby np. dodatkowo wyświetlić na podłączonym poprzez sieć hotelową komputerze reklamę).

.Jak takie „ingerencje” mogą wyglądać od strony technicznej? Gdy łączymy się ze stroną internetową, specyfika techniczna połączenia przewiduje przesyłanie danych koniecznych do nawiązania połączeń. Znajdują się one w nagłówkach przesyłanych przy transmisji danych. Wśród elementów w nich zawartych jest np. odbiorca połączenia. Część z nich może zostać użyta do identyfikacji użytkownika, choćby w celu sprawdzenia, czy użytkownik odwiedzał już daną stronę.

Istnieją także różnego rodzaju identyfikatory, z najpowszechniej znanymi: adresem IP (związanym z nawiązywaniem połączenia za pomocą sieci) i ciasteczkami przeglądarek (cookies — związane z przeglądarkami pobierającymi dane ze strony internetowej). Identyfikatory są używane przez strony internetowe (by np. ustalić, kto jest użytkownikiem) i systemy reklamowe (polegające na obserwowaniu, jakie strony odwiedzane są przez użytkownika). Zazwyczaj nie mamy tu jednak do czynienia ze stałym i celowym modyfikowaniem danych przesyłanych przez użytkownika, aby było to możliwe, potrzebny byłby dostęp do infrastruktury telekomunikacyjnej. A tego typu dostęp posiadają dostawcy połączeń z internetem. Z upublicznionych dokumentów NSA wiadomo, że identyfikatory mogą być użyteczne również dla wywiadów elektronicznych, które taki dostęp także posiadają.

.Przykładem jednej z większych ingerencji w ostatnim czasie w dane przesyłane przez użytkownika było wprowadzenie tzw. perma-cookie (permanent cookie — stały identyfikator), czyli kawałka danych przypisanego klientowi dostawcy internetu. Takie technologie testowane były w USA przez największych dostawców internetu: Verizon (wdrożenie) [LINK] i AT&T (tylko testy i wycofanie się z nich) — na wszystkich ich klientach. Celem było stworzenie idealnego identyfikatora, który w każdej sytuacji byłby przypisany danej osobie. Pomysł z zastosowaniem takiego identyfikatora znalazł wielki aplauz w środowiskach internetowych firm reklamowych.

„Jesteśmy w stanie widzieć wszystko, co robią [nasi klienci — red.], a tam teraz znajdują się dane” — przyznał jeden z dyrektorów wykonawczych Verizon.

Gdy użytkownik odwiedzał stronę internetową, przy nawiązywaniu połączenia dostawca internetu umieszczał w nagłówkach (czyli elementach informujących serwer o możliwościach i szczegółach przeglądarki użytkownika) połączenia unikalny identyfikator — ciąg danych tekstowych — jednoznacznie przypisany klientowi (użytkownikowi). Ciąg takich danych mógł mieć formę taką jak: „OTgxNTk2NDk0ADJVquRu5NS5+rSbBANlrp+13QL7CXLGsFHqsd3LsUHw”. A identyfikatory te — przypisane już użytkownikowi — mogły być później przesyłane dalej, do innych aktorów biorących udział w procesie wyłaniania przekazu kierowanego (np. reklamy), choćby w ramach Real-Time Bidding (o którym pisałem już na Wszystko Co Najważniejsze [LINK]). Dostawcy internetu oczywiście nie mogą kontrolować faktycznego wykorzystania tych identyfikatorów przez podmioty zewnętrzne — oni je jedynie wstawiają…

Korzystanie z wprowadzanych rozwiązań umożliwia monitoring użytkownika, śledzenie go między odwiedzanymi stronami, poznanie, czym się interesuje, zbudowanie jego profilu. Użytkownicy nie wiedzieli, że takie działania są prowadzone. Długo też nie istniała możliwość „wypisania się z usługi” (opt-out), czyli świadomej decyzji użytkownika, że nie chce brać udziału w takim przedsięwzięciu.

Wpisując zapytanie w serwisie internetowym (np. w wyszukiwarce lub sklepie internetowym), godzimy się na to, że te informacje mogą zostać pozyskane i analizowane. Ale czy siedząc w domu i zwyczajnie przeglądając sieć, bierzemy pod uwagę, że dostawca internetu może dokonywać w tle szczegółowej analizy naszych zachowań? Dotychczas założenie było takie, że dostawcy internetu po prostu oferują nam transmisję danych. I nic poza tym.

.Verizon modyfikował przesyłane dane, ale AT&T wdrożyło usługę innej natury [LINK], wykraczającą poza tradycyjny model biznesowy dostawców internetu.

Klienci dostali do wyboru dwa abonamenty, jeden za mniej więcej 100 dolarów i drugi o jakieś 30 dolarów tańszy — o takich samych parametrach — z jedną różnicą. Tańszy pakiet oznaczał zgodę na automatyczną analizę całego ruchu użytkownika w internecie. A zatem odwiedzane strony, czas na nich spędzony, frazy wpisywane w wyszukiwarkach, wyszukiwane produkty w sklepie internetowym… AT&T jako dostawca internetu technicznie ma takie możliwości. Kontroluje przecież infrastrukturę, za pomocą której użytkownik z internetu korzysta. W tym przypadku ustawienia prywatności przeglądarek (np. dotyczące ciasteczek) nie odniosą pełnego efektu, być może bez świadomości i oczekiwań użytkownika?

Ale co wynika z samego faktu analizy danych? W wyniku takiej analizy w przybliżeniu można pozyskać po prostu bardzo szczegółową historię przeglądanych stron w sieci [LINK]. A historia przeglądanych stron niesie bardzo bogate informacje na temat ludzi i ich charakteru. Istnieją metody automatycznej analizy i ekstrakcji informacji z tego typu danych. Możliwe do wywnioskowania są m.in. płeć, wiek, przychody czy profil rasowy. Nie zapominajmy też o możliwości analizy fraz wpisywanych w przeglądarki. Frazy te mogą zawierać choćby informacje o wyszukiwanych chorobach, dolegliwościach, zainteresowaniach i preferencjach. A zatem możliwe jest zbudowanie szczegółowego profilu użytkownika.

Firma AT&T wyceniła prywatność danych użytkowników na 30 dolarów. Jednocześnie po raz pierwszy dostawca internetu wszedł w analizę danych à la Big Data.

Co może z tym wszystkim zrobić użytkownik? Jeśli nie chcemy, by ktoś mógł obserwować i analizować nasze akcje w internecie, możemy wykorzystać pewne technologie wspierające prywatność. Jedną z nich jest Tor [LINK], który sprawia, że analiza tego, co robimy i jakie odwiedzamy strony w sieci — jest bardzo trudna.

Często wystarczy korzystać ze zwyczajnej przeglądarki, jednak trzeba łączyć się ze stronami udostępnianymi za pomocą bezpiecznego protokołu HTTPS (przeglądarki sygnalizują połączenie HTTPS, np. ikoną kłódki obok adresu strony). I choć nadal będzie wiadomo, gdzie się łączymy, to nie ma możliwości ingerowania w szczegóły połączenia (i np. umieszczania jakichś specjalnych identyfikatorów, jak to robił Verizon), ani (zwykle) poznania szczegółów przesyłanych i odbieranych danych. Właściciele stron internetowych również muszą sobie z tego zdać sprawę. Bez umożliwiania łączenia za pomocą protokołu HTTPS, godzą się na możliwość modyfikacji ich stron podczas gdy „przeglądają” je użytkownicy.

W przypadku stron dostępnych zarówno za pomocą bezpiecznego protokołu, jak i formy niezabezpieczonej można preferować bezpieczne połączenia, mając zainstalowane choćby rozszerzenie przeglądarki HTTPS Everywhere [LINK].

.Połączenia w sieci Verizona zostały oznakowane nieusuwalnymi identyfikatorami. Sposób zarządzania nimi nie jest jasny. Inny powszechnie wykorzystywany identyfikator, czyli ciasteczka przeglądarek, jest znacznie przyjaźniejszy — można je kontrolować, można nimi zarządzać, można te identyfikatory usunąć. W ostatnich dekadach i latach w wyniku prac badawczych i rozwojowych opracowano szereg właśnie tego typu rozwiązań.

Gdy firma wykorzystująca swoją pozycję niweczy te lata pracy, to czy możemy oczekiwać zwiększania zaufania użytkowników do internetu jako bezpiecznego medium?

W przypadku AT&T kontroler infrastruktury telekomunikacyjnej może pozyskać informacje na temat sposobów użycia internetu przez ich klienta i budować profile użytkowników. Dane te mogą także zostać udostępnione dalej, np. sprzedane innym podmiotom. Oczywiście w granicach prawa i regulacji. Ale czy można ufać dostawcy internetu, który udostępnia innym informacje dotyczące tego, co użytkownik robi w sieci? Stawką jest zaufanie, bezpieczeństwo i prywatność — nie tylko w skali indywidualnej, ale i w skali państwa.

.A zatem, jeśli chcesz śledzić moje działania w internecie — proszę bardzo, ale rób to z wykorzystaniem przejrzystych, dobrze opisanych technologii, które pozwalają mi o tym wiedzieć i mieć na to wpływ!

Łukasz Olejnik

Materiał chroniony prawem autorskim. Dalsze rozpowszechnianie wyłącznie za zgodą wydawcy. 18 lipca 2015
Fot. Shutterstock