Robot uczy się synchronizacji ruchu ust dzięki AI i YouTube

Robot uczy się synchronizacji ruchu ust, obserwując ludzi na YouTubie, co może pomóc humanoidom przekroczyć barierę w komunikacji.
.Badania prowadzone przez zespół inżynierów z Columbia Engineering pokazują, że jednym z największych braków współczesnej robotyki nie jest poruszanie się czy chwytanie przedmiotów, lecz twarz. W kontaktach międzyludzkich ogromną rolę odgrywają drobne gesty, mimika i ruch ust, zsynchronizowany z mową. To właśnie ich brak sprawia, że nawet zaawansowane humanoidy budzą dyskomfort, znany jako efekt „uncanny valley”. Naukowcy opublikowali w czasopiśmie Science Robotics wyniki badań, w których po raz pierwszy robot nauczył się realistycznej synchronizacji ruchu ust nie przez ręczne programowanie, lecz poprzez obserwację podobnie jak robią to ludzie.
Mimika twarzy odgrywa kluczową rolę w jakości interakcji człowieka z robotem. To właśnie ruchy ust, oczu i drobne gesty twarzy decydują o tym, czy kontakt odbieramy jako naturalny, czy wręcz niepokojący. Gdy mimika jest sztywna, opóźniona lub niespójna z mową, rozmowa twarzą w twarz z robotem szybko staje się nienaturalna i wywołuje dyskomfort. Realistyczna, płynna mimika pozwala zmniejszyć efekt „uncanny valley”, buduje zaufanie i sprawia, że robot jest postrzegany jako bardziej zrozumiały oraz przewidywalny partner interakcji.
Kluczowym elementem projektu było odejście od sztywnych reguł sterujących mimiką. Zamiast tego robot wyposażony w elastyczną twarz i 26 miniaturowych silników najpierw uczył się własnych możliwości ruchu. Umieszczony przed lustrem wykonywał tysiące losowych grymasów, obserwując, jak ruchy „mięśni” przekładają się na wygląd twarzy. W ten sposób powstał model „wizja–działanie”, który pozwolił robotowi zrozumieć, jak sterować swoją twarzą, aby uzyskać określony efekt wizualny. Ten etap przypomina rozwój małego dziecka, które eksperymentuje z mimiką, zanim zacznie ją świadomie kontrolować.
Dopiero później robot przeszedł do nauki właściwej synchronizacji ruchu ust z dźwiękiem. W tym celu analizował godziny nagrań z YouTube, na których ludzie mówili i śpiewali w różnych językach. Sztuczna inteligencja nie znała znaczenia słów ani kontekstu wypowiedzi. Uczyła się wyłącznie relacji między dźwiękiem, a ruchem warg. Efektem było to, że robot potrafił poruszać ustami w rytm mowy i muzyki, a nawet „zaśpiewać” utwory z własnego, wygenerowanego przez sztuczną inteligencję albumu. Choć badacze przyznają, że trudne głoski, takie jak „b” czy „w”, nadal sprawiają problemy, jakość synchronizacji jest znaczącym krokiem naprzód.
.Realistyczna mimika twarzy może stać się brakującym ogniwem w rozwoju humanoidów przeznaczonych do pracy z ludźmi w edukacji, opiece zdrowotnej czy wsparciu osób starszych. Połączenie takiej synchronizacji ruchu ust z zaawansowanymi modelami konwersacyjnymi, takimi jak nowoczesne chatboty, może stworzyć wrażenie znacznie bardziej „żywego” i empatycznego rozmówcy. Jednocześnie badacze podkreślają konieczność ostrożności: technologia, która ułatwia budowanie emocjonalnej więzi z maszyną, niesie też ryzyka społeczne i etyczne. Mimo to naukowcy są zgodni, że zbliżamy się do momentu, w którym roboty przestaną wyglądać i zachowywać się jak bezduszne maszyny, a zaczną komunikować się w sposób bardziej naturalny i zrozumiały dla człowieka.
Oprac: SŚ



