Słuchawki AI pomogą rozwiązać problem z niedosłuchem

Słuchawki AI pokazują, że mogą samodzielnie rozpoznawać rozmówcę i wzmacniać jego głos, eliminując hałas bez udziału użytkownika.

.Rozmowa w zatłoczonym pomieszczeniu to klasyczny „problem przyjęcia koktajlowego”, czyli trudność w skupieniu uwagi na jednym głosie wśród wielu. Nowe badania zespołu z University of Washington pokazują jednak, że sztuczna inteligencja może rozwiązać to zadanie szybciej i skuteczniej niż dotychczasowe metody.

Badacze opracowali prototyp inteligentnych słuchawek, które rozpoznają rozmówców użytkownika bez żadnych wskazań gestem, wzrokiem czy ustawieniami. Urządzenie wykorzystuje dwa modele AI. Pierwszy analizujący rytm wypowiedzi i drugi eliminujący głosy niespełniające tego wzorca. Co ważne, rozpoznanie rozmówcy trwa jedynie od dwóch do czterech sekund, a cały system opiera się na standardowych, dostępnych podzespołach.

.Działanie prototypu opiera się na spostrzeżeniu, że ludzie prowadzący rozmowę naturalnie wchodzą w rytm naprzemiennego mówienia. Naukowcy nauczyli model sztucznej inteligencji wykrywania tego rytmu wyłącznie na podstawie sygnału audio. Rozwiązanie, które kontrastuje z wcześniejszymi podejściami wymagającymi np. implantów śledzących uwagę. Gdy użytkownik zaczyna mówić, system uruchamia analizę „kto i kiedy mówi”, identyfikując niskie nakładanie się wypowiedzi jako sygnał przynależności do tej samej interakcji. Następnie drugi model wyodrębnia głosy uczestników rozmowy i odtwarza wyczyszczony dźwięk. Obecny prototyp obsługuje do czterech rozmówców jednocześnie, zachowując płynność odsłuchu bez słyszalnego opóźnienia.

W testach przeprowadzonych z udziałem 11 uczestników oceniano redukcję hałasu oraz zrozumiałość mowy. Wyniki były jednoznaczne. Dźwięk filtrowany przez AI oceniano ponad dwukrotnie lepiej niż dźwięk bez przetwarzania. Zespół badawczy ma doświadczenie w podobnych projektach. Wcześniej stworzył słuchawki, które wzmacniały głos osoby wskazanej spojrzeniem, oraz system tworzący osobistą „bańkę dźwiękową”, wyciszającą odgłosy w określonej strefie. Nowa technologia wyróżnia się jednak tym, że to urządzenie samo odgaduje intencję użytkownika, nie wymagając ręcznego sterowania czy wyboru źródła dźwięku.

Obecnie dostępne na rynku technologie, takie jak klasyczny noise cancelling czy systemy rozpoznawania mowy w słuchawkach i smartfonach, potrafią skutecznie zmniejszać hałas, lecz działają w sposób znacznie bardziej ogólny niż rozwiązanie opracowane na University of Washington. Aktywna redukcja szumów eliminuje dźwięki tła, ale nie potrafi odróżnić rozmówcy od innych osób mówiących w pobliżu. Z kolei systemy wykrywania mowy, które są stosowane np. do sterowania asystentami głosowymi, reagują na każdy głos, który spełnia określone kryteria akustyczne. W praktyce oznacza to, że tradycyjna technologia nie selekcjonuje źródła dźwięku, tylko przetwarza wszystkie wypowiedzi jednakowo. To właśnie ta luka, która symbolizuje brak personalizacji i brak rozpoznania, kto jest naszym rozmówcą sprawia, że nowy model AI ma szansę stać się prawdziwym przełomem w naturalnym odsłuchu rozmów w hałaśliwym środowisku.

.Badacze podkreślają, że przed technologią stoi jeszcze kilka wyzwań. W bardziej dynamicznych rozmowach, z częstym wchodzeniem sobie w słowo czy dłuższymi monologami, system może się gubić. Trudnością jest również płynne dodawanie uczestników pojawiających się w trakcie dialogu. Mimo to prototyp radził sobie lepiej, niż zakładano, także w wersjach testowanych po angielsku, mandaryńsku i japońsku. Autorzy przewidują, że przyszłe modele będą działać na chipach mieszczących się w małych słuchawkach lub aparatach słuchowych. Już teraz trwają równoległe badania potwierdzające, że modele AI da się uruchamiać na niewielkich urządzeniach o niskim poborze mocy.

Technologia może stać się elementem nowej generacji aparatów słuchowych, słuchawek i inteligentnych okularów, które automatycznie dostosowują się do naturalnego sposobu prowadzenia rozmów. Jeśli rozwój pójdzie w przewidywanym kierunku, słuchawki AI mogą znacząco poprawić komfort komunikacji nie tylko osób z niedosłuchem, lecz także każdego, kto próbuje usłyszeć rozmówcę w coraz głośniejszym świecie.

Oprac: SŚ

Materiał chroniony prawem autorskim. Dalsze rozpowszechnianie wyłącznie za zgodą wydawcy. 11 grudnia 2025