VALL-E Microsoftu – rewolucja syntezy mowy?

17 stycznia 2023

Badacze Microsoftu ogłosili nową aplikację, która wykorzystuje sztuczną inteligencję do naśladowania głosu osoby. Co ciekawe, wystarczy jej zaledwie kilka sekund szkolenia. Model głosu można następnie wykorzystać np. w aplikacjach zamiany tekstu na mowę.

Aplikacja o nazwie VALL-E – bo o niej mowa – może być używana do syntezy wysokiej jakości spersonalizowanej mowy. Wystarczy jej zaledwie trzysekundowe nagranie mówcy jako zachęta akustyczna. Tak wynika z wniosków, jakie naukowcy umieścili właśnie w sieci.

Microsoft dzięki VALL-E przyspieszy proces uczenia się AI?

Rzecz jasna, już teraz można spotkać programy, które potrafią wycinać i wklejać mowę do strumienia audio, a mowa ta jest konwertowana na głos mówcy z wpisanego tekstu. Niestety, obecne narzędzia muszą zostać przeszkolone w zakresie naśladowania głosu osoby, co może zająć godzinę lub dłużej. Tymczasem tworzone przez Microsoft rozwiązanie może okazać się ekspresowym narzędziem, które zrewolucjonizuje rynek.

„Jedną z wyróżniających się cech tego modelu jest to, że robi to w ciągu kilku sekund. To imponujące”. Słowa te padły w rozmowie z TechNewsWorld z ust Rossa Rubina, głównego analityka w Reticle Research, firmie doradczej ds. technologii konsumenckich w Nowym Jorku. Według naukowców VALL-E znacznie przewyższa istniejące najnowocześniejsze systemy zamiany tekstu na mowę (TTS) zarówno pod względem naturalności mowy, jak i podobieństwa mówców.

Głos? Jest. Otoczenie? Jest!

Co więcej, VALL-E może zachować emocje i środowisko akustyczne mówcy. Załóżmy, że przykładowo nagraliśmy przez telefon próbkę mowy. Tekst, w którym użyto tego głosu, brzmiałby zatem właśnie tak, jakby był czytany przez telefon. Tym samym możliwości, jakie niesie ze sobą VALL-E to zauważalna poprawa w stosunku do poprzednich najnowocześniejszych systemów. Choćby takiego YourTTS, wydanego na początku 2022 r. Tak przynajmniej twierdzi Giacomo Miceli, informatyk, zajmujący się sztuczną inteligencją.

„Interesujące w VALL-E jest nie tylko to, że potrzebuje tylko trzech sekund dźwięku, aby sklonować głos. Ciekawe jest także to, jak bardzo może dopasować ten głos, emocjonalną barwę i wszelkie szumy tła” – przyznaje. Z kolei Ritu Jyoti, wiceprezes grupy ds. sztucznej inteligencji i automatyzacji w IDC, globalnej firmie zajmującej się badaniem rynku, nazwał VALL-E narzędziem „znaczącym i imponującym”.

Zobacz także: Nowojorskie szkoły blokują uczniom dostęp do ChatGPT

Na chwilę obecną, w odróżnieniu od OpenAI i ich modelu ChatGPT, Microsoft nie otworzył się z VALL-E na szerszą publiczność. Pytanie, czy w ogóle kiedykolwiek doczekamy tej chwili. Kreowanie z pomocą sztucznej inteligencji wypowiedzi na podstawie próbek głosu mogłoby bowiem prowadzić do poważnych nadużyć.

Źródło: TechNewsWorld

Bariera 6GHz została właśnie złamana przez Intel

Discord nabywa Gas, opartą na komplementach aplikację społecznościową dla nastolatków

Nowa sztuczna inteligencja Microsoftu, VALL-E, może symulować dowolny głos z 3-sekundowej próbki

Przemysław Garczyński

Badacze Microsoftu ogłosili nową aplikację, która wykorzystuje sztuczną inteligencję do naśladowania głosu osoby. Co ciekawe, wystarczy jej zaledwie kilka sekund szkolenia. Model głosu można następnie wykorzystać np. w aplikacjach zamiany tekstu na mowę.

Microsoft dzięki VALL-E przyspieszy proces uczenia się AI?

Głos? Jest. Otoczenie? Jest!

Dodaj komentarz Anuluj pisanie odpowiedzi