Badacze Microsoftu ogłosili nową aplikację, która wykorzystuje sztuczną inteligencję do naśladowania głosu osoby. Co ciekawe, wystarczy jej zaledwie kilka sekund szkolenia. Model głosu można następnie wykorzystać np. w aplikacjach zamiany tekstu na mowę.

Aplikacja o nazwie VALL-E – bo o niej mowa – może być używana do syntezy wysokiej jakości spersonalizowanej mowy. Wystarczy jej zaledwie trzysekundowe nagranie mówcy jako zachęta akustyczna. Tak wynika z wniosków, jakie naukowcy umieścili właśnie w sieci.

Microsoft dzięki VALL-E przyspieszy proces uczenia się AI?

Rzecz jasna, już teraz można spotkać programy, które potrafią wycinać i wklejać mowę do strumienia audio, a mowa ta jest konwertowana na głos mówcy z wpisanego tekstu. Niestety, obecne narzędzia muszą zostać przeszkolone w zakresie naśladowania głosu osoby, co może zająć godzinę lub dłużej. Tymczasem tworzone przez Microsoft rozwiązanie może okazać się ekspresowym narzędziem, które zrewolucjonizuje rynek.

„Jedną z wyróżniających się cech tego modelu jest to, że robi to w ciągu kilku sekund. To imponujące”. Słowa te padły w rozmowie z TechNewsWorld z ust Rossa Rubina, głównego analityka w Reticle Research, firmie doradczej ds. technologii konsumenckich w Nowym Jorku. Według naukowców VALL-E znacznie przewyższa istniejące najnowocześniejsze systemy zamiany tekstu na mowę (TTS) zarówno pod względem naturalności mowy, jak i podobieństwa mówców.

Nowa sztuczna inteligencja Microsoftu, VALL-E, może symulować dowolny głos z 3-sekundowej próbki

Głos? Jest. Otoczenie? Jest!

Co więcej, VALL-E może zachować emocje i środowisko akustyczne mówcy. Załóżmy, że przykładowo nagraliśmy przez telefon próbkę mowy. Tekst, w którym użyto tego głosu, brzmiałby zatem właśnie tak, jakby był czytany przez telefon. Tym samym możliwości, jakie niesie ze sobą VALL-E to zauważalna poprawa w stosunku do poprzednich najnowocześniejszych systemów. Choćby takiego YourTTS, wydanego na początku 2022 r. Tak przynajmniej twierdzi Giacomo Miceli, informatyk, zajmujący się sztuczną inteligencją.

„Interesujące w VALL-E jest nie tylko to, że potrzebuje tylko trzech sekund dźwięku, aby sklonować głos. Ciekawe jest także to, jak bardzo może dopasować ten głos, emocjonalną barwę i wszelkie szumy tła” – przyznaje. Z kolei Ritu Jyoti, wiceprezes grupy ds. sztucznej inteligencji i automatyzacji w IDC, globalnej firmie zajmującej się badaniem rynku, nazwał VALL-E narzędziem „znaczącym i imponującym”.

Zobacz także: Nowojorskie szkoły blokują uczniom dostęp do ChatGPT

Na chwilę obecną, w odróżnieniu od OpenAI i ich modelu ChatGPT, Microsoft nie otworzył się z VALL-E na szerszą publiczność. Pytanie, czy w ogóle kiedykolwiek doczekamy tej chwili. Kreowanie z pomocą sztucznej inteligencji wypowiedzi na podstawie próbek głosu mogłoby bowiem prowadzić do poważnych nadużyć.

Źródło: TechNewsWorld

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *