Svi koji prate razvoj veštačke inteligencije već su upoznati sa generativnim modelima koji mogu sintetisati govor ili melodijsku muziku na osnovu tekstualnih komandi.
Kako zvuči “vrišteći saksofon”? Model Fugatto ima odgovor…
Nedavno predstavljeni model Fugatto ide korak dalje, koristeći nove metode sintetičkog treniranja i tehnike kombinovanja na nivou inferencije kako bi „transformisao bilo koji miks muzike, glasova i zvukova“, uključujući stvaranje zvukova koji nikada ranije nisu postojali. Iako Fugatto još nije dostupan za javno testiranje, zvanična veb stranica sa uzorcima pokazuje kako model može podešavati razne audio osobine i opise, stvarajući zvukove poput “lajućih saksofona”, govora pod vodom ili sirena hitne pomoći koje pevaju u horu. Iako rezultati ponekad mogu biti neujednačeni, širok spektar mogućnosti ovog modela opravdava Nvidia-in opis Fugatto-a kao “švajcarskog noža za zvukove”.
Podaci su ključni
U istraživačkom radu, više od deset Nvidia-inih istraživača objašnjava poteškoće u kreiranju skupa podataka za treniranje koji može „otkriti značajne veze između zvuka i jezika“. Dok standardni jezički modeli često mogu zaključivati kako da obrade razna uputstva iz tekstualnih podataka, generalizacija opisa i osobina zvuka je mnogo teža bez eksplicitnijih smernica. Zbog toga istraživači koriste jezički model (LLM) za generisanje Python skripti koje kreiraju veliki broj šablonskih i slobodnih uputstava koje opisuju različite “audio persone” (npr. „standardno, mlada publika, tridesetogodišnjaci, profesionalno“). Ova uputstva uključuju apsolutne naredbe (npr. „sintetizuj srećan glas“) i relativne naredbe (npr. „povećaj nivo sreće ovog glasa“).
Otvoreni skupovi podataka o zvuku koji su korišćeni kao osnova za Fugatto generalno ne sadrže ugrađene ovakve karakteristike. Istraživači su koristili postojeće modele za razumevanje zvuka kako bi kreirali „sintetičke opise“ za klipove u treningu, kvantifikujući osobine poput pola, emocija i kvaliteta govora. Alati za obradu zvuka su takođe korišćeni za opisivanje akustičnih karakteristika klipova (npr. „varijacija osnovne frekvencije“ ili „odjek“).
Za relacione komparacije, istraživači su koristili skupove podataka u kojima je jedan faktor konstantan dok se drugi menja, kao što su različite emotivne interpretacije istog teksta ili različiti instrumenti koji sviraju iste note. Ova poređenja omogućila su modelu da nauči kako zvučne osobine odgovaraju određenim emocijama ili razlikama između, recimo, saksofona i flaute. Posle obrade raznih otvorenih audio kolekcija, kreiran je obiman skup podataka sa 20 miliona uzoraka koji obuhvataju najmanje 50.000 sati zvuka. Korišćenjem 32 Nvidia tenzorske jedinice, razvijen je model sa 2,5 milijarde parametara, koji je pokazao pouzdane rezultate na testovima kvaliteta zvuka.
Sve je u miksu
Pored treniranja, Nvidia ističe sistem ComposableART (Audio Representation Transformation). Kada dobije tekstualni i/ili audio prompt, ovaj sistem koristi „uslovno vođenje“ za nezavisno kontrolisanje i generisanje kombinacija instrukcija i zadataka, stvarajući „prilagodljive audio izlaze van osnovne distribucije podataka“.
Ovaj pristup omogućava modelu da kombinuje osobine iz trening skupa kako bi kreirao potpuno nove zvukove. Na primer, ComposableART može kreirati zvuk violine koja „zvuči kao beba koja se smeje“, bendžoa koji svira na kiši ili fabričke mašinerije koja „vrišti metalnim bolom“. Možda najzanimljiviji aspekt Fugatto-a je tretiranje svake audio osobine kao kontinuuma koji se može podešavati, a ne binarne vrednosti. Na primer, kombinovanjem zvuka akustične gitare i tekuće vode, rezultat se menja u zavisnosti od toga koja osobina dobija veći prioritet.
Pored kombinovanja osobina, Fugatto može izvršavati i druge zadatke, poput menjanja emocija u govoru, izolovanja vokalnih traka u muzici, ili dodavanja ritmičnih efekata (poput laveža pasa ili otkucaja satova) u skladu sa muzikom.
Šta donosi budućnost
Istraživači smatraju Fugatto prvim korakom „ka budućnosti u kojoj će nesupervizirano učenje više zadataka proizaći iz skale podataka i modela“. Nvidia već ističe potencijalne primene, od komponovanja muzike, dinamičkog menjanja muzičkih podloga u video igrama, do prilagođavanja reklama za različite jezike i kulture.
Ipak, Nvidia naglašava da modeli poput Fugatto-a nisu zamena za kreativne talente umetnika, već novi alat u njihovom arsenalu.
„Istorija muzike je ujedno i istorija tehnologije,“ rekao je Ido Zmišljani, producent i učesnik Nvidia Inception programa. „Električna gitara je svetu donela rok i rol. Kada se pojavio sempler, rođen je hip-hop. Uz veštačku inteligenciju, pišemo novo poglavlje muzike. Ovo je novi instrument, novi alat za stvaranje muzike – i to je neverovatno uzbudljivo.“
Izvor: Arstechnica