IT tehnologije

aiOla lansira ultra-brzi ‘multi-head’ model za prepoznavanje govora, nadmašuje OpenAI Whisper

3. септембар 2024.

Izraelski AI startup aiOla predstavio je novi open-source model za prepoznavanje govora, Whisper-Medusa, koji je 50% brži od poznatog OpenAI Whispera.

50% povećanje brzine predviđanja govora bez smanjenja tačnosti

Whisper-Medusa koristi inovativnu arhitekturu “multi-head attention” koja omogućava predviđanje više tokena istovremeno, značajno povećavajući brzinu prepoznavanja govora. Kod i težine modela su dostupni na Hugging Face pod MIT licencom.

Prema Gillu Hetzu, VP istraživanja u aiOla, otvaranje modela kao open source podstiče inovacije i saradnju u zajednici, što može dovesti do dodatnih poboljšanja. Ova tehnologija može omogućiti složenim AI sistemima da razumeju i odgovaraju na korisničke upite gotovo u realnom vremenu.

Whisper-Medusa se razlikuje od drugih modela prepoznavanja govora po svojoj brzini i preciznosti. Napredno prepoznavanje govora ostaje ključno za mnoge sektore, uključujući zdravstvenu zaštitu i fintech, i omogućava multimodalne AI sisteme. OpenAI-ov Whisper model je postao standard zbog svoje sposobnosti da obrađuje složen govor s različitim jezicima i akcentima gotovo u realnom vremenu. Whisper beleži više od 5 miliona preuzimanja mesečno i pokreće desetine hiljada aplikacija.

aiOla je razvila Whisper-Medusa modifikovanjem arhitekture Whispera i dodavanjem multi-head attention mehanizma, što omogućava modelu da predviđa deset tokena pri svakom prolazu. Ova promena je rezultirala 50% povećanjem brzine predviđanja govora bez smanjenja tačnosti.

Whisper-Medusa je treniran korišćenjem pristupa slabog nadzora, gde su glavne komponente Whispera zamrznute, a transkripcije generisane modelom korišćene kao oznake za obuku dodatnih modula za predviđanje tokena. aiOla planira da proširi model sa 10 glava na 20 glava, što će dodatno ubrzati prepoznavanje i transkripciju bez gubitka tačnosti.

Hetz je naveo da je poboljšanje brzine i latencije LLM-ova lakše nego kod sistema za automatsko prepoznavanje govora, zbog složenosti obrade kontinuiranih audio signala i rukovanja šumom ili akcentima. Novi pristup multi-head pažnji omogućio je dvostruko bržu brzinu predviđanja, uz zadržavanje visoke tačnosti Whispera.

Whisper-Medusa je testiran na stvarnim slučajevima upotrebe enterprise podataka kako bi se osiguralo da tačno funkcioniše u realnim scenarijima. Hetz veruje da će poboljšanje brzine prepoznavanja i transkripcije omogućiti brže vreme obrade u govornim aplikacijama, omogućujući pružanje odgovora u realnom vremenu. Poboljšanje prepoznavanja govora može značajno povećati produktivnost, smanjiti operativne troškove i omogućiti bržu isporuku sadržaja.

Izvor: Venturebeat

Tagovi: openAI, OpenAI Whisper

aiOla lansira ultra-brzi ‘multi-head’ model za prepoznavanje govora, nadmašuje OpenAI Whisper

50% povećanje brzine predviđanja govora bez smanjenja tačnosti

LEAVE A REPLY

EDITOR PICKS

POPULAR POSTS

Izvršeni direktor tehnološke kompanije uhapšen zbog pronevere od 366 miliona dolara

Boeing beleži još jedan gubitak zbog problema sa Starlinerom

YouTube gasi pretplate onima koji koriste VPN da bi dobili jeftiniji...

POPULAR CATEGORY

50% povećanje brzine predviđanja govora bez smanjenja tačnosti

RELATED ARTICLESMORE FROM AUTHOR

Novi Spotify i UMG ugovor za „superfan“

Civilization VII: Neke promene su bolje od drugih

Pluton, Microsoft-ov bezbednosni procesor biće uskoro dostupan

LEAVE A REPLY

EDITOR PICKS

POPULAR POSTS

Izvršeni direktor tehnološke kompanije uhapšen zbog pronevere od 366 miliona dolara

Boeing beleži još jedan gubitak zbog problema sa Starlinerom

YouTube gasi pretplate onima koji koriste VPN da bi dobili jeftiniji...

POPULAR CATEGORY

RELATED ARTICLES MORE FROM AUTHOR