A differenza dei sistemi generativi per immagini e testo, Voicebox crea file in una vasta varietà di stili, e può creare clip audio da zero così come modificare un campione che gli viene dato. La qualità è alta. Il modello può sintetizzare il discorso in sei lingue, così come svolgere operazioni di rimozione del rumore, modifica del contenuto, conversione dello stile e generazione di campioni diversi.

Come funziona?

Voicebox è stato addestrato con oltre 50.000 ore di discorsi registrati e trascrizioni da audiolibri di dominio pubblico in inglese, francese, spagnolo, tedesco, polacco e portoghese. Voicebox è addestrato a prevedere un segmento di discorso quando gli viene fornito il discorso circostante e la trascrizione del segmento. Avendo imparato a riempire il discorso dal contesto, il modello può quindi applicare questo attraverso compiti di generazione del discorso, compresa la generazione di porzioni nel mezzo di una registrazione audio senza dover ricreare l’intero input.

Voicebox è basato su un metodo chiamato “Flow Matching” e come si legge dai loro test ha mostrato miglioramenti rispetto ai modelli di diffusione. Rispetto a VALL-E, Voicebox supera le prestazioni in termini di intelligibilità e somiglianza audio, ed è fino a 20 volte più veloce. Per il trasferimento di stile cross-linguistico, Voicebox supera YourTTS riducendo il tasso medio di errori di parola e migliorando la somiglianza audio.

Importante: al momento non stanno rendendo pubblico il modello o il codice sorgente di Voicebox. Sostengono che il rischio di un uso improprio (leggere fake news) potrebbe essere alto. Hanno però condiviso campioni audio e un documento di ricerca che spiega l’approccio e i risultati che hanno ottenuto.

A cosa serve? Immaginate assistenti che rispondono ai nostri comandi non solo con voce più naturale oppure i personaggi mossi dal computer dei videogiochi che a volte sono doppiati e potrebbero con l’Ai diventare agenti autonomi di conversazione.

Il doppiaggio dei videogiochi.

Nel campo del doppiaggio da segnalare Replica Studios, una piattaforma che si propone sul mercato per riprodurre voci sintetiche realistiche. Il suo target esplicito è l’industria dei videogiochi e infatti hanno realizzato un plugin per il motore grafico Unity. Qualche settimana fa, al Computex 2023 di Taipei, NVIDIA ha presentato ACE for Games che più o meno fa la stessa cosa come si vede nel video. Anzi, fa qualcosa di più.