Le ultime novità "audio" dell'Ai generativa #DatavizAndTools

Dopo le immagini e il testo c’è la voce. In realtà non siamo di fronte a una successione logica. Tutto quello che può essere digitalizzato e misurato diventa oggetto dell’intelligenza artificiale generativa. Avevamo già parlato di Vall-E ora ci occupiamo di alcune novità. Nei giorni scorsi Zuckerberg ha presentato Voicebox è una IA generativa per il parlato che, oltre a generare clip audio da un semplice testo, può svolgere diverse funzioni relative all’editing e al campionamento. Detto altrimenti non si limita a generare un file audio o un “vocale” da un testo scritto ma agisce sulla voce.

A differenza dei sistemi generativi per immagini e testo, Voicebox crea file in una vasta varietà di stili, e può creare clip audio da zero così come modificare un campione che gli viene dato. La qualità è alta. Il modello può sintetizzare il discorso in sei lingue, così come svolgere operazioni di rimozione del rumore, modifica del contenuto, conversione dello stile e generazione di campioni diversi.

Come funziona?

Voicebox è stato addestrato con oltre 50.000 ore di discorsi registrati e trascrizioni da audiolibri di dominio pubblico in inglese, francese, spagnolo, tedesco, polacco e portoghese. Voicebox è addestrato a prevedere un segmento di discorso quando gli viene fornito il discorso circostante e la trascrizione del segmento. Avendo imparato a riempire il discorso dal contesto, il modello può quindi applicare questo attraverso compiti di generazione del discorso, compresa la generazione di porzioni nel mezzo di una registrazione audio senza dover ricreare l’intero input.

Voicebox è basato su un metodo chiamato “Flow Matching” e come si legge dai loro test ha mostrato miglioramenti rispetto ai modelli di diffusione. Rispetto a VALL-E, Voicebox supera le prestazioni in termini di intelligibilità e somiglianza audio, ed è fino a 20 volte più veloce. Per il trasferimento di stile cross-linguistico, Voicebox supera YourTTS riducendo il tasso medio di errori di parola e migliorando la somiglianza audio.

Importante: al momento non stanno rendendo pubblico il modello o il codice sorgente di Voicebox. Sostengono che il rischio di un uso improprio (leggere fake news) potrebbe essere alto. Hanno però condiviso campioni audio e un documento di ricerca che spiega l’approccio e i risultati che hanno ottenuto.

A cosa serve? Immaginate assistenti che rispondono ai nostri comandi non solo con voce più naturale oppure i personaggi mossi dal computer dei videogiochi che a volte sono doppiati e potrebbero con l’Ai diventare agenti autonomi di conversazione.

Il doppiaggio dei videogiochi.

Nel campo del doppiaggio da segnalare Replica Studios, una piattaforma che si propone sul mercato per riprodurre voci sintetiche realistiche. Il suo target esplicito è l’industria dei videogiochi e infatti hanno realizzato un plugin per il motore grafico Unity. Qualche settimana fa, al Computex 2023 di Taipei, NVIDIA ha presentato ACE for Games che più o meno fa la stessa cosa come si vede nel video. Anzi, fa qualcosa di più.

La tecnologia consente agli NPC di avere conversazioni dinamiche e non predefinite con i giocatori, complete di personalità persistenti che possono evolversi nel tempo, oltre a animazioni facciali e espressioni accurate.

Come funziona? Nel caso di Nvidia attraverso interazioni di linguaggio naturale alimentate da intelligenza artificiale. Ace for Games utilizza diversi modelli di intelligenza artificiale. Ad esempio, utilizza NVIDIA NeMo per costruire e distribuire modelli di linguaggio, permettendo agli sviluppatori di personalizzare le storie e le personalità dei personaggi. NVIDIA Riva viene utilizzato per la riconoscimento automatico della voce e le funzionalità di testo in voce, permettendo conversazioni in tempo reale. Inoltre, ACE utilizza NVIDIA Omniverse Audio2Face per creare animazioni facciali espressive che corrispondono al dialogo generato dall’intelligenza artificiale, assicurando che le espressioni del NPC si allineino con il tono e il contenuto della conversazione.

Importante: i personaggi sviluppati tramite Nvidia Ace hanno personalità e background, proprio come gli NPC nei giochi tradizionali. All’intelligenza artificiale viene dato un profilo del personaggio, e genera il dialogo in tempo reale basandosi su quel profilo. Questo permette conversazioni molto più dinamiche e organiche rispetto a quelle predefinite che normalmente permettono gli alberi di dialogo. La tecnologia è stata inizialmente utilizzata per creare avatar interattivi per compiti come prendere ordini al ristorante o rispondere a domande su un ordine di shopping, ed è stata successivamente adattata per i personaggi dei videogiochi

Il doppiaggio nei film.

L’altro fronte aperto è quello del doppiaggio.

E’ di pochi giorni fa la pubblicazione di Aloud.Come si legge nell’articolo della rivista The Verge, usando Aloud, i creatori possono rapidamente e facilmente doppiare i loro video in più lingue. Per ora le lingue sono poche ma nel 2024 i ricercatori promette di aumentare le lingue, migliorare l’espressività e la sincronizzazio0ne del parlato con il movimento delle labbra.

Come funziona?

Per doppiare con Aloud, tutto ciò che serve è fornire il video e i sottotitoli nella lingua originale. Se i sottotitoli non sono disponibili, è anche possibile rivedere rapidamente la trascrizione del testo che genera. Il sistema quindi parte da una prima trascrizione del video, che si può modificare e correggere. Aloud si occupa quindi di effettuare la traduzione in altre lingue e doppia il video, che a quel punto può essere pubblicato separatamente.

Per approfondire.

Come riconoscere immagini e testi generati dall’AI?

La matematica della ricchezza, la disuguaglianza inevitabile e l’econofisica

Wikipedia, l’intelligenza collettiva e gli affari #datavizandtool

Da Harry Potter mafioso agli ultimi videogiochi ripensati a 8 bit. L’Ai generativa continua a divertire #datavizandtools

Come si costruisce una mappa di Milano con ChatGpt? #datavizandtools

Come funziona MusicGen, il ChatGpt della musica di Meta #DatavizandTools

Bing, come funziona il copilota di Microsoft per il web? #DatavizAndTools