Con la popolarità di così tante piattaforme di streaming, i contenuti stanno diventando piuttosto diversi e diversi. Sempre più persone guardano programmi in lingua straniera come "Money Heist" e "Dark" in quanto sono buoni spettacoli e sono disponibili in tutto il mondo. Tuttavia, ad alcuni di noi piace guardare i nostri programmi in una lingua che comprendiamo. A volte i sottotitoli non sono sufficienti. Detto questo, il doppiaggio di spettacoli stranieri in un'altra lingua può diventare dispendioso in termini di tempo e costoso per le società di produzione. Questo è il motivo principale per cui molti spettacoli non vengono doppiati in lingue straniere. Ebbene, i ricercatori di Amazon potrebbero avere una soluzione a questo problema.
In un documento pubblicato sul server di pre-stampa Arxiv.org, i ricercatori di Amazon hanno teorizzato e testato una nuova tecnologia di "sintesi vocale". Utilizza AI per convertire il discorso originale in un discorso tradotto e perfezionare il discorso tradotto per farlo sembrare più umano. Questo è solo un primo passo verso lo sviluppo di un modo più semplice e molto più economico di doppiaggio di spettacoli e film.
Come funziona
Questa tecnologia di "sintesi vocale" è molto più complicata di quanto sembri. Tradurre un discorso originale in un discorso straniero usando i computer è un compito frenetico. Non si tratta di tradurre una lingua in un'altra solo dalla risorsa audio, ma sono coinvolti diversi passaggi.
Il processo di doppiaggio automatizzato include essenzialmente 3 passaggi. Innanzitutto, il discorso originale deve essere convertito in un formato di testo. La seconda fase prevede la traduzione del testo nella lingua desiderata. Infine, il testo tradotto genera il nuovo discorso.
Ora, ci sono complicazioni nello sviluppo del nuovo discorso dalla sintesi vocale tradotta. Il discorso tradotto dovrebbe corrispondere alla velocità e all'emozione del discorso originale. Dovrebbe anche trasportare i suoni di sottofondo ed eliminare il riverbero.
Per far funzionare questo complicato processo, i ricercatori di Amazon lo hanno confermato la loro tecnologia di sintesi vocale è stata addestrata su oltre 150 milioni di coppie inglese-italiano di frase per determinare la velocità di un segmento di discorso del discorso tradotto in modo che corrisponda alla velocità del discorso originale. Questo passaggio garantisce che le pause e le interruzioni nel discorso tradotto corrispondano al discorso originale.
Un modello nella fase di sintesi vocale è stato addestrato su 47 ore di registrazioni vocali. Questo modello genera una sequenza di contesto dal testo che viene inserito in un vocoder pre-addestrato, che converte la sequenza in una forma d'onda vocale.
Questa tecnologia è anche in grado di estrarre suoni di sottofondo dall'audio originale e inserirli nell'audio tradotto per renderlo più simile all'audio originale. Infine, viene applicato un passaggio separato chiamato passaggio di riverbero per aggiungere il riverbero dell'audio originale a quello tradotto.
Sarà utile?
Il processo è sicuramente complicato, ma i ricercatori hanno scritto che il loro lavoro futuro sarà dedicato al miglioramento del doppiaggio automatico. Può eliminare la necessità per i doppiatori di doppiare uno spettacolo o un film in un'altra lingua. Diventerà meno dispendioso in termini di tempo e molto più economico duplicare i contenuti nella lingua desiderata. E sì, sarà un vantaggio per le case di produzione offrire più spettacoli e film agli spettatori rendendo l'elenco molto più diversificato.