Questo articolo è stato pubblicato da questo sito
Il sistema di Intelligenza Artificiale è stato allenato con programmi di informazione. (Foto: Newsroom, di Aaron Sorkin / HBO)
La divisione dedicata all’Intelligenza Artificiale di Google e i ricercatori dell’Università di Oxford, ha elaborato un sistema capace di leggere il labiale senza dover ricorrere al “metodo Aldo” (di Aldo, Giovanni e Giacomo), cioè di uno che ti indica le labbra scandendo le parole con estrema lentezza, per giunta urlando (“S-i-a-m-o q-u-a-s-i a-r-r-i-v-a-a-a-t-i!”).
Usando migliaia di ore di filmati della BBC, gli scienziati hanno allenato una rete neurale capace di offrire un risultato con una percentuale di precisione del 46,8%. Non sarà il 100%, ma basti pensare che un lettore professionista, sulla base degli stessi filmati, è stato capace di capire le parole esatte solo il 12,4% delle volte.
Una serie di ricercatori di Oxford, all’inizio del mese, hanno pubblicato una lavoro simile. Con tecniche del tutto assimilabili, hanno creato un sistema chiamato LipNet, capace di raggiungere una percentuale del 93.4% nei test. I due esperimenti però partono da basi diverse: LipNet ha lavorato grazie a frasi pronunciate da volontari.
Il software di DeepMind, invece, conosciuto come “Watch, Listen, Attend and Spell” ha usato filmati naturali, ripresi da trasmissioni televisive.
Il materiale – più di 5000 ore di trasmissione tra Newsnight, Question Time, e World Today – includeva una varietà di linguaggio molto più ricca rispetto a quello di Oxford.
Le applicazioni di questo genere di sistemi possono essere molteplici, dall’aiuto nella comprensione delle conversazioni per persone con problemi di udito, alla sorveglianza, fino al controllo di assistenti vocali, se abbinati a una fotocamera.
Leggi anche
Vuoi ricevere aggiornamenti su questo argomento?