Quante volte ci capita di riconoscere una persona alle vostre spalle solo dalla sua voce? Molto spesso. Per noi umani l’associazione fra la voce e la persona che parla è semplice, ed è una delle capacità che sviluppiamo per prime. Riconoscere qualcuno solo mettendosi “in ascolto”, invece, è la cosa più difficile che si possa chiedere a un PC.

Però bisogna trovare il modo di insegnarglielo, prima di tutto per una questione di sicurezza. Per esempio, il nostro assistente vocale dovrebbe rispondere solo ai nostri comandi, non a quelli di chiunque. Amazon Echo non riconosce il tono di voce del proprietario: se entrate in casa mia e dite “Alexa, visualizza credito Vodafone” lei vi risponde! Google Now si sblocca solo con la voce del proprietario, ma è da migliorare. Per esempio, sarebbe gradito se l’assistente vocale capisse quando le domande provengono da un adulto o da un bambino, e nel secondo caso omettesse determinati risultati. Le esigenze legate al riconoscimento vocale sono tante, anche in ambito medico e professionale, per questo la divisione di Google per la ricerca sull’intelligenza artificiale ci sta lavorando da tempo.

Siamo ancora lontani dal passo avanti decisivo, ma Google ha compiuto progressi notevoli. Per la precisione, i risultati di cui vi parliamo oggi riguardano la “diarizzazione“. Semplificando possiamo definirla come il processo di annotazione di un input audio da parte di un computer, che associa a un certo segnale audio l’identità di chi l’ha emesso.

I ricercatori hanno dato in pasto al computer tracce audio registrate da più persone, che recitano gli stessi testi. Il punto di partenza è stato insegnare all’intelligenza artificiale ad associare gli individui ai relativi segmenti vocali (tracce audio). Un lavoro di machine learning (di apprendimento) che ha permesso al sistema di riconoscere in tempo reale diversi interventi appartenenti a diverse “etichette”. In parole povere, il computer ha imparato a capire che le frasi A e C sono state pronunciate da Tizio, quelle B e D da Caio, eccetera.

L’Intelligenza artificiale è stata capace di distinguere tra varie voci con una precisione del 92%. Oltre tutto la ricerca non è segreta, anzi: gli algoritmi di base sono disponibili pubblicamente sul sito GitHub, affinché sviluppatori di terze parti ne possano fare buon uso. Il prossimo passo della ricerca sarà quello di rifinire ulteriormente la tecnologia e consentire la decodifica offline.

Il futuro insomma sembra sulla punta della lingua. Pensate al giorno in cui potrete spiegare all’assistente vocale che deve ignorare le richieste del gatto!

Articolo Precedente

Surface Go con connettività LTE disponibile da oggi, prezzi da 749 euro

next
Articolo Successivo

Asus ROG Phone è il super smartphone da gioco, vi raccontiamo la nostra esperienza

next