Principal Innovar La nova intel·ligència artificial de veu de Google és tan bona que apostem que no ho podreu saber des d’un ésser humà real

La nova intel·ligència artificial de veu de Google és tan bona que apostem que no ho podreu saber des d’un ésser humà real

El Vostre Horòscop Per Demà

Es pot diferenciar entre la parla informàtica generada per IA i un ésser humà real i viu? Potser sempre has pensat que podries. Potser us agraden Alexa i Siri, però creieu que mai no els confondríeu amb una dona real.

Les coses estan a punt de ser molt més interessants. Els enginyers de Google han estat treballant dur creant un sistema de parla a veu anomenat Tacotron 2 . Segons un paper publicat aquest mes, el sistema crea primer un espectrograma del text, una representació visual de com ha de sonar el discurs. Aquesta imatge es fa a través de l'algoritme WaveNet de Google, que utilitza la imatge per produir un so humà molt natural.

juan pablo di pace personal life

Mitjançant aquest mètode, els investigadors informen: 'El nostre model aconsegueix una puntuació d'opinió mitjana (MOS) de 4,53 comparable a un MOS de 4,58 per a la parla enregistrada professionalment'. (Un puntatge d'opinió mitjà és un terme de telecomunicacions que mesura el so d'una cosa real).

Com demostren les mostres d'àudio de Google, Tacotron 2 pot detectar a partir del context la diferència entre el substantiu 'desert' i el verb 'desert', així com el substantiu 'present' i el verb 'presentar', i alterar la seva pronunciació en conseqüència. Pot posar èmfasi en paraules en majúscula i aplicar la flexió adequada quan es fa una pregunta en lloc de fer una afirmació.

I pot generar text que soni tan semblant a la parla humana que sigui difícil o impossible conèixer la diferència. Si voleu veure el difícil que és, aneu a Google pàgina de mostres d'àudio i desplaceu-vos cap avall fins a l'últim conjunt de mostres, titulat 'Tacotron 2 or Human?' Allà trobareu Tacotron 2 i una persona real que diuen frases com ara: 'Aquella noia va fer un vídeo sobre el llapis de llavis Star Wars'.

ALERTA DE SPOILER: per provar-vos, escolteu les mostres i endevineu quin és abans de llegir la resta d'aquesta columna.

Llavors, quines mostres són text-to-speech i quines són una veu humana real? Els enginyers de Google no ho diuen, però han deixat una pista molt gran. Cadascun dels exemples de fitxers .wav té un nom de fitxer que conté el terme 'gen' o 'gt'. Segons el document, és molt probable que 'gen' indiqui la parla generada per Tacotron 2, i 'gt' sigui una parla humana real. ('GT' probablement significa 'veritat fonamental', un terme d'aprenentatge automàtic que bàsicament significa 'el veritable negoci').

Suposant que això és correcte, aquí teniu les respostes a la prova:

està casada amb Jane Velez Mitchell

'Aquella noia va fer un vídeo sobre el pintallavis de Star Wars'.

Mostra 1: Humà real

Mostra 2: Tacotron 2

'Es va doctorar en sociologia a la Universitat de Columbia'.

Mostra 1: Tacotron 2

Mostra 2: Humà real

'George Washington va ser el primer president dels Estats Units'.

Mostra 1: Tacotron 2

Mostra 2: Humà real

quina alçada té Gary Owen

'Estic massa ocupat per al romanticisme'.

Mostra 1: Humà real

Mostra 2: Tacotron 2

Quants n’heu encertat? I, de debò, podríeu diferenciar o només haureu d’endevinar?