La IA reconstruye rostros a través de la voz.

Speech2Face es una herramienta creada por el laboratorio de Ciencias Informáticas e Inteligencia Artificial del MIT (MIT CSAIL) cuya función es determinar la edad, el género y la etnia de una persona mediante el habla.

La intención de sus creadores no es la reconstrucción perfecta de un rostro sino la asociación de características físicas con la voz. El objetivo es saber hasta qué punto es posible saber cómo es físicamente una persona a partir de su voz.

Speech2Face consiste en una red neuronal de aprendizaje entrenada mediante una base de datos abierta AVSpeech. Ésta la componen más de 100.000 fragmentos de voz de seis segundos. Además de esa base de datos, han hecho uso de VoxCeleb, la cual contiene millones de vídeos, de unas 7.000 personas famosas, publicados en Internet.

La imagen final es una persona de frente con un gesto neutro. El modelo de estudio va aprendiendo de la base de datos correlaciónales de audio y sonido entre las personas y sus caras. Se centra en edad, género y etnia pero también en otros factores como las medidas y proporciones craneofaciales. Todo este trabajo va supervisado.

Resultados:

Se ha alcanzado un 94% de precisión en la determinación del género.
Resultados buenos en etnias blancas y asiáticas pero no tanto en la negra o india (puede deberse a su menor presencia en las bases de datos).
Los mejores resultados de los atributos craneofaciales se han encontrado en la nariz y en la boca, llegando así a la conclusión de que la estructura de la nariz determina el habla.

Si quieres obtener más información sobre este proyecto echa un vistazo a la Conferencia IEEE sobre visión artificial y reconocimiento de patrones (CVPR) 2019.

Boletín de noticias

Registrate aquí para recibir en tu email las últimas novedades.

Cookie	Duración	Descripción
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

DAM

DAW

ASIR

DevNet Associate

Fundamentos de programación en Python

Fundamentos de JavaScript

Fundamentos de Io T: Big Data & Analisis

Fundamentos de IoT: conectando cosas

Introducción al IoT

CCNA Cybersecurity Operations

Cybersecurity Essentials

Introduction to Cybersecurity

La IA reconstruye rostros a través de la voz.

Certificaciones Profesionales

Ciclos formativos

Certificaciones TICs