Tecnología

Estas máquinas pueden leer los labios mejor que las personas expertas

En una de las más inquietantes escenas de 2001: una odisea del espacio (Stanley Kubrick, 1968), los dos astronautas que viajan hacia Júpiter se encierran en una cápsula y desconectan los micrófonos para evitar ser oídos por H.A.L. 9000, la inteligente computadora que controla la nave. Sospechan de su mal funcionamiento y dudan sobre si desconectarlo; la decisión es crítica para misión. H.A.L. ciertamente no puede oírlos, pero el director de la película nos da a entender en un excelente plano lo que está sucediendo: al fondo de la imagen, la cámara de H.A.L. está leyendo el movimiento de los labios de ambos durante la conversación y enterándose perfectamente de lo que traman contra él. El resto es historia del cine.

Como a veces sucede, algo era propio de la ciencia-ficción hace unos pocos años empieza a estar a nuestro alcance hoy en día. Aunque la lectura de labios es una técnica realmente complicada incluso para los más experimentados, la inteligencia artificial de los ordenadores puede realizarla de forma efectiva y, según se ha publicado recientemente, supera en precisión a los humanos. El dato procede de un trabajo de investigadores de la Universidad de Oxford y se refiere a un sistema llamado LipNet [PDF] que emplea un modelo capaz de leer frases completas, es independiente de la persona que habla y emplea redes neuronales y aprendizaje automático (machine learning).
Una tarea lleno de dificultades tecnológicas

Parte del problema para realizar esta tarea es que muchos de los movimientos de los labios (o “fonemas visuales”, llamados visemas, de los que hay unos 14) son prácticamente indistinguibles, incluso para los expertos; esos visemas están relacionados con unos 50 fonemas o sonidos individuales. Una de las formas de mejorar la precisión en esa interpretación es utilizar el contexto para dar prioridad a palabras que encajan mejor con dichos visemas según el tema que se esté tratando. Algo en lo que los ordenadores son muy capaces. El resultado es que LipNet puede interpretar correctamente un 93,4 por ciento de las palabras mientras que en la misma tarea un experto humano alcanza solo el 79,6 por ciento. Sus creadores dicen que LipNet llega a interpretar correctamente un 78% de «palabras sueltas» más que una persona sorda que esté acostumbrada a realizar esa misma lectura de labios.

Mostrar más

Publicaciones relacionadas

Botón volver arriba