Deep fake: ya no creas lo que ves > Los riesgos de los contenidos digitales falsos

La frase “ver para creer” ya no aplica en nuestra era. En internet no es posible fiarnos de los contenidos que leemos, oímos y vemos sin corroborar su autenticidad buscando al menos una segunda fuente. Las noticias falsas (fake news) se cuelan en redes sociales a todas horas y en todos los perfiles, en algunos casos con mayor visibilidad que las noticias legítimas.

Si pensábamos que esto era lo peor del ecosistema digital, una nueva amenaza toca la puerta, se conoce como deep fake, un concepto del cual carecemos de traducción al español porque aún no comprendemos del todo sus implicaciones.
En términos generales deep fake es la puesta en operación de técnicas avanzadas de programación computacional como la inteligencia artificial (IA) y el deep learning o machine learning (aprendizaje automático) para crear videos hiperrealistas, en los que se superponen rostros de unas personas por otras, o se presenta a personajes hablando en contextos que nunca ocurrieron en la realidad. Esto no es del todo nuevo. En el cine y la televisión existen ejemplos de estas técnicas audiovisuales. El actor Paul Walker, quien falleció en 2013, volvió a la vida en 2015 al aparecer en la película Rápido y Furioso 7, gracias al empleo de efectos visuales digitales.
La innovación del deep fake radica en que para producir este tipo de videos se utilizan algoritmos: dos para ser precisos. Uno se encarga de aprender los patrones del rostro y crear las imágenes lo más reales posibles y el segundo debe detectar el contenido falso. Ambos algoritmos se retroalimentan con el fin de mejorar la calidad. Los resultados son videos que a simple vista resultan difíciles de identificar como falsos.
Para mostrar esta técnica, la Universidad de Washington realizó un deep fake del presidente Barack Obama. Tomaron su voz de otros videos reales para entrenar a los algoritmos en el movimiento de sus labios de forma artificial y crear un video falso. La tecnología empleada en el deep fake aún no ha logrado emular las microexpresiones del rostro, como el parpadeo, pero podría ser posible en cualquier momento, haciendo aún más difícil su detección.

En la medida en que las herramientas tecnológicas para desarrollar deep fakes avanzan y se perfeccionan, también aumentan las preocupaciones de que estos programas estén al alcance de más personas, incluso sin conocimiento en programación.
El riesgo de que el deep fake sea empleado con fines criminales es latente. Podría dañar la reputación de una persona. Con fines políticos, se usaría para manipular a la opinión pública durante elecciones (como ha ocurrido con las noticias falsas). Personas o gobernantes expuestos en videos legítimos cometiendo crímenes podrían alegar que los materiales son falsos. Se requerirá la verificación constante de los contenidos digitales mediante análisis forense. El Departamento de Defensa de Estados Unidos ya cuenta con programas computacionales de inteligencia artificial para detectar materiales apócrifos. En algunos medios de comunicación como The Wall Street Journal se han tomado la amenaza en serio. Se capacita a periodistas en técnicas se inteligencia artificial para que analicen la autenticidad de los videos.
Corremos el riesgo de caer en la paranoia de poner en duda todo lo que vemos porque la inteligencia artificial es capaz de crear de forma autónoma contenidos digitales falsos de todo tipo, texto, audio, imagen y por supuesto video.
¿Cómo inició el deep fake y hacia dónde se dirige esta tendencia? ¿Cuáles son los riesgos y cómo podemos prevenir el consumo de contenidos falsos?

El padre del Frankenstein moderno

Si es que usted no forma parte de la comunidad de la inteligencia artificial quizá nunca haya escuchado hablar de Ian Goodfellow. Es considerado el padre de la red GAN, siglas de Generative Adversarial Network o Red Generativa Antagónica en español, la tecnología que hace posible que las máquinas tengan imaginación propia y generen contenidos de forma autónoma.
La GAN ha revolucionado el campo de la inteligencia artificial y es tan poderosa que puede salirse del control de los investigadores.

Goodfellow creó su propia criatura, como el personaje Victor Henry Frankenstein, el científico que dio vida a Frankenstein en la novela de Mary Shelley, sólo que en lugar de un laboratorio, todo se gestó en un bar.
En 2014, en una charla al calor de las cervezas en Montreal, Canadá, Goodfellow compartía con su colegas, estudiantes de doctorado, quienes le pidieron su ayuda para un proyecto que consistía en crear una computadora que por sí misma generara fotografías utilizando algoritmos basados en redes neuronales. Hasta entonces los resultados que habían obtenido eran pobres. La computadora creaba fotos de mala calidad y en algunos casos los rostros no tenían orejas. Goodfellow propuso poner a competir dos redes neuronales para generar las imágenes. Sus compañeros eran escépticos de que esta técnica funcionaría. Tras terminar la velada, Goodfellow regresó a casa y se puso a trabajar en su idea. Resultó. La computadora podía crear imágenes de buena calidad de forma autónoma. Había dotado a las máquinas de imaginación artificial.
Entre el círculo de la inteligencia artificial, la GAN fue vista como el santo grial. Sentaba las bases para que las máquinas aprendieran de forma autónoma, como si tuvieran conciencia propia, la característica que nos hace humanos.
Ian Goodfellow se convirtió en una superestrella. Actualmente trabaja como investigador en el proyecto Google Brain dedicado al desarrollo de IA y deep learning.

¿Cómo funciona la Red GAN?

Como expone Martin Giles en la revista del MIT Technology Review del Instituto Tecnológico de Massachusetts, la magia de la Red GAN reside en que se ponen competir dos redes neuronales. Es como el juego del gato y el ratón.
Una red neuronal, la que crea los contenidos falsos, trata de engañar a la otra, encargada de identificarlos. Ambas redes están entrenadas con el mismo conjunto de datos. La primera red es conocida como el generador; se encarga de producir salidas artificiales, es decir, fotos falsas pero con la misión de que deben ser lo más realistas posibles. La segunda red, conocida como el algoritmo discriminador, compara las fotos del algoritmo generador con imágenes genuinas del conjunto de datos originales, con el fin de tratar de determinar cuáles son reales y cuáles son falsas. Sobre la base de esos resultados, el generador ajusta sus parámetros para crear nuevas imágenes y perfeccionar la falsificación. El proceso continúa hasta que el discriminador ya no puede detectar qué es genuino y qué es falso porque el generador ha logrado crear imágenes perfectas, similares a las originales. De este modo, se puede engañar a los humanos para crear contenidos que pasan por reales.
La tecnología se puso en manos de la comunidad para fines de investigación y perfeccionamiento del entrenamiento de las redes neuronales, pero los usos y aplicaciones de la Red GAN tendrían un derrotero inesperado.

De la inteligencia artificial al porno

En diciembre de 2017, un usuario anónimo identificado con el nombre deep fake difundió un video pornográfico en Reddit, (la plataforma que permite publicar noticias y crear grupos de discusión) en el que aparecía la actriz Gal Gadot, protagonista de la película Mujer Maravilla. A simple vista el video parecía real, pero con un poco de atención en los detalles se podía detectar que el rostro no coincidía del todo con los movimientos corporales. Además del morbo, el video llamó la atención por la forma en cómo fue realizado.
El autor de estos materiales explicó que utilizó herramientas de uso libre. Recolectó fotografías de la actriz encontradas en el buscador de imágenes de Google y las combinó con otros videos auténticos, tomados de Youtube, con el fin de «entrenar» a los algoritmos para que aprendieran cómo se vería el rostro de Godot en cualquier momento dado y en diferentes escenas. Usó Tensor Flow, el software libre de programación para machine learning, el cual fue desarrollado por Google y puesto al servicio de los investigadores computacionales de forma gratuita.
Para enero de 2018, Reddit registró una mayor actividad en la difusión de más videos pornográficos, ahora protagonizados por Natalie Portman, Emma Watson y Taylor Swift, entre otras celebridades. Algunos materiales eran fáciles de identificar su falsedad, pero otros no era tan obvios. Las alarmas se encendieron. La capacidad tecnológica para crear contenidos falsos que parecían legítimos había alcanzado un nivel de miedo. No se requería un costoso equipo de efectos especiales para producirlos, como los utilizados en los estudios de Hollywood. Estábamos ante el surgimiento de nueva nueva forma de elaborar contenidos digitales que pronto se identificó como deep fake, por ser el nombre del usuario que los elaboró. Deep, por deep learning y fake, por falso.
En términos llanos, el aprendizaje profundo o deep learning pertenece al campo de la Inteligencia Artificial y consiste en crear redes de nodos, conocidas como redes neuronales porque asemejan la estructura del cerebro humano, las cuales se interconectan para ejecutar de manera autónoma diversos cálculos con los datos que han sido ingresados por el programador. Esta técnica se ha empleado para el reconocimiento de voz, entre otras áreas.

En el caso del deep fake, usando la Red GAN, los algoritmos aprendieron a emular los gestos de la actriz. Los nodos se organizan para completar una tarea en particular, como manipular convincentemente el rostro en la imagen del video en reproducción, como si se tratara de photoshop. Entre más videos se realizan y más datos se ingresan, el algoritmo mejora la calidad para corregir errores. En eso consiste el aprendizaje automático.

El deep fake tuvo un giró de 180 grados cuando otro usuario publicó una aplicación, FakeApp, la cual permitía a los usuarios realizar sus propios deepfakes de forma relativamente sencilla. Se registraron 100 mil descargadas desde el lanzamiento de la app, sin embargo, la herramienta fue utilizada para generar más contenidos de actrices en escenas pornográficas. Ante la proliferación de estos materiales, Reddit censuró todos los grupos relacionados con deepfake incluida la página de FakeApp r/fakeapp. Los desarrolladores de la aplicación lamentaron que Reddit censurara a la herramienta por el mal uso de terceros.
El debate en internet se concentró en las implicaciones de usar las imágenes de actrices sin su consentimiento para videos pornográficos. Las noticias difundidas en medios de comunicación se enfocaron en el escándalo. Pasó a segundo plano lo que implicaba la aparición de la tecnología que hacía posible estos videos y sus potenciales usos en otros campos.
Samantha Cole, periodista de Motherboard, sitio especializado en tecnología y que dio la noticia de la aparición de los deep fakes, entrevistó al creador de los videos y le cuestionó sobre el uso ético de esta herramienta.

«Toda tecnología se puede usar con malas motivaciones, y es imposible detener eso (…) La principal diferencia es lo fácil que resulta hacerlo para todos. No creo que sea algo malo que un mayor número de personas se involucren en la investigación de aprendizaje automático», indicó.

La caja de Pandora está abierta

Desde la publicación de los primeros deep fakes en 2017 a hasta inicios de este 2019 han proliferado más herramientas de libre acceso para producir estos contenidos. En Youtube se pueden encontrar infinidad de tutoriales sobre cómo hacer deep fakes, dirigidos tanto a personas no expertas como a los usuarios más avanzados.

Entre la comunidad de desarrolladores existe una tácita competencia para lograr el mejor contenido hiperreal. Es el ethos de los tecnólogos: mejorar sus creaciones.
Hasta el momento no se ha registrado ningún caso, al menos conocido, del uso del deep fake con fines criminales. Su uso ha sido en programas de entretenimiento, donde han sido seducidos por las posibilidades que ofrecen estos videos para producir contenidos cómicos.
Las celebridades de Hollywood han sido las principales víctimas del deep fake. La imagen del actor Nicolas Cage es la más usada para que aparezca en películas en las que nunca actuó.

El video de la actriz Jennifer Lawrence con el rostro del actor Steve Buscemi ha sido el más viralizado. Sin embargo, no le hizo gracia a Buscemi. Tras ver el video en el programa The Late Show con Stephen Colbert. le preguntaron si le causaba risa o temor. Respondió:

Me causa tristeza el que una persona haya pasado mucho tiempo en ello, porque apuesto que fue difícil hacerlo”.

El actor puso en la mesa del debate el uso ético de los desarrollos tecnológicos. En algunos casos las innovaciones tecnológicas más que ayudarnos a mejorar nuestro entorno, se están empleando en temas banales, sin sentido, por no decir en tonterías, sin mencionar el potencial de que sean dirigidas con la intención de causar daño.

La tecnología perse no es el problema, sino quien la utiliza sin preguntarse para qué fines y con qué efectos.
La amenaza de los contenidos digitales falsos es extiende a la par que las herramientas con inteligencia artificial.

Texto falso

El instituto Open AI —fundado por Elmo Musk, el CEO de Tesla, con Sam Altman— que tiene como fin desarrollar investigación en inteligencia artificial y compartir los resultados de forma gratuita al público, creó un sistema con un modelo de lenguaje no supervisado a gran escala llamado GPT-2.
El sistema genera párrafos de texto coherentes, realiza una comprensión de lectura rudimentaria, traducción automática, respuesta a preguntas y un resumen de contenidos. Todo sin entrenamiento específico de la tarea. Es decir, sin la intervención del programador, sólo es necesario introducir una frase y el sistema escribe autónomamente.
De acuerdo con los investigadores, el sistema GPT-2 es camaleónico, se adapta al estilo del texto en cuestión. Si es un poema, escribe como tal, si es un ensayo, lo mismo. Esto permite al usuario generar continuaciones realistas y coherentes de texto sobre un tema de su elección.
El texto generado por el sistema es tan real que los investigadores decidieron no ponerlo a disposición del público por el riesgo de un mal uso.
«Podría ser que alguien que tenga intenciones maliciosas pueda generar noticias falsas de alta calidad», comentó a la revista Wired, David Luan, vicepresidente de ingeniería en OpenAI.

En otras palabras, no sólo es que leamos una noticia falsa, sino que ésta puede ser escrita por una computadora, sin la intervención de una persona. La diferencia con los chatbots que son programados para emitir respuestas específicas de forma automatizada, radica en el uso de la inteligencia artificial. En el sistema no existe una guía de contenido, salvo el tema inicial que introduce el programador.

Voz falsa

No hace falta que una persona diga algo para que su voz sea usada en contenidos falsos. Alguien podría ser sorprendido escuchando su voz diciendo cosas que nunca pronunció.
Con sólo un fragmento de 3.7 segundos de grabación de la voz de una persona es posible clonarla. El programa que hace esta operación se llama Deep Voice y fue desarrollado por Baidu, el gigante de internet en China (conocido como el Google chino).
De este modo, ya no será necesario tomar la voz de un personaje de un video real y ponerlo en otro, como en los deep fakes. Se podrá generar todo el contenido, voz e imagen con inteligencia artificial. Si los algoritmos reciben un mayor entrenamiento, podrían lograr que la voz pronuncie largos discursos o dé conferencias de prensa, sin que se detecte que fue la creación de una máquina.
La startup Lyrebird, con sede en Estados Unidos, fundada por un grupo de jóvenes científicos computacionales entre los que se encuentra un mexicano, José Sotelo, también ofrece servicios para clonar la voz.

Cualquiera puede tener su propio clon, la empresa requiere que la persona interesada se grabe leyendo 30 oraciones y listo.
Lyrebird ofrece la voz clonada o voz artificial para usos corporativos como una contestadora automática por ejemplo, o para crear un avatar con tu propia voz. El trabajo de los locutores estaría en riesgo porque bastaría con un pequeño fragmento de audio para generar toda una narración.

Pero el uso malicioso de esta tecnología podría hacer que la voz de una persona se emplee para incriminarla en algún ilícito o para que diga temas que le comprometen. En política se podría desestabilizar a un gobierno si se escucha la voz de un presidente declarando la guerra a un país.

Esta persona no existe

Y si pensamos que sólo se falsea lo real, también lo falso crea lo real. La imagen de portada usada en este artículo es de una persona que no existe.

Esta persona no existe

Phillp Wang, ingeniero computacional y ex trabajador en Uber, creó un sitio web llamado This Person Does Not Exist. Cada que se actualiza el sitio se publica la fotografía de una persona generada con algoritmos utilizando la Red GAN. A ojos de todos nosotros el resultado es una persona completamente real.
Wang publicó originalmente el sitio en un grupo cerrado de Facebook para atraer a sus amigos en una investigación independiente en inteligencia artificial, pero pronto decidió que el sitio estuviera disponible para todo el público. Hasta el momento ha recibido 4 millones de visitas.
La intención del programador es que el público conozca lo que se puede hacer con los algoritmos de la Red GAN; que la gente sepa de la existencia de esta tecnología y no quede sólo en el campo de los expertos, porque existen riesgos de que alguien utilice fotos de personas generadas por computadora para crear identidades falsas como en los deepfakes.

Solo espero que mi demostración despierte conciencia entre los que desconocen esta tecnología porque son los más vulnerables», indicó Wang en entrevista para el sitio the Inverse.

Wang también confía en que el uso de la inteligencia artificial traiga más beneficios para la sociedad.
Tal ha sido el éxito de esta iniciativa que otros lo han imitado y han creado sus propias páginas, como el caso del sitio This Airbnb does not exist, que despliega habitaciones tipo Airbnb que no existen. Para los amantes de los gatos, otro entusiasta publicó un sitio en el que se muestran imágenes de felinos que tampoco existen This Cat does not exist

Ante los contenidos falsos, el pensamiento crítico

Goodfellow está consciente de los peligros que conlleva su invención. Ahora, en sus investigaciones en Google se enfoca en lograr que el aprendizaje automático sea más seguro. En su opinión, la comunidad de investigadores en inteligencia artificial debe aprender la lección de las oleadas de innovación anteriores. Los temas de seguridad y privacidad se dejaron como las ideas de último momento y no fueron considerados desde el inicio de los desarrollos.

Pero la verdadera herramienta que nos permitirá hacer frente a los deep fakes y los contenidos falsos no se encuentran en la tecnología, si no en lo social, en el desarrollo de habilidades cognitivas para el pensamiento crítico.

La Coordinación de Desarrollo Educativo e Innovación Curricular (Codeic) de la UNAM trabaja en la creación de una app para fortalecer el pensamiento crítico de los alumnos de licenciatura, que podría usarse para cualquier persona.
La aplicación plantea tres situaciones controversiales al estudiante para que reflexione sobre su determinación personal, comprenda el punto de vista de los demás y evalúe la confiabilidad de distintas fuentes de información que sustentan cada postura.
Los contenidos digitales falsos llegaron para quedarse y cada vez es más difícil detectarlos. Como plantea Wang, es importante que las personas conozcan las tecnologías que están detrás, por lo menos a un nivel informativo, con el fin de mantener una sana dosis de incredulidad ante lo que vemos, oímos, escuchamos y leemos en internet.

Hoy más que nunca, corroborar los contenidos con fuentes autorizadas es la mejor forma para neutralizar el daño que puede generar la realidad inventada con la inteligencia artificial.

3 Comentarios

  1. Excelente artículo Raúl. Es un tema que está directamente vinculado a la relación entre tecnología y sociedad. Sin sólidas instituciones democráticas creo que el nuestro presente comenzará parecerse a Blade Runner.

    Me gusta

¿Qué opinas?