Crédito:Brendan Murphy, proporcionado por el autor
La fotografía falsa no es nada nuevo. En la década de 1910, el autor británico Arthur Conan Doyle fue engañado por dos hermanas en edad escolar que habían producido fotografías de elegantes hadas retozando en su jardín.
La primera de las cinco fotografías de "Cottingley Fairies", tomada por Elsie Wright en 1917. Crédito:Wikipedia
Hoy en día es difícil creer que estas fotos pudieran haber engañado a alguien, pero no fue sino hasta la década de 1980 que un experto llamado Geoffrey Crawley tuvo el descaro de aplicar directamente su conocimiento de la fotografía cinematográfica y deducir lo obvio.
Las fotografías eran falsas, como admitió más tarde una de las propias hermanas.
En 1982, Geoffrey Crawley dedujo que las fotografías de las hadas eran falsas. Así es este. Crédito:Brendan Murphy, proporcionado por el autor
Caza de artefactos y sentido común
La fotografía digital ha abierto una gran cantidad de técnicas para falsificadores y detectives por igual.
Hoy en día, el examen forense de imágenes sospechosas implica la búsqueda de cualidades inherentes a la fotografía digital, como el examen de metadatos incrustados en las fotografías, el uso de software como Adobe Photoshop para corregir distorsiones en las imágenes y la búsqueda de signos reveladores de manipulación, como la duplicación de regiones para oscurece las características originales.
A veces, las ediciones digitales son demasiado sutiles para detectarlas, pero saltan a la vista cuando ajustamos la forma en que se distribuyen los píxeles claros y oscuros. Por ejemplo, en 2010, la NASA publicó una foto de las lunas Dione y Titán de Saturno. No era falso de ninguna manera, pero se había limpiado para eliminar los artefactos perdidos, lo que llamó la atención de los teóricos de la conspiración.
Curioso, puse la imagen en Photoshop. La siguiente ilustración recrea aproximadamente cómo se veía esto.
Una simulación que muestra cómo se puede detectar la edición cuando se ajustan los niveles de luz y oscuridad. Crédito:Brendan Murphy, proporcionado por el autor
La mayoría de las fotografías digitales están en formatos comprimidos como JPEG, reducidos al eliminar gran parte de la información capturada por la cámara. Los algoritmos estandarizados garantizan que la información eliminada tenga un impacto visible mínimo, pero deja rastros.
La compresión de cualquier región de una imagen dependerá de lo que suceda en la imagen y de la configuración actual de la cámara; cuando una imagen falsa combina múltiples fuentes, a menudo es posible detectar esto mediante un análisis cuidadoso de los artefactos de compresión.
Cierta metodología forense tiene poco que ver con el formato de una imagen, pero es esencialmente un trabajo de detective visual. ¿Todos en la fotografía están iluminados de la misma manera? ¿Tienen sentido las sombras y los reflejos? ¿Las orejas y las manos muestran luces y sombras en los lugares correctos? ¿Qué se refleja en los ojos de las personas? ¿Se sumarían todas las líneas y ángulos de la habitación si modeláramos la escena en 3D?
Puede que Arthur Conan Doyle se haya dejado engañar por las fotos de hadas, pero creo que su creación, Sherlock Holmes, se sentiría como en casa en el mundo del análisis forense de fotos.
Una nueva era de inteligencia artificial
La explosión actual de imágenes creadas por herramientas de inteligencia artificial (IA) de texto a imagen es, en muchos sentidos, más radical que el cambio de la película a la fotografía digital.
Ahora podemos conjurar cualquier imagen que queramos, simplemente escribiendo. Estas imágenes no son frankenphotos hechas improvisando grupos de píxeles preexistentes. Son imágenes completamente nuevas con el contenido, la calidad y el estilo especificados.
Hasta hace poco, las complejas redes neuronales utilizadas para generar estas imágenes han tenido una disponibilidad limitada para el público. Esto cambió el 23 de agosto de 2022, con el lanzamiento al público de Stable Diffusion de código abierto. Ahora cualquier persona con una tarjeta gráfica Nvidia de nivel de juego en su computadora puede crear contenido de imagen de IA sin ningún laboratorio de investigación o control comercial de sus actividades.
Esto ha llevado a muchos a preguntarse:"¿Podemos volver a creer lo que vemos en línea?". Eso depende.
La inteligencia artificial de texto a imagen obtiene su inteligencia del entrenamiento:el análisis de una gran cantidad de pares de imágenes/títulos. Las fortalezas y debilidades de cada sistema se derivan en parte de las imágenes con las que se ha entrenado. He aquí un ejemplo:así es como Stable Diffusion ve a George Clooney planchando.
Este es George Clooney planchando… ¿o no? Crédito:Brendan Murphy, proporcionado por el autor
Esto está lejos de ser realista. Todo lo que Stable Diffusion tiene para continuar es la información que ha aprendido, y si bien está claro que ha visto a George Clooney y puede vincular esa cadena de letras con las características del actor, no es un experto en Clooney.
Sin embargo, habría visto y digerido muchas más fotos de hombres de mediana edad en general, así que veamos qué sucede cuando preguntamos por un hombre genérico de mediana edad en el mismo escenario.
Genérico hombre de mediana edad haciendo su planchado. Crédito:Brendan Murphy, proporcionado por el autor
Esta es una clara mejora, pero aún no del todo realista. Como siempre ha sido el caso, la complicada geometría de las manos y las orejas son buenos lugares para buscar signos de falsificación, aunque en este medio estamos mirando la geometría espacial en lugar de las señales de iluminación imposible.
Puede haber otras pistas. Si reconstruyéramos cuidadosamente la habitación, ¿las esquinas serían cuadradas? ¿Los estantes tendrían sentido? Un experto forense acostumbrado a examinar fotografías digitales probablemente podría hacer una llamada al respecto.
Ya no podemos creer lo que vemos
Si ampliamos el conocimiento de un sistema de texto a imagen, puede funcionar aún mejor. Puede agregar sus propias fotografías descritas para complementar la capacitación existente. Este proceso se conoce como inversión textual.
Recientemente, Google lanzó Dream Booth, un método alternativo y más sofisticado para inyectar personas, objetos o incluso estilos artísticos específicos en sistemas de IA de texto a imagen.
Este proceso requiere hardware de alta resistencia, pero los resultados son asombrosos. Se ha comenzado a compartir un gran trabajo en Reddit. Mire las fotos en la publicación a continuación que muestran imágenes colocadas en DreamBooth e imágenes falsas realistas de Stable Diffusion.
Ya no podemos creer lo que vemos, pero aún podemos confiar en los de los expertos forenses, al menos por ahora. Es muy posible que los sistemas futuros puedan ser entrenados deliberadamente para engañarlos también.
Nos estamos moviendo rápidamente hacia una era en la que la fotografía e incluso el video perfectos serán comunes. El tiempo dirá cuán significativo será esto, pero mientras tanto vale la pena recordar la lección de las fotos de Cottingley Fairy:a veces la gente solo quiere creer, incluso en falsificaciones obvias.