• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • Los investigadores ocultan información en texto plano

    Alguien que use FontCode proporcionaría un mensaje secreto y un documento de texto de soporte. FontCode convierte el mensaje secreto en una cadena de bits (ASCII o Unicode) y luego en una secuencia de enteros. Cada número entero se asigna a un bloque de cinco letras en el texto normal donde las ubicaciones numeradas de cada letra suman el número entero. Crédito:Changxi Zheng / Columbia Engineering

    Los informáticos de Columbia Engineering han inventado FontCode, una nueva forma de incrustar información oculta en texto ordinario mediante cambios imperceptibles, o perturbador, las formas de las fuentes en el texto. FontCode crea perturbaciones de fuentes, usándolos para codificar un mensaje que luego se puede decodificar para recuperar el mensaje. El método funciona con la mayoría de las fuentes y, a diferencia de otros métodos de texto y documentos que ocultan información incrustada, funciona con la mayoría de los tipos de documentos, incluso manteniendo la información oculta cuando el documento se imprime en papel o se convierte a otro tipo de archivo. El trabajo se presentará en SIGGRAPH en Vancouver, Columbia Británica, 12-16 de agosto.

    "Si bien existen aplicaciones obvias para el espionaje, Creemos que FontCode tiene usos aún más prácticos para las empresas que desean evitar la manipulación de documentos o proteger los derechos de autor. y para minoristas y artistas que deseen incrustar códigos QR y otros metadatos sin alterar el aspecto o el diseño de un documento, "dice Changxi Zheng, profesor asociado de informática y autor principal del artículo.

    Zheng creó FontCode con sus estudiantes Chang Xiao (estudiante de doctorado) y Cheng Zhang MS'17 (ahora estudiante de doctorado en UC Irvine) como un método esteganográfico de texto que puede incrustar texto, metadatos, una URL o una firma digital en un documento de texto o una imagen, ya sea almacenado digitalmente o impreso en papel. Funciona con familias de fuentes comunes, como Times Roman, Helvética, y Calibri, y es compatible con la mayoría de los programas de procesamiento de texto, incluyendo Word y FrameMaker, así como programas de dibujo y edición de imágenes, como Photoshop e Illustrator. Dado que cada letra puede perturbarse, la cantidad de información transmitida en secreto está limitada únicamente por la longitud del texto normal. La información se codifica utilizando pequeñas perturbaciones de la fuente:cambiando el ancho del trazo, ajustar la altura de los ascendentes y descendentes, o apretando o aflojando las curvas en serifas y los cuencos de letras como o, pag, y B.

    "Cambiando cualquier letra, signo de puntuación, o símbolo en una forma ligeramente diferente le permite cambiar el significado del documento, "dice Xiao, el autor principal del artículo. "Esta información oculta, aunque no sea visible para los humanos, es legible por máquina del mismo modo que los códigos de barras y los códigos QR pueden ser leídos instantáneamente por las computadoras. Sin embargo, a diferencia de los códigos de barras y los códigos QR, FontCode no estropea la estética visual del material impreso, y su presencia puede permanecer en secreto ".

    Los datos ocultos con FontCode pueden ser extremadamente difíciles de detectar. Incluso si un atacante detecta cambios de fuente entre dos textos, algo muy poco probable dada la sutileza de las perturbaciones, simplemente no es práctico escanear todos los archivos que entran y salen de una empresa.

    Es más, FontCode no solo incrusta sino que también puede cifrar mensajes. Mientras que las perturbaciones se almacenan en una ubicación numerada en un libro de códigos, sus ubicaciones no son fijas. Las personas que deseen comunicarse a través de documentos cifrados acordarán una clave privada que especifique las ubicaciones particulares, u orden, de perturbaciones en el libro de códigos.

    "El cifrado es solo un nivel de protección de respaldo en caso de que un atacante pueda detectar el uso de cambios de fuente para transmitir información secreta, ", dice Zheng." Es muy difícil ver los cambios, por lo que son realmente difíciles de detectar, lo que convierte a FontCode en una técnica muy poderosa para hacer que los datos superen las defensas existentes ".

    FontCode no es la primera tecnología que oculta un mensaje en texto; existen programas para ocultar mensajes en archivos PDF y Word o para cambiar el tamaño de los espacios en blanco para indicar un 0 o 1, pero, los investigadores dicen, es el primero en ser independiente del documento y en retener la información secreta incluso cuando un documento o una imagen con texto (PNG, JPG) se imprime o convierte a otro tipo de archivo. Esto significa que un archivo FrameMaker o Word se puede convertir a PDF, o un JPEG se puede convertir a PNG, todo sin perder la información secreta.

    Para usar FontCode, proporcionaría un mensaje secreto y un documento de texto del transportista. FontCode convierte el mensaje secreto en una cadena de bits (ASCII o Unicode) y luego en una secuencia de enteros. Cada número entero se asigna a un bloque de cinco letras en el texto normal donde las ubicaciones numeradas del libro de códigos de cada letra se suman al número entero.

    Recuperar mensajes ocultos es el proceso inverso. Desde un archivo digital o desde una fotografía tomada con un teléfono inteligente, FontCode hace coincidir cada letra perturbada con la perturbación original en el libro de códigos para reconstruir el mensaje original.

    El emparejamiento se realiza mediante redes neuronales convolucionales (CNN). Reconocer fuentes dibujadas por vectores (como las almacenadas como PDF o creadas con programas como Illustrator) es sencillo ya que las definiciones de formas y rutas son legibles por computadora. Sin embargo, es una historia diferente para PNG, IMG, y otras fuentes rasterizadas (o píxeles), donde cambia la iluminación, diferentes perspectivas de la cámara, o el ruido o la borrosidad pueden enmascarar una parte de la letra e impedir un fácil reconocimiento.

    Si bien las CNN están capacitadas para tener en cuenta tales distorsiones, todavía se producirán errores de reconocimiento, y un desafío clave para los investigadores fue garantizar que siempre se pudiera recuperar un mensaje frente a tales errores. La redundancia es una forma obvia de recuperar información perdida, pero no funciona bien con texto ya que las letras y símbolos redundantes son fáciles de detectar.

    En lugar de, los investigadores recurrieron al teorema del resto chino de 1700 años, que identifica un número desconocido de su resto después de haber sido dividido por varios divisores diferentes. El teorema se ha utilizado para reconstruir la información faltante en otros dominios; en FontCode, los investigadores lo utilizan para recuperar el mensaje original incluso cuando no todas las letras se reconocen correctamente.

    "Imagínese tener tres variables desconocidas, "dice Zheng." Con tres ecuaciones lineales, debería poder resolver los tres. Si aumenta el número de ecuaciones de tres a cinco, puedes resolver las tres incógnitas siempre que conozcas tres de las cinco ecuaciones ".

    Usando la teoría del resto chino, los investigadores demostraron que podían recuperar mensajes incluso cuando no se reconocía el 25% de las perturbaciones de las letras. Teóricamente, la tasa de error podría superar el 25%.

    Los autores, que han presentado una patente con Columbia Technology Ventures, planear extender FontCode a otros idiomas y conjuntos de caracteres, incluido el chino.

    "Estamos entusiasmados con la amplia gama de aplicaciones de FontCode, "dice Zheng, "desde el software de gestión de documentos, a códigos QR invisibles, a la protección de documentos legales. FontCode podría cambiar las reglas del juego ".

    El estudio se titula "FontCode:incrustación de información en documentos de texto mediante la perturbación de glifos".


    © Ciencia https://es.scienceaq.com