• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • Un método basado en CNN para el script de fórmulas matemáticas y la identificación de tipos

    El sistema basado en CNN para escritura de símbolos e identificación de tipos. Crédito:Khazri &Echi.

    Investigadores de la Universidad de Túnez han propuesto recientemente un nuevo sistema para la escritura de fórmulas matemáticas y la identificación de tipos, que se basa en redes neuronales convolucionales (CNN). Su método, presentado en un artículo publicado por Springer, puede discriminar automáticamente entre fórmulas impresas / escritas a mano y árabe / latina.

    En años recientes, Los investigadores han intentado desarrollar sistemas que puedan identificar las formas en las que se presenta un documento, como el idioma utilizado y si el texto está impreso a máquina o escrito a mano, para seleccionar el sistema de reconocimiento adecuado para cada documento. La mayoría de estos enfoques se centran en identificar diferentes formas de texto, mientras que muy pocos están diseñados para analizar fórmulas matemáticas.

    "En este contexto, presentamos un nuevo enfoque que aborda el problema de la identificación del guión, Árabe o latín; y el tipo, escrito a mano o impreso a máquina, de fórmulas matemáticas, "Los investigadores de la Universidad de Túnez escribieron en su artículo." Este trabajo es parte de nuestra investigación sobre el reconocimiento fuera de línea de las fórmulas matemáticas árabes ".

    En su estudio, los investigadores presentaron un sistema dirigido por sintaxis diseñado para reconocer símbolos y analizar su disposición. Para reconocer símbolos, su enfoque utiliza características estadísticas y un clasificador de red de Bayes.

    Para analizar la estructura de una fórmula, su sistema emplea un esquema de análisis de arriba hacia abajo y de abajo hacia arriba basado en el dominio del operador. En otras palabras, su sistema lleva a cabo un léxico, análisis geométrico y sintáctico de una fórmula, lo que le ayuda a identificar su escritura (latín versus árabe) y si fue escrita a mano o mecanografiada a máquina.

    "El análisis de fórmulas consiste en aplicar, del operador dominante y su contexto, la regla apropiada para dividir las fórmulas en subfórmulas, que serán analizados de forma recursiva de la misma forma, ", explicaron los investigadores en su artículo.

    Usando una CNN, el enfoque ideado por los investigadores primero extrae y luego clasifica los componentes conectados de una fórmula. Los investigadores capacitaron y evaluaron su sistema utilizando fórmulas de escritura latina de las bases de datos InftyMDB-1 y CROHME, así como fórmulas árabes escaneadas de libros de matemáticas o escritas a mano por cinco escritores diferentes.

    "El sistema de reconocimiento propuesto se probó en fórmulas matemáticas complejas que contienen multiplicaciones implícitas, subíndices y superíndices, con resultados satisfactorios, "escribieron los investigadores." Añadiendo más funciones, probar otros algoritmos de selección de características y elegir clasificadores más rápidos debería mejorar el rendimiento del sistema propuesto ".

    En general, las evaluaciones realizadas por los investigadores arrojaron resultados muy prometedores, con su sistema logrando una tasa de identificación del 94,6 por ciento. El analizador que utilizaron para analizar la estructura de las fórmulas también parece ser muy robusto, ya que logró una impresionante tasa de reconocimiento del 97,63 por ciento. En su trabajo futuro, los investigadores planean mejorar el rendimiento de su sistema desarrollando aún más los filtros y la arquitectura de la CNN.

    © 2019 Science X Network




    © Ciencia https://es.scienceaq.com