• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • Titulares con guiones de minería de datos:mejora del reconocimiento de entidades con nombre

    Crédito:CC0 Public Domain

    La minería de datos y la extracción de conocimiento de fuentes dispares es big data, grandes negocios. Pero, ¿Cómo se las arregla el software de búsqueda con las entidades que se mencionan donde solo se usa una parte de su nombre o un nombre está dividido con un guión cuando normalmente no lo es? Investigación publicada en el Revista internacional de sistemas inteligentes de información y bases de datos revela detalles de un nuevo enfoque para mejorar el reconocimiento de entidades nombradas y la desambiguación en los titulares de las noticias.

    Jayendra Barua y Rajdeep Niyogi del Departamento de Ingeniería y Ciencias de la Computación, en el Instituto Indio de Tecnología, en Roorkee, Uttarakhand, India, Explique que su enfoque para un análisis de este tipo de los titulares de noticias actuales se basa en un algoritmo entrenado al que se le ha enseñado a eliminar los guiones y completar los nombres incompletos para eliminar la ambigüedad.

    La evaluación del equipo de su enfoque novedoso muestra que funciona con aproximadamente un 10 por ciento más de precisión que los sistemas convencionales y, por lo tanto, podría mejorar la recuperación automatizada de noticias asociadas con empresas particulares. organizaciones eventos, figuras públicas, y otras entidades de interés para los que extraen datos de la noticia. El sistema funciona bien con fuentes de noticias, como el tipo de suministro de noticias RSS generado por sitios web que se actualizan periódicamente. Los titulares de estas fuentes suelen ser más largos que los titulares de los periódicos convencionales, pero son, sin embargo, breves, comúnmente tiene diez palabras o menos. Cada palabra podría ser importante en un contexto de minería de datos y, por lo tanto, la desambiguación es fundamental.


    © Ciencia https://es.scienceaq.com