Crédito:CC0 Public Domain
La World Wide Web ha crecido enormemente desde sus inicios académicos y de investigación en 1991, y su posterior expansión al ámbito público y comercial. Inicialmente, era una red de páginas con hipervínculos y otros recursos digitales. Muy temprano, Se hizo evidente que algunos recursos eran tan vastos que tendría más sentido generar dinámicamente los materiales requeridos por los usuarios individuales en lugar de almacenar cada entidad digital como un elemento único.
Hoy dia, innumerables sitios web son dinámicos, cada visita única extrae información y datos dinámicamente de una base de datos de back-end y los presenta al usuario bajo demanda. Mientras que los motores de búsqueda pueden modificar fácilmente las páginas estáticas, el contenido de la base de datos que impulsa los sitios web dinámicos es inaccesible. Incluso en 2001, cuando ya había varios terabytes de público, datos web estáticos, se estimó que la "red invisible, "o" web oculta, "que no debe confundirse con la" web oscura, "era unas 550 veces mayor que los recursos visibles.
Escribiendo en la Revista Internacional de Inteligencia Comercial y Minería de Datos, un equipo de la India describe cómo han desarrollado una arquitectura inteligente multiagente basada en algoritmos genéticos que puede extraer información de la web invisible. Las herramientas podrían permitir que incluso los materiales que supuestamente están fuera del alcance de los motores de búsqueda convencionales sean spidered, raspado y catalogado para una amplia gama de aplicaciones.
D. Weslin de Bharathiar University y Joshva Devadas del Vellore Institute of Technology describen los detalles y beneficios de su enfoque en el último número de la revista. "Los resultados experimentales muestran que la arquitectura propuesta proporciona una mayor precisión y recuperación que los rastreadores web existentes, "escribe el equipo.