Crédito:CC0 Public Domain
Hace solo unos años, la búsqueda en la web fue simple. Los usuarios escribieron algunas palabras y recorrieron las páginas de resultados.
Hoy dia, esos mismos usuarios pueden tomar una foto en un teléfono y colocarla en un cuadro de búsqueda o usar un asistente inteligente para hacer una pregunta sin tocar físicamente un dispositivo. También pueden escribir una pregunta y esperar una respuesta real, no es una lista de páginas con posibles respuestas.
Estas tareas desafían a los motores de búsqueda tradicionales, que se basan en un sistema de índice invertido que se basa en coincidencias de palabras clave para producir resultados.
"Los algoritmos de búsqueda de palabras clave simplemente fallan cuando las personas hacen una pregunta o toman una foto y preguntan al motor de búsqueda, '¿Qué es esto?' ", Dijo Rangan Majumder, gerente de programa de grupo en el equipo de inteligencia artificial y búsqueda de Bing de Microsoft.
Por supuesto, mantenerse al día con las preferencias de búsqueda de los usuarios no es nuevo; ha sido una lucha desde el inicio de la búsqueda web. Pero ahora, cada vez es más fácil satisfacer esas necesidades cambiantes, gracias a los avances en inteligencia artificial, incluidos los iniciados por el equipo de búsqueda de Bing y los investigadores del laboratorio de investigación de Microsoft en Asia.
"La IA hace que los productos con los que trabajamos sean más naturales, "dijo Majumder." Antes, la gente tenía que pensar, 'Estoy usando una computadora, entonces, ¿cómo escribo mi entrada de una manera que no interrumpa la búsqueda? '"
Microsoft ha puesto a disposición de todos una de las herramientas de inteligencia artificial más avanzadas que utiliza para satisfacer mejor las necesidades de búsqueda en evolución de las personas como un proyecto de código abierto en GitHub. El miércoles, también lanzó técnicas de ejemplo de usuario y un video adjunto para esas herramientas a través del laboratorio de inteligencia artificial de Microsoft.
El algoritmo llamado Árbol y gráfico de partición espacial (SPTAG), permite a los usuarios aprovechar la inteligencia de los modelos de aprendizaje profundo para buscar en miles de millones de piezas de información, llamados vectores, en milisegundos. Ese, Sucesivamente, significa que pueden ofrecer resultados más relevantes a los usuarios con mayor rapidez.
La búsqueda vectorial facilita la búsqueda por concepto que por palabra clave. Por ejemplo, si un usuario escribe "¿Qué altura tiene la torre de París?" Bing puede devolver un resultado en lenguaje natural diciéndole al usuario que la Torre Eiffel es 1, 063 pies, aunque la palabra "Eiffel" nunca apareció en la consulta de búsqueda y la palabra "alto" nunca aparece en el resultado ..
Microsoft utiliza la búsqueda vectorial para su propio motor de búsqueda Bing, y la tecnología está ayudando a Bing a comprender mejor la intención detrás de miles de millones de búsquedas web y encontrar el resultado más relevante entre miles de millones de páginas web.
Usar vectores para una mejor búsqueda
Esencialmente una representación numérica de una palabra, píxel de imagen u otro punto de datos, un vector ayuda a capturar lo que realmente significa un dato. Gracias a los avances en una rama de la IA llamada aprendizaje profundo, Microsoft dijo que puede comenzar a comprender y representar la intención de búsqueda utilizando estos vectores.
Una vez que se ha asignado el punto numérico a un dato, los vectores se pueden arreglar, o mapeado, con números cercanos colocados uno cerca del otro para representar similitud. Estos resultados próximos se muestran a los usuarios, mejorar los resultados de la búsqueda.
La tecnología detrás de la búsqueda vectorial que utiliza Bing comenzó cuando los ingenieros de la empresa comenzaron a notar tendencias inusuales en los patrones de búsqueda de los usuarios.
"Al analizar nuestros registros, el equipo descubrió que las consultas de búsqueda eran cada vez más largas, ", dijo Majumder. Esto sugirió que los usuarios estaban haciendo más preguntas, exagerando debido al pasado, malas experiencias con la búsqueda de palabras clave, o estaban "tratando de actuar como computadoras" al describir cosas abstractas, todo antinatural e inconveniente para los usuarios.
Con la búsqueda de Bing, el esfuerzo de vectorización se ha extendido a más de 150 mil millones de datos indexados por el motor de búsqueda para mejorar la concordancia tradicional de palabras clave. Estos incluyen palabras sueltas, caracteres, fragmentos de página web, consultas completas y otros medios. Una vez que un usuario busca, Bing puede escanear los vectores indexados y ofrecer la mejor coincidencia.
La asignación de vectores también se capacita utilizando tecnología de aprendizaje profundo para la mejora continua. Los modelos consideran entradas como los clics del usuario final después de una búsqueda para comprender mejor el significado de esa búsqueda.
Si bien la idea de vectorizar los medios y los datos de búsqueda no es nueva, Solo recientemente ha sido posible usarlo en la escala de un motor de búsqueda masivo como Bing, Dijeron los expertos de Microsoft.
"Bing procesa miles de millones de documentos todos los días, y la idea ahora es que podemos representar estas entradas como vectores y buscar a través de este índice gigante de más de 100 mil millones de vectores para encontrar los resultados más relacionados en 5 milisegundos, "dijo Jeffrey Zhu, gerente de programa en el equipo Bing de Microsoft.
Para poner eso en perspectiva, Majumder dijo:Considere esto:una pila de 150 mil millones de tarjetas de visita se extendería desde aquí hasta la luna. En un abrir y cerrar de ojos La búsqueda de Bing usando SPTAG puede encontrar 10 tarjetas de presentación diferentes una tras otra dentro de esa pila de tarjetas.
Usos para visual, búsqueda de audio
El equipo de Bing dijo que esperan que la oferta de código abierto pueda usarse para aplicaciones empresariales o orientadas al consumidor para identificar un idioma que se habla en función de un fragmento de audio. o para servicios con muchas imágenes, como una aplicación que permite a las personas tomar fotografías de flores e identificar qué tipo de flor es. Para ese tipo de aplicaciones, una experiencia de búsqueda lenta o irrelevante es frustrante.
"Incluso un par de segundos para una búsqueda pueden inutilizar una aplicación, "señaló Majumder.
El equipo también espera que los investigadores y académicos lo utilicen para explorar otras áreas de avances de búsqueda.
"Solo hemos comenzado a explorar lo que es realmente posible en torno a la búsqueda vectorial a esta profundidad, " él dijo.