Fotogramas de muestra de los avances de video de Moviescope que muestran la diversidad en el conjunto de datos propuesto. Crédito:Sitaraman et al.
Un equipo de investigadores de la Universidad de Virginia ha llevado a cabo recientemente un análisis a gran escala destinado a identificar las características de los avances de películas que mejor predicen el género y el presupuesto estimado de una película. En su estudio, descrito en un artículo publicado previamente en arXiv, los investigadores compararon específicamente la eficacia de la tecnología visual, audio, texto, y características basadas en metadatos.
"La comprensión de los videos es la próxima frontera después de la comprensión de las imágenes, "Vicente Ordóñez, uno de los investigadores que realizó el estudio, dicho TechXplore . "Sin embargo, Gran parte del trabajo en la comprensión de videos se ha centrado hasta ahora en clips cortos en los que un humano realiza una sola acción. Queríamos algo más pero también está la cuestión del poder computacional. Los avances de video parecían un compromiso intermedio, ya que muestran una multitud de cosas, de aterrador a divertido ".
Los avances de películas son breves y se pueden combinar fácilmente con descripciones de películas. Ordóñez y sus colegas se dieron cuenta de que estas características los hacen ideales para investigar los paralelismos entre el video y el lenguaje.
Además, Estudios recientes han introducido varias herramientas prometedoras para analizar imágenes emparejadas con descripciones de texto. Los investigadores tenían curiosidad por evaluar algunas de estas técnicas en tareas de reconocimiento de video.
Inicialmente, cuando intentaron aplicar métodos bien establecidos para analizar videoclips cortos en avances de películas, los resultados fueron decepcionantes. Entonces decidieron llevar a cabo una investigación en profundidad para identificar las características más efectivas para analizar los avances de películas.
"Descubrimos que la combinación de todas las modalidades (es decir, video, texto, audio y metadatos), pudimos recopilar información valiosa sobre las correlaciones esperadas entre géneros específicos y una modalidad particular, por ejemplo, que las características visuales son más valiosas cuando se predice una película como animada o no, "Paola Cascante-Bonilla, otro investigador involucrado en el estudio, dijo a TechXplore. "Es más, Descubrimos que incluir el audio en nuestros experimentos mejora significativamente el rendimiento de la predicción de género en comparación con solo usar el video, texto y metadatos ".
Los investigadores observaron que, si bien el análisis de carteles de películas conducía a resultados insatisfactorios, centrándose en todas las características de la película presentadas en un avance (es decir, video, texto, audio y metadatos) condujeron a mejoras significativas. Estos hallazgos son particularmente dignos de mención, ya que podrían ayudar a desarrollar herramientas más efectivas para analizar películas y servir como base para futuros estudios de investigación.
Curiosamente, al enfocarse en el video, datos de texto y audio extraídos de trailers, Ordóñez, Cascante-Bonilla y sus colegas pudieron estimar el género de una película con una precisión comparable a la lograda al analizar los metadatos de la película (es decir, información sobre sus actores, director, etc.). Las técnicas utilizadas por los investigadores en su estudio, que combinan diferentes características / modalidades, por tanto, podría utilizarse para analizar una gama más amplia de películas.
En su estudio, El equipo también presentó un nuevo conjunto de datos para capacitar y evaluar herramientas para analizar películas. Este conjunto de datos, llamado Moviescope, incluye 5, 000 películas, junto con sus correspondientes remolques, carteles de cine, tramas de películas y metadatos asociados.
"Nuestros hallazgos sugieren que solo el resumen textual de una película no es suficiente para diferenciar entre una película animada y una película de otro género, "dijo Siva Sivaraman, otro investigador involucrado en el estudio que ahora trabaja en Microsoft. “Necesitas 'ver' el tráiler para poder decidir si una película determinada está animada o no. La técnica de atención modal que usamos nos permite identificar y analizar las características a las que el modelo presta más atención al predecir un género en particular. Como predijimos, el modelo aprende a sopesar la característica visual sobre otras características mientras hace predicciones para el género de animación ".
Los hallazgos recopilados por este equipo de investigadores podrían tener importantes implicaciones tanto para el análisis de películas como para la publicidad de películas. En el futuro, otros grupos de investigación podrían usar estas observaciones para desarrollar herramientas más efectivas para predecir aspectos específicos de las películas. Además, las técnicas utilizadas por Ordóñez y sus colegas podrían informar a la industria de la publicidad sobre cómo crear avances más impactantes.
"Ahora estamos planeando usar carteles y tramas de películas para analizar la forma en que se anuncian las películas y hacer recomendaciones sobre cómo maximizar la efectividad de la publicidad de películas tanto desde la perspectiva de los consumidores como de los distribuidores, "Dijo Ordóñez.
© 2019 Science X Network