Crédito:CC0 Public Domain
Conocer las verdaderas ventas de una empresa puede ayudar a determinar su valor. Inversores por ejemplo, a menudo emplean analistas financieros para predecir las próximas ganancias de una empresa utilizando diversos datos públicos, herramientas computacionales, y su propia intuición. Ahora, los investigadores del MIT han desarrollado un modelo automatizado que supera significativamente a los humanos en la predicción de ventas comerciales utilizando datos "ruidosos".
En finanzas, Existe un interés creciente en el uso de datos del consumidor imprecisos pero generados con frecuencia, llamados "datos alternativos", para ayudar a predecir las ganancias de una empresa con fines comerciales y de inversión. Los datos alternativos pueden incluir compras con tarjeta de crédito, datos de ubicación de teléfonos inteligentes, o incluso imágenes de satélite que muestren cuántos coches hay aparcados en el lote de un minorista. Combinando datos alternativos con datos financieros reales más tradicionales pero poco frecuentes, como las ganancias trimestrales, Comunicados de prensa, y los precios de las acciones:pueden dar una imagen más clara de la salud financiera de una empresa, incluso a diario o semanalmente.
Pero, hasta aquí, ha sido muy difícil ser preciso estimaciones frecuentes utilizando datos alternativos. En un artículo publicado esta semana en Proceedings of ACM Sigmetrics Conference, los investigadores describen un modelo para pronosticar las finanzas que utiliza solo transacciones semanales anónimas con tarjetas de crédito e informes de ganancias de tres meses.
Encargado de predecir las ganancias trimestrales de más de 30 empresas, el modelo superó las estimaciones combinadas de los analistas expertos de Wall Street en el 57 por ciento de las predicciones. Notablemente, los analistas tenían acceso a cualquier dato público o privado disponible y a otros modelos de aprendizaje automático, mientras que el modelo de los investigadores utilizó un conjunto de datos muy pequeño de los dos tipos de datos.
"Los datos alternativos son raros, señales de proxy para ayudar a rastrear las finanzas subyacentes de una empresa, "dice el primer autor Michael Fleder, un postdoctorado en el Laboratorio de Sistemas de Información y Decisiones (LIDS). "Preguntamos, "¿Puede combinar estas señales ruidosas con números trimestrales para estimar la verdadera situación financiera de una empresa en altas frecuencias?" Resulta que la respuesta es sí ".
El modelo podría dar una ventaja a los inversores, comerciantes o empresas que buscan comparar frecuentemente sus ventas con las de la competencia. Más allá de las finanzas, el modelo podría ayudar a los científicos sociales y políticos, por ejemplo, para estudiar agregado, datos anónimos sobre el comportamiento público. "Será útil para cualquiera que quiera averiguar qué está haciendo la gente, "Dice Fleder.
Junto a Fleder en el artículo está el profesor de EECS, Devavrat Shah, quien es el director del Centro de Ciencia de Datos y Estadísticas del MIT, miembro del Laboratorio de Sistemas de Información y Decisiones, investigador principal del MIT Institute for Foundations of Data Science, y profesor adjunto en el Instituto Tata de Investigación Fundamental.
Abordar el problema de los "datos pequeños"
Para bien o para mal, muchos datos de consumidores están a la venta. Minoristas, por ejemplo, puede comprar transacciones de tarjetas de crédito o datos de ubicación para ver cuántas personas están comprando en un competidor. Los anunciantes pueden usar los datos para ver cómo sus anuncios están afectando las ventas. Pero obtener esas respuestas todavía depende principalmente de los humanos. Ningún modelo de aprendizaje automático ha sido capaz de procesar adecuadamente los números.
Contraintuitivamente, el problema es en realidad la falta de datos. Cada entrada financiera, como un informe trimestral o el total semanal de la tarjeta de crédito, es solo un número. Los informes trimestrales durante dos años suman solo ocho puntos de datos. Datos de la tarjeta de crédito para, decir, cada semana durante el mismo período es solo aproximadamente otros 100 puntos de datos "ruidosos", lo que significa que contienen información potencialmente no interpretable.
"Tenemos un problema de 'datos pequeños', Fleder dice:"Solo obtienes una pequeña porción de lo que la gente está gastando y tienes que extrapolar e inferir lo que realmente está sucediendo a partir de esa fracción de datos".
Por su trabajo, los investigadores obtuvieron transacciones de tarjetas de crédito de los consumidores, generalmente a intervalos semanales y quincenales, e informes trimestrales de 34 minoristas de 2015 a 2018 de un fondo de cobertura. En todas las empresas, reunieron 306 trimestres de datos en total.
Calcular las ventas diarias es un concepto bastante simple. El modelo asume que las ventas diarias de una empresa siguen siendo similares, solo disminuyendo o aumentando ligeramente de un día para otro. Matemáticamente, eso significa que los valores de ventas para días consecutivos se multiplican por algún valor constante más algún valor de ruido estadístico, que captura parte de la aleatoriedad inherente en las ventas de una empresa. Las ventas de mañana por ejemplo, igual a las ventas de hoy multiplicadas por, decir, 0,998 o 1,01, más el número estimado de ruido.
Si se proporcionan parámetros de modelo precisos para la constante diaria y el nivel de ruido, un algoritmo de inferencia estándar puede calcular esa ecuación para generar un pronóstico preciso de las ventas diarias. Pero el truco está en calcular esos parámetros.
Desenredar los números
Ahí es donde los informes trimestrales y las técnicas de probabilidad resultan útiles. En un mundo simple un informe trimestral se puede dividir por, decir, 90 días para calcular las ventas diarias (lo que implica que las ventas son aproximadamente constantes día a día). En realidad, las ventas varían de un día a otro. También, Incluir datos alternativos para ayudar a comprender cómo varían las ventas durante un trimestre complica las cosas:además de ser ruidoso, Los datos de la tarjeta de crédito comprada siempre consisten en una fracción indeterminada de las ventas totales. Todo eso hace que sea muy difícil saber exactamente cómo se tienen en cuenta los totales de la tarjeta de crédito en la estimación general de ventas.
"Eso requiere desenredar un poco los números, ", Dice Fleder." Si observamos el 1% de las ventas semanales de una empresa a través de transacciones con tarjeta de crédito, ¿cómo sabemos que es el 1 por ciento? Y, si los datos de la tarjeta de crédito son ruidosos, ¿Cómo sabes lo ruidoso que es? No tenemos acceso a la verdad básica para los totales de ventas diarios o semanales. Pero los agregados trimestrales nos ayudan a razonar sobre esos totales ".
Para hacerlo los investigadores utilizan una variación del algoritmo de inferencia estándar, llamado filtrado de Kalman o propagación de creencias, que se ha utilizado en diversas tecnologías, desde transbordadores espaciales hasta GPS para teléfonos inteligentes. El filtrado de Kalman utiliza mediciones de datos observadas a lo largo del tiempo, que contiene inexactitudes de ruido, para generar una distribución de probabilidad para variables desconocidas durante un período de tiempo designado. En el trabajo de los investigadores, eso significa estimar las posibles ventas de un solo día.
Para entrenar el modelo, la técnica primero desglosa las ventas trimestrales en un número determinado de días medidos, digamos 90, lo que permite que las ventas varíen día a día. Luego, coincide con lo observado, datos de tarjetas de crédito ruidosos a ventas diarias desconocidas. Usando los números trimestrales y alguna extrapolación, estima la fracción de las ventas totales que probablemente representan los datos de la tarjeta de crédito. Luego, calcula la fracción de las ventas observadas de cada día, nivel de ruido, y una estimación del error de qué tan bien hizo sus predicciones.
El algoritmo de inferencia conecta todos esos valores en la fórmula para predecir los totales de ventas diarios. Luego, puede sumar esos totales para obtener semanalmente, mensual, o números trimestrales. En las 34 empresas, el modelo superó un punto de referencia de consenso, que combina estimaciones de analistas de Wall Street, en el 57,2 por ciento de 306 predicciones trimestrales.
Próximo, los investigadores están diseñando el modelo para analizar una combinación de transacciones de tarjetas de crédito y otros datos alternativos, como la información de ubicación. "Esto no es todo lo que podemos hacer. Es solo un punto de partida natural, "Dice Fleder.