No basta con tener datos al alcance de la mano; los científicos de datos deben saber cómo aplicarlos. Crédito:Gorodenkoff / Shutterstock
El mundo está inundado de datos. Hay un tsunami virtual de datos que se mueven por todo el mundo, renovándose diariamente. Tomemos solo los mercados financieros globales. Generan grandes cantidades de datos:precios de las acciones, precios de las materias primas, índices, precios de opciones y futuros, por nombrar unos cuantos.
Pero los datos no sirven de nada si no hay personas que puedan recopilarlos, cotejar, analizarlo y aplicarlo en beneficio de la sociedad. Todos esos datos generados por los mercados financieros globales se utilizan para la gestión de activos y patrimonios, y deben analizarse y comprenderse adecuadamente para informar una buena toma de decisiones. Ahí es donde entra la ciencia de datos.
El objetivo principal de la ciencia de datos es extraer información de los datos en diversas formas, tanto estructurados como no estructurados. Es un campo multidisciplinario, involucrando todo, desde matemáticas aplicadas hasta estadística e inteligencia artificial hasta aprendizaje automático. Y está creciendo. Esto se debe a los avances en la tecnología informática y la velocidad de procesamiento, el costo relativamente bajo para almacenar datos, y la disponibilidad masiva de datos de Internet y otras fuentes como los mercados financieros globales.
Para que suceda la ciencia de datos, por supuesto, necesita científicos de datos. Dado que la ciencia de datos tiene un alcance tan amplio, ser un científico de datos cubre una variedad de profesiones. Estos incluyen estadísticos, investigadores de operaciones, ingenieros científicos de la computación, actuarios, físicos y aprendices de máquinas.
Esta variedad no es necesariamente algo malo. Desde mi propia experiencia práctica, Aprendí rápidamente que al resolver problemas de ciencia de datos, necesitas una variedad de personas. Algunos pueden trabajar en profundidad en la teoría y otros pueden explorar el área de aplicación.
Pero, ¿cómo se debe capacitar a estos científicos de datos para que estén preparados para los desafíos de big data que se avecinan?
Los científicos de datos suelen utilizar técnicas matemáticas innovadoras de sus propios subcampos para intentar resolver problemas en un área de aplicación particular. Las áreas de aplicación:finanzas, salud, la agricultura y la astronomía son solo algunos ejemplos, son muy diferentes. Esto significa que cada uno plantea diferentes problemas, por lo que los científicos de datos necesitan conocimientos sobre el área de aplicación en particular.
Por ejemplo, considere la astrofísica y la matriz de kilómetros cuadrados que se están construyendo en el extremo sur de África. Será el radiotelescopio más grande del mundo cuando se complete a mediados de la década de 2020. Se dice que la matriz de telescopios recibe datos a un terabyte por segundo y los investigadores suelen estar interesados en analizar las masas de datos para detectar pequeñas señales envueltas en ruido blanco.
En finanzas, Los investigadores explotan grandes bases de datos de manera muy diferente:por ejemplo, para aprender más sobre el comportamiento crediticio de sus clientes.
Los subcampos más establecidos de la ciencia de datos son la estadística y la investigación de operaciones, y podría valer la pena aprender de los programas de formación establecidos en estos campos. ¿Las universidades están formando suficientes graduados en estos campos? ¿Y ese entrenamiento es lo suficientemente bueno?
Aunque los estudiantes en estos campos están bien capacitados académicamente, muchos graduados en estadística e investigación operativa carecen de conocimientos sobre los campos en los que se espera que apliquen las técnicas matemáticas. También tienden a luchar con habilidades de resolución de problemas del mundo real, además de carecer de habilidades en programación numérica y manejo de datos. Esto se debe a que esas habilidades no se abordan adecuadamente en muchos planes de estudio.
Entonces, basándose en estas fallas y las lecciones de los subcampos de ciencia de datos establecidos, ¿Qué deberían enseñar las universidades a los aspirantes a científicos de datos? Aquí está mi lista.
Esta lista podría ampliarse a nivel de posgrado. Y, ya sea a nivel de pregrado o posgrado, todos estos cursos deben tener un elemento práctico. Esto permite que los estudiantes desarrollen tanto profesionalismo como habilidades para la resolución de problemas.
Por ejemplo, en el Centro de Matemáticas e Informática Empresarial de la Universidad Noroeste de Sudáfrica, mis colegas y yo hemos organizado un programa de formación profesional que ve a los estudiantes trabajando durante seis meses en una empresa cliente para resolver un problema específico de la industria. Estos problemas se encuentran principalmente en el ámbito financiero; por ejemplo, modelos para predecir la capacidad y la voluntad de pago de un cliente, modelos de mejora de cobros y modelos de identificación de fraudes.
Esto ayuda a los estudiantes a desarrollar las habilidades necesarias para funcionar en el mundo laboral, manejar datos reales y aplicarlos a problemas reales en lugar de trabajar a un nivel teórico. También, como colega y he argumentado en investigaciones anteriores, ayuda a cerrar la brecha entre la academia y la industria y, por lo tanto, hace que la ciencia de datos sea más relevante. Los programas de BMI han sido reconocidos y elogiados por expertos internacionales.
Ciencia de los datos, como un campo, solo crecerá en las próximas décadas. Es imperativo que las universidades capaciten a graduados que puedan manejar enormes tramos de datos, trabaje en estrecha colaboración con las industrias que producen y aplican estos datos, y haga de los datos algo que pueda cambiar el mundo para mejor.
Este artículo se ha vuelto a publicar de The Conversation con una licencia de Creative Commons. Lea el artículo original.