Estructura de dependencia total. Crédito:Björn Böttcher
En diciembre, la editorial académica De Gruyter lanzó su nueva revista Estadísticas abiertas con un artículo de apertura del Dr. Björn Böttcher, matemático de TU Dresden. El artículo presenta la extensión de la medida estadística de multivariancia de distancia desarrollada por Böttcher y sus colegas en TU Dresden.
La multivariancia de distancia es una medida de dependencia multivariante que puede detectar dependencias entre un número arbitrario de vectores aleatorios, cada uno de los cuales puede tener una dimensión distinta. En su nuevo artículo, Böttcher presenta ahora el concepto como una teoría unificadora que combina varias medidas clásicas de dependencia. Se pueden capturar conexiones entre dos o más variables de alta dimensión e incluso se pueden detectar dependencias no lineales complicadas, así como dependencias de orden superior. Para numerosas disciplinas científicas, este método abre nuevos enfoques para detectar y evaluar dependencias.
¿Se puede relacionar el número de días escolares perdidos con la edad, género u origen de los estudiantes de la escuela? En una encuesta a 146 estudiantes de escuelas, Los científicos sociales analizaron varias variables que influyen en los días escolares perdidos y las examinaron en busca de dependencias con el fin de derivar un modelo de predicción. Esta pregunta clásica ya ha sido ampliamente discutida y analizada con varios enfoques estadísticos.
La medida estadística de la multivariancia de distancia presenta un enfoque novedoso para esta pregunta:el Dr. Björn Böttcher del Instituto de Estocástica Matemática pudo usar la multivariancia de distancia para determinar el trasfondo cultural y una dependencia de orden superior, incluida la edad y el género como factores que influyen en la falta de días de colegio. Así pudo sugerir un modelo mínimo. "Este es un ejemplo elemental para una aplicación del método desarrollado. No puedo juzgar si esto también es un hallazgo fundamentado con respecto a la pregunta investigada. Trabajar con datos reales y especialmente la interpretación específica del sujeto de los resultados siempre requiere experiencia en el tema respectivo, "El Dr. Böttcher dice:y proporciona muchos otros ejemplos ilustrativos de la aplicación de su método:"En el artículo, Me refiero a más de 350 conjuntos de datos disponibles gratuitamente de todas las disciplinas científicas en los que se producen dependencias de orden superior estadísticamente significativas. De nuevo, si estas dependencias son significativas en términos de las encuestas subyacentes requiere más investigaciones, así como la experiencia en los campos respectivos, "y agrega, "por supuesto, las solicitudes de cooperación son siempre bienvenidas ".
El análisis estadístico generalmente considera las dependencias entre variables individuales. Especialmente con muchas variables, es deseable eliminar las variables independientes antes de estudiar cualquier tipo específico de dependencia. El Dr. Björn Böttcher presenta un método para este propósito llamado "detección de estructuras de dependencia, "que también se puede utilizar para detectar dependencias de orden superior. Las variables se denominan" dependientes de orden superior "si son independientes por pares, pero más de dos variables todavía se influyen entre sí de forma conjunta. Las dependencias de este tipo no han estado en el centro de las aplicaciones hasta ahora.
Algunos científicos sospechan que las dependencias de orden superior ocurren en la genética en particular:la idea básica aquí es que varios genes juntos determinan una propiedad, pero estos genes no muestran ni individualmente ninguna dependencia entre sí ni individualmente con la propiedad, por lo que, de hecho, serían dependientes de un orden superior. El marco de la multivariancia a distancia y el método de detección de estructuras de dependencia son ahora herramientas prometedoras para tales investigaciones.
Las implementaciones de los nuevos métodos se proporcionan para aplicaciones directas en el paquete "multivariance" para el entorno informático estadístico libre R.