A estas alturas se podría pensar que podríamos decir de manera inequívoca qué causa qué. Pero la cuestión de causalidad versus correlación , que ha perseguido a la ciencia y la filosofía desde sus inicios, todavía nos persigue por numerosas razones.
Los humanos están evolutivamente predispuestos a ver patrones y psicológicamente inclinados a recopilar información que respalde puntos de vista preexistentes, un rasgo conocido como sesgo de confirmación. Confundimos coincidencia con correlación y correlación con causalidad.
La diferencia entre causalidad y correlación es que en una relación causal, un evento es directamente responsable de otro, mientras que en una correlación, dos eventos existen simultáneamente, pero su relación puede deberse a una tercera variable.
Es incorrecto decir que correlación implica causalidad. Para que A cause B, tendemos a decir que, como mínimo:
Sin embargo, tomados por sí solos, estos tres requisitos no pueden probar la causa; son, como dicen los filósofos, necesarios pero no suficientes. En cualquier caso, no todo el mundo está de acuerdo con ellos.
Hablando de filósofos, David Hume argumentó que la causalidad no existe en ningún sentido demostrable [fuente:Cook]. Karl Popper y los falsacionistas sostenían que no podemos probar una relación, sólo refutarla, lo que explica por qué los análisis estadísticos no intentan probar una correlación; en cambio, obtienen una doble negativa y refutan que los datos no estén correlacionados, un proceso conocido como rechazo de la hipótesis nula [fuente:McLeod].
Teniendo en cuenta estas consideraciones, los científicos deben diseñar y controlar cuidadosamente sus experimentos para eliminar sesgos, razonamientos circulares, profecías autocumplidas y variables de confusión. Deben respetar los requisitos y limitaciones de los métodos utilizados, extraer muestras representativas siempre que sea posible y no exagerar sus resultados.
En lugar de emprender la difícil (y tal vez imposible) tarea de establecer la causalidad, la mayoría de las investigaciones científicas se centran en la fuerza de las correlaciones. Las correlaciones pueden ser positivas o negativas, débiles o fuertes. El coeficiente de correlación estadística, que oscila entre -1 y 1, muestra la fuerza y la dirección de la correlación.
Si traza puntos de datos en un gráfico donde una variable ocupa el eje X y otra ocupa el eje Y, las variables se correlacionan si tienen una relación lineal.
Debido a que el cerebro humano tiende a buscar relaciones causales, los científicos son extremadamente cuidadosos al crear experimentos altamente controlados, pero aun así cometen errores. Aquí hay diez ejemplos que ilustran lo difícil que es identificar la causalidad.
Es complicado investigar a las personas. Reaccionan no sólo al estímulo que se estudia, sino también al experimento mismo. Hoy en día, los investigadores intentan diseñar experimentos para controlar dichos factores, pero no siempre fue así.
Tomemos como ejemplo las obras Hawthorne en Cicero, Illinois. En una serie de experimentos realizados entre 1924 y 1932, los investigadores estudiaron los efectos en la productividad de los trabajadores asociados con la alteración del entorno de la fábrica de Illinois, incluido el cambio de los niveles de luz, la limpieza del lugar y el cambio de estaciones de trabajo.
Justo cuando pensaban que habían dado con algo, notaron un problema:los aumentos observados en la productividad cayeron casi tan pronto como los investigadores abandonaron el trabajo, lo que indica que el conocimiento de los trabajadores sobre el experimento -no los cambios de los investigadores- había impulsado el aumentar. Los investigadores todavía llaman a este fenómeno el efecto Hawthorne [fuente:Obrenović].
Un concepto relacionado, el efecto John Henry, ocurre cuando los miembros de un grupo de control intentan vencer al grupo experimental acelerando sus esfuerzos. No necesitan saber nada del experimento; sólo necesitan ver a un grupo recibir nuevas herramientas o instrucción adicional. Al igual que el legendario hombre que conduce acero, quieren demostrar sus capacidades y ganarse el respeto [fuentes:Saretsky; Vogt].
Los personajes principales de la película de Tom Stoppard "Rosencrantz y Guildenstern están muertos" comienzan la película desconcertados y finalmente asustados cuando cada uno de los 157 lanzamientos consecutivos de una moneda sale cara. Las explicaciones de Guildenstern sobre este fenómeno van desde bucles temporales hasta "una espectacular reivindicación del principio de que cada moneda individual, hilada individualmente, tiene tantas probabilidades de salir cara como cruz..."
La evolución preparó a los humanos para ver patrones, y nuestra capacidad para procesar adecuadamente ese impulso parece sufrir un cortocircuito cuanto más tiempo pasamos jugando. Podemos aceptar racionalmente que eventos independientes como el lanzamiento de una moneda mantengan las mismas probabilidades sin importar cuántas veces los realices.
Pero también vemos esos eventos, de manera menos racional, como rachas, creando correlaciones mentales falsas entre eventos aleatorios. Viendo el pasado como un preludio, seguimos pensando que el próximo lanzamiento debería ser cruz.
Los estadísticos llaman a esto la falacia del jugador, también conocida como la falacia de Montecarlo, después de un ejemplo particularmente ilustrativo que ocurrió en esa famosa ciudad turística de Mónaco.
Durante el verano de 1913, los apostadores observaron con creciente asombro cómo la ruleta de un casino caía en negro 26 veces seguidas. Inflamados por la certeza de que el rojo era "debido", los apostadores siguieron tirando sus fichas. El casino ganó dinero [fuentes:Lehrer; Oppenheimer y Monin; Vogt].
Ninguna discusión sobre rachas, pensamiento mágico o causalidad falsa estaría completa sin hojear las páginas de deportes. Las temporadas deportivas estelares surgen de una interacción de factores tan misteriosa (habilidad natural, entrenamiento, confianza, el factor X ocasional) que imaginamos patrones en el rendimiento, a pesar de que los estudios rechazan repetidamente las rachas y las supersticiones sobre el "éxito" como algo más que imaginario. /P>
La creencia en rachas o depresiones implica que el éxito "causa" el éxito y el fracaso "causa" el fracaso o, quizás más razonablemente, que la variación en algún factor común, como la confianza, causa ambos. Pero estudio tras estudio no logra confirmar esto [fuente:Gilovich, et al].
Lo mismo se aplica a las supersticiones, aunque eso nunca impidió que el jugador retirado de la NBA y base de los Dallas Mavericks, Jason Terry, durmiera con los pantalones cortos de los equipos contrarios antes de cada partido, o que el centro de la NHL y jugador retirado de los Ottawa Senators, Bruce Gardiner, hundiera su palo de hockey en el agua. inodoro para romper la depresión ocasional [fuente:Exact Sports].
La crisis del segundo año también suele surgir de un primer año demasiado bueno. Las oscilaciones del rendimiento tienden a nivelarse a largo plazo, un fenómeno que los estadísticos llaman regresión hacia la media [fuente:Barnett, et al]. En los deportes, este promedio es ayudado por la oposición, que se ajusta para contrarrestar el exitoso conjunto de habilidades del nuevo jugador.
Los ensayos controlados aleatorios son el estándar de oro en estadística, pero a veces (en epidemiología, por ejemplo) consideraciones éticas y prácticas obligan a los investigadores a analizar los casos disponibles.
Desafortunadamente, estos estudios observacionales corren el riesgo de sesgos, variables ocultas y, lo peor de todo, grupos de estudio que podrían no reflejar con precisión la población. Estudiar una muestra representativa es vital; permite a los investigadores aplicar los resultados a personas fuera del estudio, como el resto de nosotros.
Un ejemplo de ello:la terapia de reemplazo hormonal (TRH) para mujeres. Más allá de tratar los síntomas asociados con la menopausia, alguna vez fue aclamado por reducir potencialmente el riesgo de enfermedad coronaria (CHD), gracias a un estudio observacional muy publicitado de 1991 [fuente:Stampfer y Colditz].
Pero estudios controlados aleatorios posteriores, incluida la Iniciativa de Salud de la Mujer a gran escala, revelaron una relación negativa, o estadísticamente insignificante, entre la TRH y la enfermedad coronaria [fuente:Lawlor, et al.].
¿Por qué la diferencia? Por un lado, las mujeres que usan TRH tienden a provenir de estratos socioeconómicos más altos y reciben una dieta y ejercicio de mejor calidad, una relación explicativa oculta que el estudio observacional no tuvo en cuenta en su totalidad [fuente:Lawlor, et al].
En 1978, el periodista y columnista deportivo Leonard Koppett se burló de la confusión entre causalidad y correlación sugiriendo irónicamente que los resultados del Super Bowl podían predecir el mercado de valores. Resultó contraproducente:no sólo la gente le creyó, sino que funcionó, con una frecuencia espantosa.
La propuesta, ahora comúnmente conocida como Indicador del Super Bowl, era la siguiente:si uno de los 16 equipos originales de la Liga Nacional de Fútbol (los que existían antes de la fusión de la NFL con la Liga de Fútbol Americano en 1966) ganara el Super Bowl, el mercado de valores aumentará durante el resto del año. Si ganara un ex equipo de la AFL, bajaría [fuente:Bonsal].
De 1967 a 1978, el sistema de Koppett funcionó 12 de 12; Hasta 1997, contaba con una tasa de éxito del 95 por ciento. Tropezó durante la era de las puntocom (1998-2001) y especialmente en 2008, cuando se produjo la Gran Recesión, a pesar de la victoria de los Gigantes de Nueva York (NFC). Aun así, en 2022, el indicador tenía una tasa de éxito del 73 por ciento [fuente:Chen].
Algunos han argumentado que el patrón existe, impulsado por la creencia; Funciona, dicen, porque los inversores creen que sí, o porque creen que otros inversores también lo creen.
Esta noción, aunque inteligente en cierto modo regresiva, difícilmente explica los 12 años de correlaciones exitosas que precedieron al artículo de Koppett. Otros argumentan que un patrón más relevante reside en la tendencia alcista a gran escala del mercado de valores, salvo algunas fluctuaciones mayores y menores a corto plazo [fuente:Johnson].
Big data, el proceso de buscar patrones en conjuntos de datos tan grandes que resisten los métodos tradicionales de análisis, genera gran revuelo en la sala de juntas [fuente:Arthur]. Pero, ¿más grande siempre es mejor?
Es una regla que se les inculca a la mayoría de los investigadores en su primera clase de estadística:cuando se encuentre con un mar de datos, resista la tentación de emprender una expedición de pesca. Con suficientes datos, paciencia y margen metodológico, las correlaciones son casi inevitables, aunque poco éticas y en gran medida inútiles.
Después de todo, la mera correlación entre dos variables no implica causalidad; ni, en muchos casos, indica una gran relación.
Por un lado, los investigadores no pueden utilizar medidas estadísticas de correlación, quieran o no; cada uno contiene ciertas suposiciones y limitaciones que las expediciones de pesca ignoran con demasiada frecuencia, por no hablar de las variables ocultas, los problemas de muestreo y los errores de interpretación que pueden arruinar un estudio mal diseñado.
Pero los big data se utilizan cada vez más y son aclamados por sus invaluables contribuciones en áreas como la creación de programas de aprendizaje personalizados; dispositivos portátiles que proporcionan información en tiempo real a sus registros médicos electrónicos; y servicios de transmisión de música que le brindan recomendaciones específicas [fuente:IntelliPaat]. Simplemente no espere demasiado del big data en el departamento de causalidad.
Cualquier cuestión relacionada con el dinero seguramente generará profundas divisiones y estará altamente politizada, y los aumentos del salario mínimo no son una excepción. Los argumentos son variados y complejos, pero esencialmente una de las partes sostiene que un salario mínimo más alto perjudica a las empresas, lo que reduce la disponibilidad de empleo, lo que perjudica a los pobres.
La otra parte responde que hay poca evidencia para esta afirmación, y que los 76 millones de estadounidenses que trabajan con un salario mínimo o por debajo de él, que según algunos no es un salario digno, se beneficiarían de tal aumento. Argumentan que el salario mínimo federal para los empleados cubiertos y no exentos ($7,25 por hora en septiembre de 2023) ha reducido el poder adquisitivo de los estadounidenses en más del 20 por ciento [fuentes:Departamento de Trabajo de EE. UU.; Cooper, et al].
Como supuestamente bromeó el crítico literario George Shaw:"Si todos los economistas fueran puestos uno al lado del otro, nunca llegarían a una conclusión", y el debate sobre el salario mínimo parece confirmarlo [fuente:Quote Investigator]. Por cada analista que dice que los aumentos del salario mínimo eliminan puestos de trabajo, hay otro que argumenta en contra de tal correlación.
Al final, ambas partes comparten un problema fundamental:a saber, la abundancia de evidencia anecdótica en la que muchos de sus parlantes confían para obtener apoyo. Las historias de segunda mano y los datos seleccionados minuciosamente no aportan nada bueno a cualquier partido, incluso cuando se presentan en bonitos gráficos de barras.
Entre aplicaciones de fitness, medicamentos y cirugías, la pérdida de peso en los Estados Unidos es una industria que genera 78 mil millones de dólares al año, y millones de estadounidenses superan el listón de la pérdida de peso anualmente [fuente:Research and Markets]. No es sorprendente que los estudios sobre la pérdida de peso (buenos, malos o feos) reciban mucha prensa en los EE. UU.
Tomemos como ejemplo la idea popular de que desayunar vence a la obesidad, una pepita cubierta de azúcar derivada de dos estudios principales:uno, un estudio controlado aleatorio de la Universidad de Vanderbilt de 1992, demostró que revertir los hábitos normales de desayuno, ya sea comiendo o no comiendo, se correlacionaba con la pérdida de peso; el otro, un estudio observacional de 2002 realizado por el Registro Nacional de Control de Peso, correlacionó el desayuno con personas que perdieron peso con éxito, lo que no es lo mismo que correlacionarlo con la pérdida de peso [fuentes:Brown, et al.; Schlundt y col.; Wyatt y otros].
Desafortunadamente, el estudio del NWCR no logró controlar otros factores ni, de hecho, establecer ninguna conexión causal a partir de su correlación. Por ejemplo, una persona que quiere perder peso podría hacer más ejercicio, desayunar o consumir proteínas enteras, pero sin un diseño experimental capaz de marcar vínculos causales, tales comportamientos no son más que características concurrentes comunes [fuente :Brown, et al].
Un problema similar afecta a los numerosos estudios que relacionan las cenas familiares con un menor riesgo de adicción a las drogas en los adolescentes. Aunque son atractivos por su estrategia simple y atractiva, estos estudios con frecuencia no logran controlar factores relacionados, como fuertes conexiones familiares o una profunda participación de los padres en la vida de un niño [fuente:Miller, et al].
A menudo escuchamos que los hombres, especialmente los jóvenes, tienen más probabilidades de suicidarse que las mujeres. En verdad, tales declaraciones participan de una generalización empírica (el acto de hacer una declaración amplia sobre un patrón común sin intentar explicarlo) y enmascaran varios factores de confusión conocidos y potenciales.
Tomemos, por ejemplo, una encuesta sobre conductas de riesgo entre jóvenes de 2021 que encontró que las niñas de los grados 9 a 12 intentaron suicidarse casi el doble que los estudiantes varones (13 por ciento frente a 7 por ciento) [fuente:Fundación Estadounidense para la Prevención del Suicidio].
¿Cómo puede entonces existir una mayor correlación entre el sexo opuesto y el suicidio? La respuesta está en los intentos de suicidio por metodología:si bien el método de suicidio más común para ambos sexos en 2020 fue con arma de fuego (57,9 por ciento para los hombres y 33,0 por ciento para las mujeres), las mujeres tenían casi la misma probabilidad de morir por envenenamiento o asfixia [fuente:Instituto Nacional de Salud Mental].
Incluso si pudiéramos eliminar esos factores de confusión, seguiría siendo un hecho que la masculinidad, per se, no es una causa. Para explicar la tendencia, necesitamos identificar factores comunes a los hombres, o al menos suicidas.
Lo mismo se aplica a las tasas comparativamente altas de suicidio entre hombres divorciados. El divorcio no hace que los hombres se suiciden; en todo caso, es más indicativo de una relación causal subyacente con factores como la inflexibilidad del rol masculino, sus redes sociales, la creciente importancia del cuidado infantil y el deseo de los hombres de controlar las relaciones [fuente:Scourfield y Evans].
Ninguna lista de correlación/causalidad estaría completa sin discutir las preocupaciones de los padres sobre la seguridad de la vacunación. Antes de que la pandemia de COVID-19 azotara el mundo en 2020, el problema principal era el temor entre algunos padres de que la vacunación contra el sarampión, las paperas y la rubéola estuviera causalmente relacionada con los trastornos del espectro autista. Esta noción fue popularizada por celebridades como Jenny McCarthy.
A pesar de que la comunidad médica desacreditó el artículo de Andrew Wakefield de 1998 que inspiró la falsedad, y a pesar de que estudios posteriores no muestran ningún vínculo causal, algunos padres siguen temerosos de una conexión con el autismo u otros peligros relacionados con las vacunas [fuentes:Park; Sifferlin; Szabo].
Luego llegó la COVID-19, que hasta la fecha ha matado a millones de personas en todo el mundo. Los científicos se apresuraron a crear una vacuna eficaz y lo consiguieron; La primera vacuna COVID-19 de EE. UU. estuvo disponible en diciembre de 2020 bajo la autorización de uso de emergencia de la FDA [fuente:FDA]. Pero también rápidamente se entrelazó con la extrema polarización de la política estadounidense y la desinformación.
Muchos padres, especialmente republicanos, temían que las vacunas no fueran seguras porque se desarrollaron muy rápidamente y porque podrían tener efectos secundarios a largo plazo aún desconocidos. También hubo temores incorrectos de que la vacuna afectara la fertilidad futura. Ahora se ha demostrado que son falsas [fuente:Kelen y Maragakis].
En enero de 2022, solo el 28 por ciento de los niños de 5 a 11 años habían recibido al menos una dosis de la vacuna, lo que decepcionó a muchos en el campo médico [fuentes:Hamel, Kates]. El número de niños vacunados está aumentando; en mayo de 2023, el 40 por ciento de los niños de 5 a 11 años habían recibido al menos la dosis completa [fuente:CDC].
Estos no son malentendidos inofensivos. A pesar de desacreditar el vínculo entre el autismo y las vacunas infantiles, muchos padres siguen desconfiando de las vacunas. En 2019, hubo 1282 casos de sarampión en 31 estados, el número más alto en los EE. UU. desde 1992. La mayoría de estos casos ocurrieron entre personas no vacunadas [fuente:CDC].
Vale la pena considerar si esa correspondencia es coincidente, correlativa o causal. Y los efectos de las actuales dudas sobre la vacunación contra el COVID-19 aún están por verse.