A estas alturas, pensarías que podríamos decir inequívocamente qué causa qué. Pero la cuestión de la causa que ha perseguido a la ciencia y la filosofía desde sus primeros días, todavía nos persigue por numerosas razones. Los seres humanos están evolutivamente predispuestos a ver patrones y psicológicamente inclinados a recopilar información que respalde puntos de vista preexistentes. un rasgo conocido como sesgo de confirmación . Confundimos coincidencia con correlación y correlación con causalidad.
Para que A cause B, tendemos a decir eso, como mínimo, A debe preceder a B, los dos deben covariar (variar juntos), y ninguna explicación competitiva puede explicar mejor la covarianza de A y B. Tomada sola, sin embargo, estos tres requisitos no pueden probar la causa; son, como dicen los filósofos, necesario pero no suficiente. En todo caso, no todo el mundo está de acuerdo con ellos.
Hablando de filósofos, David Hume argumentó que la causalidad no existe en ningún sentido demostrable. Karl Popper y los falsificacionistas mantuvieron que no podemos probar una relación, solo refutarlo, lo que explica por qué los análisis estadísticos no intentan probar una correlación; en lugar de, Sacan un doble negativo y refutan que los datos no están correlacionados, un proceso conocido como rechazando la hipótesis nula .
Con tales consideraciones en mente, Los científicos deben diseñar y controlar cuidadosamente sus experimentos para eliminar los sesgos, razonamiento circular, profecías autocumplidas y variables ocultas. Deben respetar los requisitos y limitaciones de los métodos utilizados, extraer de muestras representativas cuando sea posible, y no exagerar sus resultados.
¿Estás listo para leer sobre 10 casos en los que eso no fue tan fácil?
La gente es un fastidio para investigar. Reaccionan no solo al estímulo que está estudiando, sino también al experimento en sí. Los investigadores de hoy intentan diseñar experimentos para controlar tales factores, pero no siempre fue así.
Tome las obras de Hawthorne en Cicero, Ill. En una serie de experimentos de 1924-1932, Los investigadores estudiaron los efectos en la productividad de los trabajadores asociados con la alteración del medio ambiente de la fábrica de Illinois, incluidos los niveles cambiantes de luz, ordenar el lugar y mover las estaciones de trabajo. Justo cuando pensaban que estaban en algo, notaron un problema:los aumentos observados en la productividad disminuyeron casi tan pronto como los investigadores dejaron los trabajos, indicando que el conocimiento de los trabajadores del experimento, no los cambios de los investigadores, había alimentado el impulso. Los investigadores todavía llaman a este fenómeno el Efecto Hawthorne .
Un concepto relacionado, los Efecto John Henry , ocurre cuando los miembros de un grupo de control intentan vencer al grupo experimental poniendo sus esfuerzos a toda marcha. No necesitan saber sobre el experimento; solo necesitan que un grupo reciba nuevas herramientas o instrucción adicional. Como el hombre legendario que maneja el acero, quieren demostrar sus capacidades y ganarse el respeto [fuentes:Saretsky; Vogt].
Los personajes principales de la película de Tom Stoppard "Rosencrantz and Guildenstern Are Dead" comienzan la película desconcertados, confundido y finalmente asustado cuando cada uno de los 157 lanzamientos consecutivos de una moneda sale cara. Las explicaciones de Guildenstern de este fenómeno van desde ciclos de tiempo hasta "una reivindicación espectacular del principio de que cada moneda individual, hilado individualmente, es tan probable que baje cara como cruz ... "
La evolución conectó a los humanos para ver patrones, y nuestra capacidad para procesar adecuadamente ese impulso parece fallar cuanto más tiempo pasamos jugando. Podemos aceptar racionalmente que los eventos independientes como el lanzamiento de una moneda mantienen las mismas probabilidades sin importar cuántas veces los realice. Pero también vemos esos eventos, menos racionalmente, como rayas, hacer correlaciones mentales falsas entre eventos aleatorios. Viendo el pasado como preludio, seguimos pensando que el próximo lanzamiento debería ser cruz.
Los estadísticos llaman a esto el falacia del jugador , también conocido como el Falacia de Montecarlo , después de un ejemplo particularmente ilustrativo ocurrido en esa famosa ciudad turística de Mónaco. Durante el verano de 1913, los apostantes observaron con creciente asombro cómo la rueda de la ruleta de un casino aterrizaba en negro 26 veces seguidas. Inflamado por la certeza de que el rojo era "debido, "los apostadores siguieron tirando sus fichas. El casino hizo una menta [fuentes:Lehrer; Oppenheimer y Monin; Vogt].
Sin discusión de rachas, El pensamiento mágico o la falsa causalidad estarían completos sin una ojeada a las páginas de deportes. Las temporadas deportivas estelares surgen de una interacción tan misteriosa de factores:capacidad natural, capacitación, confianza, el factor X ocasional:que imaginamos patrones de rendimiento, a pesar de que los estudios rechazan repetidamente los disparos en racha y las supersticiones "exitosas" como algo más que imaginario.
La creencia en rachas o depresiones implica que el éxito "causa" el éxito y el fracaso "causa" el fracaso o, quizás más razonablemente, esa variación en algún factor común, como la confianza, causa ambos. Pero estudio tras estudio no logra confirmar esto [fuentes:Gilovich et al .; Tversky y Gilovich]. Lo mismo ocurre con las supersticiones, aunque eso no impidió que Kevin Rhomberg de los Indios de Cleveland se negara a girar a la derecha mientras estaba en el campo, o evitar que el centro de los Senadores de Ottawa, Bruce Gardiner, meta su palo de hockey en el inodoro para romper la caída ocasional [fuente:Trex].
La depresión de los estudiantes de segundo año, también, normalmente surge de un primer año demasiado bueno. Los cambios de rendimiento tienden a equilibrarse a largo plazo, un fenómeno que los estadísticos llaman regresión hacia la media . En deportes, este promedio es ayudado por la oposición, que se ajusta para contrarrestar el conjunto de habilidades exitosas del nuevo jugador.
Los ensayos controlados aleatorios son el estándar de oro en estadística, pero a veces, en epidemiología, por ejemplo, las consideraciones éticas y prácticas obligan a los investigadores a analizar los casos disponibles. Desafortunadamente, tal estudios observacionales sesgo de riesgo, variables ocultas y, lo peor de todo, un grupo de estudio que podría no reflejar la población en su conjunto. Estudiar una muestra representativa es vital; permite a los investigadores aplicar los resultados a personas ajenas al estudio, Al igual que el resto de nosotros.
Un ejemplo:la terapia de reemplazo hormonal (TRH). Más allá de tratar los síntomas asociados con la menopausia, una vez fue aclamado por reducir potencialmente el riesgo de enfermedad coronaria (CHD), gracias a un estudio observacional de 1991 muy publicitado [fuente:Stampfer y Colditz]. Pero estudios controlados aleatorios posteriores, incluida la Iniciativa de salud de la mujer a gran escala, reveló una relación negativa, o uno estadísticamente insignificante, entre HRT y CHD [fuentes:Lawlor et al .; New York Times].
¿Por qué la diferencia? Por una cosa, las mujeres que usan THS tienden a provenir de estratos socioeconómicos más altos y reciben una mejor calidad de dieta y ejercicio, una relación explicativa oculta que el estudio observacional no tuvo en cuenta por completo [fuente:Lawlor et al.].
En 1978, El periodista y columnista deportivo Leonard Koppett se burló de la confusión causal-correlación al sugerir irónicamente que los resultados del Super Bowl podrían predecir el mercado de valores. Fue contraproducente:la gente no solo le creyó, pero funcionó, con espantosa frecuencia.
La propuesta era la siguiente:si uno de los 16 equipos originales de la Liga Nacional de Fútbol, los que existían antes de la fusión de la NFL en 1966 con la Liga de Fútbol Americano, ganaba el Super Bowl, el mercado de valores cerraría más alto que el año siguiente que el 31 de diciembre anterior. Si ganara un ex equipo de la AFL, bajaría [fuentes:Koppett; Koppett; Koppett; Koppett; Zweig].
De 1967 a 1978, El sistema de Koppett fue de 12 por 12; hasta 1997, se jactó de una tasa de éxito del 95 por ciento. Tropezó en 1998 y 1999, cuando los exalumnos de la AFL, los Denver Broncos, ganaron y el mercado subió [fuentes:Koppett; Koppett; Koppett; Koppett].
Algunos han argumentado que el patrón existe, impulsado por la fe; funciona, ellos dicen, porque los inversores creen que sí, o porque creen que otros inversores lo creen. Esta noción aunque inteligente de una manera regresiva, difícilmente explica los 12 años de correlaciones exitosas anteriores al artículo de Koppett. Otros argumentan que un patrón más relevante radica en la tendencia alcista a gran escala del mercado de valores, salvo algunas fluctuaciones mayores y menores a corto plazo, y el hecho de que un equipo original de la NFL ganó todos los Super Bowl desde 1984 hasta 1998 [fuente:Norris].
Big data, el proceso de buscar patrones en conjuntos de datos tan grandes que resisten los métodos tradicionales de análisis, genera un gran revuelo en la sala de juntas en estos días [fuente:Arthur]. ¿Pero más grande siempre es mejor?
Es una regla que se le ha impuesto a la mayoría de los investigadores en su primera clase de estadísticas:cuando se encuentra con un mar de datos, resistir la tentación de ir a un expedicion de pesca . Con suficientes datos, paciencia y libertad metodológica, las correlaciones son casi inevitables, si es poco ético y en gran medida inútil.
Después de todo, la mera correlación entre dos variables no implica causalidad; ni lo hace, en muchos casos, señalan gran parte de una relación. Por una cosa, los investigadores no pueden utilizar medidas estadísticas de correlación a voluntad; cada uno contiene ciertas suposiciones y limitaciones que las expediciones de pesca ignoran con demasiada frecuencia, por no hablar de las variables ocultas, problemas de muestreo y fallas en la interpretación que pueden arruinar un estudio mal diseñado.
Otorgado, Big Data tiene sus usos. El control de inventario prospera al descubrir patrones de compra, por misteriosas que sean sus causas subyacentes. Para tomar un ejemplo un tanto espeluznante, Target ha utilizado patrones de compra para identificar a las clientas embarazadas y luego enviarles cupones específicos [fuentes:Duhigg; Cerro; Taylor]. Así que disfrute de esa tarjeta de recompensas, y un 10 por ciento de descuento en sus vitaminas prenatales, pero no espere demasiado de los grandes datos en el departamento de causalidad.
Cualquier problema relacionado con el dinero está destinado a ser profundamente divisivo y altamente politizado. y los aumentos del salario mínimo no son una excepción. Los argumentos son variados y complejos, pero esencialmente una parte sostiene que un salario mínimo más alto perjudica a las empresas, lo que reduce la disponibilidad de trabajos, que lastima a los pobres. El otro lado responde que hay poca evidencia para esta afirmación, y que los 3,6 millones de estadounidenses que trabajan con un salario mínimo o menos, que algunos argumentan no es un salario digno, se beneficiaría de tal aumento. Argumentan que, ajustado por inflación, el salario mínimo federal ($ 7.25 por hora en diciembre de 2013) se ha deslizado cuesta abajo durante los últimos 40 años [fuentes:Oficina de Estadísticas Laborales; Irwin].
Como se dice que George Bernard Shaw bromeó, "Si todos los economistas se pusieran de punta a punta, nunca llegarían a una conclusión, "y el debate sobre el salario mínimo parece confirmarlo [fuente:Ridgers. Por cada analista que dice que los aumentos del salario mínimo ahuyentan puestos de trabajo, hay otro que argumenta en contra de tal correlación [fuentes:Baskaya y Rubinstein; Card y Krueger]".
En el final, ambas partes comparten un problema fundamental, a saber, la abundancia de evidencia anecdótica en la que muchos de sus cabezas parlantes se apoyan. Las historias de segunda mano y los datos seleccionados hacen que el té sea débil en cualquier fiesta, incluso cuando se presenta en bonitos gráficos de barras.
Entre libros drogas y cirugías, la pérdida de peso en los Estados Unidos es una industria de $ 20 mil millones por año, con 108 millones de estadounidenses superando la barra de la pérdida de peso cada año [fuente:ABC News]. No es sorprendente, estudios de pérdida de peso - bueno, malo o feo:obtenga mucha prensa en los EE. UU.
Tomemos la idea popular de que desayunar es mejor que la obesidad, una pepita helada de azúcar derivada de dos estudios principales:uno, un estudio controlado aleatorio de la Universidad de Vanderbilt de 1992, mostró que revertir los hábitos normales de desayuno, ya sea comiendo o no comiendo, correlacionado con la pérdida de peso; el otro, un estudio observacional de 2002 realizado por el Registro Nacional de Control de Peso, correlacionó el desayuno con los adelgazantes exitosos, que no es lo mismo que correlacionarlo con la pérdida de peso [fuentes:Brown et al .; O'Connor; Schlundt et al .; Wyatt y col.].
Desafortunadamente, el estudio de NWCR no pudo controlar otros factores - o, Por supuesto, establecer cualquier conexión causal a partir de su correlación. Por ejemplo, una persona que quiere perder peso puede hacer más ejercicio, o desayunar, o opte por la proteína de cerdo entera, pero sin un diseño experimental capaz de marcar vínculos causales, tales comportamientos equivalen a nada más que características comúnmente coexistentes [fuentes:Brown et al .; O'Connor].
Un problema similar afecta a los numerosos estudios que relacionan las cenas familiares con un menor riesgo de adicción a las drogas para los adolescentes. Aunque atractivo por su sencillez, estrategia atractiva, Estos estudios con frecuencia no controlan los factores relacionados, como fuertes conexiones familiares o una profunda participación de los padres en la vida de un niño [fuente:Bialik].
A menudo escuchamos hablar de que los hombres, especialmente los hombres jóvenes, tienen más probabilidades de suicidarse que las mujeres. En verdad, tales declaraciones participan de generalización empírica - el acto de hacer una declaración amplia sobre un patrón común sin intentar explicarlo - y enmascarar una serie de factores de confusión conocidos y potenciales.
Llevar, por ejemplo, el hecho de que las mujeres hacen tres veces más intentos de suicidio que los hombres. Entonces, ¿cómo puede existir una mayor correlación entre el sexo opuesto y el suicidio? La respuesta está en la tasa de éxito, influenciado por diferencias en la metodología:las mujeres recurren a las píldoras, mientras que los hombres tienden a favorecer las armas [fuente:O'Connell].
Incluso si pudiéramos deshacernos de tales factores de confusión, el hecho seguiría siendo que la masculinidad, per se, no es una causa. Para explicar la tendencia, en su lugar, debemos identificar los factores comunes a los hombres, o al menos suicidas. El mismo punto se aplica a las tasas comparativamente altas de suicidio reportadas entre hombres divorciados. El divorcio no hace que los hombres se suiciden; si algo, la variable causal se esconde entre factores relacionados, como el aislamiento, depresión, una sensación de impotencia, estrés financiero o pérdida de custodia [fuentes:Kposowa; Kposowa; Reuters].
Ninguna lista de correlaciones / causas estaría completa sin discutir las preocupaciones de los padres sobre la seguridad de la vacunación, arraigado en la idea, popularizado por celebridades como Jenny McCarthy, que el sarampión, Las vacunas contra las paperas y la rubéola (MMR) están relacionadas causalmente con los trastornos del espectro autista. A pesar de que la comunidad médica desacreditó el artículo de Andrew Wakefield de 1998 que inspiró la idea, y a pesar de que los estudios posteriores no muestran ningún vínculo causal, incluso con múltiples vacunas, algunos padres siguen temerosos de una conexión con el autismo u otros peligros relacionados con las vacunas [fuentes:The Lancet; Parque; Sifferlin; Szabo].
Si bien es cierto que ninguna vacuna es 100% inofensiva, la creencia en este vínculo causal surge principalmente de la preocupación natural de los padres, agobiado por la confusión, alimentado por evidencia anecdótica e influenciado por sesgo de confirmación , o "si no lo hubiera creído, no lo habría visto". Lo que alimenta aún más la confusión es el hecho de que los padres y los médicos tienden a reconocer los síntomas del autismo tarde, alrededor de las edades en las que los niños reciben muchas vacunas. En la actualidad, El inicio del autismo es bastante complejo y sigue más de un patrón. En efecto, Los estudios ahora muestran que el inicio puede comenzar a los 6-12 meses [fuentes:CDC; Johnson y Schultz; Mandell y col .; NIH; Ozonoff y col.].
No es un malentendido inofensivo. En 2011, La revista Time informó que el 13 por ciento de los padres omitieron, retrasó o dividió las vacunas de sus hijos; en algunas zonas rurales, ese número se disparó entre el 20 y el 50 por ciento. Mientras tanto, 15 años después de que comenzara este pánico, Los centros médicos informaron sobre brotes de tos ferina y sarampión. Si esa correspondencia es una coincidencia, bien vale la pena considerar correlativo o causal [fuentes:O'Connor; Parque; Parque].
Publicado originalmente:23 de diciembre de 2013
Por mucho que aborrezco el diseño experimental deficiente, confianza ciega en estadísticas y reportajes científicos sensacionalistas, Vale la pena mencionar que las fuertes correlaciones aunque no es suficiente para probar la causa, a menudo señalan áreas que vale la pena investigar. Claramente, por "correlaciones" no me refiero a autocorrelaciones, variables de confusión u otros artefactos de mal diseño o requisitos y limitaciones metodológicos mal entendidos; sin embargo, tal vez Internet pueda dejar de usar el eslogan "la correlación no implica causalidad" por un momento, o al menos volverse un poco más selectivo en su aplicación.