Los valores p cuantifican la fuerza de la evidencia contra una hipótesis nula — específicamente, la probabilidad de observar un estadístico de prueba tan extremo como el tuyo (o más) si la hipótesis nula fuera verdadera. A pesar de ser uno de los conceptos estadísticos más usados en la investigación científica, los valores p también son uno de los números más malinterpretados y mal utilizados de toda la estadística, contribuyendo a la "crisis de replicación" en psicología, medicina y ciencias sociales. Las secciones a continuación cubren qué mide realmente un valor p (y qué no), cómo la excesiva dependencia de los umbrales de valor p ha impulsado el p-hacking y las prácticas de investigación cuestionables, y por qué reportar el tamaño del efecto junto con los valores p es esencial para una interpretación honesta de los resultados estadísticos.
Qué Es (y Qué No Es) un Valor p
Un valor p es la probabilidad de ver datos tan extremos como los tuyos (o más extremos) si la hipótesis nula fuera verdadera. Enfáticamente NO es la probabilidad de que la hipótesis nula sea verdadera, y esta distinción es uno de los puntos conceptuales más importantes de la estadística aplicada. Un valor p de 0.03 significa: si H₀ fuera verdadera, solo hay un 3% de probabilidad de ver un resultado tan extremo o más extremo. No dice nada directamente sobre si H₀ es realmente correcta o falsa — eso requeriría un análisis bayesiano que incorpore probabilidades previas.
Errores comunes de interpretación que debes evitar: "p = 0.03 significa que hay un 3% de probabilidad de que H₀ sea verdadera" (incorrecto, esta es la probabilidad inversa P(H₀|datos) que requiere el teorema de Bayes). "p = 0.03 significa que hay un 97% de probabilidad de que H₁ sea verdadera" (también incorrecto). "p > 0.05 significa que H₀ es probablemente verdadera" (incorrecto — la ausencia de evidencia no es evidencia de ausencia, especialmente con muestras pequeñas). La interpretación correcta es estrecha: el valor p es una afirmación sobre cuán inusuales serían tus datos si H₀ fuera verdadera. Usa los valores p para cuantificar la sorpresa bajo un modelo nulo, no para hacer afirmaciones de probabilidad sobre las hipótesis mismas.
La Crisis de Replicación y el P-Hacking
La excesiva dependencia del umbral p < 0.05 ha contribuido significativamente a la investigación irreproducible en psicología, medicina y ciencias sociales — un problema ampliamente documentado desde la crisis de replicación de la década de 2010. El "p-hacking" es la práctica de ejecutar múltiples análisis, probar varios subgrupos, intentar diferentes medidas de resultado o excluir ciertos puntos de datos hasta que algo cruce el umbral de 0.05. Esto infla las tasas de falsos positivos muy por encima del 5% nominal, lo que significa que muchos hallazgos "significativos" publicados son ruido estadístico que no se replicará en estudios de seguimiento.
Las mejores prácticas modernas incluyen preregistrar las hipótesis y los planes de análisis antes de recopilar datos (obligando a los investigadores a comprometerse con pruebas específicas en lugar de pescar después), reportar los tamaños del efecto junto con los valores p para que los lectores puedan juzgar la significancia práctica y no solo la estadística, usar intervalos de confianza para comunicar la magnitud de la incertidumbre, adoptar métodos bayesianos donde sea apropiado para la incorporación explícita de probabilidades previas, y tratar p = 0.05 como una guía aproximada en lugar de un umbral binario rígido. Algunas revistas y campos se han movido a umbrales más estrictos (p < 0.005) o requieren el preregistro para la publicación. Las herramientas del Open Science Framework apoyan el preregistro y los informes registrados que han mejorado sustancialmente las tasas de reproducibilidad en los campos participantes.
El Tamaño del Efecto Es Tan Importante Como el Valor p
Con muestras lo suficientemente grandes, casi cualquier diferencia respecto a cero se vuelve estadísticamente significativa porque los valores p se reducen a medida que crece el tamaño de la muestra, incluso cuando el efecto subyacente es minúsculo. Un valor p de 0.0001 para una d de Cohen de 0.05 significa que tienes un efecto real pero trivialmente pequeño — no vale la pena actuar sobre él a pesar de ser "altamente significativo". Los estudios de big data con millones de observaciones rutinariamente producen p < 0.001 para tamaños de efecto que son reales pero clínica o prácticamente irrelevantes. La significancia estadística no es lo mismo que la significancia práctica.
Acompaña siempre los valores p con estimaciones del tamaño del efecto (d de Cohen para diferencias de medias, r² para la fuerza de la correlación, η² o η² parcial para los tamaños del efecto en ANOVA) e intervalos de confianza para un panorama estadístico completo. Interpretación de la d de Cohen: 0.2 = efecto pequeño, 0.5 = mediano, 0.8 = grande. Una regla práctica razonable: si la d de Cohen < 0.2, el efecto es demasiado pequeño para importar en la mayoría de las decisiones del mundo real sin importar el valor p. Este filtro de "¿es prácticamente significativo?" aplicado junto con "¿es estadísticamente significativo?" produce decisiones científicas y de negocios mucho mejores que los umbrales de valor p por sí solos. Las pautas modernas de la APA, la AMA y otros organismos profesionales requieren explícitamente reportar el tamaño del efecto además de los valores p en la investigación publicada.