A p-value is the probability of observing a test statistic as extreme as (or more extreme than) the one you calculated, assuming the null hypothesis is true. It does NOT give the probability that the null hypothesis is true.

What is the difference between one-tailed and two-tailed tests?

A two-tailed test checks for a difference in either direction (H₁: μ ≠ μ₀). A one-tailed test checks in a specific direction — right-tailed (H₁: μ > μ₀) or left-tailed (H₁: μ < μ₀). Two-tailed is more conservative and most common in practice.

What does statistical power mean?

Statistical power (1−β) is the probability of correctly detecting a real effect when one exists. Power of 0.80 means an 80% chance of rejecting a false null hypothesis. Underpowered studies miss real effects. Most journals require 80% power minimum.

What is the Bonferroni correction?

When running multiple hypothesis tests, the chance of a false positive (Type I error) increases. The Bonferroni correction divides the significance threshold by the number of tests: α_adjusted = α / k. For example, running 5 tests at α=0.05 gives an adjusted threshold of 0.01 per test.

Can p > 0.05 prove the null hypothesis?

No. Failing to reject H₀ does not prove it. It means you lack sufficient evidence to reject it — often because the study was underpowered, the sample was too small, or the effect size was truly negligible. Equivalence tests are used to formally 'accept' the null.

Calculadora de Valor p | Significancia Estadística (Pruebas Z, T y F)

P-Value Range	Evidence Against H₀	Action
p > 0.10	Little or none	Fail to reject H₀
0.05 < p ≤ 0.10	Weak / marginal	Inconclusive — gather more data
0.01 < p ≤ 0.05	Moderate	Reject H₀ at 5% level
0.001 < p ≤ 0.01	Strong	Reject H₀ at 1% level
p ≤ 0.001	Very strong	Reject H₀ at 0.1% level

1

Elige Tu Tipo de Prueba

Selecciona una prueba Z de una muestra, Z de dos muestras o prueba T e ingresa el estadístico de prueba (más los grados de libertad para las pruebas T).

2

Define la Dirección de la Cola y α

Elige cola izquierda, cola derecha o dos colas según tu hipótesis alternativa y selecciona un nivel de significancia (0.05 es lo estándar).

3

Lee los Resultados

La calculadora muestra el valor p, la decisión (rechazar/no rechazar H₀), el tamaño del efecto y una curva normal en vivo con la región del valor p sombreada.

Valor p de Cola Derecha

p = P(Z ≥ z) = 1 − Φ(z)

El área en la cola derecha más allá del estadístico de prueba. Úsalo cuando H₁: μ > μ₀.

Valor p de Cola Izquierda

p = P(Z ≤ z) = Φ(z)

El área en la cola izquierda hasta el estadístico de prueba. Úsalo cuando H₁: μ < μ₀.

Valor p de Dos Colas

p = 2 × P(Z ≥ |z|) = 2 × (1 − Φ(|z|))

El doble de la probabilidad de una cola; prueba cualquier diferencia respecto a H₀ sin importar la dirección. El más común en la práctica.

Valor p La probabilidad de obtener un estadístico de prueba tan extremo como el observado, dado que H₀ es verdadera.

Hipótesis Nula (H₀) El supuesto predeterminado de que no hay efecto ni diferencia en la población.

Hipótesis Alternativa (H₁) La afirmación que se está probando; sostiene que existe un efecto o una diferencia.

Nivel de Significancia (α) El umbral por debajo del cual el valor p lleva al rechazo de H₀; comúnmente 0.05.

Error Tipo I Rechazar una hipótesis nula verdadera (falso positivo). Probabilidad = α.

Error Tipo II (β) No rechazar una hipótesis nula falsa (falso negativo). Probabilidad = 1 − potencia.

d de Cohen Tamaño del efecto estandarizado: |diferencia de medias| / DE combinada. Pequeño≈0.2, mediano≈0.5, grande≈0.8.

Potencia Estadística Probabilidad de rechazar correctamente una H₀ falsa = 1 − β. Objetivo ≥ 0.80.

📊

¿Un nuevo medicamento reduce la presión arterial?

Resultado p = 0.0316 → Significativo. Rechazar H₀. d ≈ 0.30 (efecto pequeño-mediano).

p = 0.0316 → Significativo. Rechazar H₀. d ≈ 0.30 (efecto pequeño-mediano).

💰

¿La versión B de una página de aterrizaje convierte mejor?

Resultado p = 0.0668 → No significativo. No rechazar H₀. Se necesitan más datos.

p = 0.0668 → No significativo. No rechazar H₀. Se necesitan más datos.

💼

¿Una intervención de mindfulness reduce la ansiedad? (Prueba T)

Resultado p ≈ 0.017 → Significativo. Rechazar H₀. Se usó la distribución t exacta.

p ≈ 0.017 → Significativo. Rechazar H₀. Se usó la distribución t exacta.

Los valores p cuantifican la fuerza de la evidencia contra una hipótesis nula — específicamente, la probabilidad de observar un estadístico de prueba tan extremo como el tuyo (o más) si la hipótesis nula fuera verdadera. A pesar de ser uno de los conceptos estadísticos más usados en la investigación científica, los valores p también son uno de los números más malinterpretados y mal utilizados de toda la estadística, contribuyendo a la "crisis de replicación" en psicología, medicina y ciencias sociales. Las secciones a continuación cubren qué mide realmente un valor p (y qué no), cómo la excesiva dependencia de los umbrales de valor p ha impulsado el p-hacking y las prácticas de investigación cuestionables, y por qué reportar el tamaño del efecto junto con los valores p es esencial para una interpretación honesta de los resultados estadísticos.

Qué Es (y Qué No Es) un Valor p

Un valor p es la probabilidad de ver datos tan extremos como los tuyos (o más extremos) si la hipótesis nula fuera verdadera. Enfáticamente NO es la probabilidad de que la hipótesis nula sea verdadera, y esta distinción es uno de los puntos conceptuales más importantes de la estadística aplicada. Un valor p de 0.03 significa: si H₀ fuera verdadera, solo hay un 3% de probabilidad de ver un resultado tan extremo o más extremo. No dice nada directamente sobre si H₀ es realmente correcta o falsa — eso requeriría un análisis bayesiano que incorpore probabilidades previas.

Errores comunes de interpretación que debes evitar: "p = 0.03 significa que hay un 3% de probabilidad de que H₀ sea verdadera" (incorrecto, esta es la probabilidad inversa P(H₀|datos) que requiere el teorema de Bayes). "p = 0.03 significa que hay un 97% de probabilidad de que H₁ sea verdadera" (también incorrecto). "p > 0.05 significa que H₀ es probablemente verdadera" (incorrecto — la ausencia de evidencia no es evidencia de ausencia, especialmente con muestras pequeñas). La interpretación correcta es estrecha: el valor p es una afirmación sobre cuán inusuales serían tus datos si H₀ fuera verdadera. Usa los valores p para cuantificar la sorpresa bajo un modelo nulo, no para hacer afirmaciones de probabilidad sobre las hipótesis mismas.

La Crisis de Replicación y el P-Hacking

La excesiva dependencia del umbral p < 0.05 ha contribuido significativamente a la investigación irreproducible en psicología, medicina y ciencias sociales — un problema ampliamente documentado desde la crisis de replicación de la década de 2010. El "p-hacking" es la práctica de ejecutar múltiples análisis, probar varios subgrupos, intentar diferentes medidas de resultado o excluir ciertos puntos de datos hasta que algo cruce el umbral de 0.05. Esto infla las tasas de falsos positivos muy por encima del 5% nominal, lo que significa que muchos hallazgos "significativos" publicados son ruido estadístico que no se replicará en estudios de seguimiento.

Las mejores prácticas modernas incluyen preregistrar las hipótesis y los planes de análisis antes de recopilar datos (obligando a los investigadores a comprometerse con pruebas específicas en lugar de pescar después), reportar los tamaños del efecto junto con los valores p para que los lectores puedan juzgar la significancia práctica y no solo la estadística, usar intervalos de confianza para comunicar la magnitud de la incertidumbre, adoptar métodos bayesianos donde sea apropiado para la incorporación explícita de probabilidades previas, y tratar p = 0.05 como una guía aproximada en lugar de un umbral binario rígido. Algunas revistas y campos se han movido a umbrales más estrictos (p < 0.005) o requieren el preregistro para la publicación. Las herramientas del Open Science Framework apoyan el preregistro y los informes registrados que han mejorado sustancialmente las tasas de reproducibilidad en los campos participantes.

El Tamaño del Efecto Es Tan Importante Como el Valor p

Con muestras lo suficientemente grandes, casi cualquier diferencia respecto a cero se vuelve estadísticamente significativa porque los valores p se reducen a medida que crece el tamaño de la muestra, incluso cuando el efecto subyacente es minúsculo. Un valor p de 0.0001 para una d de Cohen de 0.05 significa que tienes un efecto real pero trivialmente pequeño — no vale la pena actuar sobre él a pesar de ser "altamente significativo". Los estudios de big data con millones de observaciones rutinariamente producen p < 0.001 para tamaños de efecto que son reales pero clínica o prácticamente irrelevantes. La significancia estadística no es lo mismo que la significancia práctica.

Acompaña siempre los valores p con estimaciones del tamaño del efecto (d de Cohen para diferencias de medias, r² para la fuerza de la correlación, η² o η² parcial para los tamaños del efecto en ANOVA) e intervalos de confianza para un panorama estadístico completo. Interpretación de la d de Cohen: 0.2 = efecto pequeño, 0.5 = mediano, 0.8 = grande. Una regla práctica razonable: si la d de Cohen < 0.2, el efecto es demasiado pequeño para importar en la mayoría de las decisiones del mundo real sin importar el valor p. Este filtro de "¿es prácticamente significativo?" aplicado junto con "¿es estadísticamente significativo?" produce decisiones científicas y de negocios mucho mejores que los umbrales de valor p por sí solos. Las pautas modernas de la APA, la AMA y otros organismos profesionales requieren explícitamente reportar el tamaño del efecto además de los valores p en la investigación publicada.

¿Qué es un valor p?+

Un valor p es la probabilidad de observar un estadístico de prueba tan extremo como el tuyo (o más extremo), dado que la hipótesis nula es verdadera. NO te dice la probabilidad de que la hipótesis nula sea correcta — esa es una confusión común e importante.

¿Cuándo debería usar una prueba de una cola frente a una de dos colas?+

Usa una prueba de dos colas cuando estás probando cualquier diferencia sin importar la dirección (H₁: μ ≠ μ₀) — esta es la opción más común y conservadora. Usa una prueba de una cola solo cuando tengas una hipótesis direccional fuerte preespecificada (por ejemplo, H₁: μ > μ₀) antes de ver los datos.

¿Cuál es la diferencia entre una prueba Z y una prueba T?+

Una prueba Z se usa cuando se conoce la desviación estándar de la población o cuando los tamaños de muestra son grandes (n > 30). Una prueba T se usa cuando la DE de la población es desconocida y debe estimarse a partir de los datos — que es casi siempre el caso en la práctica.

¿Puede p > 0.05 probar la hipótesis nula?+

No. Un valor p grande significa que careces de evidencia suficiente para rechazar H₀ — no que H₀ esté probada como verdadera. El estudio puede haber tenido poca potencia (n demasiado pequeño), o el efecto puede ser real pero más pequeño de lo detectable. Las pruebas de equivalencia (TOST) o los métodos bayesianos son necesarios para apoyar formalmente la nula.

¿Qué es la corrección de Bonferroni y cuándo debería usarla?+

Cuando ejecutas múltiples pruebas de hipótesis con α=0.05, la probabilidad de al menos un falso positivo crece rápidamente — con 20 pruebas independientes, esperarías un falso positivo por puro azar. La corrección de Bonferroni fija el umbral en α/k (por ejemplo, 0.05/5 = 0.01 para 5 pruebas) para controlar la tasa de error por familia.

¿Cómo interpreto la potencia estadística?+

La potencia (1−β) es la probabilidad de detectar correctamente un efecto real. Una potencia de 0.80 significa un 80% de probabilidad de un resultado significativo si el efecto es real. Los estudios con poca potencia a menudo no se replican. Usa la pestaña de Análisis de Potencia para determinar el tamaño de muestra requerido para tu tamaño de efecto esperado antes de recopilar datos.

¿Qué es la d de Cohen y cómo la interpreto?+

La d de Cohen es un tamaño del efecto estandarizado calculado como d = |μ₁ − μ₂| / σ_pooled, que produce un número sin unidades comparable entre estudios. Reglas prácticas: d ≈ 0.2 es pequeño, d ≈ 0.5 es mediano, d ≈ 0.8 es grande.

¿Qué es un valor crítico?+

El valor crítico es el umbral que tu estadístico de prueba debe superar para rechazar H₀ a un α dado. Para una prueba z de dos colas con α=0.05, los valores críticos son ±1.96. Si |z| > 1.96, rechazas H₀. De forma equivalente, p < α ⟺ |z| > z_crítico.

Calculadora de Valor p

Test Setup

Z-Score to P-Value Reference Table

T-Distribution Critical Values

Chi-Square Critical Values

F-Distribution Critical Values (d₂=20)

P-Value Decision Guide

Multiple Comparisons — Bonferroni Correction

Power Calculator

Power vs Sample Size

Rigorous Academic Verification

Cómo usar esta calculadora

Elige Tu Tipo de Prueba

Define la Dirección de la Cola y α

Lee los Resultados

Fórmula y metodología

Términos clave explicados

Ejemplos del mundo real

¿Un nuevo medicamento reduce la presión arterial?

¿La versión B de una página de aterrizaje convierte mejor?

¿Una intervención de mindfulness reduce la ansiedad? (Prueba T)

Valores p: Interpretando la Significancia Estadística

Qué Es (y Qué No Es) un Valor p

La Crisis de Replicación y el P-Hacking

El Tamaño del Efecto Es Tan Importante Como el Valor p

Preguntas frecuentes

Calculadora de Valor p

Test Setup

Z-Score to P-Value Reference Table

T-Distribution Critical Values

Chi-Square Critical Values

F-Distribution Critical Values (d₂=20)

P-Value Decision Guide

Multiple Comparisons — Bonferroni Correction

Power Calculator

Power vs Sample Size

Rigorous Academic Verification

Cómo usar esta calculadora

Elige Tu Tipo de Prueba

Define la Dirección de la Cola y α

Lee los Resultados

Fórmula y metodología

Términos clave explicados

Ejemplos del mundo real

Valores p: Interpretando la Significancia Estadística

Qué Es (y Qué No Es) un Valor p

La Crisis de Replicación y el P-Hacking

El Tamaño del Efecto Es Tan Importante Como el Valor p

Preguntas frecuentes

Sigue explorando

Calculadoras relacionadas

Guías y artículos