Ingresa ambas variantes

En la pestaña de Significancia, ingresa los visitantes y conversiones del Control (A) y la Variante (B). Elige el nivel de confianza (95% es el valor por defecto en marketing) y selecciona dos colas (la Variante podría ganar o perder) o una cola (solo te interesa si la Variante gana).

2

Lee el veredicto

La tarjeta de resultados devuelve un veredicto (Significativo / No significativo), el valor p, el puntaje z y el intervalo de confianza para la diferencia en las tasas de conversión. El gráfico sombreado muestra dónde cae tu puntaje z en relación con la región de rechazo para la confianza elegida.

3

Planifica pruebas futuras

Usa el Planificador de Tamaño de Muestra para saber cuántos visitantes por variante necesitas para detectar de forma confiable una mejora determinada; luego la pestaña de Duración de la Prueba traduce ese tamaño de muestra en la cantidad de días según tu nivel de tráfico actual (división 50/50).

Test z agrupado de dos proporciones

z = (p2 − p1) / sqrt( p̄(1−p̄) · (1/n1 + 1/n2) )

p1 y p2 son las tasas de conversión del control y la variante, n1 y n2 son los conteos de visitantes, y p̄ = (conversions1 + conversions2) / (n1 + n2) es la tasa agrupada bajo la hipótesis nula de que ambas variantes comparten la misma tasa verdadera.

Valor p a partir de la normal estándar

p = 2 · (1 − Φ(|z|)) (two-tailed) or p = 1 − Φ(z) (one-tailed)

Φ es la función de distribución acumulada (CDF) de la normal estándar. La aproximamos con Abramowitz & Stegun 7.1.26 (error máximo 1.5e-7) y usamos la aproximación racional de Acklam para la CDF inversa empleada en los cálculos de valor crítico y tamaño de muestra.

Tamaño de muestra requerido por variante

n = (z_α + z_β)² · 2 · p̄ · (1 − p̄) / (p2 − p1)²

z_α es el valor crítico para la confianza elegida (1.96 para 95% a dos colas) y z_β es el valor crítico para la potencia elegida (0.84 para 80%). p̄ es el promedio de las tasas de conversión base y objetivo; el objetivo es igual a la base × (1 + MDE).

Valor P La probabilidad de observar una diferencia al menos tan grande como la tuya si ambas variantes realmente convirtieran a la misma tasa. Valores p más pequeños significan evidencia más fuerte de que las variantes difieren.

Puntaje Z El número de errores estándar que separan las dos tasas de conversión observadas. Un z de 1.96 corresponde a p ≈ 0.05 en una prueba de dos colas; 2.58 corresponde a p ≈ 0.01.

Significancia estadística El resultado supera el umbral elegido (p. ej. p < 0.05 al 95% de confianza). Es una afirmación de probabilidad, no una garantía de que la variante sea realmente mejor.

Efecto Mínimo Detectable (MDE) La mejora relativa más pequeña que quieres que la prueba sea capaz de detectar. Un MDE del 10% con una base del 5% significa que quieres captar de forma confiable cualquier mejora hasta 5.5% o más.

Potencia estadística La probabilidad de detectar un efecto real del tamaño especificado por tu MDE. 80% es la convención en marketing; las pruebas con poca potencia se pierden victorias reales.

Intervalo de confianza El rango de valores plausibles para la diferencia verdadera (p2 − p1), expresado en puntos porcentuales. Intervalos más estrechos significan una estimación más precisa.

Una cola vs. dos colas Las pruebas de dos colas tratan pérdidas y ganancias de forma simétrica y son el valor por defecto seguro. Las pruebas de una cola solo evalúan una victoria en una dirección — úsalas con moderación y decide la dirección antes de comenzar la prueba.

🎯

Rediseño de página de aterrizaje

Resultado significativo al 95%

Visitantes del control 5,000 Conversiones del control 250 Visitantes de la variante 5,000 Conversiones de la variante 300 Confianza 95% dos colas

El control convierte al 5.00%, la variante al 6.00% — una mejora relativa del 20%. El z agrupado es 2.19 con p ≈ 0.0283, lo cual supera el umbral del 95%. Puedes lanzar la variante, pero el umbral de confianza del 99% aún rechazaría este resultado, por lo que una prueba de confirmación de seguimiento es razonable.

⚠️

CTA de correo — con poca potencia

No significativo — muestra pequeña

Visitantes del control 1,000 Conversiones del control 50 Visitantes de la variante 1,000 Conversiones de la variante 55 Confianza 95% dos colas

Una mejora relativa del 10% parece real, pero con solo 1,000 visitantes por brazo la prueba tiene poca potencia: p ≈ 0.59 y el intervalo de confianza para la diferencia cruza el cero. El Planificador de Tamaño de Muestra muestra que necesitas aproximadamente 30,000 visitantes por variante para captar de forma confiable una mejora del 10% sobre una base del 5% al 95%/80% — sigue ejecutando la prueba.

Las pruebas A/B convierten una pregunta — ¿este cambio mueve la métrica? — en una prueba de hipótesis. Esta calculadora ejecuta un test z de dos proporciones sobre las tasas de conversión de tu control y variante, y luego te ayuda a planificar pruebas futuras calculando los tamaños de muestra y las duraciones de prueba requeridos. Está pensada para especialistas en marketing, ingenieros de crecimiento y gerentes de producto que comparan tasas de conversión en páginas de aterrizaje, formularios de registro, CTAs de correo, flujos de pago y pruebas divididas similares.

Cómo funciona la prueba de significancia

Comenzamos asumiendo que ambas variantes comparten la misma tasa de conversión verdadera (la hipótesis nula) y nos preguntamos qué tan improbable sería tu diferencia observada bajo esa suposición. El puntaje z agrupado mide cuántos errores estándar separan las dos tasas observadas; el valor p convierte ese z en una probabilidad mediante la CDF de la normal estándar.

Un valor p pequeño (p. ej. por debajo de 0.05) significa: si ambas variantes realmente convirtieran a la misma tasa, verías una diferencia tan grande o mayor por azar menos del 5% de las veces. Ese es el umbral que llamamos 95% de significancia estadística. El gráfico en la pestaña de la calculadora sombrea la región de rechazo para tu confianza elegida y marca dónde cae tu z observado.

Insumos que mueven el resultado

El tamaño de muestra es la mayor palanca. Duplicar los visitantes reduce aproximadamente a la mitad el error estándar, afina el intervalo de confianza y hace detectables mejoras pequeñas. El tamaño del efecto también importa — una mejora relativa del 50% necesita mucho menos tráfico que una del 5%. El nivel de confianza hace un trade-off con el error Tipo I (falsos positivos): 95% es el valor por defecto en marketing, 99% es apropiado cuando el costo de lanzar una mala variante es alto. La elección de cola rara vez cambia las decisiones de negocio — mantén dos colas a menos que tengas una hipótesis direccional preregistrada.

Errores comunes y límites

El error más grande en las pruebas A/B es espiar — revisar el valor p a diario y detenerse en cuanto cruza 0.05. Esto infla la tasa de falsos positivos drásticamente. Ejecuta la prueba durante la duración que devuelve el Planificador de Tamaño de Muestra y luego revisa una sola vez. Las pruebas con múltiples variantes (A/B/C/n) necesitan una corrección por comparaciones múltiples (Bonferroni, Holm) o verás falsos ganadores. Los efectos de novedad y primacía pueden mover las métricas en la primera semana pero desaparecen hacia la tercera; los ciclos semanales en el tráfico hacen que las pruebas más cortas que una semana completa a menudo se pierdan patrones reales. Por último, esta calculadora usa una aproximación normal — para muestras muy pequeñas (n < 30 conversiones por variante) o tasas extremas (< 1% o > 99%), prefiere una prueba exacta como la de Fisher.

¿Cómo calculo la significancia de un test A/B?+

Usa un test z de dos proporciones. Calcula la tasa de conversión de cada variante, agrúpalas bajo la hipótesis nula y divide la diferencia entre el error estándar agrupado para obtener un puntaje z. Convierte z a un valor p mediante la CDF de la normal estándar. Un p por debajo de 0.05 significa significativo al nivel del 95%. Esta calculadora hace todo eso por ti.

¿Qué valor p se considera estadísticamente significativo?+

La convención es p < 0.05 (95% de confianza) para experimentos de marketing y p < 0.01 (99%) para decisiones de mayor riesgo. Ambos son umbrales arbitrarios — 0.049 y 0.051 cargan esencialmente la misma evidencia. Preregistra tu umbral y la duración de la prueba antes de empezar a recopilar datos.

¿Cuánto tiempo debo ejecutar un test A/B?+

Ejecútalo durante la duración que devuelve el Planificador de Tamaño de Muestra — generalmente de 1 a 4 semanas para tráfico web típico — y resiste la tentación de espiar y detenerte temprano. Como mínimo, cubre una semana completa para que los efectos del día de la semana se promedien. Tampoco extiendas una prueba indefinidamente 'hasta que se vuelva significativa'; eso infla los falsos positivos.

¿Debo usar una prueba de una cola o de dos colas?+

Dos colas es el valor por defecto más seguro y coincide con cómo funcionan realmente la mayoría de las decisiones: quieres saber si la variante es mejor O peor, no solo mejor. Usa una cola solo cuando tengas una hipótesis direccional fuerte decidida antes de comenzar la prueba y no actuarías ante una pérdida en la otra dirección. El valor p es aproximadamente la mitad del valor de dos colas cuando el efecto es positivo.

¿Puedo espiar los resultados y detenerme temprano?+

No con una prueba de horizonte fijo como esta. Espiar repetidamente con un umbral del 95% puede inflar la tasa real de falsos positivos al 20% o más. Si necesitas detenerte temprano, usa un método de prueba secuencial (diseños secuenciales por grupos, mSPRT, reglas de decisión bayesianas) que tome en cuenta explícitamente las múltiples revisiones de los datos.

Calculadora de Significancia de Test A/B

Test Results

Control (A)

Variant (B)

Result

Distribution & Rejection Region

Sample Size Inputs

Required Sample

Traffic Inputs

Test Duration

Cómo usar esta calculadora

Ingresa ambas variantes

Lee el veredicto

Planifica pruebas futuras

Fórmula y metodología

Términos clave explicados

Ejemplos del mundo real

Rediseño de página de aterrizaje

CTA de correo — con poca potencia

Entendiendo la Calculadora de Significancia de Test A/B

Cómo funciona la prueba de significancia

Insumos que mueven el resultado

Errores comunes y límites

Preguntas frecuentes

Calculadora de Significancia de Test A/B

Test Results

Control (A)

Variant (B)

Result

Distribution & Rejection Region

Sample Size Inputs

Required Sample

Traffic Inputs

Test Duration

Cómo usar esta calculadora

Ingresa ambas variantes

Lee el veredicto

Planifica pruebas futuras

Fórmula y metodología

Términos clave explicados

Ejemplos del mundo real

Entendiendo la Calculadora de Significancia de Test A/B

Cómo funciona la prueba de significancia

Insumos que mueven el resultado

Errores comunes y límites

Preguntas frecuentes

Sigue explorando

Calculadoras relacionadas

Guías y artículos