Las pruebas A/B convierten una pregunta — ¿este cambio mueve la métrica? — en una prueba de hipótesis. Esta calculadora ejecuta un test z de dos proporciones sobre las tasas de conversión de tu control y variante, y luego te ayuda a planificar pruebas futuras calculando los tamaños de muestra y las duraciones de prueba requeridos. Está pensada para especialistas en marketing, ingenieros de crecimiento y gerentes de producto que comparan tasas de conversión en páginas de aterrizaje, formularios de registro, CTAs de correo, flujos de pago y pruebas divididas similares.

Cómo funciona la prueba de significancia

Comenzamos asumiendo que ambas variantes comparten la misma tasa de conversión verdadera (la hipótesis nula) y nos preguntamos qué tan improbable sería tu diferencia observada bajo esa suposición. El puntaje z agrupado mide cuántos errores estándar separan las dos tasas observadas; el valor p convierte ese z en una probabilidad mediante la CDF de la normal estándar.

Un valor p pequeño (p. ej. por debajo de 0.05) significa: si ambas variantes realmente convirtieran a la misma tasa, verías una diferencia tan grande o mayor por azar menos del 5% de las veces. Ese es el umbral que llamamos 95% de significancia estadística. El gráfico en la pestaña de la calculadora sombrea la región de rechazo para tu confianza elegida y marca dónde cae tu z observado.

Insumos que mueven el resultado

El tamaño de muestra es la mayor palanca. Duplicar los visitantes reduce aproximadamente a la mitad el error estándar, afina el intervalo de confianza y hace detectables mejoras pequeñas. El tamaño del efecto también importa — una mejora relativa del 50% necesita mucho menos tráfico que una del 5%. El nivel de confianza hace un trade-off con el error Tipo I (falsos positivos): 95% es el valor por defecto en marketing, 99% es apropiado cuando el costo de lanzar una mala variante es alto. La elección de cola rara vez cambia las decisiones de negocio — mantén dos colas a menos que tengas una hipótesis direccional preregistrada.

Errores comunes y límites

El error más grande en las pruebas A/B es espiar — revisar el valor p a diario y detenerse en cuanto cruza 0.05. Esto infla la tasa de falsos positivos drásticamente. Ejecuta la prueba durante la duración que devuelve el Planificador de Tamaño de Muestra y luego revisa una sola vez. Las pruebas con múltiples variantes (A/B/C/n) necesitan una corrección por comparaciones múltiples (Bonferroni, Holm) o verás falsos ganadores. Los efectos de novedad y primacía pueden mover las métricas en la primera semana pero desaparecen hacia la tercera; los ciclos semanales en el tráfico hacen que las pruebas más cortas que una semana completa a menudo se pierdan patrones reales. Por último, esta calculadora usa una aproximación normal — para muestras muy pequeñas (n < 30 conversiones por variante) o tasas extremas (< 1% o > 99%), prefiere una prueba exacta como la de Fisher.