La media, la mediana y la moda son las tres medidas clásicas de tendencia central en estadística — cada una captura un aspecto distinto de lo que significa que un conjunto de datos tenga un valor "típico", y entender cuál usar y cuándo es una de las habilidades prácticas más importantes en el análisis de datos. La media promedia todos los valores por igual, la mediana encuentra el valor central después de ordenar, y la moda identifica el valor más frecuente. Las secciones a continuación cubren cuándo la media versus la mediana representa mejor una distribución (los ingresos, la vivienda y los tiempos de respuesta favorecen consistentemente la mediana), por qué las estadísticas de bienes raíces y económicas citan medianas en lugar de medias, los casos específicos donde la moda se convierte en el estadístico de resumen más informativo, y cómo los valores atípicos afectan cada medida — conocimiento que distingue a los analistas rigurosos de quienes citan números "promedio" sin entender qué representa realmente ese promedio.
Media vs. Mediana: ¿Qué Centro Importa?
La media y la mediana describen ambas el "centro" de un conjunto de datos, pero lo hacen a través de enfoques matemáticos fundamentalmente distintos. La media incorpora cada punto de datos con igual peso, lo que la hace matemáticamente elegante y útil para datos simétricos y normalmente distribuidos. La mediana simplemente encuentra el valor central después de ordenar, haciéndola inmune a los valores extremos y preferida para distribuciones sesgadas donde unos pocos valores atípicos distorsionan el promedio aritmético.
Esta distinción tiene enormes consecuencias en el mundo real, especialmente en los informes económicos. El ingreso de los hogares de EE. UU. siempre se reporta como la mediana — no la media — porque la distribución está fuertemente sesgada a la derecha. Un pequeño número de perceptores de ingresos muy altos arrastra la media muy por encima del ingreso de un hogar típico. En 2023, el ingreso mediano de los hogares de EE. UU. fue de alrededor de $74,000 mientras que la media superó los $106,000 — una diferencia del 43% que cambia fundamentalmente la historia que se cuenta. Para fines de política pública, la mediana es mucho más informativa porque responde "¿cuánto gana un hogar típico?" mientras que la media responde "¿cuál es el total del fondo de ingresos dividido de manera uniforme?" — dos preguntas muy distintas con respuestas muy distintas en distribuciones de ingresos desiguales.
Precios de Vivienda y Bienes Raíces
El mismo patrón de distribución sesgada aparece en los bienes raíces y produce diferencias similares entre media y mediana. Una sola venta de lujo en un vecindario puede inflar dramáticamente el precio medio de venta, haciendo que el mercado parezca más caro de lo que es para los compradores típicos. La venta de una mansión de $10M en una calle de viviendas de $400,000 arrastra la media hacia arriba en decenas de miles de dólares mientras que la mediana se mantiene en el rango real de los compradores. Los profesionales de bienes raíces citan casi universalmente los precios medianos de vivienda por esta razón — el Índice Case-Shiller, los informes de la Asociación Nacional de Agentes Inmobiliarios y Zillow usan por defecto métricas de mediana.
La moda — el precio de venta más común — se usa menos directamente en los informes de bienes raíces pero puede ser útil para identificar qué punto de precio tiene la mayor actividad de mercado. Saber que "la mayoría de las viviendas en este vecindario se venden entre $450,000 y $475,000" captura un concepto similar a la moda que ni la media ni la mediana expresan directamente. Las distribuciones de múltiples picos (mercados de vivienda bimodales donde coexisten las viviendas para principiantes y las de lujo) hacen que las estadísticas simples de tendencia central sean menos informativas, razón por la cual los informes detallados de bienes raíces a menudo muestran distribuciones mediante histogramas o desgloses por niveles de precio en lugar de depender de un solo número de resumen.
Cuándo la Moda Importa Más
La moda es esencial para datos categóricos — "¿qué color eligen más los clientes?" o "¿qué talla de zapato deberíamos tener más en inventario?" — donde un promedio numérico carece de sentido. No puedes tomar la media aritmética de "rojo, azul, verde, rojo, rojo, azul" — la moda (rojo, que aparece 3 veces) es el único resumen significativo. La planificación de inventario, el análisis de encuestas, los datos de preferencia de votantes y cualquier análisis de datos de elección discreta dependen en gran medida de los estadísticos modales.
Para datos numéricos, la moda se vuelve más interesante cuando una distribución es multimodal. Un conjunto de datos bimodal (dos picos claros) a menudo señala dos subgrupos distintos combinados en un solo conjunto de datos. Una encuesta de edades en un evento universitario podría mostrar picos en 20 (estudiantes) y 50 (profesores); analizarlos como una sola distribución pasa por alto por completo la estructura de dos poblaciones. Los datos de gasto de clientes a menudo muestran bimodalidad con un pico de compradores casuales de bajo valor y un pico de usuarios intensivos de alto valor que requieren estrategias de retención distintas. Detectar la multimodalidad en un histograma a menudo es más informativo que cualquier estadístico de resumen único (media, mediana o incluso varianza), porque revela una estructura oculta en los datos que afecta cómo deberías analizarlos y responder a ellos. Siempre visualiza antes de calcular estadísticos de resumen — si ves dos picos, separa los datos y analiza los subgrupos por separado.
El Problema de los Valores Atípicos
Los valores atípicos — valores muy alejados del grueso de los datos — distorsionan la media significativamente pero apenas afectan la mediana. Un conjunto de datos de {1, 2, 3, 4, 5} tiene una media de 3 y una mediana de 3; agregar un solo valor atípico de 100 cambia la media a 19.2 pero la mediana solo a 3.5. Los valores atípicos también inflan el rango (máx − mín) dramáticamente mientras que apenas afectan el RIC (dispersión del 50% central). Por eso los estadísticos robustos (mediana, RIC, MAD) son preferidos sobre los no robustos (media, rango, DE) siempre que sean posibles los valores atípicos.
Cuando aparecen valores atípicos en tus datos, la respuesta correcta depende de su causa. Si un valor atípico representa un error de ingreso de datos o un artefacto de medición, corregirlo o eliminarlo es apropiado (siempre documenta lo que hiciste). Si el valor atípico es un punto de datos genuino — un perceptor de ingresos realmente alto en una encuesta de ingresos, una lectura extrema real en un registro de sensores — la respuesta correcta es reportar tanto la media como la mediana, señalar los valores atípicos explícitamente y considerar si los valores atípicos representan un fenómeno separado que vale la pena investigar por sí solo. Las anomalías impulsadas por valores atípicos a menudo señalan las historias más interesantes en un conjunto de datos; descartarlas como molestias pierde información valiosa. Siempre visualiza con un diagrama de caja o un histograma para verificar los valores atípicos antes de decidirte por cualquier estadístico de resumen único.