La Estadística Descriptiva reúne un conjunto de técnicas para agrupar la
información y presentarla de una manera sistematizada en la que es más fácil
ver cómo se distribuyen los datos.
Las principales técnicas de la estadística descriptiva para organizar un
conjunto de datos son:
·
Medidas descriptivas
·
Tablas de frecuencias
· Gráficas
Ver ejemplo
Ver ejemplo
Aunque existen muchos programas
especializados para cálculos estadísticos, Excel® es una poderosa herramienta que nos puede ayudar
con estos cálculos sin necesidad de comprar un programa especializado.
Suponga que se tiene un conjunto de datos como el que se muestra a
continuación:
67.97
|
79.35
|
85.18
|
79.51
|
77.17
|
77.46
|
91.35
|
75.98
|
74.98
|
75.16
|
78.46
|
83.52
|
69.8
|
75.21
|
88.35
|
80.44
|
70.98
|
71.31
|
74.28
|
78.62
|
79.15
|
71.41
|
62.07
|
56.84
|
79.08
|
70.94
|
96.49
|
91.84
|
70.98
|
81.24
|
80.61
|
94.31
|
86.07
|
87.93
|
74.45
|
90.09
|
83.06
|
75.13
|
79.84
|
99.35
|
78.05
|
82.53
|
78.96
|
88.82
|
73.95
|
73.1
|
73.64
|
84.34
|
80.05
|
82.71
|
77
|
73.29
|
88.94
|
73.67
|
90.98
|
68.92
|
78.96
|
73.39
|
84.72
|
84.37
|
81.57
|
74.6
|
73.65
|
83.58
|
74.78
|
90.28
|
83.45
|
86.76
|
69.77
|
89.42
|
80.44
|
84.49
|
85.09
|
88.32
|
80.22
|
57.69
|
73.24
|
68.34
|
71.92
|
91.72
|
74.7
|
80.46
|
85.17
|
85.27
|
69.84
|
85.13
|
79.42
|
75.05
|
74.83
|
82.94
|
91.68
|
65.66
|
81.72
|
78.53
|
74.9
|
82.33
|
90.94
|
83.61
|
88.12
|
85.8
|
¿Qué nos dice esta tabla?, seguramente al observarla no podemos
apreciar cuáles son las características que reúnen a estos datos; por ello, es
conveniente realizar algunos cálculos que nos permitan describir a este
conjunto mediante algunas medidas y, mejor aún, representarlos gráficamente.
MEDIDAS DESCRIPTIVAS
Las medidas que pueden describir a un conjunto de datos se clasifican en
medidas de tendencia central, de dispersión y de forma. Las medidas
descriptivas pueden calcularse a partir del conjunto de datos tal cual
aparecieron al recolectar la información (datos sin agrupar), o bien, a partir
de tablas de frecuencias (tablas de datos agrupados)
- Las medidas de tendencia
central son aquellas que nos dicen en torno a qué valor o valores se
agrupan los datos, las más comunes son:
La Media.
La Mediana.
La moda.
- Las medidas de dispersión
nos dicen que tan alejados (o dispersos) están los datos uno de otros y en
relación con la media.
La Varianza y la
Desviación Estándar.
La Desviación Media.
El Coeficiente de
Variación.
El rango.
- Las medidas de forma dan una idea de la forma que tiene la gráfica de los datos cuando éstos se agrupan en clases.
- Las medidas de forma dan una idea de la forma que tiene la gráfica de los datos cuando éstos se agrupan en clases.
El Coeficiente de
sesgo.
El Coeficiente de
Curtosis.
Los Cuantiles o
Fractiles.
¿Población o muestra?
Para realizar el cálculo de las medidas descriptivas de un conjunto de
datos, primero es necesario saber si el conjunto constituye una población o se
trata de una muestra. Esto debido a que las medidas que describen a una
población generalmente se denominan parámetros, mientras que las medidas de una
muestra se denominan estadísticos.
Sin ahondar demasiado, aquí diremos muy brevemente que algunos estadísticos
se usan en Inferencia Estadística para "estimar" a los parámetros
desconocidos de una población, y frecuentemente las expresiones que se usan
para el cálculo de un estadístico son diferentes a las que se usan para el
cálculo de los parámetros cuando se conoce a la población completa.
¿Datos sin agrupar o agrupados?
Por lo que se refiere a la presentación de los datos que se quiere
describir, estos pueden estar tal cual se recolectaron o bien, pueden estar ya agrupados
en tablas de frecuencias; según sea el caso, el cálculo de las medidas puede
diferir; en la siguiente tabla, se presentan algunos ejemplos de estas medidas.
Tipo de medidas descriptivas
|
||||
De tendencia central
|
De dispersión
|
De forma
|
||
Tipo de información
|
Población
|
μ
|
σ
|
α3
|
Muestra
|
S
|
a3
|
En este enlace se muestra un formulario con las medidas descriptivas que
se han mencionado, donde se distinguen las expresiones que se deben usar si los
datos provienen de una población o de una muestra y si los datos son no
agrupados o agrupados.
Medidas descriptivas para datos
sin agrupar.
En lo que sigue, se hablará de las principales medidas descriptivas y se
ejemplifica el cálculo para datos no
agrupados.
La Media
La media, o promedio, es la medida descriptiva de tendencia central más
usada, pues indica la el valor en torno al cual están todos los datos, la media
también es conocida como "Valor Esperado"
o "Esperanza Matemática" y
es el promedio simple de todos los datos, esto es, sumarlos todos y dividir la
suma entre la cantidad total de datos.
Ejemplo
1: Si se tienen el siguiente conjunto de datos: {2,8,8,7,6,5,4}, la media
será la suma de los siete valores dividida entre siete.
Media= 40/7 = 5.4173
Ejemplo
2: Si se tienen el siguiente conjunto de datos:
{16,18,15,20,22,17,15,16,20,16}, la media será la suma de los diez valores
dividida entre diez.
Media= 175/10 = 17.5
La Mediana
Cuando los datos están ordenados de mayor a menor, la mediana es el
valor que queda justo al centro si la cantidad de datos es un número impar; o
bien, el promedio de los dos datos que se ubican al centro si la cantidad de
datos es un número par.
Más formalmente, la mediana es aquel valor tal que 50% de los datos son
menores o iguales a ese valor y 50% de los datos son mayores que ese valor.
Ejemplo
1: Si se tiene el conjunto: {2,8,8,7,6,5,4}, para encontrar la mediana
primero habrá que ordenarlo, quedando así: {2,4,5,6,7,8,8}. Como la cantidad de
datos es impar, la mediana es el dato que queda al centro.
Mediana=6
Ejemplo
2: Si se tiene el conjunto: {16,18,15,20,22,17,15,16,20,16}, para
encontrar la mediana primero habrá que ordenarlo, quedando así:
{15,15,16,16,16,17,18,20,20,22}. Como la cantidad de datos es par, la mediana
es el promedio de los dos datos que quedan al centro (el quinto y el sexto)
Mediana = (16+17)/2 = 16.5
La moda
Es el valor que se repite con mayor frecuencia. En algunos casos, hay
dos o más valores que se repiten con igual frecuencia, en tal caso, es dice que
se tiene una distribución bimodal, trimodal o multimodal, según sea el caso.
Ejemplo
1: Para el siguiente conjunto de datos {2,8,8,7,6,5,4}, la moda es 8.
Ejemplo
2: Para el siguiente conjunto de datos {16,18,15,20,22,17,15,16,20,16}, la
moda es 16, ya que este es el dato que se repite con mayor frecuencia (tres veces).
Ejemplo
3: Para el siguiente conjunto de datos
0.5
|
0.3
|
0.6
|
0.2
|
0.8
|
0.9
|
0.8
|
0.7
|
0.5
|
0.2
|
0.6
|
0.8
|
0.1
|
0.2
|
0.5
|
0.2
|
0.5
|
1.0
|
0.4
|
0.8
|
Hay tres modas, ya que los datos 0.2, 0.5 y 0.8 se repiten con la misma frecuencia
(cuatro veces cada uno). Este es un conjunto trimodal.
La varianza
La varianza es una medida de dispersión que expresa qué tan alejados
están los datos de la media. Para entender lo que representa la varianza, supóngase
que se desea medir cada una de las distancias que hay desde cada uno de los
datos hasta la media y luego obtener un promedio de estas distancias, esto es:
Si se denota a la varianza poblacional
con σ2 entonces, para una población finita
de tamaño N la varianza es:
Formalmente, la varianza de una variable se define como "el segundo
momento con respecto a la media", ésto es lo que determina la expresión anterior, sin embargo, cuando se tienen los datos de una muestra de tamaño n, la varianza muestral es un estadístico, es
una función que se utiliza para “estimar” a la varianza poblacional, y se define
como:
Nótense las dos diferencias entre las dos últimas expresiones, mientras
que en la primera el denominador de la función es N, en la segunda función el
denominador es n-1, asimismo en la primera expresión se usa como referencia
para distancias la media poblacional µ, en la segunda se usa la media muestral
.
Las unidades resultantes de la varianza poblacional y de la varianza
muestral son el cuadrado de las unidades que tiene la variable original, por lo
que, siendo una medida muy importante, no es usada directamente como una medida
de dispersión, en su lugar se usa la desviación estándar, que sí tiene las
mismas unidades.
Ejemplo 1: Para el siguiente
conjunto de datos {2, 8, 8, 7, 6,5, 4}, suponiendo que se trata de una
población completa de 7 elementos, la varianza poblacional es:
σ2 = (29.42857)/7 σ2 = 4.20408
Ejemplo 2: Para el siguiente
conjunto de datos {16, 18, 15, 20, 22, 17, 15, 16, 20, 16}, suponiendo que se
trata de una muestra de diez observaciones, la varianza muestral es:
s2 = (52.5)/(10-1)
s2 = 5.83333
La desviación estándar
Es la raíz cuadrada de la varianza (poblacional o muestral, según sea el
caso). La ventaja de la desviación estándar por sobre la varianza, radica en que sus unidades de
medida (o dimensiones) son exactamente las mismas que las de los datos
originales; esto es, si las medidas del conjunto analizado son centímetros,
entonces la desviación estándar también estará en centímetros; así se puede
tener una medida de la dispersión del conjunto de datos.
Ejemplo 1: Para el siguiente
conjunto de datos {2, 8, 8, 7, 6,5, 4}, suponiendo que se trata de una
población completa de 7 elementos, la desviación estándar poblacional es:
σ = Raíz (4.20408) s = 2.05039
Ejemplo 2: Para el siguiente
conjunto de datos {16, 18, 15, 20, 22, 17, 15, 16, 20, 16}, suponiendo que se
trata de una muestra de diez observaciones, la desviación estándar muestral es:
s = Raíz (5.83333) s =
2.21523
La desviación media
Recordemos que si se desea tener un promedio de las desviaciones que hay
desde cada dato a la media y para ello sumáramos todas las (Xi-µ),
resulta que esa suma es cero, pero ¿qué tal si en lugar de sumar las distancias positivas y
negativas sumamos esas mismas distancias en valor absoluto para evitar que se
cancelen unas con otras? A la medida resultante de esa suma, dividida entre el
tamaño del conjunto, se le conoce como desviación media.
Las unidades o dimensiones de la desviación media, son las mismas que
las que tengan los datos originales.
El coeficiente de variación
Es una medida adimensional útil para comparar la dispersión de dos
conjuntos distintos de datos, se define como el cociente de la desviación
estándar y la media.
CV= Desv. Estándar / media
El rango
Es la diferencia entre el mayor valor y el menor valor de todo el
conjunto de datos.
Ejemplo
1: Para el siguiente conjunto de datos {2,8,8,7,6,5,4}, el rango es:
R = 8-2 R = 6
Ejemplo
2: Para el siguiente conjunto de datos {16,18,15,20,22,17,15,16,20,16}, el
rango es:
R = 22 – 15 = R = 7
El coeficiente de sesgo
Se utiliza para medir la asimetría de un conjunto de datos, esto es, que
tan cargados están los datos hacia algún lado de la distribución.
El coeficiente de sesgo también se conoce como: “tercer momento
estándarizado”, para el caso de una población se define como:
Si el coeficiente de sesgo es igual a cero, se dice que la distribución
de los datos es simétrica con respecto a la media.
Si el coeficiente de sesgo es negativo o positivo, se dice que la
distribución es “sesgada” a la izquierda o a la derecha, respectivamente.
El coeficiente de curtosis
Es una medida que se utiliza para averiguar qué tan plana es la gráfica
de frecuencias de un conjunto de datos. Si la dispersión es grande, la gráfica
será algo aplanada, mientras que si la dispersión es pequeña (los datos se
concentran en torno a un valor), entonces la gráfica será alta y estrecha.
El coeficiente de curtosis también se conoce como: “cuarto momento
estándarizado”, para el caso de una población se define como:
Si el coeficiente de curtosis es igual a tres, se dice que la
distribución de los datos es mesocúrtica (ni aplanada ni picuda)
Si el coeficiente de curtosis es menor a tres, se dice que la distribución es platicúrtica (muy aplanada)
Si el coeficiente de curtosis es mayor a tres, se dice que la distribución es leptocúrtica (muy picuda)
Los cuantiles o fractiles
Con el nombre de Fractiles se conoce de manera genérica a aquellas medidas
que dividen a un conjunto de datos ordenado en ciertas proporciones, un ejemplo
de fractil es la mediana, que es aquel valor tal que 50% de los datos son
menores o iguales a ese valor y 50% de los datos son mayores que ese valor. El
nombre de Cuantiles es sinónimo de Fractiles.
Dentro de los Fractiles, algunos reciben nombre específico:
- Los cuartiles dividen al conjunto de datos en porciones de 25% (Q1, Q2, Q3)
- Los Deciles dividen al conjunto en porciones de 10% (D1, D2, …, D9)
- Los Percentiles dividen al conjunto en porciones de 1% (P01, P02, …, P98, P99)
Por ejemplo, el Q3 es aquel valor tal que 75% de los datos son menores o
iguales que ese valor y 25% son mayores a él.
Y además El Q3 coincide con el P75.
'--------------------------------------------------------------------------------------------------------------------------------------------------------------'
3 comentarios:
¿Como se calculan los unciles?
Gracias.
Suponiendo que los "unciles" fueran porciones de 11% de los datos, estos corresponderían al percentil 11, al percentil 22 y así sucesivamente.
Publicar un comentario