Bienvenid@s a este blog

En este blog encontrarás material de apoyo para el curso de Probabilidad y Estadística.

Estadística Descriptiva


La Estadística Descriptiva reúne un conjunto de técnicas para agrupar la información y presentarla de una manera sistematizada en la que es más fácil ver cómo se distribuyen los datos.

Las principales técnicas de la estadística descriptiva para organizar un conjunto de datos son:
·           Medidas descriptivas
·           Tablas de frecuencias
·           Gráficas


Ver ejemplo

Aunque existen muchos programas especializados para cálculos estadísticos, Excel® es una poderosa herramienta que nos puede ayudar con estos cálculos sin necesidad de comprar un programa especializado.

Suponga que se tiene un conjunto de datos como el que se muestra a continuación:

67.97
79.35
85.18
79.51
77.17
77.46
91.35
75.98
74.98
75.16
78.46
83.52
69.8
75.21
88.35
80.44
70.98
71.31
74.28
78.62
79.15
71.41
62.07
56.84
79.08
70.94
96.49
91.84
70.98
81.24
80.61
94.31
86.07
87.93
74.45
90.09
83.06
75.13
79.84
99.35
78.05
82.53
78.96
88.82
73.95
73.1
73.64
84.34
80.05
82.71
77
73.29
88.94
73.67
90.98
68.92
78.96
73.39
84.72
84.37
81.57
74.6
73.65
83.58
74.78
90.28
83.45
86.76
69.77
89.42
80.44
84.49
85.09
88.32
80.22
57.69
73.24
68.34
71.92
91.72
74.7
80.46
85.17
85.27
69.84
85.13
79.42
75.05
74.83
82.94
91.68
65.66
81.72
78.53
74.9
82.33
90.94
83.61
88.12
85.8

¿Qué nos dice esta tabla?, seguramente al observarla no podemos apreciar cuáles son las características que reúnen a estos datos; por ello, es conveniente realizar algunos cálculos que nos permitan describir a este conjunto mediante algunas medidas y, mejor aún, representarlos gráficamente.


MEDIDAS DESCRIPTIVAS

Las medidas que pueden describir a un conjunto de datos se clasifican en medidas de tendencia central, de dispersión y de forma. Las medidas descriptivas pueden calcularse a partir del conjunto de datos tal cual aparecieron al recolectar la información (datos sin agrupar), o bien, a partir de tablas de frecuencias (tablas de datos agrupados)

- Las medidas de tendencia central son aquellas que nos dicen en torno a qué valor o valores se agrupan los datos, las más comunes son:

               La Media.
               La Mediana.
               La moda.

- Las medidas de dispersión nos dicen que tan alejados (o dispersos) están los datos uno de otros y en relación con la media.

               La Varianza y la Desviación Estándar.
               La Desviación Media.
               El Coeficiente de Variación.
               El rango.

- Las medidas de forma dan una idea de la forma que tiene la gráfica de los datos cuando éstos se agrupan en clases.

               El Coeficiente de sesgo.
               El Coeficiente de Curtosis.
               Los Cuantiles o Fractiles.



¿Población o muestra?

Para realizar el cálculo de las medidas descriptivas de un conjunto de datos, primero es necesario saber si el conjunto constituye una población o se trata de una muestra. Esto debido a que las medidas que describen a una población generalmente se denominan parámetros, mientras que las medidas de una muestra se denominan estadísticos.

Sin ahondar demasiado, aquí diremos muy brevemente que algunos estadísticos se usan en Inferencia Estadística para "estimar" a los parámetros desconocidos de una población, y frecuentemente las expresiones que se usan para el cálculo de un estadístico son diferentes a las que se usan para el cálculo de los parámetros cuando se conoce a la población completa.

¿Datos sin agrupar o agrupados?

Por lo que se refiere a la presentación de los datos que se quiere describir, estos pueden estar tal cual se recolectaron o bien, pueden estar ya agrupados en tablas de frecuencias; según sea el caso, el cálculo de las medidas puede diferir; en la siguiente tabla, se presentan algunos ejemplos de estas medidas.



Tipo de medidas descriptivas


De tendencia central
De dispersión
De forma
Tipo de información
Población
μ
σ
α3
Muestra
S
a3

En este enlace se muestra un formulario con las medidas descriptivas que se han mencionado, donde se distinguen las expresiones que se deben usar si los datos provienen de una población o de una muestra y si los datos son no agrupados o agrupados.


Medidas descriptivas para datos sin agrupar.

En lo que sigue, se hablará de las principales medidas descriptivas y se ejemplifica el cálculo para datos no agrupados.

La Media

La media, o promedio, es la medida descriptiva de tendencia central más usada, pues indica la el valor en torno al cual están todos los datos, la media también es conocida como "Valor Esperado" o "Esperanza Matemática" y es el promedio simple de todos los datos, esto es, sumarlos todos y dividir la suma entre la cantidad total de datos.

Ejemplo 1: Si se tienen el siguiente conjunto de datos: {2,8,8,7,6,5,4}, la media será la suma de los siete valores dividida entre siete.
Media= 40/7 = 5.4173

Ejemplo 2: Si se tienen el siguiente conjunto de datos: {16,18,15,20,22,17,15,16,20,16}, la media será la suma de los diez valores dividida entre diez.
Media= 175/10 = 17.5

La Mediana

Cuando los datos están ordenados de mayor a menor, la mediana es el valor que queda justo al centro si la cantidad de datos es un número impar; o bien, el promedio de los dos datos que se ubican al centro si la cantidad de datos es un número par.

Más formalmente, la mediana es aquel valor tal que 50% de los datos son menores o iguales a ese valor y 50% de los datos son mayores que ese valor.

Ejemplo 1: Si se tiene el conjunto: {2,8,8,7,6,5,4}, para encontrar la mediana primero habrá que ordenarlo, quedando así: {2,4,5,6,7,8,8}. Como la cantidad de datos es impar, la mediana es el dato que queda al centro.
Mediana=6

Ejemplo 2: Si se tiene el conjunto: {16,18,15,20,22,17,15,16,20,16}, para encontrar la mediana primero habrá que ordenarlo, quedando así: {15,15,16,16,16,17,18,20,20,22}. Como la cantidad de datos es par, la mediana es el promedio de los dos datos que quedan al centro (el quinto y el sexto)

Mediana = (16+17)/2 = 16.5

La moda

Es el valor que se repite con mayor frecuencia. En algunos casos, hay dos o más valores que se repiten con igual frecuencia, en tal caso, es dice que se tiene una distribución bimodal, trimodal o multimodal, según sea el caso.

Ejemplo 1: Para el siguiente conjunto de datos {2,8,8,7,6,5,4}, la moda es 8.

Ejemplo 2: Para el siguiente conjunto de datos {16,18,15,20,22,17,15,16,20,16}, la moda es 16, ya que este es el dato que se repite con mayor frecuencia (tres veces).

Ejemplo 3: Para el siguiente conjunto de datos


0.5
0.3
0.6
0.2
0.8
0.9
0.8
0.7
0.5
0.2
0.6
0.8
0.1
0.2
0.5
0.2
0.5
1.0
0.4
0.8

Hay tres modas, ya que los datos 0.2, 0.5 y 0.8 se repiten con la misma frecuencia (cuatro veces cada uno). Este es un conjunto trimodal.

La varianza

La varianza es una medida de dispersión que expresa qué tan alejados están los datos de la media. Para entender lo que representa la varianza, supóngase que se desea medir cada una de las distancias que hay desde cada uno de los datos hasta la media y luego obtener un promedio de estas distancias, esto es:

Si denotamos con Xi a cada punto y con la letra griega µ a la media, entonces la distancia de cada punto a la media será (Xi-µ) para i=1, 2, 3, … N. Si se suman todas estas distancias, resultará que las diferencias positivas se cancelarán con la negativas, por lo que la suma será cero. Luego entonces, el promedio de estas distancias no es útil para medir la dispersión del conjunto de datos; pero si en lugar de promediar las distancias directamente, estas se elevan primero al cuadrado, entonces todos los cuadrados de las diferencias serán positivos, con lo que se evita que al promediar se cancelen unos con otros. Así la varianza es en esencia, un promedio de los cuadrados de las diferencias de cada dato Xi con respecto a la media de todos los datos.


Si se denota a la varianza poblacional con σ2 entonces, para una población finita de tamaño N la varianza es:


Varianza poblacional

 Formalmente, la varianza de una variable se define como "el segundo momento con respecto a la media", ésto es lo que determina la expresión anterior, sin embargo, cuando se tienen los datos de una muestra de tamaño n, la varianza muestral es un estadístico, es una función que se utiliza para “estimar” a la varianza poblacional, y se define como:

Varianza muestral

Nótense las dos diferencias entre las dos últimas expresiones, mientras que en la primera el denominador de la función es N, en la segunda función el denominador es n-1, asimismo en la primera expresión se usa como referencia para distancias la media poblacional µ, en la segunda se usa la media muestral .


Las unidades resultantes de la varianza poblacional y de la varianza muestral son el cuadrado de las unidades que tiene la variable original, por lo que, siendo una medida muy importante, no es usada directamente como una medida de dispersión, en su lugar se usa la desviación estándar, que sí tiene las mismas unidades.



Ejemplo 1: Para el siguiente conjunto de datos {2, 8, 8, 7, 6,5, 4}, suponiendo que se trata de una población completa de 7 elementos, la varianza poblacional es:

σ2 = (29.42857)/7              σ2  = 4.20408

Ejemplo 2: Para el siguiente conjunto de datos {16, 18, 15, 20, 22, 17, 15, 16, 20, 16}, suponiendo que se trata de una muestra de diez observaciones, la varianza muestral es:


s2 = (52.5)/(10-1)         s2 = 5.83333

La desviación estándar

Es la raíz cuadrada de la varianza (poblacional o muestral, según sea el caso). La ventaja de la desviación estándar por sobre la varianza, radica en que sus unidades de medida (o dimensiones) son exactamente las mismas que las de los datos originales; esto es, si las medidas del conjunto analizado son centímetros, entonces la desviación estándar también estará en centímetros; así se puede tener una medida de la dispersión del conjunto de datos.

Ejemplo 1: Para el siguiente conjunto de datos {2, 8, 8, 7, 6,5, 4}, suponiendo que se trata de una población completa de 7 elementos, la desviación estándar poblacional es:

σ = Raíz (4.20408)              s = 2.05039

Ejemplo 2: Para el siguiente conjunto de datos {16, 18, 15, 20, 22, 17, 15, 16, 20, 16}, suponiendo que se trata de una muestra de diez observaciones, la desviación estándar muestral es:


s = Raíz (5.83333)         s = 2.21523

La desviación media

Recordemos que si se desea tener un promedio de las desviaciones que hay desde cada dato a la media y para ello sumáramos todas las (Xi-µ), resulta que esa suma es cero, pero ¿qué tal si en lugar de sumar las distancias positivas y negativas sumamos esas mismas distancias en valor absoluto para evitar que se cancelen unas con otras? A la medida resultante de esa suma, dividida entre el tamaño del conjunto, se le conoce como desviación media.

 DM = Suma(|xi-media|) / N

Las unidades o dimensiones de la desviación media, son las mismas que las que tengan los datos originales.

El coeficiente de variación

Es una medida adimensional útil para comparar la dispersión de dos conjuntos distintos de datos, se define como el cociente de la desviación estándar y la media.

CV= Desv. Estándar / media

    

El rango

Es la diferencia entre el mayor valor y el menor valor de todo el conjunto de datos.

Ejemplo 1: Para el siguiente conjunto de datos {2,8,8,7,6,5,4}, el rango es:

R = 8-2              R = 6

Ejemplo 2: Para el siguiente conjunto de datos {16,18,15,20,22,17,15,16,20,16}, el rango es:

R = 22 – 15 =         R = 7

El coeficiente de sesgo

Se utiliza para medir la asimetría de un conjunto de datos, esto es, que tan cargados están los datos hacia algún lado de la distribución.

El coeficiente de sesgo también se conoce como: “tercer momento estándarizado”, para el caso de una población se define como:





Si el coeficiente de sesgo es igual a cero, se dice que la distribución de los datos es simétrica con respecto a la media.

Si el coeficiente de sesgo es negativo o positivo, se dice que la distribución es “sesgada” a la izquierda o a la derecha, respectivamente.


El coeficiente de curtosis

Es una medida que se utiliza para averiguar qué tan plana es la gráfica de frecuencias de un conjunto de datos. Si la dispersión es grande, la gráfica será algo aplanada, mientras que si la dispersión es pequeña (los datos se concentran en torno a un valor), entonces la gráfica será alta y estrecha.

El coeficiente de curtosis también se conoce como: “cuarto momento estándarizado”, para el caso de una población se define como:




Si el coeficiente de curtosis es igual a tres, se dice que la distribución de los datos es mesocúrtica (ni aplanada ni picuda)

Si el coeficiente de curtosis es menor a tres, se dice que la distribución es platicúrtica (muy aplanada)

Si el coeficiente de curtosis es mayor a tres, se dice que la distribución es leptocúrtica (muy picuda)

Los cuantiles o fractiles

Con el nombre de Fractiles se conoce de manera genérica a aquellas medidas que dividen a un conjunto de datos ordenado en ciertas proporciones, un ejemplo de fractil es la mediana, que es aquel valor tal que 50% de los datos son menores o iguales a ese valor y 50% de los datos son mayores que ese valor. El nombre de Cuantiles es sinónimo de Fractiles.

Dentro de los Fractiles, algunos reciben nombre específico:

  • Los cuartiles dividen al conjunto de datos en porciones de 25% (Q1, Q2, Q3)
  • Los Deciles dividen al conjunto en porciones de 10% (D1, D2, …, D9)
  • Los Percentiles dividen al conjunto en porciones de 1% (P01, P02, …, P98, P99)


Por ejemplo, el Q3 es aquel valor tal que 75% de los datos son menores o iguales que ese valor y 25% son mayores a él.

Y además El Q3 coincide con el P75.

'--------------------------------------------------------------------------------------------------------------------------------------------------------------'


3 comentarios:

VIC dijo...

¿Como se calculan los unciles?
Gracias.

Irene Valdez dijo...

Suponiendo que los "unciles" fueran porciones de 11% de los datos, estos corresponderían al percentil 11, al percentil 22 y así sucesivamente.

VIC dijo...
Este blog ha sido eliminado por un administrador de blog.