Parámetros estadísticos

De Wikipedia

Tabla de contenidos

Parámetros estadísticos

Después de haber representado los datos gráficamente, ahora llega el momento de hacer un estudio de los mismos. Existen una serie de datos que llamaremos parámetros estadísticos que nos sirven para representar a toda la población o que nos dan a información útil sobre la misma.

Parámetros estadísticos: Son datos que resumen el estudio realizado en la población. Pueden ser de dos tipos:

  • Parámetros de centralización. Son datos que representan de forma global a toda la población. Entre ellos tenemos la media aritmética, la moda y la mediana.
  • Parámetros de dispersión. Son datos que informan de la concentración o dispersión de los datos respecto de los parámetros de centralización. Entre ellos están el recorrido, la desviación media, la varianza y la desviación típica.

Parámetros de centralización

Moda

  • Se define la moda como el valor de la variable que más se repite, es el decir, aquél que tiene mayor frecuencia absoluta. Se representa por Mo.
  • Si hay dos o varias puntuaciones con la misma frecuencia máxima, la distribución es bimodal o multimodal, es decir, tiene varias modas.

ejercicio

Cálculo de la moda con datos agrupados en intervalos


Llamemos intervalo modal al que tiene mayor frecuencia absoluta y consideremos dos casos:

  • Si todos los intervalos tienen la misma amplitud, entonces la moda viene dada por la siguiente fórmula:


M_o=L_i+\cfrac{f_i-f_{i-1}}{(f_i-f_{i-1})+(f_i-f_{i+1})}\cdot A_i


  • L_i\;: Extremo inferior del intervalo modal :
  • f_i\;: Frecuencia absoluta del intervalo modal.
  • f_{i-1}\;: Frecuencia absoluta del intervalo anterior al modal.
  • f_{i+1}\;: Frecuencia absoluta del intervalo posterior al modal.
  • A_i\;: Amplitud de los intervalos.


  • Si todos los intervalos no tienen la misma amplitud, entonces la moda viene dada por la siguiente fórmula:


M_o=L_i+\cfrac{h_i-h_{i-1}}{(h_i-h_{i-1})+(h_i-h_{i+1})}\cdot A_i


donde h_i=\cfrac{f_i}{A_i} son las alturas de cada intervalo.

Media aritmética

Se define la media aritmética como la suma de todos los datos dividida por el número de datos. Se representa por \bar x\.

ejercicio

Cálculo de la media aritmética


  • Para datos no agrupados, la media se calcula como sigue:

\bar x\ = \frac{x_1 + x_2 + ....+x_N} {N}=\cfrac{\sum_{i=1}^N x_i}{N}

donde N = \sum_{i=1}^N f_i es el número total de datos observados.

  • Para el caso de datos agrupados puntualmente podemos simplificar el cálculo de la media aritmética con la fórmula:

\bar x\ = \frac{x_1.f_1 + x_2.f_2 + ....+x_N.f_N} {N}={\sum_{i=1}^N x_i.f_i \over N}

  • Para el caso de datos agrupados por intervalos, el cálculo se hace de la misma forma pero utilizando como x_i\; las marcas de clase, que son los valores centrales de cada intervalo (media aritmética de los extremos de cada intervalo).

Mediana

Si ordenamos todos los valores de la variable de menor a mayor, se define la mediana como el valor de la variable que está en el centro. Se representa por Me.

ejercicio

Procedimiento


Para calcular la mediana es necesario que los datos estén ordenados de menor a mayor. Se pueden dar los siguientes casos:

  • Datos no agrupados o agrupados puntualmente: Si hay un número impar de datos observados, habrá un sólo valor central, mientras que si hay un número par de datos habrá que hallar la media de los dos valores centrales. En el caso de datos agrupados puntualmente deberemos guiarnos con las frecuencias acumuladas.
  • Datos agrupados por intervalos: La mediana se encuentra en el intervalo donde la frecuencia acumulada llega hasta la mitad de la suma de las frecuencias absolutas. Es decir tenemos que buscar el intervalo en el que se encuentre \cfrac{N}{2}. Luego calculamos la mediana según la siguiente fórmula:
M_e=L_i+\cfrac{\frac{N}{2}-F_{i-1}}{F_i-F_{i-1}}\cdot A_i
donde:
  • F_i\; es la frecuencia acumulada del intervalo donde se encuentra la mediana y F_{i-1}\; la frecuencia acumulada del intervalo anterior. Se cumple que F_{i-1} < \cfrac{N}{2} \le F_i.
  • L_i\; es el límite inferior del intervalo donde se halla la mediana.
  • A_i\; es la amplitud del intervalo donde se halla la mediana.

Actividades

Parámetros de posición

Los parámetros de posición dividen un conjunto de datos ordenados en grupos con el mismo número de individuos. Son los siguientes:

  • Cuartiles: Son los valores de la variable que dividen la serie ordenada de datos en cuatro partes iguales.
    • Los cuartiles son tres: Q1, Q2 y Q3, que delimitan al 25%, al 50% y al 75% de los datos, respectivamente.
    • Q2 coincide con la mediana.
    • La diferencia Q3 - Q1 se llama recorrido intercuartílico.
  • Deciles: Son los valores de la variable que dividen la serie ordenada de datos en diez partes iguales.
    • Los deciles son 9: D1, D2 ... , D9, que delimitan al 10%, al 20%, ..., 90% de los datos, respectivamente.
    • D5 coincide con la mediana.
  • Percentiles: Son los valores de la variable que dividen la serie ordenada de datos en cien partes iguales.
    • Los percentiles son 99: P1, P2 ... , P99, que delimitan al 1%, al 2%, ... , 99% de los datos, respectivamente.
    • P50 coincide con la mediana.

ejercicio

Cálculo de los parámetros de posición


Para calcular los parámetros de posición es necesario que los N datos estén ordenados de menor a mayor.

  • Cuartiles: Procederemos como hacíamos con la mediana, pero ahora buscaremos el lugar que ocupa cada cuartil mediante la expresión
\cfrac{k \cdot N}{4} \, , \ k=1,\, 2,\, 3

en lugar del valor que usábamos para la mediana, \frac{N}{2}. (Fíjate que para k=2 se obtiene precisamente dicho valor, ya que Q2 es la mediana)
  • Para el caso de datos no agrupados o agrupados puntualmente, el valor \frac{k \cdot N}{4} se redondea al siguiente número entero, y el dato ocupe dicho lugar será el cuartil.
  • Para el caso de datos agrupados en intervalos, la fórmula queda como sigue:

Q_k=L_i+\cfrac{\frac{k \cdot N}{4}-F_{i-1}}{F_i-F_{i-1}}\cdot A_i

donde:
  • F_i\; es la frecuencia acumulada del intervalo donde se encuentra el cuartil y F_{i-1}\; la frecuencia acumulada del intervalo anterior. Se cumple que F_{i-1} < \cfrac{k \cdot N}{4} \le F_i.
  • L_i\; es el límite inferior del intervalo donde se halla el cuartil.
  • A_i\; es la amplitud del intervalo donde se halla el cuartil.
  • N\; es el número de datos.


  • Deciles: Procederemos como antes, pero buscaremos el lugar que ocupa cada decil mediante la expresión
\cfrac{k \cdot N}{10} \, , \ k=1,\, 2,\, \cdots , 9
  • Para el caso de datos no agrupados o agrupados puntualmente, el valor \frac{k \cdot N}{10} se redondea al siguiente número entero, y el dato que ocupe dicho lugar será el decil.
  • Para el caso de datos agrupados en intervalos, la fórmula queda como sigue:

D_k=L_i+\cfrac{\frac{k \cdot N}{10}-F_{i-1}}{F_i-F_{i-1}}\cdot A_i

donde:
  • F_i\; es la frecuencia acumulada del intervalo donde se encuentra el decil y F_{i-1}\; la frecuencia acumulada del intervalo anterior. Se cumple que F_{i-1} < \cfrac{k \cdot N}{10} \le F_i.
  • L_i\; es el límite inferior del intervalo donde se halla el decil.
  • A_i\; es la amplitud del intervalo donde se halla el decil.
  • N\; es el número de datos.


  • Percentiles: Procederemos como antes, pero buscaremos el lugar que ocupa cada percentil mediante la expresión

\cfrac{k \cdot N}{100} \, , \ k=1,\, 2,\, \cdots , 99

  • Para el caso de datos no agrupados o agrupados puntualmente, el valor \frac{k \cdot N}{100} se redondea al siguiente número entero, y el dato que ocupe dicho lugar será el percentil.
  • Para el caso de datos agrupados en intervalos, la fórmula queda como sigue:
P_k=L_i+\cfrac{\frac{k \cdot N}{100}-F_{i-1}}{F_i-F_{i-1}}\cdot A_i
donde:
  • F_i\; es la frecuencia acumulada del intervalo donde se encuentra el percentil y F_{i-1}\; la frecuencia acumulada del intervalo anterior. Se cumple que F_{i-1} < \cfrac{k \cdot N}{100} \le F_i.
  • L_i\; es el límite inferior del intervalo donde se halla el percentil.
  • A_i\; es la amplitud del intervalo donde se halla el percentil.
  • N\; es el número de datos.

Diagrama de caja y bigotes

  • Los diagramas de caja y bigotes son una presentación visual que describe varias características importantes de una distribución al mismo tiempo, tales como la dispersión y la simetría.
  • Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos sobre un rectángulo, alineado horizontal o verticalmente.

Diagramas de cajas y bigotes.(estadisticaparatodos.es)
Aumentar
Diagramas de cajas y bigotes.

(estadisticaparatodos.es)

Parámetros de dispersión

Rango o recorrido

Se define el rango o recorrido como la diferencia entre el mayor y el menor de los valores de la variable. Se representa por R.

Desviación media

  • La diferencia entre cada dato y la media aritmética del grupo se llaman desviaciones respecto a la media.
  • Desviación media de un conjunto de datos es la media aritmética de los valores absolutos de las desviaciones respecto a la media. Nos indica el grado de dispersón (alejamiento) de los datos respecto a su media.

Varianza y desviación típica

Se define la varianza como la media aritmética de los cuadrados de las desviaciones respecto de la media. Es decir:

\sigma^2\ = \frac{(x_1 - \bar x)^2.f_i + (x_2 - \bar x)^2.f_i + ....+(x_N - \bar x)^2.f_i} {N}={\sum_{i=1}^N (x_i - \bar x)^2.f_i \over N}

Se calcula más facilmente, con la siguiente fórmula equivalente:

\sigma^2\ = {\sum_{i=1}^N x_i^2.f_i \over N} - \bar x^2

Si agrupamos los datos en intervalos, el cálculo se hace de la misma forma pero utilizando como x_i\; las marcas de clase (valores centrales de cada intervalo que se calculan haciendo la media aritmética de los extremos de cada intervalo).


La varianza no viene expresada en las mismas unidades que los datos, ya que las desviaciones están elevadas al cuadrado. Para evitar esto se define la desviación típica.

Se define la desviación típica como la raíz cuadrada positiva de la varianza:

\sigma =\sqrt{{\sum_{i=1}^N x_i^2.f_i \over N} - \bar x^2 }

Cuanto más pequeña sea la desviación típica mayor será la concentración de datos alrededor de la media.


Actividades

Interpretación conjunta de la media y la desviación típica

De todas los parámetros estudiados, los más significativos son la media para las medidas de centralización y la desviación típica para las medidas de dispersión.

Vamos a hacer un estudio conjunto de ambas para entender mejor su significado.

La media aritmética es el centro de gravedad de la distribución estadística. Si nos imaginamos el diagrama de barras o el histograma de frecuencias apoyado en un punto del eje horizontal de forma que quedase en equilibrio, el valor de este punto en dicho eje sería el valor de la media.

Como ya hemos comentado, no es suficiente con un parámetro de centralización, es necesario un parámetro de dispersión que nos indique si los datos estudiados están más concentrados o más dispersos. Y este parámetro de dispersión va a ser la desviación típica. Lógicamente si los datos están más concentrados la desviación típica será menor, y si los datos están más dispersos la desviación típica será mayor.

Coeficiente de variación

Si hemos realizado un estudio estadístico en dos poblaciones diferentes, y queremos comparar resultados, no podemos acudir a la desviación típica para ver la mayor o menor homogeneidad de los datos, sino a otro parámetro nuevo, llamado coeficiente de variación.

El coeficiente de variación se define como el cociente entre la desviación típica y la media.

{CV}={\sigma \over \bar x}

El coeficiente de variación se suele expresar en forma de porcentaje:

{CV}={\sigma \over \bar x} \cdot 100 \ %

A una mayor dispersión de los datos le corresponderá un valor del coeficiente de variación mayor.

Ejercicios y videotutoriales


Herramientas personales
* AVISO: Para que te funcionen los applets de Java debes usar Internet Explorer y seguir las instrucciones de la Ayuda del menu de la izquierda