Lectura 2

Lectura 2: Medidas de localización, dispersión, y
asimetría
Estadística
Octubre 1, 2014
1. Medidas centrales o de ubicación
Notación: El tamaño de una población sera N y el de una muestra de la misma población

será denotada por n, donde n < N . Entonces los N datos de una población acerca de una
característica en particular se denotarán por x1 , x2 , . . . , xN ; mientras que los de una posible
muestra se denotarán por x1 , x2 , . . . , xn . Cuando m datos se ordenan de menor a mayor serán
representados por x(1) , x(2) , . . . , x(m) donde x(1) = mı́n (xi ) y x(m) = máx (xi ).
1≤i≤m 1≤i≤m
1.1. La media aritmética x̄
Cuando a partir de un conjunto de datos se quiere obtener un valor que los represente la
media aritmética es empleada. Es la medida más conocida y útil del centro de un conjunto de
datos. Para calcularla sumamos los datos y se divide entre el número de ellos. Por lo tanto,
la podemos calcular para una muestra y para una población.
Media de una población:
N
x1 + x2 + . . . + xN 1 X
x̄ = = xi
N N i=1
1
Media de una muestra (o media muestral):
n
x1 + x 2 + . . . + xn 1X
x̄ = = xi
n n i=1
Asi como x̄ es el valor promedio de un conjunto de datos, más adelante estudiaremos

el valor promedio (o valor esperado) de una población cuando esta es muy grande y será
denotado por µ. En los capítulos relacionados con estadística inferencial se estudiará cómo
estimar µ a partir de los datos de una muestra.
1.2. La mediana
La mediana de una muestra es el dato localizado en la mitad de los datos cuando están
organizados por orden de magnitud. Se puede interpretar diciendo que la mitad de los datos
de la muestra se encuentran por debajo de la mediana. En probabilidad se interpreta como el
valor para el cual existe una probabilidad de 0.5 de ser superado (estos temas se estudiaran
en el siguiente capitulo). La mediana de una muestra la denotaremos como x̃ y se calcula
como:


x

( n+1 ), si n es impar
2
x̃ =
 1 x(n/2) + x(n/2+1) , si n es par


2
Para el caso de la mediana de una población finita N , cambiamos el índice n por N en

la expresión anterior.
La media y la mediana son medidas que localizan la distribucion de los datos. Sin em-
bargo, son valores diferentes en general. Pueden llegar a ser iguales cuando los datos son
perfectamente simétricos. La mediana es una medida menos sensible a los datos que la me-
dia. Si por ejemplo, los datos más pequenos y/o los más grandes cambian, la mediana sigue
intacta y la media si se ve afectada.
2
1.3. La moda
Es la observación (o dato) que más se repite. En un histograma, puede calcularse como el

valor representativo de la clase con mayor frecuencia. Este valor representativo se determina
como el valor medio entre los límites del intervalo de la clase correspondiente.
2. Medidas de variabilidad o dispersión
2.1. Varianza y desviación estandar
Entre las principales medidas de variabilidad se encuentran las desviaciones. General-

mente, estas se obtienen como la diferencia entre cada dato y la media xi − x̄. El resultado
de sumarlas es igual a cero (ver página 36 de [1]). Entonces, para tener una medida (diferente
de cero) media de la variabilidad, se pueden sumar los cuadrados de las diferencias xi − x̄.
Para obtener un promedio de la desviación, se divide entre el número de datos considerados.
2.1.1. Población
Por lo tanto, para una población finita de tamaño N , la varianza se calcula como el
promedio de la desviación cuadrática con respecto a la media:
PN
(xi − x̄)2
Varianza de la población = s2N = i=1
N
y la desviación estándar se define como la raíz cuadrada de la varianza.
s
PN
i=1 (xi − x̄)2
Desviación estándar de la población = sN =
N
Las unidades de la varianza no dicen mucho porque son el cuadrado de la unidad de

los datos, mientras que las unidades de la desviación estándar si informan más acerca de la
variabilidad de los datos.
3
2.1.2. Muestra
Para el caso dela varianza de una muestra de tamaño n < N , en la literatura se ha adop-
tado —de una manera inteligente— por sumar los cuadrados de las diferencias dividiendo
entre n − 1 y no entre n. Así se obtiene una aproximación más “apropiada” de la varianza de
la población s2N :
Pn
2 i=1(xi − x̄)2
Varianza muestral = s =
n−1
Pregunta: Cuál es el concepto por el cual se divide entre n − 1 y no entre n?

Respuesta: Cuando una muestra es pequeña (n pequeño), ésta puede contener datos si-
milares que no representarían adecuadamente una población indicando una varianza menor
que la verdadera. Es decir, se subestima la verdadera varianza de la población. Esto también
se conoce como una estimación sesgada. Por lo tanto, para corregir el sesgo, la suma de los
cuadrados de las desviaciones se dividen entre n − 1 para obtener la varianza muestral inses-
gada. Si para determinar la varianza muestral se promediara con n, se estaría subestimando
la varianza de la población ya que dividir por n da un número menor que al dividir por n − 1.
Finalmente, la desviación estandar muestral se define como la raiz cuadrada (positiva)
de la varianza:
√
Desviación estandar muestral = s = s2
De manera alternativa, se puede determinar que
n
X n
X
Sxx = (xi − x̄)2 = x2i − nx̄2
i=1 i=1
Por lo tanto, la varianza (de la muestra o población) se puede también determinar como:
n
!
1 X
s2 = x2i − nx̄2
n−1 i=1
4
2.2. Rango
El rango de una muestra es la diferencia entre el dato mayor y el menor. A mayor rango
se puede decir que hay mayor variabilidad en la muestra. Sin embargo, una desventaja de
este indicador es que solo depende de los valores extremos de la muestra. Por lo tanto, a
pesar de que dos muestras de datos sean diferentes pero sus valores extremos son iguales
tienen el mismo rango.
R (x) = x(m) − x(1)
2.3. Coeficiente de variacion muestral
En una muestra, se define como la razon entre la desviacion estandar y la media:
s
CV =
x̄
CV evalua el grado de variabilidad con respecto a la media. Es una medida util para
comparar diferentes conjuntos de datos o muestras ya que es una cantidad adimensional y
usualmente se presenta en porcentaje.
3. Medidas de simetría
El sesgo (skewness en inglés) es una medida de la asimetría de los datos. Un valor positivo
indica que los datos (vistos en un histograma) tienen una cola es más larga hacia la derecha.
Y viceversa para el sesgo negativo. Matemáticamente, el sesgo de una población se define
como:
PN
1
N
(xi − x̄)3
i=1
G1 = 3/2
1
PN 2
N i=1 (xi − x̄)
5
Como ocurre con la varianza de una muestra, para obtener un estimador más apropiado
del sesgo de la población partiendo del sesgo de una muestra se usa la siguiente expresión:
Pn
1
(xi − x̄)3
p p
n (n − 1) n (n − 1) n i=1
g1 = G1 =
n−2 n−2 1
Pn 2 3/2
n i=1 (x i − x̄)
g1 se puede interpretar entonces como un estimador insesgado del sesgo de la población.

√
n(n−1)
Observen que el factor n−2 corrige la subestimación del sesgo poblacional (similar al
caso de la varianza).
Ejemplo. Suponga que se tienen 10 mediciones de corriente (en A) en una línea de distri-
bución: 20, 22, 30, 28, 18, 16, 15, 19, 23, 29. Determinar la media, mediana, rango, varianza,
desviación estándar, coeficiente de variacion, y sesgo para los datos de la linea de distribución.
i xi xi − x̄ |xi − x̄| (xi − x̄)2

1
2
3
4
5
6
7
8
9
10
(xi − x̄)2 =
P P P P
xi = (xi − x̄) = |xi − x̄| =
Cuadro 1: Medidas de variabilidad
R/ x̄ = 22, x̃ = 21, R(x) = 15, s2 = 29,333, s = 5,416, CV = 24,62 %

Se pueden hacer los mismos calculos usando R mediante las funciones mean, median, var,
sd.
x <- c(20, 22, 30, 28, 18, 16, 15, 19, 23, 29) ;
xbar = mean(x)
xtilde = median(x)
6
rangex = max(x) - min(x)
varx = var(x)
sdx = sd(x)
CV = 100*sdx/xbar
4. Percentiles (y cuantiles)
Un percentil es una medida usada para indicar el valor por debajo del cual se encuentra
un porcentaje del grupo de datos. Un percentil da una indicación de la posición relativa de
los datos. Por ejemplo, cuando una convocatoria para monitor en la Universidad exige que el
candidato debe estar en el tercio superior de los promedios académicos, se está planteando
que el candidato debe tener un promedio mayor al percentil 67. Ahora la pregunta natural
es: cómo la Universidad determina los percentiles de los promedios de la facultad?
Matemáticamente, se puede crear una lista que define los percentiles pi = (i − ,5) /n para
i = 1, 2, . . . , n. Luego, decimos que el dato x(i) corresponde al i-esimo cuantil. Cuando se
desea calcular el p-ésimo cuantil Q(p), se pueden tener dos casos:


x(i) ,
 si p = pi
Q(p) =

(1 − f ) x(i) + f x(i+1) , si pi < p < pi+1

p−pi
donde f = pi+1 −pi
= n(p − pi ). Cuando pi < p < pi+1 se realiza una interpolación lineal
para determinar el valor de Q(p). A partir de los cuartiles, se pueden determinar cantidades
como:
Cuartil superior = percentil 75 = Q(0,75) = Q3
Mediana = percentil 50 = Q(,50) = Q2
Cuartil inferior = percentil 25 = Q(0,25) = Q1
Rango inter-cuartil = IQR = Q3 − Q1
7
Ejemplo. Suponga que se tienen los tiempos (en minutos) tomados para correr 10k de 10
atletas: 55, 52.8, 35.5, 33.2, 60.0, 48.6, 56.7, 51.1, 45.3, 37.2. Determine Q(0,25), Q(0,5), Q(0,75),
y Q(0,33). Interprete los resultados.
Por facilidad construimos una tabla con los percentiles pi como se muestra en la Tabla 2.
i pi = (i − ,5)/10 Q(pi )
1 0.05 33.2
2 0.15 35.5
3 0.25 37.2
4 0.35 45.3
5 0.45 48.6
6 0.55 51.1
7 0.65 52.8
8 0.75 55.0
9 0.85 56.7
10 0.95 60.0
Cuadro 2: Percentiles
En R, los quantiles se pueden determinar con la función quantile.
> tiempos <- c(55, 52.8, 35.5, 33.2, 60.0, 48.6, 56.7, 51.1, 45.3, 37.2)
> quantile(tiempos)
0% 25% 50% 75% 100%
33.200 39.225 49.850 54.450 60.000
Sin embargo, también se pueden especificar los percentiles respectivos usando un vec-
tor con los respectivos valores deseados en el segundo argumento de la función quantile.
También, se puede determinar el tipo de método de cálculo de los percentiles. El método
estudiado en clase es type 5:
> quantile(tiempos, c(.25, 0.5, 0.75, 0.33),type = 5)

25% 50% 75% 33%
37.20 49.85 55.00 43.68
8
**
OV
UAV
Q3
Mediana (Q2)
Q1
LAV
Figura 1: Estructura de un grafico de caja
4.1. Boxplots
Una gráfica de caja es también una representación gráfica de un conjunto de datos. Es

útil para estudiar la forma de la distribución incluyendo su simetría o asimetría alrededor
de una ubicación central, basada en cantidades como:
Límite superior (upper fence) = Q3 + 1,5IQR
Límite inferior (lower fence) = Q1 − 1,5IQR
Upper Adjacent Value (UAV) = la máxima observación menor al límite superior
Lower Adjacent Value (LAV) = la mínima observacion mayor al límite inferior
Valores extremos = observaciones que están por fuera del intervalo de UAV y LAV
La forma de un gráfico de caja es como se muestra en la Fig. 1. La caja encierra el

50 % de los datos del centro. También, observando la línea de la mediana se pueden extraer
conclusiones acerca de la simetría de la distribución de la muestra.
9
●●
●● ● ● ●
1 2 3 4 5 6 0 5 10 15
80
30
Frequency
Frequency
40
0 10
0 1 2 3 4 5 6 0 5 10 15
x y
Figura 2: Gráficos de caja e histogramas para dos conjuntos de datos x y y
La Fig. 2 ilustra la gráfica de datos para dos conjuntos de datos x y y. Observe que el
conjunto de datos x tiene prácticamente una distribución simétrica, de hecho el sesgo g1x =
.01 (casi cero). Sin embargo, los datos almacenados en y están sesgados a la derecha, de
hecho el sesgo g1y = .12 es significativo y positivo. Estas características también se observan
en la gráfica de caja. Note que para el caso de y, se muestran datos que están muy a la
derecha de la caja.
Ejemplo. Hacer el gráfico de caja usando los tiempos de la carrera de 10k.

Del ejemplo anterior teniamos que Q1 = 37,2, Q2 = 49,85, y Q3 = 55,0. Luego:
10
60
55
Tiempos [min]
50
45
40
35
Figura 3: Grafico de caja de tiempos de los atletas
IQR = Q3 − Q1 = 17,8
Límite superior = 81.7
Límite inferior = 10.5
UAV = 60
LAV = 33.2
Valores extremos = ninguno
Usando R se obtiene el gráfico de la Fig. 3. El código empleado seria:
Times <- c(55, 52.8, 35.5, 33.2, 60.0, 48.6, 56.7, 51.1, 45.3, 37.2) ;
boxplot(Times, ylab = "Tiempos [min]")
11
Referencias
[1] Jay L. Devore. Probabilidad y estadistica para ingenieria y ciencias, Octava edicion.
Cengage Learning, Julio 2011.
12

Lectura 2

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Lectura 2

Hochgeladen von

Copyright:

Verfügbare Formate

Lectura 2: Medidas de localización, dispersión, y

1. Medidas centrales o de ubicación

Notación: El tamaño de una población sera N y el de una muestra de la misma población

1.1. La media aritmética x̄

Media de una población:

Asi como x̄ es el valor promedio de un conjunto de datos, más adelante estudiaremos

Para el caso de la mediana de una población finita N , cambiamos el índice n por N en

Es la observación (o dato) que más se repite. En un histograma, puede calcularse como el

2. Medidas de variabilidad o dispersión

2.1. Varianza y desviación estandar

Entre las principales medidas de variabilidad se encuentran las desviaciones. General-

y la desviación estándar se define como la raíz cuadrada de la varianza.

Las unidades de la varianza no dicen mucho porque son el cuadrado de la unidad de

Pregunta: Cuál es el concepto por el cual se divide entre n − 1 y no entre n?

De manera alternativa, se puede determinar que

R (x) = x(m) − x(1)

2.3. Coeficiente de variacion muestral

En una muestra, se define como la razon entre la desviacion estandar y la media:

g1 se puede interpretar entonces como un estimador insesgado del sesgo de la población.

i xi xi − x̄ |xi − x̄| (xi − x̄)2

Cuadro 1: Medidas de variabilidad

R/ x̄ = 22, x̃ = 21, R(x) = 15, s2 = 29,333, s = 5,416, CV = 24,62 %

Cuartil superior = percentil 75 = Q(0,75) = Q3

Mediana = percentil 50 = Q(,50) = Q2

Cuartil inferior = percentil 25 = Q(0,25) = Q1

Rango inter-cuartil = IQR = Q3 − Q1

En R, los quantiles se pueden determinar con la función quantile.

> quantile(tiempos, c(.25, 0.5, 0.75, 0.33),type = 5)

Figura 1: Estructura de un grafico de caja

Una gráfica de caja es también una representación gráfica de un conjunto de datos. Es

Límite superior (upper fence) = Q3 + 1,5IQR

Límite inferior (lower fence) = Q1 − 1,5IQR

Upper Adjacent Value (UAV) = la máxima observación menor al límite superior

Lower Adjacent Value (LAV) = la mínima observacion mayor al límite inferior

La forma de un gráfico de caja es como se muestra en la Fig. 1. La caja encierra el

Figura 2: Gráficos de caja e histogramas para dos conjuntos de datos x y y

Ejemplo. Hacer el gráfico de caja usando los tiempos de la carrera de 10k.

Figura 3: Grafico de caja de tiempos de los atletas

Límite superior = 81.7

Límite inferior = 10.5

Valores extremos = ninguno

Usando R se obtiene el gráfico de la Fig. 3. El código empleado seria:

Das könnte Ihnen auch gefallen