Beruflich Dokumente
Kultur Dokumente
asimetría
Estadística
Octubre 1, 2014
Cuando a partir de un conjunto de datos se quiere obtener un valor que los represente la
media aritmética es empleada. Es la medida más conocida y útil del centro de un conjunto de
datos. Para calcularla sumamos los datos y se divide entre el número de ellos. Por lo tanto,
la podemos calcular para una muestra y para una población.
N
x1 + x2 + . . . + xN 1 X
x̄ = = xi
N N i=1
1
Media de una muestra (o media muestral):
n
x1 + x 2 + . . . + xn 1X
x̄ = = xi
n n i=1
1.2. La mediana
La mediana de una muestra es el dato localizado en la mitad de los datos cuando están
organizados por orden de magnitud. Se puede interpretar diciendo que la mitad de los datos
de la muestra se encuentran por debajo de la mediana. En probabilidad se interpreta como el
valor para el cual existe una probabilidad de 0.5 de ser superado (estos temas se estudiaran
en el siguiente capitulo). La mediana de una muestra la denotaremos como x̃ y se calcula
como:
x
( n+1 ), si n es impar
2
x̃ =
1 x(n/2) + x(n/2+1) , si n es par
2
2
1.3. La moda
2.1.1. Población
Por lo tanto, para una población finita de tamaño N , la varianza se calcula como el
promedio de la desviación cuadrática con respecto a la media:
PN
(xi − x̄)2
Varianza de la población = s2N = i=1
N
s
PN
i=1 (xi − x̄)2
Desviación estándar de la población = sN =
N
3
2.1.2. Muestra
Para el caso dela varianza de una muestra de tamaño n < N , en la literatura se ha adop-
tado —de una manera inteligente— por sumar los cuadrados de las diferencias dividiendo
entre n − 1 y no entre n. Así se obtiene una aproximación más “apropiada” de la varianza de
la población s2N :
Pn
2 i=1(xi − x̄)2
Varianza muestral = s =
n−1
√
Desviación estandar muestral = s = s2
n
X n
X
Sxx = (xi − x̄)2 = x2i − nx̄2
i=1 i=1
Por lo tanto, la varianza (de la muestra o población) se puede también determinar como:
n
!
1 X
s2 = x2i − nx̄2
n−1 i=1
4
2.2. Rango
El rango de una muestra es la diferencia entre el dato mayor y el menor. A mayor rango
se puede decir que hay mayor variabilidad en la muestra. Sin embargo, una desventaja de
este indicador es que solo depende de los valores extremos de la muestra. Por lo tanto, a
pesar de que dos muestras de datos sean diferentes pero sus valores extremos son iguales
tienen el mismo rango.
s
CV =
x̄
CV evalua el grado de variabilidad con respecto a la media. Es una medida util para
comparar diferentes conjuntos de datos o muestras ya que es una cantidad adimensional y
usualmente se presenta en porcentaje.
3. Medidas de simetría
El sesgo (skewness en inglés) es una medida de la asimetría de los datos. Un valor positivo
indica que los datos (vistos en un histograma) tienen una cola es más larga hacia la derecha.
Y viceversa para el sesgo negativo. Matemáticamente, el sesgo de una población se define
como:
PN
1
N
(xi − x̄)3
i=1
G1 = 3/2
1
PN 2
N i=1 (xi − x̄)
5
Como ocurre con la varianza de una muestra, para obtener un estimador más apropiado
del sesgo de la población partiendo del sesgo de una muestra se usa la siguiente expresión:
Pn
1
(xi − x̄)3
p p
n (n − 1) n (n − 1) n i=1
g1 = G1 =
n−2 n−2 1
Pn 2 3/2
n i=1 (x i − x̄)
Ejemplo. Suponga que se tienen 10 mediciones de corriente (en A) en una línea de distri-
bución: 20, 22, 30, 28, 18, 16, 15, 19, 23, 29. Determinar la media, mediana, rango, varianza,
desviación estándar, coeficiente de variacion, y sesgo para los datos de la linea de distribución.
x <- c(20, 22, 30, 28, 18, 16, 15, 19, 23, 29) ;
xbar = mean(x)
xtilde = median(x)
6
rangex = max(x) - min(x)
varx = var(x)
sdx = sd(x)
CV = 100*sdx/xbar
4. Percentiles (y cuantiles)
Un percentil es una medida usada para indicar el valor por debajo del cual se encuentra
un porcentaje del grupo de datos. Un percentil da una indicación de la posición relativa de
los datos. Por ejemplo, cuando una convocatoria para monitor en la Universidad exige que el
candidato debe estar en el tercio superior de los promedios académicos, se está planteando
que el candidato debe tener un promedio mayor al percentil 67. Ahora la pregunta natural
es: cómo la Universidad determina los percentiles de los promedios de la facultad?
Matemáticamente, se puede crear una lista que define los percentiles pi = (i − ,5) /n para
i = 1, 2, . . . , n. Luego, decimos que el dato x(i) corresponde al i-esimo cuantil. Cuando se
desea calcular el p-ésimo cuantil Q(p), se pueden tener dos casos:
x(i) ,
si p = pi
Q(p) =
(1 − f ) x(i) + f x(i+1) , si pi < p < pi+1
p−pi
donde f = pi+1 −pi
= n(p − pi ). Cuando pi < p < pi+1 se realiza una interpolación lineal
para determinar el valor de Q(p). A partir de los cuartiles, se pueden determinar cantidades
como:
7
Ejemplo. Suponga que se tienen los tiempos (en minutos) tomados para correr 10k de 10
atletas: 55, 52.8, 35.5, 33.2, 60.0, 48.6, 56.7, 51.1, 45.3, 37.2. Determine Q(0,25), Q(0,5), Q(0,75),
y Q(0,33). Interprete los resultados.
Por facilidad construimos una tabla con los percentiles pi como se muestra en la Tabla 2.
i pi = (i − ,5)/10 Q(pi )
1 0.05 33.2
2 0.15 35.5
3 0.25 37.2
4 0.35 45.3
5 0.45 48.6
6 0.55 51.1
7 0.65 52.8
8 0.75 55.0
9 0.85 56.7
10 0.95 60.0
Cuadro 2: Percentiles
> tiempos <- c(55, 52.8, 35.5, 33.2, 60.0, 48.6, 56.7, 51.1, 45.3, 37.2)
> quantile(tiempos)
0% 25% 50% 75% 100%
33.200 39.225 49.850 54.450 60.000
Sin embargo, también se pueden especificar los percentiles respectivos usando un vec-
tor con los respectivos valores deseados en el segundo argumento de la función quantile.
También, se puede determinar el tipo de método de cálculo de los percentiles. El método
estudiado en clase es type 5:
8
**
OV
UAV
Q3
Mediana (Q2)
Q1
LAV
4.1. Boxplots
Valores extremos = observaciones que están por fuera del intervalo de UAV y LAV
9
●●
●● ● ● ●
1 2 3 4 5 6 0 5 10 15
80
30
Frequency
Frequency
40
0 10
0 1 2 3 4 5 6 0 5 10 15
x y
La Fig. 2 ilustra la gráfica de datos para dos conjuntos de datos x y y. Observe que el
conjunto de datos x tiene prácticamente una distribución simétrica, de hecho el sesgo g1x =
.01 (casi cero). Sin embargo, los datos almacenados en y están sesgados a la derecha, de
hecho el sesgo g1y = .12 es significativo y positivo. Estas características también se observan
en la gráfica de caja. Note que para el caso de y, se muestran datos que están muy a la
derecha de la caja.
10
60
55
Tiempos [min]
50
45
40
35
IQR = Q3 − Q1 = 17,8
UAV = 60
LAV = 33.2
Times <- c(55, 52.8, 35.5, 33.2, 60.0, 48.6, 56.7, 51.1, 45.3, 37.2) ;
boxplot(Times, ylab = "Tiempos [min]")
11
Referencias
[1] Jay L. Devore. Probabilidad y estadistica para ingenieria y ciencias, Octava edicion.
Cengage Learning, Julio 2011.
12