Beruflich Dokumente
Kultur Dokumente
grupo ni fi
A 12 0.3
B 11 0.275
AB 8 0.2
O 9 0.225
Total 40 1
xi ni
muy insatisfecho 62
moderamademte insatisfecho 108
moderadamente satisfecho 319
muy satisfecho 412
Aurea Grane Total 901
Dpto. Estadstica, Universidad Carlos III de Madrid a) De que tipo es la variable de estudio? Calcular la tabla de frecuencias corre-
spondiente.
b) Que porcentaje de individuos estan moderadamente satisfechos?
c) Cuantos individuos estan a lo sumo moderadamente insatisfechos? Que por-
centaje representan?
d) Cuantos individuos estan por lo menos moderadamente satisfechos? Que
porcentaje representan?
b) El 35%, c) 170 y representan el 19%, d) 319 + 412 = 731 o bien 901 170 = 731, asientos vacos ni
que representan el 35 + 46 = 81% (o bien 100 19 = 81%). 03 9
47 5
8 11 4
Ejemplo 2.3 Se quiere estudiar la ecacia de un nuevo insecticida para plantas de 12 16 2
interior. Se seleccionan 50 plantas y se cuenta el numero de hojas que han sido
atacadas despues de haber tratado la planta con el nuevo producto. Los resultados a) De que tipo es la variable estudiada? Construir la tabla de frecuencias corre-
son: spondiente.
Hojas atacadas ni b) En cuantos vuelos hay menos de 8 asientos vacos? Que porcentaje repre-
0 6 sentan?
1 10 c) En cuantos vuelos hay como mnimo 10 asientos vacos? Que porcentaje
2 12 representan?
3 8
4 5
5 4 Respuestas: a) Cuantitativa discreta,
6 3
intervalos xi ni fi Ni Fi
8 1
10 1 [0, 4) 2 9 0,45 9 0,45
[4, 8) 6 5 0,25 14 0,70
a) De que tipo es la variable de estudio? Construir la tabla de frecuencias corre- [8, 12) 10 4 0,20 18 0,90
spondiente. [12, 16] 14 2 0,10 20 1,00
b) Que porcentaje de plantas tienen solo 3 hojas atacadas? Total 20 1
c) Cuantas plantas tienen como maximo 3 hojas atacadas? b) En 14 vuelos, y representan el 70% de los vuelos, c) Aproximadamente en 2 + 4
d) Cuantas plantas tienen como mnimo 6 hojas atacadas? (10 8)/(12 8) = 4 vuelos, que representan el 4/20 100 = 20% de los vuelos.
e) Que porcentaje de plantas tienen entre 3 y 5 hojas atacadas?
f ) Que porcentaje de plantas tienen al menos 8 hojas atacadas?
g) Que porcentaje de plantas tienen a lo sumo 2 hojas atacadas?
Ejemplos de representaciones gracas Figura 3: Histograma y polgono de frecuencias. Datos del ejemplo 2.4.
Figura 1: (a) Diagrama de sectores. Datos del ejemplo 2.1, (b) Graco de Pareto.
2.5
Datos del ejemplo 2.2.
polgono de frecuencias
900 100% 2 histograma
23% 800 89%
30%
700 78%
1.5
600 67%
A 500 55%
B
AB 1
O 400 44%
300 33%
20%
200 22%
0.5
100 11%
28%
0 0%
muy satisfecho mod. satisfecho mod. insatisfecho muy insatisfecho
0 4 8 12 16
(a) (b)
Ejemplo 2.5 Con los siguientes datos construir un diagrama de tallo y hojas.
Datos recogidos (en cm):
11.357, 12.542, 11.384, 12.431, 14.212, 15.213, 13.300, 11.300, 17.206, 12.710,
13.455, 16.143, 12.162, 12.721, 13.420, 14.698. Respuesta:
Datos redondeados y expresados en mm:
Figura 2: Diagrama de barras y polgono de frecuencias. Datos del ejemplo 2.3. 114, 125, 114, 124, 142, 152, 133, 113, 172, 127, 135, 161, 122, 127, 134, 147.
Diagrama de tallo y hojas (datos en mm):
11 344
12 polgono de frecuencias
12 24577
diagrama de barras
13 345
10 14 27
15 2
8 16 1
17 2
6
4
Ejemplo 2.6 Un inversor tiene ahorros repartidos en 3 depositos con 2000, 5000 y
2
10000 euros, respectivamente. si el primero le rinde un 5% anual, el segundo un 4%
anual y el tercero un 2% anual, cual es el tipo de interes medio que recibe?
0 1 2 3 4 5 6 7 8 9 10
Respuesta: La variable de estudio es el interes anual. Los valores que toma esta
variable son 5, 4, 2 con pesos 2000, 5000, 10000, respectivamente. El interes medio es
5 2000 + 4 5000 + 2 10000 50000
xP = = = 2.94.
2000 + 5000 + 10000 17000
b) 20, 21, 18, 19, 18, 17, 18 Para el calculo de la moda, buscamos primero el intervalo modal, que es el que pre-
senta mayor ni /Li . Este inetrvalo es [100000, 250000). Aplicando la formula de la
moda:
Respuestas: a) Ordenados los datos en orden creciente, 5.2 105
M o = 100000 + 150000 = 195121.95,
3 10 + 5.2 105
5
17, 18, 18, 18, 19, 20, 21, 23,
esto signica que el numero de habitantes mas frecuente en las provincias espanolas
el valor de la mediana es M e = (18 + 19)/2 = 18.5 y la moda es M o = 18. es de 195122 habitantes, aproximadamente.
b) Ordenados los datos en orden creciente,
Ejemplo 2.9 Con los datos del ejemplo 2.7, calcular la moda.
17, 18, 18, 18, 19, 20, 21,
1008
s2n = 5.82 = 16.76, sn = 16.76 = 4.09, El numero de vuelos que tienen a lo sumo 10 asientos vacos lo obtendremos sumando
20
las frecuencias observadas en el intervalo [0, 4) mas las frecuencias observadas en el
R = 16 0 = 16, RI = 9 2.22 = 6.78. intervalo [4, 8) mas una parte de las frecuencias observadas en el intervalo [8, 12). Es
decir,
10 8
9+5+ 4 = 16.
12 8
2 ANALISIS EXPLORATORIO DE DATOS 11 2 ANALISIS EXPLORATORIO DE DATOS 12
Ejercicio 2.2 Clasicadas las provincias espanolas por su numero de habitantes en Por tanto, el numero de provincias que tienen entre 800000 y 1300000 habitantes es
2001, se obtuvieron los siguientes datos: aproximadamente
Respuestas: a) La tabla de frecuencias con una columna adicional que sera util para 105
la construccion del histograma es la siguiente:
intervalos xi ni fi Ni Fi ni /Li 0 1 2 3 4 5 6
[0, 100000) 50000 3 0.058 3 0.058 3 105 millones de habitantes
[100000, 250000) 175000 8 0.154 11 0.212 5.3 105
[250000, 500000) 375000 13 0.250 24 0.462 5.2 105
[500000, 750000) 600000 10 0.192 34 0.654 4 105
[750000, 1000000) 875000 7 0.135 41 0.789 2.8 105 Ejercicio 2.3 Los siguientes datos corresponden a las medidas de 15 individuos sobre
[1000000, 2000000) 1500000 8 0.154 49 0.943 0.8 105 la variable cuantitativa peso:
[2000000, 3000000) 2500000 1 0.019 50 0.962 0.1 105
62, 74, 86, 53, 49, 71, 68, 67, 69, 70, 58, 59, 73, 74, 78.
[3000000, 4000000) 3500000 0 0 50 0.962 0
[4000000, 6000000) 5000000 2 0.038 52 1 0.1 105 a) Construid una tabla de frecuencias absolutas, relativas, absolutas acumuladas y
b) 24 provincias, que representan el 46.2%. relativas acumuladas.
c) El intervalo [800000, 1300000] esta situado encima de dos intervalos de clase: b) Realizad un diagrama de tallo y hojas.
Respuestas: a) Agrupamos los datos en k = 15 4 intervalos de clase:
800000 1300000
intervalos xi ni fi Ni Fi
[ ] [49, 59) 54 3 0.2 3 0.2
[59, 69) 64 4 0.267 7 0.467
750000 106 2 106 [69, 79) 74 7 0.467 14 0.934
[79, 89] 84 1 0.067 15 1.001
Ejercicio 2.8 De los ocho empleados de una ocina, se han considerado las distribu- a) Obtener el alquiler medio por apartamento, el precio mas frecuente y el precio
ciones de sus edades y sus anos de antiguedad en la empresa: que se situa en medio de la oferta.
b) Si una persona esta dispuesta a gastarse en alquiler entre 1250 y 1350 euros al
Edad 40 22 19 30 62 32 45 51
mes, a que porcentaje de apartamentos tiene opcion?
Antiguedad 15 3 1 8 39 13 17 24
c) Por debajo de que precio estan el 80% de los apartamentos?
Calcular lor rangos de estas dos distribuciones. Cual de las dos tiene mayor grado d) Entre que precios estan el 50% central de los apartamentos?
de dispresion?
Respuestas: a) Empezamos construyendo la tabla de frecuencias, y las columnas
Respuesta: auxiliares para realizar los calculos:
R(edad) = 62 19 = 43, R(antiguedad) = 39 1 = 38.
[li1 , li ) xi ni Ni fi xi ni ni /Li
Aunque el rango de la variable edad sea mayor que el rango de la variable antiguedad, [700, 1000) 850 21 21 0.168 17850 0.07
esto no signica que el grado de dispersion de edad sea tambien mayor. Para decidir [1000, 1100) 1050 27 48 0.216 28350 0.27
que variable tiene un mayor grado de dispersion debemos calcular el coeciente de [1100, 1300) 1200 34 82 0.272 40800 0.17
variacion. As, para la variable edad tenemos que: [1300, 1500) 1400 14 96 0.112 19600 0.07
n [1500, 1800) 1650 8 104 0.064 13200 0.027
1 301
x = xi = = 37.6, [1800, 2000) 1900 11 115 0.088 20900 0.055
n 8 [2000, 2100] 2050 10 125 0.08 20500 0.1
i=1
12839 Total 125 1 161200
s2n = x2 x2 = (37.6)2 = 189.23,
8
sn = 189.23 = 13.8, El alquiler medio por apartamento lo obtendremos mediante el calculo de la media
sn 13.8 aritmetica:
CV = 100 = 100 = 36.7%, 1
n
161200
x 37.6 x= xi ni = = 1289.6 euros/mes
mientras que para la variable antiguedad: n 125
i=1
n
1 120 El precio mas frecuente lo obtendremos mediante el intervalo modal, o bien, si quere-
x = xi = = 15, mos ser mas precisos, mediante la moda. Puesto que todos los intervalos no tienen la
n 8
i=1 misma amplitud, para saber cual es el intervalo modal debemos jarnos en la columna
2854 que contiene los valores de ni /Li y no en la de las ni . As pues, el intervalo modal es
s2n = x2 x2 = (15)2 = 131.75,
8 [1000, 1100), o sea que el precio mas frecuente de los apartamentos esta entre 1000 y
sn = 131.75 = 11.48, 1100 euros mensuales. La siguiente formula permite situar el valor de la moda dentro
sn 11.48 del intervalo modal [li1 , li ):
CV = 100 = 100 = 76.5%.
x 15 ni+1
Li+1
Por tanto, la variable antiguedad tiene una mayor dispresion, a pesar de que su rango M o = li1 + Li ni1 ni+1 .
es menor. Li1 + Li+1
[li1 , li ) xi ni Ni fi xi ni ni /Li Ejercicio 2.10 Con los datos del ejemplo 2.3, calcular los coecientes de asimetra
[1100, 1300) 1200 34 82 0.272 40800 0.17 de Pearson y de Fisher.
[1300, 1500) 1400 14 96 0.112 19600 0.07
Respuesta:
Observando la tabla vemos que el extremo inferior del intervalo [1250, 1350] esta hojas atacadas ni xi x (xi x)3 ni
dentro de [1100, 1300) y el extremo superior dentro de [1300, 1500). As pues, el
0 6 -2.68 -115.49
numero de apartamentos con un precio entre 1250 y 1350 euros es
1 10 -1.68 -47.42
1300 1250 1350 1300 1 1 2 12 -0.68 -3.77
34 + 14 = 34 + 14 = 12, 3 8 0.32 0.26
1300 1100 1500 1300 4 4
4 5 1.32 11.50
12
que representa el 125 100 = 9.6% del total de apartamentos. 5 4 2.32 49.95
c) El precio por debajo del cual estan el 80% de los apartamentos viene dado por el 6 3 3.32 109.78
percentil P80 . Este percentil esta dentro del intervalo [1500, 1800), puesto que en el 8 1 5.32 150.57
se encuentra el valor 80 n/100 = 80 125/100 = 100. Utilizando la formula para el 10 1 7.32 392.22
calculo de los percentiles, obtenemos: 50 547.61
100 96
P80 = 1500 + (1800 1500) = 1650 euros/mes. En el ejemplo 2.10 hemos calculado
104 96
d) El 50% central de los apartamentos viene determinado por el primer y tercer x = 2.68, sn = 2.11, M o = 2,
cuartiles.
n 125 por tanto, el coeciente de asimetra de Pearson es:
= = 31.25 Q1 [1000, 1100),
4 4
x Mo 2.68 2
31.25 21 AsP = = = 0.3223.
Q1 = 1000 + (1100 1000) = 1037.96 euros/mes. sn 2.11
48 21
3n 3 125 A partir de la tabla anterior podemos obtener el coeciente de asimetra de Fisher:
= = 93.75 Q3 [1300, 1500),
4 4 1 n
(xi x)3 ni 547.61/50
93.75 82 AsF = n i=1 3 = = 1.1659.
Q3 = 1300 + (1500 1300) = 1467.86 euros/mes. sn 2.113
96 82
En este caso, el uso de AsP no es muy recomendable, puesto que el polgono de
frecuencias de esta distribucion no tiene forma acampanada (vease gura 2). En
cambio, el coeciente AsF indica que hay una mayor asimetra positiva.