Estadística Descriptiva, Ejercicios en R

Para los datos del ejemplo 1.3 ejemplo 1.
Pg 41 (Navidi)
Taller Estadstica descriptiva Grupo G2
Los siguientes datos representan la temperatura del fluido de descarga de una planta para el tratamiento de aguas
negras durante varios das consecutivos.
Taller Estadstica descriptiva Grupo G7
Se realizo un estudio para conocer el tiempo en minutos de personas mayores de 60 aos se tardan en dormir, a
continuacin las observaciones.
(DATOS<c(11.6,14.3,15.8,16.5,17.7,12.6,14.3,15.9,16.6,18.1,12.7,14.6,15.9,17,18.3,12.8,14.8,16.1,17.1,18.3,13.1,15.1,16.2,17
.3,18.3,13.3,15.2,16.2,17.3,18.5,13.6,15.6,16.3,17.4,18.5,13.7,15.6,16.4,17.4,18.8,13.8,15.7,16.5,17.4,19.2,14.1,15.8,
16.5,17.6,20.3) )
#Para realizar ramas y hojas
stem(DATOS)
#Resumen de los datos
summary(DATOS)
Min.
11.60
1st Qu.
14.65
Median Mean
16.20
16.03
3rd Qu.
17.40
Max.
20.30
op <- par(mfrow = c(1, 1),bg = "antiquewhite")

par(lty="dashed")
par(col="red")
boxplot(DATOS, col="red")
par(lty="dashed")
par(col="red")
plot(DATOS, col="red")
par(lty="dashed")
par(col="red")
hist(DATOS, prob=TRUE,main="", xlab="", ylab="")
lines(density(DATOS), col="red")
( xi x) 2
Xi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
2
11,6
14,3
15,8
16,5
17,7
12,6
14,3
15,9
16,6
18,1
12,7
14,6
15,9
17
18,3
12,8
14,8
16,1
17,1
18,3
13,1
15,1
16,2
17,3
18,3
13,3
15,2
16,2
17,3
18,5
13,6
15,6
16,3
17,4
19,7
3,0
0,1
0,2
2,8
11,8
3,0
0,0
0,3
4,3
11,1
2,1
0,0
0,9
5,1
10,5
1,5
0,0
1,1
5,1
8,6
0,9
0,0
1,6
5,1
7,5
0,7
0,0
1,6
6,1
5,9
0,2
0,1
1,9
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
Total
Media
S
Mo
Me
18,5
13,7
15,6
16,4
17,4
18,8
13,8
15,7
16,5
17,4
19,2
14,1
15,8
16,5
17,6
20,3
801,700
16,03
1,949
16,5;17,4;18,3
16,2
6,1
5,4
0,2
0,1
1,9
7,7
5,0
0,1
0,2
1,9
10,0
3,7
0,1
0,2
2,5
18,2
186,1
Para hallar los cuartiles :

El cuartil 2 es la mediana.
Para la ubicacin del dato de la Mediana,
Como la posicin de cuartil 2 q2= 25.5

Para encontrar el valor, ubicamos en ramas y hojas :
Posicin 25 del dato = 16.2
Posicin 26 del dato = 16.2
Por consiguiente el valor de la Mediana corresponde a ,
La posicin de cuartil 1 seria,
Observamos la posicin 13 y 14
Posicin del dato 13 = 14.6
Posicin del dato 14 = 14.8
La diferencia = 14.8-14.6 = 0.2
La diferencia se divide en 10 .
Osea
Luego dividimos
3
0.02 en 10,
0.02
Luego como la posicin 13, es 14.6 , y el valor que necesitamos hallar es 13.3,
Descomponemos el valor del cuartil 1
La posicin de 13.3 equivale a = 13+0.3
La posicin de 13.3 equivale a 13.3= 14.6+ 0.02*3
La posicin de 13.3 equivale a 13.3 = 14.6+ 0.06
La posicin de 13.3 equivale a 13.3 = 14.66
El valor del cuartil 3 buscamos las observaciones 13 y 14 de abajo hacia arriba

Observacin de Posicin 13= 17.4
Observacin de Posicin 14=17.4
Como la diferencia seria 0, el valor del cuartil 3 quedaria q3= 17.4.
Estos datos se confirman con la salida de R.
Para hallar los separadores interiores:
.f1= q1-1.5*(rango intercuartilico) = 14.7-1.5*(17.4-14.7) = 14.7-4.05 = 10.05 ~10
.f2= q1+1.5*(rango intercuartilico) = 14.7+1.5*(17.4-14.7) = 14.7+4.05 = 18.75 ~ 18.8
Los datos que se encuentren fuera de de los separadores interiores se llaman datos atpicos moderados.
O sea los valores fuera de 10 y 18.8.
Para hallar los separadores exteriores:
F1= q1-2*(rango intercuartilico) = 14.7-2*(17.4-14.7) = 14.7-5.4 = 9.3
F2= q1+2*(rango intercuartilico) = 14.7+2*(17.4-14.7) = 14.7-5.4 = 20.1
Los datos que se encuentren fuera de de los separadores exteriores se llaman datos atpicos extremos.
O sea los valores fuera de 9.3 y 20.1.
Como = 7.07, tambin observamos , en ramas y hojas , un posible valor atpico extremo,
Lo que nos sugiere trabajar con 6 intervalos .
=1.5
.ni, corresponde a la Frecuencia Absoluta ( Se necesita para hallar la media y la desviacin estndar muestral)
Ni , Corresponde a la Frecuencia Absoluta Acumulada, la necesitamos para hallar la ubicacin de la observacin de la
mediana.
Ramas y hojas de los datos no agrupados corresponde a :
Stem(DATOS)
11 | 6
12 | 678
4
13 | 13678
14 | 13368
15 | 126678899
16 | 122345556
17 | 013344467
18 | 1333558
19 | 2
20 | 3
Para
Con la amplitud del intervalo de : C
X max X min 20 .3 11 .6 8.7
1.24
7
7
n
Observando la salida de R, para los intervalos con sus respectivas frecuencias absolutas,
Segn el diagrama de ramas y hojas en el primer intervalo de 11,6 hasta 12.8, observamos las observaciones,
11.6 , 12.6, 12.7, 12.8 en total 4 observaciones, lo cual corresponde a una frecuencia absoluta (n1) de 4.
Para el segundo intervalo de (12.8 , 14.1]
Observamos los valores de 13.1, 13.3, 13.6, 13.7, 13.8, 14,1 , lo cual corresponde a n2 =5.
Para el tercer intervalo de de (14.1 , 15.3], los valores de 14.1, 14.3,14.3, 14.6,14.8,15.1,15.2, corresponde a n3 =7
Para el cuarto intervalo de (15.3 , 16.6] , los valores de 15.6,15.6, , 16.5 a n4 = 16
Para el quinto intervalo de (16.6,17.8], los valores de 17.0 , 17.1, , 17.7 n5 = 9
17 | 013344467
Para el sexto intervalo de (17.8,19], los valores de 18.1,18.8 n6 = 7
18 | 1333558
Para el sptimo intervalo de (19, 20.3], los valores de 19.2, 20.3 n6 = 2
table( cut(DATOS, breaks=7) )
(11.6,12.8] (12.8,14.1] (14.1,15.3] (15.3,16.6] (16.6,17.8] (17.8,19.1] (19.1,20.3]
4
5
7
15
10
7
2
Usando la salida de R . Para 7 Marcas de Clase
Intervalo
11,6
12.8
14.1
15.3
16.6
17.8
19
5
ni
=11.6+1.24=12.8
=12.8+1.24=14.08=14.1
=14.1+1.24=15.34=15.3
=15.3+1.24=16.56=16.6
=16.6+1.24=17.8
=17.8+1.24=19.04=19
=19+1.24=20.24=20.3
Ni
4
5
7
16
9
7
2
ni ( xi x) 2
xi
nixi
4 =(11.6+12.8)/2=12.2 4*12.2=48.8
9
Me
Mo
x
S
Completando,
Intervalo
11,6
ni
Ni
xi
ni ( xi x) 2
nixi
=11.6+1.24=12.8
12,2
48,8
55,980
12,8 =12.8+1.24=14.08=14.1
13,45
67,25
31,025
14,1 =14.1+1.24=15.34=15.3
16
14,7
102,9
10,781
15,3 =15.3+1.24=16.56=16.6
16
32
15,95
255,2
0,001
16,6
=16.6+1.24=17.8
41
17,2
154,8
14,266
17,8
=17.8+1.24=19.04=19
48
18,4
128,8
42,327
19
=19+1.24=20.24=20.3
50
19,65
39,3
27,513
797,05
x
15,941
Me
3,71
Mo
Usando la misma base de datos, pero usando 6 intervalos,
Intervalo
11,6
13,2
14,8
16,4
18
19,6
x
S
ni
13,1
14,7
16,3
17,9
19,5
21,1
16,1
2,02
Ni
5
8
14
14
8
1
50
xi
5
13
27
41
49
50
Me
Mo
ni ( xi x) 2
nixi
12,4
14,0
15,6
17,2
18,8
20,4
16,1
16,3
62
112
218,4
240,8
150,4
20,4
804,0
68,5
35,3
3,5
16,9
58,3
18,5
201,00
181,893
El promedio de los pesos de las 50 barras de jabn fue de 16.1 onzas.

Los pesos de 50 barras de jabn tienen en promedio 16.3 onzas.
(
(
Li, Limite inferior . Ubicamos el intervalo donde se encuentra la mitad de las observaciones, y all escogemos
el lmite inferior de ese intervalo.
(
) Cuando hemos ubicado el Lmite inferior, observamos las frecuencias acumuladas anteriores al
intervalo escogido.
fmediana, corresponde a la frecuencia del intervalo, donde seleccionamos el Lmite inferior.
Se asume 50% de los pesos de las barras de jabn es de 16.1 onzas.
El 50% de los pesos de las barras de jabn es de 16.1 onzas.
(
(
)
(
(
(
)
(
)
)
El peso de mayor frecuencia de las 50 barras de jabn es de 16.3 onzas

La asimetra :
si P > 0, entonces los datos estn sesgados hacia la derecha. (Asimetra Positiva)
Si P < 0 , los datos estn sesgados a la izquierda (Asimetra Negativa)
Si P=0 los datos estn distribuidos normalmente
Recordando
Media = 16.1, Mediana= 16.1, Moda= 16.3
Los valores estn muy cercanos a cero. Por formulas observamos que los datos de las 50 barras de jabn estaran
Distribuidas normalmente.
Coeficiente de variacin (CV):
Sirve como medida relativa de dispersin.
7
Los datos de las 50 barras de jabn tienden a ser homogneos.
SIGNIFICADO PRCTICO DE LA DESVIACIN ESTNDAR- El Teorema De Chebyshev

La Regla Emprica
DADA UNA DISTRIBUCIN DE OBSERVACIONES POBLACIONALES O MUESTRALES CON FORMA APROXIMADAMENTE
ACAMPANADA, ENTONCES EL INTERVALO
( ) CONTIENE APROXIMADAMENTE AL 68% DE LAS OBSERVACIONES.

( 2) CONTIENE APROXIMADAMENTE AL 95% DE LAS OBSERVACIONES.
( 3) CONTIENE APROXIMADAMENTE AL 99.7% DE LAS OBSERVACIONES.
FIGURA . DISTRIBUCIN SIMTRICA CAMPANA QUE MUESTRA LAS RELACIONES ENTRE LA DESVIACIN ESTANDAR Y LA MEDIA.
Usando el teorema de Chebyshev, encontramos que :

El 68% de los valores de pesos de 50 barras de jabn se encuentran entre 14.1 onzas y 18.1 onzas , ( X S ).
4. Se estudiaron dos mtodos de recuperacin de protena. Se hicieron trece corridas usando el mtodo se registr
la parte de protena recuperada para cada corrida.
Los resultados son los siguientes:
1
2
3
4
5
6
7
8
9
8
Mtodo 1=Y
0,32
0,35
0,37
0,39
0,42
0,47
0,51
0,58
0,6
(1)
Mtodo
2 ( y y) / s
2
( xi x) ( yi y)
i
y
2=x
0,25
0,15
0,04
0,4
0,05
0,03
0,48
0,02
0,02
0,55
0,01
0,02
0,56
0,01
0,01
0,58
0,00
0,00
0,6
0,00
0,00
0,65
0,00
0,00
0,7
0,00
0,01
(2)
( xi x) / s x
(1)*(2)
10
11
12
13
Total
0,62
0,65
0,68
0,75
6,71
0,76
0,8
0,91
0,99
8,23
Media
s
0,52
0,20
0,63
0,14
)(
0,02
0,03
0,08
0,13
0,49
0,01
0,02
0,03
0,05
0,24
r
Mediana
0,00
0,95
7 Me=0,47 y 0,58
)
(Desviacin estndar de Mtodo 2)
(Desviacin estndar de Mtodo 1)
Para encontrar los datos, Usando R.

> ( (metodo2-mean(metodo2))/(sdmet2))
[1] -1.88904885 -1.14936105 -0.75486089 -0.40967325 -0.36036072 -0.26173568 -0.16311064
[8] 0.08345196 0.33001456 0.62588968 0.82313976 1.36557748 1.76007765
> ( (metodo1-mean(metodo1))/(sdm1))
[1] -1.39840312 -1.18452970 -1.04194742 -0.89936514 -0.68549172 -0.32903603 -0.04387147
[8] 0.45516650 0.59774878 0.74033106 0.95420448 1.16807790 1.66711587
( (metodo2-mean(metodo2))/(sdmet2))*( (metodo1-mean(metodo1))/(sdm1))
[1] 2.641651802 1.361452296 0.786525353 0.368445836 0.247024294 0.086120470 0.007155904
[8] 0.037984536 0.197265801 0.463365571 0.785443647 1.595100875 2.934253378
> sum(( (metodo2-mean(metodo2))/(sdmet2))*( (metodo1-mean(metodo1))/(sdm1)))
[1] 11.51179
resulcor=sum(( (metodo2-mean(metodo2))/(sdmet2))*( (metodo1-mean(metodo1))/(sdm1)))
> resulcor
[1] 11.51179
> corM1M2= (1/12)*resulcor
> corM1M2
[1] 0.9593158
Como el coeficiente de correlacin es 0.95, cercano a 1, indica que hay una fuerte relacin lineal, podemos observar
esto tambin en el diagrama de puntos.
9
stem(M1Y, scale = 1)
3 | 2579
4 | 27
5 | 18
6 | 0258
7|5
stem(M2X, scale = 2)
2|5
3|
4 | 08
5 | 568
6 | 05
7 | 06
8|0
9 | 19
summary(Metodo)
M1Y
Min. :0.3200
1st Qu.:0.3900
Median :0.5100
Mean :0.5162
3rd Qu.:0.6200
Max. :0.7500
M2X
Min. :0.2500
1st Qu.:0.5500
Median :0.6000
Mean :0.6331
3rd Qu.:0.7600
Max. :0.9900
De manera similar al ejercicio anterior podemos hallar tambin:
10
Coeficiente de sesgo, Coeficiente de variacin y podemos usar la regla emprica del Teorema De Chebyshev.
11

Estadística Descriptiva, Ejercicios en R

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Estadística Descriptiva, Ejercicios en R

Hochgeladen von

Copyright:

Verfügbare Formate

Para los datos del ejemplo 1.3 ejemplo 1.

op <- par(mfrow = c(1, 1),bg = "antiquewhite")

Para hallar los cuartiles :

Como la posicin de cuartil 2 q2= 25.5

El valor del cuartil 3 buscamos las observaciones 13 y 14 de abajo hacia arriba

Con la amplitud del intervalo de : C

X max X min 20 .3 11 .6 8.7

Usando la misma base de datos, pero usando 6 intervalos,

El promedio de los pesos de las 50 barras de jabn fue de 16.1 onzas.

El peso de mayor frecuencia de las 50 barras de jabn es de 16.3 onzas

Los datos de las 50 barras de jabn tienden a ser homogneos.

SIGNIFICADO PRCTICO DE LA DESVIACIN ESTNDAR- El Teorema De Chebyshev

( ) CONTIENE APROXIMADAMENTE AL 68% DE LAS OBSERVACIONES.

Usando el teorema de Chebyshev, encontramos que :

(Desviacin estndar de Mtodo 1)

Para encontrar los datos, Usando R.

De manera similar al ejercicio anterior podemos hallar tambin:

Das könnte Ihnen auch gefallen