Beruflich Dokumente
Kultur Dokumente
523486
Bioestad stica
Estad stica Descriptiva en una variable
Page 1
Material de apoyo
523486
Un grupo de kilogramos:
58 56 70
42 58 72
51 57 71
54 59 69
40 63 70
39 58 68
49 66 64
Agrupar los datos en una tabla estad stica. Solucion: En primer lugar hay que observar que si denominamos X a la variable peso de cada persona esta es una variable de tipo cuantitativa y continua. Por tanto a la hora de ser ordenados los resultados en una tabla estad stica, esto se ha de hacer agrupandolos en intervalos de longitud conveniente. Esto nos lleva Para que la perdida de informacion no sea muy relevante seguimos el a perder cierto grado de precision.
m n = 21 intervalos (no son demasiadas las observaciones). En este punto podemos tomar bien m = 4 o bien m = 5. Arbitrariamente se elige una de estas dos posibilidades. Por ejemplo, vamos a tomar m = 5.
criterio de utilizar
Page 2
Material de apoyo
523486
L0 = xmin = 39
A 33 = = 6, 6 5 5 A = L5 L0 = 72 39 = 33 a =
L5 = xmax = 72
Page 3
Material de apoyo
523486
INTERVALOS,]Lj 1
Lj ]
f.a(nj ) 3 2 6 3 7 21
f.a.a (Nj ) 3 5 11 14 21
[39 45,6] ]45,6 52,2] ]52,2 58,8] ]58,8 65,4] ]65, 4 72]
1 L0 y L5 no es
Otra posibilidad a la hora de construir la tabla, y que nos permite que trabajemos con cantidades mas simples a la hora de construir los intervalos, es la siguiente. Como la regla para elegir muy estricta podemos hacer la siguiente eleccion:
a = 7 d = A A = 35 33 = 2 d L0 = xmim = 39 1 = 38 2 d L5 = xmax + = 72 + 1 = 73 2
(Primer Semestre 2008) Universidad de Concepcion Page 4
A = a m = 7 5 = 35
Material de apoyo
523486
de los intervalos, y el aumento ya que as la tabla estad stica no contiene decimales en la expresion
d, cometido al ampliar el rango de las observaciones desde A hasta A , se reparte del mismo modo a
los lados de las observaciones menores y mayores: INTERVALOS (M Cj ) 41,5 48,5 55,5 62,5 69,5 f.a 3 2 7 3 6 21 Recordar: Recorrido: xm ax Amplitud: ai f.r 0,1428 0,0952 0,3333 0,1428 0,2857 f.a.a 3 5 12 15 21 f.r.a 0,1428 0,2381 0,5714 0,7143
]38 45] ]45 52] ]52 59] ]59 66] ]66 73]
xm n =
= li Li1
Material de apoyo
523486
1. Representaciones Gracas
de forma Hemos visto que la tabla estad stica resume los datos que disponemos de una poblacion, sistematica que esta se puede analizar de una manera mas y resumida . Para darnos cuenta de un vistazo de las caracter resulta aun esclarecedor el uso de gracos solo sticas de la poblacion y mas diagramas.
Page 6
Material de apoyo
523486
Figura 1: Diagrama de barras para una variable cualitativa y Diagramas de barras para comparar una variable cualitativa en diferentes poblaciones. Se ha de tener en cuenta que la altura de cada barra es proporcional al numero de observaciones
Page 7
Material de apoyo
523486
llamados gracos circulares). Se divide un c Diagramas de sectores (tambien rculo en tantas porciones como clases existan, de modo que a cada clase le corresponde un arco de c rculo proporcional a su frecuencia absoluta o relativa (gura 2).
Page 8
Material de apoyo
523486
n 360 ni i =
360 ni n
anterior, puede interesar comparar dos poblaciones. En este caso tambien es Como en la situacion aconsejable el uso de las frecuencias relativas (porcentajes) de ambas sobre gracos como los anteriores. Otra posibilidad es comparar las 2 poblaciones usando para cada una de ellas un diagrama semicircular. Pictogramas Expresan con dibujos alusivo al tema de estudio las frecuencias de las clases de la variable. Estos gracos se hacen representado a diferentes escalas un mismo dibujo. El escalamiento de los dibujos debe ser tal que el area de cada uno de ellos sea proporcional a la frecuencia de las clases que representa. Este tipo de gracos suele usarse en los medios de co para que sean comprendidos por el publico municacion, no especializado, sin que sea necesaria una compleja. explicacion
Page 9
Material de apoyo
523486
Material de apoyo
523486
2, 1, 0, 1, 3, 2, 1, 2
Representar gracamente el resultado. En primer lugar observamos que la variable X es cuantitativa discreta, presentando las Solucion: siguientes clases:
X 0, 1, 2, 3
los datos en una tabla estad Ordenamos a continuacion stica, y se representa dicha tabla en la gura 3. Clases 0 1 2 3
nj
1 3 3 1 n=8
fj
1/8 3/8 3/8 1/8 1
Nj
1 4 7 8
Fj
1/8 4/8 7/8 8/8
Page 11
Material de apoyo
523486
Figura 3: Diagrama diferencial (barras) e integral para una variable discreta. Observese que el diagrama integral (creciente) contabiliza el numero de observaciones de la variable inferiores o iguales a cada punto del eje de abcisas.
Page 12
Material de apoyo
523486
M Cj
1 3 5 7 9
nj
2 1 4 3 2
Nj
2 3 7 10 12
Page 13
]0 2] ]2 4] ]4 6] ]6 8] ]8 10]
(Primer Semestre 2008) Universidad de Concepcion
Material de apoyo
523486
Page 14
Material de apoyo
523486
Problema1.(Tarea)
sangu estudio medico para reducir la presion nea. Estudie que tipos de gracas puede realizar para dicho conjunto de datos.
Page 15
Material de apoyo
523486
Page 16
Material de apoyo
523486
Resumen: Principales Diagramas segun el tipo de variable:. 1. V. Cualitativa: Barras, sectores, pictogramas. 2. V. Discreta: Diferencial (barras),Integral (en escalera). 3. V. Continua: Diferencial (histograma, pol gono de frecuencias),Integral (diagramas acumulados (ojiva menor)).
Page 17
Material de apoyo
523486
Practico1:Solucion se reere a la duracion en horas (completas) de un lote de 500 Ejercicio5: La siguiente distribucion ampolletas: Duracion 300 500 500 700 700 1.100 de 1.100 mas Numero de Tubos 50 150 275 25
T otal = 500
a) Representar el histograma de frecuencias relativas y el pol gono de frecuencias. b) Trazar la curva de frecuencias relativas acumuladas. inferior a 900 horas. c) Determinar el numero m nimo de ampolletas que tienen una duracion SOLUCION: En primer lugar observamos que la variable en estudio es discreta (horas completas), pero conveniente agruparla en intervalos, como si de una al tener un rango tan amplio de valores resulta mas variable continua se tratase. La consecuencia es una ligera perdida de precision. abierto por el l hay El ultimo intervalo esta mite superior. Dado que en el
25 observaciones puede
ser conveniente cerrarlo con una amplitud razonable. Todos los intervalos excepto el tercero tienen una
(Primer Semestre 2008) Universidad de Concepcion Page 18
Material de apoyo
523486
amplitud de 200 horas, luego podr amos cerrar el ultimo intervalo en 1,300 horas. importante. El histograma representa Antes de realizar el histograma conviene hacer una observacion las frecuencias de los intervalos mediante areas y no mediante alturas. Sin embargo nos es mucho mas hacer representaciones gracas facil teniendo en cuenta estas ultimas. Si todos los intervalos tienen la misma amplitud no es necesario diferenciar entre los conceptos de area y altura, pero en este caso y por tanto hay que repartir su area el tercer intervalo tiene una amplitud doble a los demas, en un rectangulo de base doble (lo que reduce su altura a la mitad). conveniente anadir As sera a la habitual tabla de frecuencias una columna que represente a las amplitudes ai de cada intervalo, y otra de frecuencias relativas recticadas, fi , para representar la altura del histograma. Los gracos requeridos se representan en las guras. Intervalos 300 500 500 700 700 1.100 1.100 1.300
ai
200 200 400 200
ni
50 150 275 25
fi
0,10 0,30 0,55 0,05
fi
0,10 0,30 0,275 0,05
Fi
0,10 0,40 0,95 1,00
T otal = 500
Page 19
Material de apoyo
523486
item a)
Figura 5: Histograma. Observese que la altura del histograma en cada intervalo es fi que coincide en todos con fi salvo en el intervalo 700 1.100 en el que fi = 1/2 fi ya que la amplitud de ese intervalo es doble a la de los demas.
Page 20
Material de apoyo
523486
item b)
Page 21
Material de apoyo
523486
item c) al observar la gura se ve que sumando frecuencias relativas, hasta las 900 horas de duracion hay
900 en
Page 22
Material de apoyo
523486
2. Medidas descriptivas
necesario que junto a una medida Los fenomenos biologicos no suelen ser constantes, por lo que sera que indique el valor alrededor del cual se agrupan los datos, se asocie una medida que haga referencia a la variabilidad que reeje dicha uctuacion. comunes: En este sentido pueden examinarse varias caracter sticas, siendo las mas La tendencia central de los datos; o variacion con respecto a este centro; La dispersion Los datos que ocupan ciertas posiciones. La simetr a de los datos. La forma en la que los datos se agrupan.
Page 23
Material de apoyo
523486
Page 24
Material de apoyo
523486
Page 25
Material de apoyo
523486
2.1.1.
La media
La media aritmetica de una variable estad stica es la suma de todos sus posibles valores, ponderada por las frecuencias de los mismos. Es decir, si la tabla de valores de una variable X es:
X x1
...
nj n1
...
fj f1
...
xm
nm
fm
x = x1 f1 + . . . + xm fm 1 m = xj n j n j =1
ordenados en una tabla (Datos no agrupados), entonces Si los datos no estan
x=
x1 + . . . + xn n
Page 26
Material de apoyo
523486
Observacion de media que tratabamos Hemos supuesto impl citamente en la denicion con una variable reta. Si la variable es continua tendremos que cambiar los valores de
X disc-
xi por las marcas de clase cor respondientes. En general, la media aritmetica obtenida a partir de las marcas de clase M Cj = xj , de la media obtenida con los valores reales, xi . Es decir, habra una perdida de precision que diferira
tanto mayor cuanto mayor sea la diferencia entre los valores reales y las marcas de clase, o sea, sera cuanto mayores sean las longitudes aj , de los intervalos. Tarea: La suma de las diferencias de la variable con respecto a la media es nula, es decir,
n i=1
(xi x) = 0
Page 27
Material de apoyo
523486
2.1.2.
La mediana
X cuyas observaciones en una tabla estad stica han sido ordenadas de menor a mayor. Llamaremos mediana, Med al primer valor de la variable que deja por de observaciones, la mediana debajo de s al 50 % de las observaciones. Por tanto, si n es el numero a la observacion [n ] + 1, donde representamos por [ ] la parte entera de un numero. correspondera 2
Consideramos una variable discreta
Figura 7: Mediana representada geometricamente En el caso de variables continuas, las clases vienen dadas por intervalos, y aqu la formula de la
(Primer Semestre 2008) Universidad de Concepcion Page 28
Material de apoyo
523486
(pero no demasiado): Sea mediana se complica un poco mas el encontrado que por debajo estan
Med = Lj 1 +
Nj 1 aj nj
Page 29
Material de apoyo
523486
Observacion
x (Lj 1 , Lj ], su frecuencia relativa acumulada, F (x) entre los valores F (Lj 1 ) = Fj 1 y F (Lj ) = Fj de forma que:
La gura 7 corresponde a denir para cada posible observacion,
F (x) = F (Lj 1 ) +
Entre las propiedades de la mediana, vamos a destacar las siguientes: Como medida descriptiva, tiene la ventaja de no estar afectada por las observaciones extremas, ya que no depende de los valores que toma la variable, sino del orden de las mismas. Por ello es adecuado su uso en distribuciones asimetricas. Es de calculo rapido. A diferencia de la media, la mediana de una variable discreta es siempre un valor de la variable que estudiamos (ej. La mediana de una variable numero de hijos toma siempre valores enteros). esta formada por 2 subpoblaciones de medianas Si una poblacion se puede M ed1 y M ed2 , solo esta comprendida entre M ed1 y M ed2 armar que la mediana, Med, de la poblacion
Material de apoyo
523486
Ejemplo1: Sea X una variable discreta que ha presentado sobre una muestra las siguientes clases.
2, 5, 7, 9, 12 = x = 7,
si a la media:
Med = 7
por otra anormalmente grande, esto no afecta a la mediana, pero Si cambiamos la ultima observacion
2, 5, 7, 9, 125 = x = 29, 6;
Med = 7
En este caso la media no es un posible valor de la variable (discreta), y se ha visto muy afectada por extrema. Este no ha sido el caso para la mediana. la observacion
Page 31
Material de apoyo
523486
adjunta. Determinar graca Ejemplo 2: Obtener la media aritmetica y la mediana en la distribucion de las dos medidas es mas signicativo. mente cual
]Lj 1 Lj ] nj
0 - 10 10 - 20 20 - 30 30 - 100 100 - 500 Solucion: 60 80 30 20 10
]Lj 1 Lj ]
0 - 10 10 - 20 20 - 30 30 - 100 100 - 500
nj
60 80 30 20 10
aj
10 10 10 70 400
M Cj = xj
5 15 25 65 300
xj n j
300 1.200 750 1.300 3.000
Nj
60 140 170 190 200
nj
60 80 30 2,9 0,25
n = 200
(Primer Semestre 2008) Universidad de Concepcion
xj nj =6.550
Page 32
Material de apoyo
523486
x=
1 n
xj n j =
La primera frecuencia absoluta acumulada que supera el valor n 2 intervalo mediano es ]10;20]. As :
Med = Lj 1 +
n 2
Nj 1 100 60 aj = 10 + 10 = 15 nj 80
Para ver la representatividad de ambas medidas, realizamos el histograma en la gura 8 , y observa la mediana es mas representativa que la media. mos que dada la forma de la distribucion,
Page 33
Material de apoyo
523486
Page 33
Material de apoyo
523486
2.1.3.
La moda
de frecuencias, es decir, cualquier Llamaremos moda a cualquier maximo relativo de la distribucion valor de la variable que posea una frecuencia mayor que su anterior y su posterior. Se le obtiene facilmente a partir de un arreglo ordenado. A diferencia de la media aritmetica, la se utiliza la moda para moda no se afecta ante la ocurrencia de valores extremos. Sin embargo, solo variable, para distintas muestras, que las demas medidas de propositos descriptivos porque es mas de una moda o ninguna. tendencia central. Un conjunto de datos puede tener mas correcto hablar de intervalos modales. Una vez que este En el caso de variables continuas es mas intervalo, (Li1 , Li ], se ha obtenido, se utiliza la siguiente formula para calcular la moda
Moda = Lj 1 +
n j n j 1 aj (nj nj 1 )(nj nj +1 )
Page 34
Material de apoyo
523486
Aunque el primero o el ultimo de los intervalos no posean extremos inferior o superior respecti
vamente, la moda puede ser calculada. entre media, mediana y moda: Relacion con frecuencia comprendida entre la En el caso de distribuciones unimodales, la mediana esta cerca de la media). media y la moda (incluso mas es mas aconsejable el uso de la mediana. En distribuciones que presentan cierta inclinacion, conveniente la media.
Sin embargo en estudios relacionados con propositos estad sticos y de inferencia suele ser mas
Page 35
Material de apoyo
523486
Consideramos una tabla estad stica relativa a una variable continua. calcular las medidas de tenden cia central ensenadas.
]Lj 1 Lj ] M Cj = xj
02 24 46 68 8 10 1 3 5 7 9
nj
2 1 4 3 2
Nj
2 3 7 10 12
n = 12
Claramente la media es: Solucion:
x=
64 = 5, 3 12
n observaciones, es decir 6. Asi Construimos en la tabla la columna de frecuencias absolutas acumuladas, Ni , y vemos
La mediana es el valor de la variable que deja por debajo de s a la mitad de las que eso ocurre en la tercera clase, es decir:
j = 3 (Lj 1 , Lj ] = (4; 6]
Material de apoyo
12 2
523486
Med = 4 +
3 2 = 5, 5 (Lj 1 , Lj ] 4
Para el calculo de la moda , lo primero es encontrar los intervalos modales, buscando los maximos relativos en la columna de las frecuencias absolutas, nj . Vemos que corresponde a la clase j el intervalo modal es: (L2 , L3 ]
= 3. asi
Moda = Lj 1 +
n j n j 1 41 aj = 4 + 2 = 5, 5 (nj nj 1 ) + (nj nj +1 ) (4 1) + (4 3)
El conjunto de datos es unimodal o bimodal (ver gura) ? gracar el diagrama de diferencial (histograma) y fundamenta tu respuesta.
Page 37
Material de apoyo
523486
Med = P50 Pk (Lj 1 , Lj ], se calcula Pk se obtiene segun buscando el que deja debajo de si al k % de las observaciones. Dentro de el, la
En el caso de una variable continua, el intervalo donde se encuentra relacion:
n Pk = L j 1 +
k Nj 1 100 aj nj
por lo Por su propia naturaleza, el percentil puede estar situado en cualquier lugar de la distribucion, que no puede considerarsele como una medida de tendencia central. Los cuartiles, Ql, son un caso particular de los percentiles. Hay 3, y se denen como:
Page 38
Material de apoyo
523486
= Med
Di = P10 i
i = 1, . . . , 9
son denominados estad Los percentiles (que incluyen a la mediana, cuartiles y deciles) tambien sti cos de posicion.
Page 39