Sie sind auf Seite 1von 29

Bioestadstica

Tema 2: Estadsticos

Bioestadstica. U. Mlaga.

Tema 2: Estadsticos

Parmetros y estadsticos

Parmetro: Es una cantidad numrica calculada sobre una


poblacin

La altura media de los individuos de un pas

La idea es resumir toda la informacin que hay en la poblacin en


unos pocos nmeros (parmetros).

Estadstico: dem (cambiar poblacin por muestra)

La altura media de los que estamos en este aula.

Somos una muestra (representativa?) de la poblacin.

Si un estadstico se usa para aproximar un parmetro tambin se le


suele llamar estimador.

Normalmente nos interesa conocer un parmetro, pero por la dificultad que


conlleva estudiar a *TODA* la poblacin, calculamos un estimador sobre
una muestra y confiamos en que sean prximos. Ms adelante
veremos como elegir muestras para que el error sea confiablemente
pequeo.

Bioestadstica. U.

Tema 2: Estadsticos

Bioestadstica. U.

Tema 2: Estadsticos

Un brevsimo resumen sobre estadsticos

Posicin
Dividen un conjunto ordenado de datos en grupos con la
misma cantidad de individuos.

Centralizacin
Indican valores con respecto a los que los datos parecen
agruparse.

Media, mediana y moda

Dispersin
Indican la mayor o menor concentracin de los datos con
respecto a las medidas de centralizacin.

Cuantiles, percentiles, cuartiles, deciles,...

Desviacin tpica, coeficiente de variacin, rango, varianza

Forma
Asimetra
Apuntamiento o curtosis

Bioestadstica. U.

Tema 2: Estadsticos

Estadsticos de posicin

Se define el cuantil de orden como un valor de la variable por debajo


del cual se encuentra una frecuencia acumulada

Casos particulares son los percentiles, cuartiles, deciles, quintiles,...

Bioestadstica. U.

Tema 2: Estadsticos

Estadsticos de posicin

Percentil de orden k = cuantil de orden k/100


La mediana es el percentil 50
El percentil de orden 15 deja por debajo al 15% de las
observaciones. Por encima queda el 85%

Cuartiles: Dividen a la muestra en 4 grupos con


frecuencias similares.
Primer cuartil = Percentil 25 = Cuantil 0,25
Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana
Tercer cuartil = Percentil 75 = cuantil 0,75

Bioestadstica. U.

Tema 2: Estadsticos

Ejemplos

El 5% de los recin nacidos tiene un peso demasiado bajo.


Qu peso se considera demasiado bajo?

Percentil 5 o cuantil 0,05

15
10
5
0

frecuencia

20

25

Percentil 5 del peso

Bioestadstica. U.

3
Peso al nacer (Kg) de 100 nios

Tema 2: Estadsticos

Ejemplos
Qu peso es superado slo por el 25% de los individuos?

Percentil 75 o tercer cuartil

20
15
10
5
0

frecuencia

25

30

Percentil 75 del peso

50

55

60

65

70

75

80

85

Peso (Kg) de 100 deportistas

Bioestadstica. U.

Tema 2: Estadsticos

Ejemplos

El colesterol se distribuye simtricamente en la poblacin. Supongamos


que se consideran patolgicos los valores extremos. El 90% de los
individuos son normales Entre qu valores se encuentran los individuos
normales?

10
5
0

frecuencia

15

20

Percentiles 5 y 95

180

Bioestadstica. U.

200

220
Colesterol en 100 personas

Tema 2: Estadsticos

240

260

Ejemplos

Entre qu valores se encuentran la mitad de los individuos ms


normales de una poblacin?
Entre el cuartil 1 y 3

Percentiles 25 y 75

15
10
5
0

frecuencia

20

150

160

170

180

190

Altura (cm) en 100 varones

Bioestadstica. U.

Tema 2: Estadsticos

10

Diagrama de cajas de Tukey: Resumen en 5 nmeros

0.06

P25

Mn.

P50

P75

Mx.

0.00

Mnimo, cuartiles y mximo.


Suelen dar una buena idea
de la distribucin.

0.02

0.04

Resumen con 5 nmeros:

densidad

0.08

Diagramas de Tukey

La zona central, caja,


contiene al 50% central de
las observaciones.
Su tamao se llama rango
intercuartlico (R.I.)

Ms all de esa distancia se


consideran anmalas, y as
se marcan.

55

60

65

0.03

0.04

Diagrama de cajas de Tukey: Resumen en 5 nmeros

0.02

Es costumbre que los


bigotes, no lleguen hasta los
extremos, sino hasta las
observaciones que se
separan de la caja en no ms
de 1,5 R.I.

50

Velocidad (Km/h) de 200 vehculos en ciudad

P25

Mn.

0.01

45

P50

P 75

Mx.

0.00

40

densidad

80

90

100

110

120

130

140

Velocidad (Km/h) de 200 vehculos en autova

Bioestadstica. U.

Tema 2: Estadsticos

11

Estadsticos

Ejemplo
Nmero de aos de escolarizacin

3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Total

Frecuencia
5
5
6
12
25
68
56
73
85
461
130
175
73
194
43
45
22
30
1508

Porcentaje
,3
,3
,4
,8
1,7
4,5
3,7
4,8
5,6
30,6
8,6
11,6
4,8
12,9
2,9
3,0
1,5
2,0
100,0

Bioestadstica. U.

Porcentaje
acumulado
,3
,7
1,1
1,9
3,5
8,0
11,7
16,6
22,2
52,8
61,4
73,0
77,9
90,7
93,6
96,6
98,0
100,0

20%?

Nmero de aos de escolarizacin


N
Vlidos
1508
Perdidos
0
Media
12,90
Mediana
12,00
Moda
12
Percentiles
10
9,00
20
11,00
25
12,00
30
12,00
40
12,00
50
12,00
60
13,00
70
14,00
75
15,00
80
16,00
90
16,00

90%?

Tema 2: Estadsticos

12

Estadsticos
de
centralizacin
Aaden unos cuantos casos particulares a las medidas de posicin. En este caso
son medidas que buscan posiciones (valores) con respecto a los cuales los
datos muestran tendencia a agruparse.

Media (mean) Es la media aritmtica (promedio) de los valores de una


variable. Suma de los valores dividido por el tamao muestral.
Media de 2,2,3,7 es (2+2+3+7)/4=3,5
Conveniente cuando los datos se concentran simtricamente con respecto
a ese valor. Muy sensible a valores extremos.
Centro de gravedad de los datos

Mediana (median) Es un valor que divide a las observaciones en dos grupos


con el mismo nmero de individuos (percentil 50). Si el nmero de datos es par,
se elige la media de los dos datos centrales.
Mediana de 1,2,4,5,6,6,8 es 5
Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5
Es conveniente cuando los datos son asimtricos. No es sensible a valores
extremos.

Mediana de 1,2,4,5,6,6,800 es 5. La media es 117,7!

Moda (mode) Es el/los valor/es donde la distribucin de frecuencia alcanza un


mximo.
Tema 2: Estadsticos
Bioestadstica. U.

13

Altura mediana

Bioestadstica. U.

Tema 2: Estadsticos

14

Algunas frmulas

Datos sin agrupar: x1, x2, ..., xn

Media

Datos organizados en tabla


si est en intervalos usar como xi las marcas de
clase. Si no ignorar la columna de intervalos.

Variable

fr.

fr. ac.

L0 L 1

x1

n1

N1

L1 L 2

x2

n2

N2

xk

nk

Nk

...
Lk-1 Lk

Media

C Li 1

Tema 2: Estadsticos

i i

Cuantil de orden
i es el menor intervalo que tiene
frecuencia acumulada superior a n
=0,5 es mediana
n N

Bioestadstica. U.

xn

ni

i 1

( Li Li 1 )
15

Ejemplo con variable en intervalos


Peso

M.
Clase

frec

Fr.
acum.

40 50

45

50 60

55

10

15

60 70

65

21

36

70 - 80

75

11

47

80 - 90

85

52

90 - 100

95

55

100 130

115

58

En el histograma se identifica unidad de rea con


individuo.
Para calcular la media es necesario elegir un punto
representante del intervalo: La marca de clase.
La media se desplaza hacia los valores extremos.
No coincide con la mediana. Es un punto donde el
histograma estara en equilibrio si tuviese masa.

Bioestadstica. U.

Tema 2: Estadsticos

16

Ejemplo (continuacin)
Peso

M. Clase

Fr.

Fr. ac.

40 50

45

50 60

55

10

15

60 70

65

21

36

70 - 80

75

11

47

80 - 90

85

52

90 - 100

95

55

100 130

115

58

xn

x
i

i i

45 5 55 10 115 3
69,3
58

0,5 58 N i 1
( Li Li 1 )
ni

0,5 58 15
60
(70 60) 66,6
21
Mediana C0,5 Li 1

58

P75 C0, 75 Li 1

0,75 58 N i 1
43,5 36
( Li Li 1 ) 70
(80 70) 76,8
ni
11

Moda = marca de clase de (60,70] = 65


Cada libro ofrece una frmula diferente para la moda (difcil estar al da.)

Bioestadstica. U.

Tema 2: Estadsticos

17

Variabilidad o dispersin

Los estudiantes de Bioestadstica reciben diferentes calificaciones en la


asignatura (variabilidad). A qu puede deberse?

Diferencias individuales en el conocimiento de la materia.

Podra haber otras razones (fuentes de variabilidad)?

Por ejemplo supongamos que todos los alumnos poseen el mismo nivel de
conocimiento. Las notas seran las mismas en todos? Seguramente No.

Dormir poco el da del examen, el croissant estaba envenenado...

El examen no es una medida perfecta del conocimiento.

Diferencias individuales en la habilidad para hacer un examen.

Variabilidad por error de medida.

En alguna pregunta difcil, se duda entre varias opciones, y al azar se elige


la mala

Variabilidad por azar, aleatoriedad.


Tema 2: Estadsticos
Bioestadstica. U.

18

Medidas de dispersin
P25

P50

P75

Mx.

0.03

Amplitud o Rango (range):


Diferencia entre observacines extremas.
2,1,4,3,8,4. El rango es 8-1=7
Es muy sensible a los valores extremos.

0.02

Mn.

0.04

0.05

Miden el grado de dispersin (variabilidad) de los datos, independientemente


de su causa.

25%

25% 25%

25%

Rango intercuartlico (interquartile range):


Rango
Es la distancia entre primer y tercer cuartil.
Rango intercuartlico = P
75 - P25
150
160
170
180
Parecida al rango, pero eliminando las observaciones ms extremas
inferiores y superiores.
0.00

0.01

Rango intercuartlico

190

No es tan sensible a valores extremos.

Bioestadstica. U.

Tema 2: Estadsticos

19

Varianza S2 (Variance): Mide el promedio de las desviaciones (al cuadrado) de las


observaciones con respecto a la media.

1
2
S ( xi x )
n i
2

Es sensible a valores extremos (alejados de la media).

Sus unidades son el cuadrado de las de la variable. De interpretacin difcil para un


principiante.

La expresin es fea, pero de gran belleza natural (fsicamente). Contiene la


informacin geomtrica relevante en muchas situaciones donde la energa interna de
un sistema depende de la posicin de sus partculas.

Energa de rotacin (va el coeficiente de inercia): patinadores con brazos extendidos


(dispersos) o recogidos (poco dispersos)

Energa elstica: Muelles estirados con respecto a su posicin de equilibrio (dispersos)


frente a muelles en posicin cercana a su posicin de equilibrio (poco dispersos)

Bioestadstica. U.

Tema 2: Estadsticos

20

Desviacin tpica (standard deviation)


Es la raz cuadrada de la varianza

Tiene las misma dimensionalidad


(unidades) que la variable. Versin
esttica de la varianza.
Cierta distribucin que veremos ms
adelante (normal o gaussiana)
quedar completamente determinada
por la media y la desviacin tpica.

A una distancia de una desv. tpica de la


media hay ms de la ms de la mitad.
A una distancia de dos desv. tpica de la
media las tendremos casi todas.

Bioestadstica. U.

Tema 2: Estadsticos

S S

50

40

30

20

10

Desv. tp. = 568,43


Media = 2023

N = 407,00

Peso recin nacidos en partos gemelares

21

0.01

0.01

0.02

0.02

0.03

0.03

0.04

0.04

0.05

0.05

Dispersin en distribuciones normales

xs

x 2s

68.5 %
0.00

0.00

95 %

150

160

170

180

190

150

160

170

180

190

Centrado en la media y a una desv. tpica de distancia hay


aproximadamente el 68% de las observaciones.

A dos desviaciones tpicas tenemos el 95% (aprox.)


Bioestadstica. U.

Tema 2: Estadsticos

22

95 %

0.1

66 %

x s

x 2s

71 %

94 %

0.0

x 2s

0.2

densidad

0.2

xs

0.0

0.1

densidad

0.3

Datos casi normales. Eje x medido en desviaciones tpicas


Encuentras relacin entre rango intercuartlico y desviacin tpica?
Y entre los bigotes y dos desviaciones tpicas? Podras
caracterizar las observaciones anmalas?

0.3

-2

-1

-3

-2

-1

0.1

xs
68 %

0.2

densidad

0.2
0.1

densidad

0.3

0.3

0.4

-3

x s

x 2s

70 %

94 %

0.0

0.0

x 2s
94 %

-3

-2

-1

Bioestadstica. U.

Tema 2: Estadsticos

-3

-2

-1

23

Coeficiente de variacin
Es la razn entre la desviacin tpica y la media.

Mide la desviacin tpica en forma de


qu tamao tiene con respecto a la media

Tambin se la denomina variabilidad relativa.

Es frecuente mostrarla en porcentajes

S
CV
x

Si la media es 80 y la desviacin tpica 20 entonces CV=20/80=0,25=25% (variabilidad relativa)

Es una cantidad adimensional. Interesante para comparar la variabilidad de


diferentes variables.

Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan ms


dispersin en peso que en altura.

No debe usarse cuando la variable presenta valores negativos o donde el valor 0


sea una cantidad fijada arbitrariamente
Por ejemplo 0C 0F

Los ingenieros electrnicos hablan de la razn seal/ruido (su inverso).

Bioestadstica. U.

Tema 2: Estadsticos

24

Asimetra o Sesgo

Una distribucin es simtrica si la


mitad izquierda de su distribucin
es la imagen especular de su mitad
derecha.

En las distribuciones simtricas


media y mediana coinciden. Si slo
hay una moda tambin coincide

La asimetra es positiva o negativa


en funcin de a qu lado se
encuentra la cola de la distribucin.

La media tiende a desplazarse


hacia las valores extremos (colas).

Las discrepancias entre las


medidas de centralizacin son
indicacin de asimetra.
Bioestadstica. U.

Tema 2: Estadsticos

25

Estadsticos para detectar asimetra


Hay diferentes estadsticos que sirven para detectar asimetra.
Basado en diferencia entre estadsticos de tendencia central.
Basado en la diferencia entre el 1 y 2 cuartiles y 2 y 3.
Basados en desviaciones con signo al cubo con respecto a la media.

En funcin del signo del estadstico diremos que la asimetra es


positiva o negativa.
Distribucin simtrica asimetra nula.

0.15
0.05

0.1

0.05

0.2

0.10

0.10

0.3

0.15

0.4

0.20

0.5

Los calculados con ordenador. Es pesado de hacer a mano.

0.20

xs

66 %
0.00

xs
78 %

0.0

0.00

78 %

xs

10

12

14

Bioestadstica. U.x

16

18

20

-2

-1

Tema 2: Estadsticos

1
x

8
x

10

12

14

26

Apuntamiento o curtosis

La curtosis nos indica el grado de apuntamiento (aplastamiento) de una distribucin


con respecto a la distribucin normal o gaussiana. Es adimensional.
Platicrtica (aplanada): curtosis < 0
Mesocrtica (como la normal): curtosis = 0

En el curso sern de especial


inters las mesocrticas y
simtricas (parecidas a la normal).

Leptocrtica (apuntada): curtosis > 0

Apuntada como la normal

Apuntada

0.4
0.2

0.5

0.1

1.0

0.2

0.6

1.5

0.3

0.8

2.0

Aplanada

x s

xs

x s

68 %
0.0

82 %

0.0

0.0

57 %

0.0

0.2

0.4

0.6

Bioestadstica. U.

0.8

1.0

-3

-2

-1

Tema 2: Estadsticos

-2

-1

27

Ejercicio: descriptiva con SPSS


28%

Descriptivos para Nmero de hijos


Media
Intervalo de
confianza para la
media al 95%

Estadstico
1,90
Lmite
inferior
Lmite
superior

n=419

Error tp.
,045

25%
n=375

25%

1,81

17%
20%

n=255

14%

1,99

n=215
15%

8%

Media recortada al 5%
1,75

n=127
10%

4%

Mediana
Varianza
Desv. tp.
Mnimo
Mximo
Rango
Amplitud intercuartil

2,00
3,114
1,765
0
8
8

n=54
5%

Bioestadstica. U.

1,034
1,060

2%

1%

n=24 n=23 n=17

7 Ocho o ms

Nmero de hijos

Est sombreado lo que sabemos interpretar hasta ahora.


Verifica que comprendes todo. Qu unidades tiene cada
estadstico? Variabilidad relativa?

Calcula los estadsticos que puedas basndote slo en el


grfico de barras.

3,00
Asimetra
Curtosis

2%

,063
,126

Tema 2: Estadsticos

28

Qu hemos visto?

Parmetros
Estadsticos y estimadores
Clasificacin
Posicin (cuantiles, percentiles,...)

Medidas de centralizacin: Media, mediana y moda

Diagramas de cajas
Diferenciar sus propiedades.

Medidas de dispersin

con unidades: rango, rango intercuartlico, varianza, desv.


tpica
sin unidades: coeficiente de variacin

Asimetra

positiva
negativa

Qu usamos para comparar dispersin de dos poblaciones?

Podemos observar asimetra sin mirar la grfica?


Cmo me gustan los datos?

Medidas de apuntamiento (curtosis)

Cmo me gustan los datos?

Bioestadstica. U.

Tema 2: Estadsticos

29

Das könnte Ihnen auch gefallen