Beruflich Dokumente
Kultur Dokumente
DIPLOMA EN BIOESTADSTICA Y
EPIDEMIOLOGA APLICADA VERSIN 2016
SANDRA PARDO VARGAS
Parmetros y estadsticos
Parmetro
Valor que describe una
caracterstica de una
poblacin. El valor del
parmetro es NICO.
Ej. La altura media de los
individuos de un pas
Estadstico
Valor que describe una caracterstica de una
muestra. El valor del estadstico vara de una
muestra a otra, por lo cual NO ES NICO. Estos
valores permiten establecer conclusiones acerca de
la estructura de una muestra, y pueden usarse como
base para hacer inferencias.
1. Medidas de Posicin:
Dividen un
conjunto ordenado de datos en grupos con la
misma cantidad de individuos. Percentiles,
cuartiles, deciles.
Medidas Descriptivas
Los datos de una muestra, medidos en al menos escala ordinal, debe ordenarse
ascendentemente, estableciendo una posicin de cada uno dentro de la muestra. La
posicin del dato se denota por un subndice encerrado entre parntesis:
X(1)= 7
X(2)= 12
X(3)= 13
X(4)= 15
Estadsticos de Posicin
Estadsticos de posicin
Dos de ellos, aparecen en forma instantnea al ordenar la muestra,
nos referimos al mximo, X(n), y al mnimo, X(1).
Mnimo
Mximo
Percentiles:
Reciben este nombre cada uno de los nmeros que dividen la muestra en
100 partes iguales, en consecuencia son 99, y se denotan por P(k), donde
k es el orden del percentil indicado. Dado el percentil P(k), este divide la
muestra en dos partes, la inferior que contiene el k% inferior de las
observaciones y la superior que contiene el (100-k)% de las observaciones.
Ejemplo: El percentil 25 deja por debajo al 25% de las
observaciones y por encima queda el 75%.
Cuartiles:
Son tres, denotados Q1, Q2 y Q3, que corresponden respectivamente a
los percentiles P25, P50 y P75, ellos dividen la muestra en cuatro partes
iguales.
Deciles:
Son nueve, denotados por D1, D2,...,D9,
que corresponden respectivamente a los
percentiles P10, P20,..., 90, ellos dividen la
muestra en diez partes iguales.
Quintiles:
Son cuatro, denotados por C1, C2, C3 y
C4, que corresponden a los percentiles
P20, P40, P60 y P80 ellos dividen la
muestra en cinco partes iguales.
Un percentil de particular inters es el percentil cincuenta P50 o Q2 o D5
que adems recibe el nombre de
partes iguales.
mediana
Primer quintil
Segundo quintil
Tercer quintil
Cuarto quintil
= Percentil 20
= Percentil 40
= Percentil 60
= Percentil 80
= Percentil 25
= Percentil 50 = mediana
= Percentil 75
Primer cuartil
Segundo cuartil
Tercer cuartil
Tercer decil
Quinto decil
Sptimo decil
= Percentil 30
= Percentil 50 = mediana
= Percentil 70
La mediana es el percentil 50
El percentil de orden 15 deja por debajo al 15% de las observaciones. Por
encima queda el 85%
Ejemplos
Qu peso es superado slo por el 25% de los individuos?
Percentil 75 o tercer cuartil
20
15
10
5
0
frecuencia
25
30
50
55
60
65
70
75
80
85
Clculo de un Percentil
nk
Pk =
100
30 x70
P70 =
= 21
100
Buscamos en la serie de datos, la
posicin 21. En este caso,
corresponde al dato de 42 aos.
Interpretacin:
El 70% de los encuestados tienen 42 aos o menos.
Smallest
1%
45
43
5%
48
45
10%
50
45
Obs
145
25%
56
47
Sum of Wgt.
145
50%
60
Mean
Largest
61.5931
Std. Dev.
9.077212
75%
66
82
90%
74
85
Variance
82.39579
95%
77
90
Skewness
.6642773
99%
90
95
Kurtosis
3.913821
Ejemplo
Nmero de aos de escolarizacin
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Total
Frecuencia
5
5
6
12
25
68
56
73
85
461
130
175
73
194
43
45
22
30
1508
Porcentaje
,3
,3
,4
,8
1,7
4,5
3,7
4,8
5,6
30,6
8,6
11,6
4,8
12,9
2,9
3,0
1,5
2,0
100,0
Porcentaje
acumulado
,3
,7
1,1
1,9
3,5
8,0
11,7
16,6
22,2
52,8
61,4
73,0
77,9
90,7
93,6
96,6
98,0
100,0
Estadsticos
20%?
90%?
Estadgrafos de
Tendencia Central:
Media, moda y mediana
Aquellos valores hacia los cuales tienden a aglomerarse los
datos de una muestra. La mayora de ellos trata de ubicarse
en el centro de la distribucin.
Media
Sea X una variable cuantitativa y X1, X2,....Xn, una muestra de n
valores, la media est definida por:
n
x
X=
i=1
Media
n
x
X=
i=1
Media
Si se dispone de una tabla de datos asociada a una distribucin de
frecuencias, entonces la media se calcula de la siguiente forma: multiplicando
la marca de clase por la frecuencia de cada intervalo. Se suman los resultados
de cada multiplicacin y se dividen por el nmero total de datos.
ni * Mi
Ejemplo:
Protenas totales del plasma en prematuros
de 15 das de edad
Protenas
(g/l)
40 44
45 49
50 54
55 59
60 64
65 69
Total
Frecuencia
Absoluta
ni
2
6
12
13
5
2
40
Marca de
Clase
Mi
42
47
52
57
62
67
ni Mi
84
282
624
741
310
134
2175
X=
i=1
X =
Moda
Sea X una variable y x1,x2,xn una muestra de n valores de X, se define
la moda como la observacin que se presenta con mayor frecuencia en la
muestra. Requiere un nmero suficiente de observaciones para que se
manifieste o se defina claramente. Es la nica medida de centralizacin que
tiene sentido estudiar en una variable cualitativa, pues no precisa la
realizacin de ningn clculo.
Moda
Ordenando los datos es posible identificar con mayor facilidad la moda
3,7
3,8
4,2
4,5
4,5
4,8
5
5
5,1
5,7
5,8
5,8
5,8
5,9
6
6
6,1
6,2
6,2
6,8
Moda
Cuando los datos estn resumidos en una tabla de frecuencias, es sencillo identificar
cul valor tiene la mayor frecuencia. Si se calcula la moda en una variable de escala
ordinal o numrica discreta, basta con identificar este valor:
Calidad de la atencin en servicio de urgencias. Clnica X. Ao 2010
Excelente
Buena
Regular
Mala
Mediana
Sea X una variable con nivel de medicin por lo menos ordinal, y
x1,x2,xn una muestra de n valores de X , una vez ordenada la
muestra en orden creciente de magnitud, se define la mediana por
una valor o punto donde la muestra se divide en dos partes
iguales.
Es aquel valor que divide la muestra en dos partes iguales. De este modo, la
mediana es el primer valor de la variable que deja por debajo de s al 50% de
las observaciones. La mediana corresponde al percentil 50 o Cuartil 2,
(Mediana=P50=Q2). Notemos que la mediana es tanto un estadgrafo de
posicin y de centralizacin.
Mediana
Como medida descriptiva, tiene la ventaja de no estar afectada por
las observaciones extremas (no depende de los valores que toma
la variable, sino del orden de las mismas). Por ello es adecuado su
uso en distribuciones asimtricas.
Mediana
Ejemplo:
N
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
NOTA
3,7
3,8
4,2
4,5
4,5
4,8
5
5
5,1
5,7
5,8
5,8
5,8
5,9
6
6
6,1
6,2
6,2
! n +1 $
Md = X #
&
" 2 %
19 +1
Md =
= 10.
2
Posicin 10
El valor que divide la
muestra en dos partes
iguales, es 5,7.
El 50% de los
estudiantes tuvo una
nota de 5,7 menos.
NOTA
3,7
3,8
4,2
4,5
4,5
4,8
5
5
5,1
5,7
5,8
5,8
5,8
5,9
6
6
6,1
6,2
6,2
6,8
n
n
X + X +1
2
Md = 2
2
n 20
=
= 10
2 2
n
20
X +1 =
+1 = 11
2
2
X10 = 5, 7
X
X11 = 5, 8
5, 7 + 5, 8
Md =
= 5, 75
2
Como la cantidad de datos es
par, entonces la mediana
corresponde al promedio de
los datos centrales, por lo
tanto la mediana es 5,75. El
50% de los estudiantes tuvo
una nota de 5,75 o menos
( "n
%+
* A $ Nim1 ' #2
&Md = Li + *
* ni(xm ) *)
-,
Li
n
Ni(m-1)
ni(xm)
A
n/2
Ejemplo
Concentracin de protenas totales en el plasma
de prematuros normales de 15 das de edad
Protenas
(g/l)
40 44
45 49
50 54
55 59
60 64
65 69
Total
Mi
42
47
52
57
62
67
ni
2
6
12
13
5
2
40
Ni
2
8
20
33
38
40
f%
5
15
30
32,5
12,5
5
100
F%
5
20
50
82,5
95
100
Li
: 50
n
: 40
Ni(m-1) : 8
ni(xm) : 12
A
:4
n/2
: 40/2= 20
(" 4(20 8) %+
Md = 50 + *$
'- = 54
#
12 &,
)
El 50% de los nios tiene 54 g/l de proteina en
el plasma o menos.
El valor que divide la muestra en dos partes
iguales, es 4 g/l
40 44
45 49
50 54
55 59
60 64
65 69
Total
Mi
42
47
52
57
62
67
ni
2
6
12
13
5
2
40
Ni
2
8
20
33
38
40
f%
5
15
30
32,5
12,5
5
100
F%
5
20
50
82,5
95
100
La mejor medida
3. Asimetra negativa
4. Bimodal
Ejercicio
1. Los siguientes datos corresponden a las edades de un grupo de 30 pacientes
atendidos en un consultorio de Pealoln durante un da:
15
36
30
22
4
54
73
42
45
21
17
70
1
3
29
33
48
51
65
61
73
25
3
27
16
19
69
55
36
34
. sum edad
Variable
Obs
Mean
Std. Dev.
edad
30
35.9
22.17384
Min
Max
73
histogram edad
.02
. sum edad, d
5%
10%
3.5
Obs
30
25%
19
Sum of Wgt.
30
50%
33.5
Mean
Largest
35.9
Std. Dev.
22.17384
491.6793
75%
54
69
90%
69.5
70
Variance
95%
73
73
Skewness
.174533
99%
73
73
Kurtosis
1.963585
Density
.01
.005
Smallest
1%
Percentiles
.015
edad
20
40
edad
60
80
Estadgrafos de
variabilidad o dispersin
Rango, rango intercuartlico, desviacin
estndar, varianza, coeficiente de variacin
Dan un valor de la diferencia o variabilidad de los datos, tomando como
referencia la media. Indican que tan alejados estn los datos con
respecto a su media.
Estadgrafos de
Variabilidad o dispersin
Los estudiantes de Bioestadstica obtienen diferentes calificaciones en
mala
Rango
Se define el rango o recorrido de los datos como el mximo menos el mnimo.
R= Mx - Min
Es fcil de calcular y sus unidades son las mismas que las de la variable.
Es una medida de baja utilidad, dado que solamente tiene en cuenta dos
valores (extremos), siendo fuertemente afectada por stos.
Ejemplos
En la serie de edades de un grupo de nios:
2, 3, 3, 5, 6, 7, 7, 8, 9, 10, 13.
El Rango es:
R=13-2=11
N
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
NOTA
3,7
3,8
4,2
4,5
4,5
4,8
5
5
5,1
5,7
5,8
5,8
5,8
5,9
6
6
6,1
6,2
6,2
6,8
Rango Intercuartlico
Dado que el rango puede exagerar el grado de heterogeneidad del los datos, para
prevenir este hecho se prefiere usar como medida de variabilidad e rango
intercuartlico, que corresponde a la distancia entre primer y tercer cuartil. Esta
medida, no es tan sensible a valores extremos.
RIC= 45-31=14
N
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
NOTA
3,7
3,8
4,2
4,5
4,5
4,8
5
5
5,1
5,7
5,8
5,8
5,8
5,9
6
6
6,1
6,2
6,2
6,8
RIC= 6 - 4,575=1,425
Varianza
Mide la dispersin de los datos con respecto a su media, su calculo es la media de las
diferencias cuadrticas de cada observacin con su media. Es representada como 2
cuando es la varianza poblacional y S2 varianza muestral. Describe la variabilidad de los
datos alrededor de la media: es grande cuando hay mucha dispersin y pequea cuando
hay poca dispersin.
(
=
Xi X
S2 =
) (
X1 X + X2 X +... + Xn X
n 1
n 1
(2 4) + (3 4) + ( 7 4) + ( 4 4) + (6 4) + (5 4) + (1 4)
=
7 1
Desvo de las
notas, respecto
del promedio
2
3
7
4
6
5
1
2 - 4= -2
3 - 1= -1
Total
28
7 - 4= 3
4 - 4= 0
6 - 4= 2
5 - 4= 1
1 - 4= -3
S= S
Varianza = S 2 = 4, 67
DesviacinEstndar = S = 4, 67 = 2, 2
0.01
0.02
0.02
0.03
0.03
0.04
0.04
0.05
0.05
Desviacin estndar
0.01
x s
68.5 %
x 2s
0.00
0.00
95 %
150
160
170
180
190
150
160
170
180
190
Varianza:
Coeficiente de variabilidad
Es una medida que permite interpretar el grado de heterogeneidad entre los datos y
comparar el nivel de dispersin de dos muestras de variables diferentes. Entre
menor es el valor, ms homogneos son los datos. Se calcula como el cociente
entre la desviacin estndar y el promedio, multiplicado por 100.
CV =
S
X
100%
2,2
CV =
100% = 55
4
Coeficiente de variabilidad
Es una medida til, cuando se requiere comparar la variabilidad de dos
variables que tienen unidades de medida distinta.
Ejemplo
La siguiente tabla resume la informacin de la ingesta de Energa, carbohidratos
y protenas en un grupo de 5.473 individuos:
Ingesta Energia
Ingesta
(Kcal/dia)
Carbohidratos (g/dia)
N Vlidos
5473
5473
Media
2245,2325
235,1666
Mediana
2196,4036
226,3880
252,36a
537,30782
72,65626
Moda
Desv. tp.
!
2330,13
CV =
537, 3
72, 65
100% = 23, 9%CV =
100% = 30, 9%
2245, 2
235,16
Estadgrafos de forma
Coeficiente de asimetra y de
curtosis
Son aquellos nmeros resmenes, que indican la morfologa de la
distribucin de los datos, es decir de la simetra y curtosis que tiene el
histograma de la variable en estudio.
Coeficiente de Asimetra
Permite medir si la curva tiene una forma simtrica, es decir, si
respecto al centro de la misma (centro de simetra) los segmentos de
curva que quedan a derecha e izquierda son similares.
Interpretacin:
= 0, Simtrica
ASF
En las distribuciones
simtricas media y mediana
coinciden. Si slo hay una
moda tambin coincide.
Apuntamiento o curtosis
Mide el grado de concentracin que presentan los valores
alrededor de la zona central de la distribucin. Se definen 3
tipos de distribuciones segn su grado de curtosis:
Distribucin mesocrtica: presenta un grado de
concentracin medio alrededor de los valores
centrales de la variable (el mismo que presenta una
distribucin normal).
Distribucin leptocrtica: presenta un elevado
grado de concentracin alrededor de los valores
centrales de la variable.
Distribucin platicrtica: presenta un reducido grado de
concentracin alrededor de los valores centrales de la
variable.
Ejemplo
Coeficiente de asimetra:
= 0, Simtrica
> 0, Asimtrica Positiva
< 0, Asimtrica Negativa
Coeficiente de curtosis
=0 Mesocrtica
>0 Leptocrtica
<0 Platicrtica
Leptocrtica
Curtosis
Platicrtica
Edad
70 Q3
Mediana
60 Q1
50
40
30
Valores
Outlier o
atpicos
20
10
0
N=
584
1473
Mujeres
Hombres
16x25
= X 4 = 57
100
16x75
Q3=P75 =
= X12 = 71
100
65+ 66
Md =
= 65, 5
2
Q1=P25 =
71
65,5
60
Edad
47
52
52
57
58
58
60
65
66
66
69
71
71
72
73
93
RIC=Q3-Q1=71-57=14
57
N
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Intervalar Razn:
Si los datos tienen
distribucin asimtrica: usar
los percentiles y la
mediana.
Si los datos tienen
distribucin simtrica y es
unimodal con distribucin
normal: pueden usarse la
media y la desviacin
estndar.
50
Caractersticas generales de los nios macrosmicos y sus madres, destaca que los nios
nacidos macrosmicos nacieron de 39,45 1,06 semanas de gestacin presentaron un
buen Apgar al minuto y a los 5 minutos y las madres ganaron durante el embarazo 14,40
6,54 kg.
51
FIN
52