Beruflich Dokumente
Kultur Dokumente
HUAMANGA
FACULTAD DE CIENCIAS BIOLGICAS
BIOESTADSTICA I
SEPARATA I
ESTADSTICA
DESCRIPTIVA
2016
UNSCH
Bioestadstica I
UNSCH
Bioestadstica I
Contenido
BIOESTADSTICA ...................................................................................................................... 7
I.
1.1.
1.2.
1.3.
Importancia de la Estadstica.......................................................................................... 12
II.
2.1.
Observacin ...................................................................................................................... 15
2.2.
Datos .................................................................................................................................. 15
2.3.
2.4.
2.5.
Poblacin ........................................................................................................................... 16
2.6.
Muestra .............................................................................................................................. 16
2.7.
2.8.
2.9.
3.1.
3.2.
Medidas estadsticas........................................................................................................ 45
3.3.
3.4.
Percentiles ....................................................................................................................... 50
3.5.
Medidas de asimetra....................................................................................................... 56
UNSCH
Bioestadstica I
PROBABILIDADES..................................................................................................................... 62
4.1.
4.2.
4.3.
UNSCH
Bioestadstica I
UNSCH
Bioestadstica I
UNSCH
Bioestadstica I
I.
BIOESTADSTICA
1.1.
Estadstica y bioestadstica
Daniel indica que la estadstica es la disciplina que se ocupa de 1) la recoleccin,
organizacin, resumen y anlisis de datos, y 2) la obtencin de inferencias a partir de un
volumen de datos cuando se examina solo una parte de estos.
La Bioestadstica, en el mbito de la Estadstica, hace referencia a mtodos estadsticos y
matemticos que se aplican al anlisis de datos provenientes de las ciencias biolgicas.
Debido a que las cuestiones a investigar, cuando se trabaja con personas, animales,
plantas u otros organismos vivos, son de naturaleza muy variada. Incluye no slo
herramientas para el anlisis estadstico descriptivo de datos biolgicos sino tambin
el uso de numerosos procedimientos y algoritmos de clculo y computacin para el anlisis
inferencial, el reconocimiento de patrones en los datos y la construccin de modelos que
permiten describir y analizar procesos aleatorios (Balzarini et al, 2011).
1.2.
Objeto de estudio.
El objetivo de la estadstica es investigar y evaluar la naturaleza y el significado de la
informacin contenida en los datos (Daniel).
Es necesario tener en cuenta que la estadstica se ha propuesto como instrumento de
investigacin. La investigacin puede ser en gentica, mercadeo, nutricin, agronoma, etc.
Es el campo de investigacin, no el instrumento, el que debe proporcionar los porqu del
problema de investigacin. Aveces, este hecho se pasa por alto y los usuarios olvidan que
tienen que pensar, que la estadstica no puede pensar por ellos. La estadstica, sin embargo,
ayuda a los investigadores a disear experimentos y a evaluar objetivamente los datos
numricos resultantes. Es nuestra intencin proporcionar a los investigadores instrumentos
estadsticos tiles para este fin.
1.3.
Ejemplo
Se desea hacer un estudio sobre el consumo
de drogas en el distrito de Comas. Con esta
finalidad se extrae una muestra aleatoria de
240 adolescentes del distrito de Comas en el
2013 y se les aplica la encuesta respectiva.
Se aplica la Estadstica Descriptiva para recopilar, clasificar, organizar y presentar en una
tabla de frecuencias y en forma grfica los datos recogidos de una encuesta.
DEPARTAMENTO DE CIENCIAS BIOLGICAS
UNSCH
Bioestadstica I
de
Nmero
Porcentaje
No
100
41.7
Interdiario
80
33.3
Diario
40
16.7
A veces
20
8.3
Total
240
100.0
45.0
41.7
40.0
33.3
35.0
30.0
25.0
20.0
16.7
15.0
8.3
10.0
5.0
0.0
No
Interdiario
Diario
A veces
FRECUENCIA
Fuente: UNAL La Molina Dpto. de Estadstica e Informtica
UNSCH
Bioestadstica I
Ejemplo
1. Nmero de artculos defectuosos en un lote de 20
2. Nmero de clientes atendidos cada 20 minutos en una ventanilla
3. Nmero de predios que posee un agricultor de un valle
B. Variable Cualitativa. Son aquellas que permiten que una unidad elemental pueda
ser clasificada como poseedora o no de cierta cualidad, propiedad o atributo. No tiene
DEPARTAMENTO DE CIENCIAS BIOLGICAS
UNSCH
Bioestadstica I
sentido realizar operaciones matemticas con ellas. Son aquellas cuyos valores
posibles son atributos o categoras.
Variable Cualitativa Nominal. Son aquellas cuyos valores (cualidades, propiedades o
atributos) no son factibles de ser clasificados a travs de un criterio de orden o
jerarqua. Sus valores posibles no tienen un orden de importancia.
Ejemplo
1. Sexo de los estudiantes (Masculino o Femenino)
2. Estado civil de una persona (Soltero, Casado, Divorciado, Viudo o Conviviente)
3. Marca de una computadora (A, B, C o D)
4. Marca de Automvil (Toyota, Chevrolet, Mercedes Benz, etc...)
Variable Cualitativa Jerrquica u Ordinal. Son aquellas donde s se puede
establecer un criterio de orden o jerarqua entre sus atributos de la variable.
Ejemplo
1. Nivel de instruccin (Sin instruccin, Primaria, Secundaria o Superior)
2. Nivel socioeconmico de un cliente (Alto, Medio o Bajo)
3. Calificacin de un servicio (Bueno, Regular o Malo)
4. Rango Militar (Cabo, Sargento, Coronel)
Variable aleatoria?
Otros autores hacen uso de la definicin de variables aleatorias, que en realidad se tratan
de las variables cuantitativas, pudiendo ser stas discretas y continuas. Pondremos nfasis
en la aleatoriedad, por lo tanto siempre que se determina la estatura, el peso o la edad de
un individuo, el resultado frecuentemente se denomina valor de la variable respectiva.
Cuando los valores se originan como resultado de factores aleatorios (al azar), que no
pueden predecirse con exactitud y anticipacin, la variable se llama variable aleatoria. Un
ejemplo de variable aleatoria es la estatura de los adultos; cuando nacen los nios no es
posible predecir con exactitud la estatura que tendrn en su edad adulta; la estatura que
alcanza un adulto es el resultado de muchos factores genticos y ambientales. Los valores
resultantes de los procedimientos de medicin se denominan observaciones o medidas.
Variable aleatoria discreta (Variable cuantitativa discreta)
Entre los ejemplos de variables aleatorias discretas: El nmero de admisiones diarias
en un hospital general es una variable aleatoria discreta, puesto que el nmero de
admisiones por da debe representarse con nmeros enteros tales como 0, 1, 2 o 3. El
nmero de admisiones en un da determinado no puede ser 1.5, 2.997 o 3.333. El
nmero de caries, amalgamas o prdida de dientes por nio en una escuela primaria
es otro ejemplo de una variable discreta.
Variable aleatoria continua (variable cuantitativa continua)
Entre los ejemplos de variables continuas se hallan las diversas mediciones que
pueden hacerse en individuos tales como su estatura, peso y dimetro craneano. Sin
importar cun cerca estn las estaturas de dos personas, tericamente siempre es
posible encontrar otra persona cuya estatura se encuentre entre las dos estaturas de
referencia.
Ahora bien, debido a las limitaciones de los instrumentos de medicin disponibles, las
observaciones sobre variables que son inherentemente continuas se registran como si
fueran discretas. La estatura, por ejemplo, normalmente se redondea metros o centmetros
completa ms cercanos, mientras que si se cuenta con el instrumento de medicin
adecuado, esa medida puede hacerse tan precisa como se desee.
DEPARTAMENTO DE CIENCIAS BIOLGICAS
10
UNSCH
Bioestadstica I
Ejemplos:
1. Decir cules de estos datos son discretos y cules continuos:
(a) Nmero de acciones vendidas un da en la Bolsa de Valores.
(b) Temperaturas medidas en un observatorio cada media hora.
(c) Vida media de los tubos de televisin producidos por una fbrica.
(d) Ingresos anuales de los profesores de Enseanza Media.
(e) Longitudes de 1000 tornillos producidos en una empresa.
Solucin
(a) Discretos; (b) continuos; (c) continuos; (d) discretos; (e) continuos.
2. Dar el dominio de las siguientes variables y decir cules son continuas:
(a) Nmero G de galones (gal) de agua en una lavadora.
(b) Nmero B de libros en una estantera.
(c) Suma S de los puntos obtenidos al lanzar un par de dados.
(d) Dimetro D de una esfera.
(e) Pas P de Europa.
Solucin
(a) Dominio: Cualquier valor entre 0 gal y la capacidad de la lavadora. Variable: Continua.
(b) Dominio: 0, 1, 2, 3,... hasta el nmero total de libros que caben en la estantera. Variable:
Discreta.
(c) Dominio: Los puntos de un dado pueden ser 1. 2, 3, 4, 5 6. Luego la suma de dos
dados puede ser 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 12, que es el dominio de S. Variable: Discreta.
(d) Dominio: Todos los valores positivos. Variable: Continua.
(e) Dominio: Francia, Italia, ..., etc., que pueden representarse numricamente como 1.
2, Variable: Discreta.
5) Observacin. Es el valor posible que toma una variable. A las observaciones se les suele
representar con las letras minsculas subindicadas, como por ejemplo x, y, zi
Ejemplo
1. X = Peso del langostino de ro (en gr). Observaciones:
x1= 2.5, x2 = 3.0,..,x10 = 3.2
2. Y = Calificacin de un servicio. Observaciones: .y1 = Bueno,y2 = Regular,y3 = Malo
6) Parmetro. Es una medida estadstica para describir el comportamiento de una variable
en la poblacin. Son calculadas con los datos de toda la poblacin. Es un valor constante.
Se representan con letras griegas.
Ejemplo
1. Suponga que el nmero promedio de cocinas vendidas en todos los meses de venta es
15.4 ( = 15.4).
2. El Censo Nacional 2007: XI de Poblacin y VI de Vivienda indica que en el grupo edad
de 20 a 29 aos, el 1.4% de los hombres no sabe leer y escribir mientras que el 3.1% de
las mujeres no sabe leer y escribir (1 = 0.014 y 2 = 0.031).
3. Suponga que en todo Brea la proporcin del nivel de instruccin result:
11
UNSCH
Bioestadstica I
12
UNSCH
Bioestadstica I
13
UNSCH
Bioestadstica I
Analizar los datos: una vez obtenidas las medidas es necesario su tratamiento
estadstico para poder obtener magnitudes (e incertidumbres asociadas)
representativas del objeto de nuestro estudio.
Interpretar los datos y extraer conclusiones que sirvan como punto de partida para
nuevas hiptesis. El xito de esta interpretacin depender, bsicamente, de la
calidad de las medidas y de su anlisis.
Publicar los resultados. Los resultados de cualquier proceso experimental deben
ser comunicados de manera clara y concisa. Esto incluye desde un sencillo informe
de laboratorio, como el que se exigir en los diversos laboratorios en los que se
trabajar durante la licenciatura de Fsicas, hasta la publicacin de un artculo
cientfico en una revista reconocida.
Referencias bibliogrficas
Balzarini Mnica; Di Rienzo Julio; Tablada Margot; Gonzalez, Laura; Bruno Cecilia;
Crdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadstica y Biometra.
Editorial Brujas. Argentina.
Gua del curso de estadstica general. 2016. Departamento estadstica e informtica.
UNALM
14
UNSCH
Bioestadstica I
II.
LOS DATOS
2.1.
Observacin
Las observaciones constituyen la materia prima con la cual trabajan los investigadores. Para
que se pueda aplicar la estadstica a esas observaciones stas deben estar en forma
numrica.
-
15
UNSCH
Bioestadstica I
del uso de la estadstica, se comienza a investigar datos apropiados que sirvan como la
materia prima en la investigacin. Estos datos normalmente estn disponibles de una o ms
fuentes como las siguientes:
1. Registros rutinarios. Es difcil imaginar algn tipo de organizacin que no lleve registros
de la operacin diaria de sus actividades. Mientras que los registros clnicos de un hospital,
por ejemplo, contienen una inmensa cantidad de informacin acerca de los pacientes, los
registros contables de la institucin contienen datos en abundancia sobre las actividades
financieras del hospital. Cuando surge la necesidad de tener datos, se debe buscar primero
en los registros que se llevan rutinariamente.
2. Encuesta. Si los datos necesarios para contestar una pregunta no estn disponibles a
partir de los registros almacenados de manera rutinaria, la fuente lgica puede ser una
encuesta. Por ejemplo, suponga que el administrador de una clnica desea obtener
informacin respecto a la forma de transporte que utiliza el paciente para visitar la clnica. Si
la forma de admisin no contiene una pregunta acerca del transporte, es posible llevar a
cabo una encuesta entre los pacientes para obtener esta informacin.
3. Experimentacin. Frecuentemente, los datos necesarios para responder una pregunta
estn disponibles slo como resultado de la experimentacin. Tal vez una enfermera quiere
saber qu estrategia es mejor para maximizar el seguimiento de las indicaciones mdicas
por parte del paciente. La enfermera podra conducir un experimento en el que se prueben
diferentes estrategias para motivar el cumplimiento del tratamiento en distintos pacientes. La
evaluacin subsecuente de las respuestas a las diversas estrategias puede capacitar a la
enfermera para decidir cul es ms efectiva.
4. Fuentes externas. Los datos necesarios para responder a una pregunta pueden ya existir
como informes publicados, bancos de datos disponibles o en la literatura de investigacin.
En otras palabras, uno se puede encontrar con que alguien ms ya plante la misma
pregunta y que la respuesta que obtuvo puede aplicarse a la situacin presente.
2.5.
Poblacin
Habitualmente se considera a una poblacin como una coleccin de entidades, por lo
general personas. Sin embargo, una poblacin o coleccin de entidades puede estar
compuesta de animales, mquinas, plantas o clulas. Una poblacin de entidades se define
como la coleccin ms grande de entidades de inters en un momento particular. Si se toma
la medida de alguna variable para cada una de las entidades en una poblacin, se obtiene
una poblacin de valores para esa variable. Por lo tanto, una poblacin de valores se puede
definir como la mayor coleccin de valores para una variable aleatoria, los cuales son de
inters en un momento particular. Por ejemplo, si se tiene inters en conocer el peso de
todos los nios inscritos en el sistema de educacin primaria del estado, la poblacin est
formada por todos esos pesos. Si se tiene inters slo en el peso de los estudiantes inscritos
en el primer grado, se tiene una poblacin diferente, compuesta por los pesos de los
estudiantes de primer grado. Por lo tanto, las poblaciones se determinan o definen con base
en el campo de inters. Las poblaciones pueden ser finitas o infinitas. Si una poblacin de
valores consiste en un nmero fijo de esos valores, se dice que la poblacin es finita. Si, por
otra parte, una poblacin consiste en una sucesin interminable de valores, entonces es una
poblacin infinita.
2.6.
Muestra
Una muestra puede definirse simplemente como una parte de una poblacin. Suponga que
una poblacin se compone de los pesos de todos los nios inscritos en el sistema de
16
UNSCH
Bioestadstica I
educacin primaria del estado, y se escoge para el anlisis slo una fraccin de los nios;
entonces se tiene nicamente una parte de la poblacin, es decir, se tiene una muestra.
2.7.
Elaboracin de los datos
Steel y Torrie (1988) mencionan que ha sido ampliamente demostrado que no se puede
tomar una muestra aleatoria sin emplear un proceso mecnico. En el proceso usado para
obtener una muestra aleatoria o para introducir la aleatoriedad en un experimento o
encuesta, por lo general interviene una tabla de nmeros aleatorios, como la tabla A.1. Esta
tabla est formada por los dgitos 0, 1, 2, 3, 4, 5, 6, 7, 8 y 9 distribuidos en una tabla de 100
por 100, dando lugar a 10,000 dgitos aleatorios. Estos nmeros se obtuvieron en una
mquina y no hay razn para pensar que algn nmero apareciera con ms frecuencia que
otro, ni que alguna sucesin de nmeros fuese ms frecuente que otra, excepto por el azar.
Hay 1,015 ceros, 1,026 unos, 1,013 doces, 975 treces, 976 cuatros, 932 cincos, 1,067 seis,
1,013 sietes, 1,023 ochos, 960 nueves; 5,094 son pares y 4 906 son impares. Ilustremos el
uso de la tabla tomando una muestra aleatoria de 10 observaciones de la tabla 4.1. Los
datos de la tabla 4.1 se han clasificado de acuerdo con la magnitud asignndoles nmeros
de orden. La organizacin por orden no es necesaria para extraer muestras al azar; el orden
de los nmeros aleatorios pudo haberse asignado en forma arbitraria.
Para obtener una muestra aleatoria de 10 pesos, tmense 20 dgitos consecutivos de la tabla
A.1 y regstrense como 10 pares. Estos sern los nmeros de orden de los pesos
correspondientes. Se puede comenzar en cualquier parte de la tabla, pero una forma ms
satisfactoria es sealar con el dedo en una de las pginas, leer los cuatro nmeros opuestos
ms cercanos a la punta del dedo y utilizar stos para localizar el punto de partida. As:
1.
En la primera pgina de la tabla A.1, el dedo encuentra el nmero 1188 (frente a 10
y son los primeros cuatro dgitos en la columna 20-24).
2.
3.
Se registran en pares los 20 dgitos que se encuentran yendo hacia la derecha, y que
son 06, 17, 22, 84, 44 y 55; por comodidad, se baja una lnea y se procede al revs para
obtener los otros nmeros, o sea, 09,15,30 y 59.
4.
Se toman los nmeros de los elementos y se llevan a la tabla 4.1 para obtener las
correspondientes observaciones: 20, 30,32, 51, 39, 41, 25, 29, 35 y 42 libras.
Este es un procedimiento aleatorio que equivale a extraer de una bolsa con 100 frjoles
marcados con 100 contenidos de grasa de leche, volviendo cada frjol a la bolsa y mezclando
bien los frijoles antes de cada extraccin. Por esta razn, se dice que el muestreo es con
reemplazo. Ntese que cada elemento puede sacarse cualquier nmero de veces
17
UNSCH
Bioestadstica I
Tabla 4.1 Ordenamiento en libras, de la grasa de leche producida por 100 vacas Holstein
durante un mes
Los datos originales se modificaron para que se aproximaran a una distribucin normal con
=40 Ib y =12 Ib.
Unidad Libras Unidad Libras Unidad Libras Unidad Libras
0
10
25
33
50
40
75
47
1
12
26
33
51
40
76
48
2
14
27
34
52
41
77
48
3
15
28
34
53
41
78
48
4
17
29
34
54
41
79
49
5
18
30
35
55
41
80
49
6
20
31
35
56
42
81
49
7
22
32
35
57
42
82
50
8
23
33
36
58
42
83
50
9
25
34
36
59
42
84
51
10
26
35
36
60
43
85
51
11
27
36
37
61
43
86
52
12
28
37
37
62
43
87
52
13
28
38
37
63
43
88
53
14
29
39
37
64
44
89
54
15
29
40
38
65
44
90
55
16
30
41
38
66
44
91
57
17
30
42
38
67
45
92
58
18
31
43
38
68
45
93
60
19
31
44
39
69
45
94
62
20
31
45
39
70
46
95
63
21
32
46
39
71
46
96
65
22
32
47
39
72
46
97
66
23
32
48
40
73
47
98
68
24
33
49
40
74
47
99
70
18
UNSCH
Bioestadstica I
19
UNSCH
Bioestadstica I
20
UNSCH
Bioestadstica I
21
UNSCH
Bioestadstica I
22
UNSCH
2.8.
Bioestadstica I
Ao
Nmero de
bushels de
trigo
Nmero de
bushels de
maz
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
200
185
225
250
240
195
210
225
250
230
235
75
90
100
85
80
100
110
105
95
110
100
Solucin
(a) 1976; (b) 1981 y 1984; (c) 1980; (d) 1978, 1982, 1983 y 1985; (e) 1977 y 1982, y 1978 y
1983; (f) 1983.
Representar los datos del Problema anterior usando: (a) grficos de trazos y (b) grficos de
barras.
Solucin
(a) La Figura muestra el grfico de trazos.
23
UNSCH
Bioestadstica I
300
Nmero de bushels
250
200
150
Trigo
Maz
100
50
0
1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985
Ao
Nmero de bushels
300
250
200
150
Trigo
100
Maz
50
0
1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985
Ao
Nmero de bushels
350
300
250
200
Maz
150
Trigo
100
50
0
1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985
Ao
24
UNSCH
Bioestadstica I
(a) Expresar la cantidad anual de bushels de trigo y maz del Problema como porcentajes
de la produccin total anual.
(b) Representar los porcentajes obtenidos en la parte (a).
Solucin
(a) En 1975 el porcentaje de trigo = 200/(200 + 75) = 72.7%, y el maz 100% 72.7% =
27.5%; etc. Los porcentajes se indican en la Tabla 1.5.
Ao
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
Porcentaje de trigo
72.70% 67.30% 69.20% 74.60% 75.00% 66.10% 65.60% 68.20% 72.50% 67.60% 70.10%
Porcentaje de maz
27.30% 32.70% 30.80% 25.40% 25.00% 33.90% 34.40% 31.80% 27.50% 32.40% 29.90%
100.0%
90.0%
80.0%
Porcentaje
70.0%
60.0%
50.0%
Maz
40.0%
Trigo
30.0%
20.0%
10.0%
0.0%
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
Ao
Ejemplo: Las reas de los continentes se recogen en la siguiente Tabla. Representar los
datos grficamente.
Tabla. reas de los continentes
Continente
Asia
Amrica
frica
Antrtida
Europa
Oceana
Total
rea
km2
%
43810000
42330000
30370000
13720000
10180000
9008500
29%
28%
20%
9%
7%
6%
149418500 100%
Solucin
Primer mtodo
Grfico de barras en el que las barras son horizontales.
25
UNSCH
Bioestadstica I
Oceana
Continentes
Europa
Antrtida
frica
Amrica
Asia
0
10000000
20000000
30000000
40000000
50000000
rea en km2
Diagrama circular.
Oceana, 6%
Europa, 7%
Asia, 29%
Antrtida, 9%
frica, 20%
Amrica, 28%
2.9.
(p)
P1
P2
Pk
100
26
UNSCH
Bioestadstica I
Donde:
k= Nmero de clases
n= Nmero de observaciones o unidades elementales
Frecuencia absoluta ( f i ). Es el nmero de observaciones que existen en la clase o
categora i.
k
Se cumple:
f
i 1
fri
fi
n
k
Se cumple:
fr 1
i
i 1
Se cumple:
p
i 1
100%
Tipo de grficos
Se pueden usar las frecuencias absolutas (fi) o relativas (fri) para elaborar dos tipos de
grficos
Grfico circular
Ejemplo. Se hizo una encuesta a una muestra de 45 clientes del Banco Comercial y se
obtuvo los siguientes resultados:
Ingreso
Mensual
Caso Edad
(miles de
S/.)
1
2
3
3,00
1,99
2,90
4
5
6
29
34
61
28
41
57
30
4,50
4,70
3,00
5,80
Tarjeta
N de
de
viajes
crdito
(mensual)
usada
3
3
2
0
1
2
4
Ta1
Ta2
Ta3
Ta2
Ta4
Ta1
Ta4
Monto
de
Lugar de uso de
deuda
tarjeta de crdito
(miles
de S/.)
centros comerciales
1,80
discotecas
1,10
0,60
restaurantes
grifos
2,70
centros comerciales
1,30
otros
0,80
grifos
0,64
Sexo
F
F
M
M
F
F
M
27
UNSCH
8
9
Bioestadstica I
13
14
15
43
45
35
42
28
28
24
35
16
42
6,60
Ta4
17
18
48
5,74
Ta1
discotecas
1,20
34
4,23
Ta5
centros comerciales
1,90
19
66
36
5,50
restaurantes
6,60
Ta1
Ta4
centros comerciales
2,35
1,90
M
F
59
3,85
Ta4
restaurantes
0,30
22
37
6,70
Ta6
centros comerciales
0,70
23
24
53
3,50
Ta5
restaurantes
0,67
35
8,80
Ta1
discotecas
0,50
25
63
10,00
Ta5
26
27
28
10,10
Ta1
restaurantes
centro de estudios
1,50
0,70
M
F
43
28
60
13,40
3,90
Ta2
Ta5
discotecas
otros
1,50
1,99
F
M
29
30
59
5,84
Ta5
restaurantes
0,60
63
3,50
Ta4
grifos
1,50
31
55
4,40
Ta2
centro de estudios
0,40
32
33
42
3,70
Ta5
1,80
51
4,50
Ta1
centros comerciales
otros
0,70
34
39
5,63
Ta1
otros
0,80
35
36
55
4,60
Ta1
discotecas
1,25
35
42
5,79
2,93
0
3
Ta5
Ta5
discotecas
grifos
1,60
0,20
M
M
38
39
36
6,60
Ta3
grifos
4,37
49
4,60
Ta3
centros comerciales
2,00
40
27
6,60
Ta4
grifos
0,90
41
42
36
2,90
Ta1
discotecas
0,47
42
4,69
Ta2
centros comerciales
0,80
43
25
3,99
Ta4
restaurantes
4,32
44
45
32
28
6,70
2,58
2
1
Ta1
Ta4
centros comerciales
otros
0,60
1,70
M
M
10
11
12
20
21
37
7,09
4,40
6,82
5,30
5,80
5,70
4,70
6,60
0
1
0
3
2
1
4
1
Ta3
Ta5
Ta2
Ta1
Ta4
Ta2
Ta4
Ta5
centro de estudios
centros comerciales
grifos
restaurantes
discotecas
grifos
restaurantes
0,90
1,40
2,46
1,10
0,20
0,80
F
M
F
F
M
F
discotecas
0,50
0,40
M
F
restaurantes
3,46
28
UNSCH
Bioestadstica I
N de
clase
1
2
3
4
5
6
Total
f3 = 4
Tarjeta de
crdito
Frecuencia Frecuencaia Frecuencia
usada
Absoluta
relativa
porcentual
Ta1
12
0.27
26.67
Ta2
7
0.16
15.56
Ta3
4
0.09
8.89
Ta4
11
0.24
24.44
Ta5
10
0.22
22.22
Ta6
1
0.02
2.22
45
1.00
100.00
indica que 4 de los clientes del Banco Comercial utilizan la tarjeta de crdito
Ta3
indica la proporcin de clientes del Banco Comercial que utilizan la tarjeta de
crdito
Ta1.
indica que el 15.56% de clientes del Banco Comercial utilizan la tarjeta de
crdito Ta2.
fr1 = 0.2667
P2 = 15.56
Grfico de barras
30.00
25.00
20.00
15.00
10.00
5.00
0.00
Ta1
Ta2
Ta3
Ta4
Ta5
Ta6
TARJETA DE CRDITO
27%
16%
24%
9%
Ta1
Ta2
Ta3
Ta4
Ta5
Ta6
29
UNSCH
Bioestadstica I
Nivel de dolor
Nmero de
paciente
moderado
16
leve
31
ninguno
46
severo
ninguno
17
leve
32
moderado
47
ninguno
leve
18
moderado
33
ninguno
48
ninguno
ninguno
19
ninguno
34
ninguno
49
leve
severo
20
ninguno
35
leve
50
leve
ninguno
21
leve
36
ninguno
51
leve
moderado
22
ninguno
37
moderado
52
ninguno
ninguno
23
ninguno
38
leve
53
leve
ninguno
24
leve
39
ninguno
54
severo
10
leve
25
moderado
40
ninguno
55
moderado
11
leve
26
moderado
41
ninguno
56
ninguno
12
ninguno
27
ninguno
42
ninguno
57
ninguno
13
leve
28
ninguno
43
ninguno
58
ninguno
14
leve
29
leve
44
ninguno
59
leve
15
ninguno
30
severo
45
ninguno
60
ninguno
Nivel de dolor
Nmero de
paciente
Nivel de dolor
Nmero de
paciente
Nivel de dolor
30
UNSCH
Bioestadstica I
31
UNSCH
Bioestadstica I
Frecuencia relativa
40
0.60
0.50
31
30
20
10
0.40
0.30
0.20
17
8
0.10
0.00
0
Severo Moderado
Leve
Ninguno
1.20
1.00
Leve
Ninguno
0.93
1.00
56
48
0.80
0.80
31
40
0.52
0.60
0.40
20
0.20
0.00
Severo Moderado
Leve
Ninguno
70
Severo Moderado
1.00
60
60
1.00
Leve
Ninguno
0.93
0.80
56
50
0.80
48
0.60
40
0.52
31
31
30
0.52
0.40
0.28
17
20
10
0.13
0.07
80
60
0.28
Severo Moderado
60
0.52
0.20
0.07
0.13
0.00
Severo Moderado
Leve
Ninguno
Severo Moderado
Leve
Ninguno
32
UNSCH
Bioestadstica I
Tipo de grfico. Se elabora el grfico de bastones o varas con las frecuencias absolutas,
relativas o porcentuales.
Ejemplo 2. Organizacin de datos cuantitativos discretos
Tabla de frecuencias del nmero de viajes al mes
Frecuencia
N de
Absoluta
Frecuencia
viajes al
No de
Frecuencia Porcentual
mes
clientes fi Relativa fri
Pi
0
10
0.2222
22.22
1
15
0.3333
33.33
9
2
0.2000
20.00
3
6
0.1333
13.33
4
5
0.1111
11.11
Total
45
1
100
Interprete:
f2 = 15
p1 = 22.22
20.00
15.00
10.00
5.00
0.00
0
VIAJES
33
UNSCH
Bioestadstica I
Marca
Frec.
de Absoluta
Frec.
Frec.
Relativa Porc.
clase
[LI-LS>
X'i
Frec.
Frec.
Acumulada Acumulada
Frec.
Acum.
Absoluta
Relativa
Porc.
fi
fri
Fri
Pi
[LI1-LS1>
X'1
f1
fr1
p1
F1
Fr1
P1
2
.
.
.
[LI2-LS2>
X'2
f2
fr2
p2
F2
Fr2
P2
[LIk-LSk]
X'k
fK
N
frK
pk
Fk
Frk
Pk
100
100
k
Total
Donde:
LI i = Lmite inferior de la clase i (Lmite cerrado)
LSi =Lmite superior de la clase i (Lmite abierto, salvo ltima clase que es cerrado)
Marca de clase ( X i' ). Es el punto medio del intervalo de clase. Se considerar como el valor
representativo de los valores que pertenecen al intervalo de clase.
'
Se calcula: X i
LI i LSi
o X i' X i'1 TIC , donde TIC es el tamao del intervalo de clase
2
p
i 1
100%
Fk fi f1 f 2 ... f k
i 1
Propiedad: Ft Fh
i h 1
fi , h t
Fi
Fri
n
f
j 1
fri
j 1
34
UNSCH
Bioestadstica I
i h 1
fri , h t
p,
i h 1
ht
Paso 5. Realizar el conteo del conjunto de datos, como el resultado de asignar cada
observacin a alguno de los intervalos de clase. Luego completar la tabla hallando
X i' , fi , fri , Fi , Fri
Tipos de grficos
Histograma. Se usan las frecuencias absolutas o relativas en el eje vertical y los intervalos
de clase en el eje horizontal.
Polgono. Se usan las frecuencias absolutas o relativas en el eje vertical y las marcas de
clase en el eje horizontal.
Ejemplo 3. Organizacin de datos cuantitativos continuos
Organicemos las observaciones de la variable ingreso mensual de los clientes (en miles de
nuevos soles).
Paso 1. Calcule el rango ( R ).
R = Xmax - Xmin
En el ejemplo R = 13.40 - 1.99 = 11.41
Paso 2. Determine el nmero de intervalos de clase (k). Utilice la regla de Sturges
DEPARTAMENTO DE CIENCIAS BIOLGICAS
35
UNSCH
Bioestadstica I
TIC = 1.90167
Como las observaciones tienen 2 decimales en el TIC tambin se considerar con 2
decimales y como hay al menos un valor diferente de cero a la derecha de las centsimas
se incrementa en una centsima quedando TIC = 1.91
Paso 4. Construya la tabla de frecuencias.
Tener en cuenta que en la ltima clase el intervalo es cerrado en el lado derecho.
Tabla de frecuencias del ingreso mensual
N de
clases
Ingreso
mensual
[LI-LS>
Marca
de clase
X i'
Frec.
Abs. f
Frec.
Rel. fri
Frec.
Porc.
P
Frec.
Acum.
Abs. f
Frec.
Acum.
Rel. fri
Frec.
Acum.
Porc. P
[1.99 - 3.90>
2.945
11
0.2444
24.44
11
0.2444
24.44
[3.90 - 5.81>
4.855
20
0.4444
44.44
31
0.6888
68.88
[5.81 - 7.72>
6.765
10
0.2222
22.22
41
0.9110
91.10
[7.72 - 9.63>
8.675
0.0222
2.22
42
0.9332
93.32
[9.63 -11.54>
10.585
0.0444
4.44
44
0.9776
97.76
[11.54-13.45]
0.0222
2.22
1.000
100
1.0000
100
12.495
45
45
Interprete:
f2 = 20; 20 de los clientes tienen un ingreso mensual de por lo menos S/. 3900 pero menos
de S/. 5810.
fr4 = 0.0222; 0.0222 es la proporcin de clientes que ganan por lo menos S/. 7720 pero menos
de S/. 9630
p5 = 4.44; 4.44% de los clientes ganan por lo menos S/. 9630 pero menos de S/. 11540.
36
UNSCH
Bioestadstica I
i 1
F5 - F2 =
f
i 3
Fr4 =
fr
= fr1 + fr2 + fr3 + fr4 = 0.2444 + 0.4444 + 0.2222 + 0.0222 = 0.9332, indica que
i 1
0.9332 es la proporcin de clientes que ganan por lo menos S/. 1990 pero menos de S/. 9630.
Fr5 - Fr3 = 0.9776 - 0.9110 = 0.0666
5
Fr5 - Fr3 =
fr = fr
i
i4
los clientes que ganan por lo menos S/.7720 pero menos de S/.11540.
3
P3 =
p
i 1
P5 - P2 =
p
i 3
clientes de ese banco tienen ingresos mensuales por lo menos S/. 5810 pero menos de S/.
11540.
X 3' = 6.765 es el valor representativo de los clientes que ganan por lo menos S/.5810 pero
menos de S/.7720. Las diez observaciones (f3 = 10) que hay en la clase 3 son representadas
por el valor S/. 6765.
Histograma de frecuencias
50.00
45.00
40.00
35.00
30.00
25.00
20.00
15.00
10.00
5.00
0.00
2.945
4.855
6.765
8.675
10.585
12.495
INGRESO
37
UNSCH
Bioestadstica I
50.00
45.00
44.44
40.00
35.00
30.00
25.00
24.44
22.22
20.00
15.00
10.00
5.00
2.22
0.00
2.945
4.855
6.765
8.675
4.44
10.585
2.22
12.495
INGRESO
En el polgono de frecuencias se observa que son pocos los clientes con Ingresos
mensuales altos.
50.00
45.00
40.00
35.00
30.00
25.00
20.00
15.00
10.00
5.00
0.00
2.945
4.855
6.765
8.675
10.585
12.495
INGRESO
38
UNSCH
Bioestadstica I
se distinguen con mayor facilidad. Pero el precio que se paga por la comodidad interpretativa
es la prdida de informacin.
Por ejemplo, mientras que es fcil ver que alrededor del 21.5% de los valores cae en el
intervalo 135-139, no hay informacin acerca de los valores individuales en este intervalo.
Al construir tablas de este tipo se deben responder dos preguntas relacionadas. En cuntos
intervalos se deben agrupar los valores y qu tan grandes debern ser los intervalos? Muy
pocos intervalos provocan la prdida de mucha informacin, mientras que muchos intervalos
hacen fracasar el propsito de resumir los datos. El tamao de los intervalos depender del
nmero de intervalos utilizados y viceversa. No existen reglas rgidas y rpidas al respecto.
En esencia, usted desear presentar los datos dndoles el mayor signicado posible. Sin
embargo, hay algunas reglas generales que sirven como gua. Una sugerencia comn es
que no debe haber menos de seis ni ms de 15 intervalos. Otra regla til es que, cuando sea
posible, se debe usar una anchura en los intervalos de clase de 5 unidades, de 10 unidades
o de algn mltiplo de 10 para que el resumen de los datos sea ms comprensible.
Paciente
10
11
12
13
14
15
Presiones sanguneas
86
90
92
92
93
95
95
95
96
96
97
97
98
98
99
Paciente
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
100
100
100
100
102
103
105
105
106
107
107
109
110
110
110
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
111
111
111
114
114
115
115
115
115
115
115
116
116
116
117
Presiones sanguneas
Paciente
Presiones sanguneas
Paciente
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
118
118
119
119
120
120
120
121
122
122
122
123
123
124
124
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
124
124
125
125
125
125
126
126
126
126
126
126
126
127
127
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
127
128
128
128
129
129
129
130
130
130
130
130
131
131
131
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
Presiones sanguneas
132
132
132
132
133
133
133
133
133
133
133
133
134
134
134
Paciente
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
Presiones sanguneas
134
134
135
135
135
135
135
135
135
135
136
136
136
137
137
Paciente
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
Presiones sanguneas
137
137
137
137
137
137
137
137
137
138
138
138
139
139
139
Paciente
136
137
138
139
140
141
142
143
144
Presiones sanguneas
139
139
139
140
140
140
140
143
143
Presiones sanguneas
Paciente
Presiones sanguneas
Paciente
Presiones sanguneas
Paciente
39
UNSCH
Bioestadstica I
Frec.
PS
Frec.
PS
Frec.
PS
Frec.
143
128
113
98
142
127
112
97
141
126
111
96
140
125
110
95
139
124
109
94
138
123
108
93
137
11
122
107
92
136
121
106
91
135
120
105
90
134
119
104
89
133
118
103
88
132
117
102
87
131
116
101
86
130
115
100
129
114
99
Presin
sangunea
[LI-LS>
Marca
de clase Frec.
Abs. fi
X i'
Frec.
Rel. fri
Frec.
Porc.
Pi
Frec.
Acum.
Abs. fi
Frec.
Acum.
Rel. fri
Frec.
Acum.
Porc. Pi
1 [86-94>
90
0.035
3.47
0.035
2 [94-102>
98
14
0.097
9.72
19
0.132
13
3 [102-110>
106
0.056
5.56
27
0.188
19
4 [110-118>
114
18
0.125
12.50
45
0.313
31
5 [118-126>
122
21
0.146
14.58
66
0.458
46
6 [126-134>
130
36
0.250
25.00
102
0.708
71
7 [134-142>
138
40
0.278
27.78
142
0.986
99
8 [142-150]
146
0.014
1.39
144
1.000
100
144
100
40
UNSCH
Bioestadstica I
30.00
25.00
20.00
15.00
10.00
5.00
0.00
90
98
106
114
122
130
138
146
PRESIN SANGUNEA
Referencia bibliogrfica:
Balzarini Mnica; Di Rienzo Julio; Tablada Margot; Gonzlez, Laura; Bruno Cecilia;
Crdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadstica y Biometra.
Editorial Brujas. Argentina.
Gua del curso de estadstica general. 2016. Departamento estadstica e informtica.
UNALM
Blair R. Clifford y Richard A. Taylor. 2008. Bioestadstica. Pearson Educacin, Mxico, 2008
41
UNSCH
Bioestadstica I
Ahora, al dividir el rango entre 8 para darse una idea de la amplitud de los intervalos de
clase, se obtiene:
TIC
R 63 18 45
5.625
k
8
8
42
UNSCH
Bioestadstica I
Si el inters est centrado en la frecuencia relativa de los valores que caen entre 30 y
59, entonces se utiliza la columna de las frecuencias relativas acumuladas de la tabla 2.3.2
y se resta 0.4142 de .9763 para obtener 0.5621.
Histograma de Edades
70
60
Frecuencia
50
40
30
20
10
0
10
20
30
40
50
60
70
Edades
43
UNSCH
Bioestadstica I
= 30
Tallos
Profundidad
Hojas
2
7
14
(13)
3
2
1
1
15
16
16
17
17
18
18
19
89
11334
6678889
0001112344444
7
2
1
Stem &
2.00
15
5.00
16
7.00
16
13.00
17
1.00
17
1.00
18
1.00 Extremes
Stem width:
Each leaf:
.
.
.
.
.
.
Leaf
89
11334
6678889
0001112344444
7
2
(>=191)
10.00
1 case(s)
44
UNSCH
Bioestadstica I
III.
3.1.
Anlisis descriptivo.
3.2.
Medidas estadsticas
45
UNSCH
Bioestadstica I
conjunto de valores. Tal como se ver, la palabra promedio se puede definir en diversas
formas.
Las tres medidas de tendencia central de uso ms frecuente son: la media, la moda y la
mediana.
3.3.1 La media aritmtica
La medida de tendencia central ms conocida es la media aritmtica. sta es la medida
descriptiva que la mayora de las personas tienen en mente cuando se habla de
promedio. El adjetivo aritmtica distingue a esta media de otras que se puedan calcular.
La media se obtiene sumando todos los valores en una poblacin o muestra y dividiendo
entre el nmero de valores sumados.
Media de la poblacin:
1 N
Xj
N j 1
Media de la muestras
1 n
Xj
n j 1
Ejemplo. Obtenga la edad media de la poblacin de los 169 individuos registrados tabla de
edades.
Solucin: Se procede de la siguiente forma:
Edad media: X
18 22 24 ... 47 50 63 5797
34.302
169
169
La media ponderada
k
xp
x w
j
j 1
k
w
j 1
x1w1 x2 w2 ... xk wk
w1 w2 ... wk
Ejemplo. Si el examen final de un curso cuenta tres veces ms que una evaluacin parcial,
y un estudiante tiene calificacin 85 en el examen final y 70 y 90 en los dos parciales, la
calificacin media es
X
83
11 3
5
Cuando los datos se encuentran en una tabla de frecuencias correspondiente a una variable
cuantitativa discreta. La media se calcula por:
k
xp
fx
i
j 1
k
j 1
fi
fx
i
j 1
xp
fX
j 1
'
i
46
UNSCH
Bioestadstica I
Si x1 , x2 ,..., xk son las medias de k grupos y cada grupo tiene tamao n1, n2,...,nk
respectivamente, entonces la media de todos los datos n = n1+n2+... +nk se calcula por:
k
xp
n x
i
j 1
k
j 1
xp
fx
i
j 1
n
k
fX
j 1
'
j
Propiedades de la media
La media aritmtica tiene ciertas propiedades, algunas deseables y otras no tanto. Algunas
de estas propiedades son las siguientes:
1. Es nica. Para un conjunto de datos existe una y slo una media aritmtica.
2. Simplicidad. El clculo y comprensin de la media aritmtica son sencillos.
3. Puesto que todos y cada uno de los valores en el conjunto de datos entran en el clculo
de la media, sta es afectada por cada valor. Por lo tanto, los valores extremos influyen
sobre la media y, en algunos casos, pueden distorsionarla tanto que llega a ser
indeseable como medida de tendencia central.
A continuacin se muestra un ejemplo de cmo los valores extremos pueden afectar la
media. Considere la siguiente situacin: cinco mdicos que trabajan en cierta rea son
llamados a declarar sus cobros por realizar cierto procedimiento. Suponga que se reporta lo
siguiente: $75, $75, $80, $80 y $280. El cobro medio para los cinco mdicos es de $118, un
valor que no es muy representativo del conjunto de datos. El nico valor atpico del conjunto
tuvo el efecto de inflar la media.
Medias geomtrica, armnica y cuadrtica
Existen otras definiciones de media que pueden tener su utilidad en algunos casos.
Media geomtrica xG. En el caso de una muestra con valores diferentes de la variable se
define como la raz ensima (N es el tamao de la muestra) del producto de los valores de
la variable
xG N x1 x2 ...xN
Esta media tiene la caracterstica negativa de que si uno de los valores es nulo, la media
sera asimismo cero, y por lo tanto sera poco representativa del valor central. Adems si
existen valores negativos es posible que no se pueda calcular. A la hora de calcularla es til
tener en cuenta que el logaritmo de la media geomtrica es la media aritmtica del logaritmo
de los datos
47
UNSCH
Bioestadstica I
n log x
log xG
i 1
xA
N
N
i 1
; xA
N
ni
i 1 xi
k
xQ
xi2
i 1
; xQ
x n
i 1
2
i i
Ninguna de estas medias es muy robusta en general, aunque esto depende de cmo se
distribuyan las variables. Por ejemplo, la media armnica es muy poco sensible a valores
muy altos de x, mientras que a la media cuadrtica apenas le afectan los valores muy
bajos de la variable.
3.3.2 La mediana
La mediana de un conjunto finito de valores es aquel valor que divide al conjunto en dos
partes iguales, de forma que el nmero de valores mayores o iguales a la mediana es igual
al nmero de valores menores o iguales a sta. Si el nmero de valores es impar, la mediana
es el valor medio o central siempre y cuando todas las variables sean arregladas en orden
de magnitud. Cuando el nmero de valores en el conjunto es par, no existe un valor medio
nico, sino que existen dos valores medios. En tal caso, la mediana corresponde a la media
de esos dos valores centrales, cuando todos los valores son arreglados en orden de magnitud. Es decir, la mediana del conjunto de datos es la (n 1) / 2 -sima observacin, cuando
las observaciones han sido ordenadas. Por ejemplo, si se tienen 11 observaciones, la
mediana es la (11+1)/2=6-sima observacin ordenada. Si se tienen 12 observaciones, la
mediana es la (12+l)/2=6.5-sima observacin ordenada y es el valor que est entre la sexta
y sptima observacin ordenada.
n 1
100 50 Entero( E ) me x( E )
Si
n 1 50 Decimal ( E.d ) me x 0.d ( x
(E)
( E 1) x( E ) )
100
La mediana poblacional se representa por Me y la mediana muestral por me
DEPARTAMENTO DE CIENCIAS BIOLGICAS
48
UNSCH
Bioestadstica I
n impar me X n 1
Si
X n X n
1
2
n par me 2
2
Propiedades de la mediana:
Entre las propiedades de la mediana se encuentran las siguientes:
1. Es nica. Al igual que en el caso de la media, existe solamente una mediana para un
conjunto de datos.
2. Simplicidad. Es muy sencillo calcularla.
3. Los valores extremos no tienen efectos importantes sobre la mediana, lo que s ocurre
con la media.
Ejemplo. Los siguientes datos corresponden a los pesos (en Kg.) de 10 personas: 50, 77,
53, 76, 63, 64, 75, 54, 52, 80. Calcule la mediana
Datos ordenados: 50, 52, 53, 54, 63, 64, 75, 76, 77, 80
10 1
Posicin
50 5.5 me x(5) 0.5 ( x(6) x(5) ) 63 0.5 (64 63) 63.5 Kg
100
Interpretacin. Un 50% de personas pesan menos de 63.5 Kg. y el otro 50% pesa ms de
63.5 Kg.
La mediana para datos agrupados
n Frecuencia acumulada f
i 1
Me LI i 2
LI i 1 LI i
Frecuencia fi
3.3.3 La moda
La moda de un conjunto de datos es el valor que ocurre con mayor frecuencia. La moda
poblaciones se representa por Mo y la moda muestral por mo.
Propiedades:
1. La moda puede no existir o puede haber ms de una moda en un conjunto de datos.
2. La moda no est afectada por valores extremos.
3. Se aplica tanto para informacin cualitativa como cuantitativa.
Ejemplos:
1.
Se tiene las longitudes de peces de ro (cm) de la zona A: 4.0, 4.1, 4.2, 4.3, 4.5, 4.7,
4.8. No hay moda.
2. Las siguientes longitudes sonde la zona B: 4.0, 4.1, 4.1, 4.1, 4.2, 4.2, 4.5, 4.2.
Se distinguen dos modas mo1 = 4.1 y mo2 = 4.2 (distribucin bimodal).
3. Encuentre la edad modal de los individuos cuyas edades se presentan en la tabla de
edades.
El conteo de las edades en la tabla 2.2.1 revela que la edad 26 ocurre con ms frecuencia
(11 veces). La moda para esta poblacin de edades es de 26.
Moda para datos agrupados
DEPARTAMENTO DE CIENCIAS BIOLGICAS
49
UNSCH
Bioestadstica I
1 xi xi 1
2 xi xi 1
Mo LI i
1 2
LIi 1 LIi
3.4.
Percentiles
El percentil Pq divide a un conjunto ordenado de observaciones en un q% menores que Pq y
un (100 - q)% mayores que Pq. El percentil Pq es un valor expresado en las mismas unidades
que la variable en estudio.
Clculo del Percentil
n 1
Posicin
q
100
n 1
100 q Entero( E ) Pq x( E )
Si
n 1 q Decimal ( E.d ) P x 0.d ( x
q
(E)
( E 1) x( E ) )
100
Ejemplo. Se cuenta con los datos de los tiempos (en minutos) de tardanza de los estudiantes
de una universidad. Halle e interprete el percentil 45.
15 12 18 22 24 10 9 13 25 18 6 14
Datos ordenados:
6 9 10 12 13 14 15 18 18 22 24 25
12 1
Posicin
45 5.85 P45 x(5) 0.85 ( x(6) x(5) ) 13 0.85 (14 13) 13.85
100
Interpretacin: El 45% de los estudiantes tienen un tiempo de tardanza menor 13.85 minutos
y el otro 55% ms de 13.85 minutos.
Cuartiles
Son percentiles que dividen el conjunto de datos en 4 partes iguales (25% cada una). Son
conocidos tambin como Q1=P25, Q2=P50 y Q3=P75.
Ejemplo
Los siguientes datos corresponden a los pesos, en Kg. de 10 personas: 50, 52, 53, 54, 63,
64, 75, 76, 77, 80.
a. Calcule e interprete el percentil 25
P 25 x 10 1 x(2.75) x (2) 0.75 (x (3) x (2) ) 52 0.75 (53 52) 52.75 Kg
25
100
Interpretacin: Un 75% de personas pesa menos de 76.25 Kg. y el otro 25% pesa ms de
76.25 Kg.
Cuartiles para datos agrupados
50
UNSCH
Bioestadstica I
n Frecuencia acumulada f
i 1
Q1 LI i 4
LI i 1 LI i
4
Frecuencia f i
Q3 LI i
4
3 n Frecuencia acumulada f i 1
4
LI i 1 LI i
Frecuencia f i
Ejercicio
Se ha desarrollado un experimento para evaluar el efecto de alimentos balanceados en la
ganancia de pesos de pollos. Una muestra aleatoria de 30 pollos que recibieron el alimento
balanceado fue seleccionada. Al cabo de 10 das se registraron las ganancias de pesos (en
gr)
93 98 100 102 107 109 110 110 111 111 113 114 115 116 118
118 119 119 120 120 120 124 125 128 129 129 130 135 138 141
a. Halle e interprete las medidas de tendencia central para la ganancia de peso.
b. Cul es el peso mnimo de un pollo que fue alimentado con el alimento balanceado para
estar en el 10% superior de los que pesan ms?
c. Cul es peso mximo del 60% de pollos que pesan menos con el alimento balanceado?
Solucin:
a) N Media StDev CoefVar Mnimo Q1
Mediana Q3
Mximo
30 117,40 11,57 9,85
93,00 110,00 118,00
125,75 141,00
La ganancia de peso por pollo alimentado con A es de 117.4 gr.
El 50% de los pollos alimentados con A tuvieron ganancias de peso menores de 118 gr. y el
restante 50% tuvieron ganancias de peso mayores a 118 gr.
El valor de la ganancia de peso ms frecuente es de 120gr.
b) P90 = X27.5 = 134.5gr.
c) P60 = Xl8 = 119gr.
Referencia bibliogrfica:
Balzarini Mnica; Di Rienzo Julio; Tablada Margot; Gonzlez, Laura; Bruno Cecilia;
Crdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadstica y Biometra.
Editorial Brujas. Argentina.
Gua del curso de estadstica general. 2016. Departamento estadstica e informtica.
UNALM
Blair R. Clifford y Richard A. Taylor. 2008. Bioestadstica. Pearson Educacin, Mxico, 2008
3.5.
Medidas de Variabilidad o de dispersin.
Son medidas estadsticas que permiten conocer el grado de dispersin o variabilidad
(homogeneidad o heterogeneidad) dentro de un conjunto de datos. Se usan para comparar
la variabilidad entre dos o ms conjuntos de datos. Cuando los datos presentan baja
variabilidad, se dice que son homogneos y cuando presentan alta variabilidad se dice que
son heterogneos.
Si todos los valores son iguales, no hay dispersin, pero si no todos son iguales, entonces
existe dispersin en los datos. La magnitud de la dispersin es pequea cuando los valores,
aunque diferentes, son cercanos entre s. La figura muestra los polgonos de frecuencia para
dos poblaciones que tienen medias iguales, pero diferente magnitud de variabilidad. La
poblacin B, ms variable que la poblacin A, es ms dispersa. Si los valores estn
DEPARTAMENTO DE CIENCIAS BIOLGICAS
51
UNSCH
Bioestadstica I
FIGURA. Dos distribuciones de frecuencias con igual media pero diferente magnitud de
dispersin.
La utilidad de rango es limitada. El hecho de que toma en consideracin slo dos valores
hace que sea una medida pobre de dispersin. Su ventaja principal es la simplicidad de su
clculo.
Desventajas:
a.
Queda afectada por valores extremos
b.
No mide la variabilidad de los datos intermedios
EJEMPLO. Calcule el rango de las edades de los individuos de la muestra estudiada en el
ejemplo edades.
Solucin: Puesto que el individuo ms joven en la muestra tiene 23 aos y el ms viejo tiene
61, el rango calculado es:
R 61 23 38
Rango intercuartil
El rango intercuartil, se define como la diferencia entre el percentil 75 (P75 = Q3) y el percentil
25 (P25 = Q1).
RI = P75 - P25
El RI excluye el 25% ms alto y el 25% ms bajo, dando un rango dentro del cual se
encuentra el 50% central de los datos.
Un RI pequeo indica alta homogeneidad o pequea variabilidad dentro del 50% central
de los datos.
3.5.2 La varianza
Cuando los valores de un conjunto de observaciones se encuentran ubicados cerca de su
media, la dispersin es menor que cuando estn esparcidos. En consecuencia, se puede
DEPARTAMENTO DE CIENCIAS BIOLGICAS
52
UNSCH
Bioestadstica I
pensar intuitivamente que es posible medir la dispersin en funcin del esparcimiento de los
valores alrededor de su media.
La varianza poblacional
2
1 N
1 N 2
2
X
X j N
j
N j 1
N j 1
La varianza muestral
S2
1 n
Xj X
n 1 j 1
2
1 n 2
X j nX
n 1 j 1
Edades
individuos
42
28
28
61
31
23
50
34
32
10
37
de
Solucin:
S2
(42 36.6)2 (28 36.6)2 (28 36.6) 2 (61 36.6) 2 (31 36.6) 2 ... (37 36.6)2
9
S2
1196.399997
132.933333
9
S2
f X
i 1
'2
j
nX
n 1
Donde:
53
UNSCH
Bioestadstica I
2
La desviacin estndar muestral
S S2
Ejemplo. Calcule la desviacin estndar de las edades de los 10 individuos.
S S 2 132.933333 11.5296719
La desviacin estndar de un conjunto de datos es una medida de cunto se desvan los
datos de su media. Esta medida es ms estable que el recorrido y toma en consideracin el
valor de cada dato.
Para distribuciones normales, resulta:
(a) 68.27% de los casos estn entre X S y X S (o sea, una desviacin tpica a cada lado
de la media).
(b) 95.45% de los casos estn entre X 2S y X 2S (o sea, dos desviaciones tpicas a
cada lado de la media).
(c) 99.73% de los casos entre X 3S y X 3S (o sea, tres desviaciones tpicas a cada lado
de la media).
Para distribuciones poco asimtricas, los anteriores porcentajes son aproximadamente
vlidos.
CV
100
54
UNSCH
cv
Bioestadstica I
100
X
Ejemplo: Los siguientes resultados corresponden a dos muestras formadas por varones:
Edad
Peso medio
Desviacin estndar
Muestra 1
25 aos
145 libras
10 libras
Muestra 2
11 aos
80 libras
10 libras
El propsito es saber cul tiene mayor variabilidad, los pesos de individuos de 25 aos o los
de 11 aos.
Solucin: Una comparacin de las desviaciones estndar puede conducir a la conclusin
de que las dos muestras tienen igual variabilidad. Sin embargo, si se calculan los coeficientes
de variacin, se obtiene para los sujetos de 25 aos de edad:
cv
10
(100) 6.9
145
10
(100) 12.5
80
4
(100) 33.3% , respectivamente. Los datos de Estados Unidos presentan
12
Comparacin de la variabilidad
Para comparar la variabilidad entre dos o ms conjuntos de datos, se debe considerar:
DEPARTAMENTO DE CIENCIAS BIOLGICAS
55
UNSCH
Bioestadstica I
Unidades
de Unidades de medidas iguales
medidas diferentes
Medias similares Medias diferentes
S1 con S2
cv1 con cv2
cv1 con cv2
El cuadro indica que cuando se compara la variabilidad de dos conjuntos de datos, si las
variables tienen unidades de medidas diferentes; se debe usar los coeficientes de variacin;
mientras si las variables tienen unidades de medida iguales, se debe observar si las medias
son similares para usar la desviacin estndar y en caso que las medias sean diferentes
usar el coeficiente de variacin.
3.6.
Medidas de asimetra.
Las medidas de asimetra permiten determinar la forma de una distribucin para un conjunto
de datos en lo que se refiere a su simetra o asimetra.
56
UNSCH
Bioestadstica I
AsQ3 Q2
Q3 Q1
Q3 Q1
3( Me)
Muestral:
as
3( X me)
S
Propiedades
1. Si as = 0 entonces la distribucin es simtrica.
2. Si as < 0 entonces la distribucin es asimtrica negativa o a la izquierda.
DEPARTAMENTO DE CIENCIAS BIOLGICAS
57
UNSCH
Bioestadstica I
Ejercicio 1. Se desea realizar un estudio sobre la utilizacin del agua en tres zonas rurales
(A, B y C). Con esta finalidad se ha seleccionado al azar 8 casas de la zona A, 6 de la zona
B y 10 de la zona C. Luego se registr el nmero de litros de agua consumidos por un da,
los cuales se presenta en el siguiente cuadro:
3.7 Curtosis
Evala el grado de apuntamiento de la distribucin.
El apuntamiento expresa el grado en que una distribucin acumula casos en sus
colas en comparacin con los casos acumulados en las colas de una distribucin normal
cuya dispersin sea equivalente (Pardo y Ruiz, 2002).
P75 P25
2( P90 P10 )
Grado de Apuntamiento
Mesocurtica (Distribucin normal)
Leptocrtica (Elevada)
Platicrtica (Aplanada)
Valor de la Curtosis
0.263
Mayor a 0.263 o se aproxima a 0.5
Menor a 0.263 o se aproxima a 0
58
UNSCH
Bioestadstica I
P75 P25
8.9 6.85
APF
(X
i 1
X )4
N S
4
X
n (X
i 1
X )4
N S X4
3)
Interpretacin: el valor de este coeficiente para la distribucin normal ser igual a 0, o sea
que cualquier distribucin para la que se obtenga un valor de ApF igual o prximo a 0
significar que su nivel de apuntamiento es como el de la distribucin normal (mesocrtica).
Valores mayores que 0, expresan que la distribucin es leptocrtica, mientras que si son
menores que 0 ponen de manifiesto que la distribucin es platicrtica. No est limitado a un
rango de valores.
59
UNSCH
Bioestadstica I
12
Tamao de tumor
10
6
4.75
FIGURA. Caja de valores extremos elaborada con el paquete MINITAB a partir de la tabla.
REFERENCIA BIBLIOGRFICA
Balzarini Mnica; Di Rienzo Julio; Tablada Margot; Gonzlez, Laura; Bruno Cecilia;
Crdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadstica y
Biometra. Editorial Brujas. Argentina.
Gua del curso de estadstica general. 2016. Departamento estadstica e
informtica. UNALM.
Blair R. Clifford y Richard A. Taylor. 2008. Bioestadstica. Pearson Educacin,
Mxico, 2008
60
UNSCH
Bioestadstica I
61
UNSCH
IV.
Bioestadstica I
PROBABILIDADES
4.1.
Conceptos bsicos de probabilidad objetiva y subjetiva.
4.1.1 Probabilidad: OBJETIVA
El concepto de probabilidad objetiva se puede dividir bajo los ttulos de 1) probabilidad
clsica o "a priori", y 2) frecuencia relativa o "a posteriori".
1) Probabilidad clsica o a priori
La probabilidad clsica data del siglo XVII en los trabajos de dos matemticos, Pascal
y Fermat. Gran parte de esta teora fue creada al intentar resolver problemas
relacionados con los juegos de azar, como el juego de los dados. Algunos ejemplos
tomados de dichos juegos ilustran perfectamente los principios de la probabilidad
clsica. Por ejemplo, si un dado normal es lanzado, la probabilidad de que caiga un
1 es igual a 1/6, y es lo mismo para los otros cinco lados. Si una carta es sacada al
azar de un mazo bien barajado, la probabilidad de sacar un corazn es de 13/52. Las
probabilidades como stas se calculan a travs del razonamiento abstracto. No es
necesario lanzar un dado o sacar una carta para calcular esas probabilidades. Al
lanzar un dado, se dice que cada uno de los seis lados tiene igual probabilidad, de
aparecer, si no hay razn que favorezca a alguno de los seis lados. Anlogamente,
si no hay razn que favorezca el sacar alguna carta en particular, se puede decir que
cada una de las 52 cartas tiene la misma probabilidad de salir. La probabilidad se
define en el sentido clsico como sigue:
DEFINICIN
Si un evento puede ocurrir de N formas, las cuales se excluyen mutuamente y son
igualmente probables, y si m de estos eventos poseen una caracterstica E, la
probabilidad de ocurrencia de E es igual a m/N.
P( E )
m
N
Ejemplo 2.1.3. Cul es la probabilidad de que un nio nacido de una pareja, cada
uno de cuyos miembros posee genes para ojos castaos y para ojos azules, tenga
los ojos castaos?
Para resolver esta cuestin, observemos que, dado que el nio recibe un gen de
cada uno de sus padres, las posibilidades para l son (castao, azul) (azul, castao)
(azul, azul) y (castao, castao), donde el gen que aparece representado en primer
lugar en cada uno de los pares es el gen que procede del padre. Puesto que cada
uno de los padres tiene exactamente la misma probabilidad de aportar un gen para
ojos azules que uno para ojos castaos, las cuatro alternativas son equiprobables.
Al ser dominante el gen para ojos castaos, tres de los cuatro pares dan como
resultado un nio de ojos castaos. En consecuencia, la probabilidad de que el nio
tenga los ojos castaos es:
P(ojos castaos )
3
0.75 .
4
62
UNSCH
Bioestadstica I
m
n
Sin embargo, se debe tener en mente que, estrictamente hablando, m/n es slo una
estimacin de P(E).
Ejemplo 2.1.2. Un investigador trabaja en un nuevo frmaco para insensibilizar a los
pacientes frente a picaduras de abejas. De 200 sujetos sometidos a prueba, 180
presentaron una disminucin en la gravedad de los sntomas tras sufrir una picadura,
despus de ser sometidos al tratamiento. Es natural suponer, entonces, que la
probabilidad de que ocurra lo mismo en otro paciente que reciba el mismo tratamiento
es por lo menos de aproximadamente
180
0.90
200
63
UNSCH
Bioestadstica I
N!
N n !
64
UNSCH
Bioestadstica I
N!
4!
4! 4 3 2!
P24
12
2!
N n !
4 2 ! 2!
12!
12! 12 11 10 9!
1320
9!
12 3! 9!
Casos especiales:
a) Permutaciones de N en N
PNN N ! N ( N 1)( N 2)...1
Ejemplo Se tiene un grupo de 5 caballos para alquiler. Si llegan 5 personas para
alquilar caballo cada una de ellas De cuntas maneras se puede hacer el alquiler?
imaneras.
b) Permutaciones con repeticin. El nmero de permutaciones de N elementos, de
los cuales son iguales entre si N1, N2, N3,..., Nk y donde N = N1+ N2 + N3 +...+ Nk, est
N!
dado por: PNN1 , N2 ,... Nk
N1 ! N2 !...Nk !
Ejemplo Se utilizan 15 pacientes en un experimento para comparar un frmaco
estndar, un frmaco experimental y un placebo. Se asigna aleatoriamente a cada
paciente un tratamiento.
De cuntas formas distintas pueden asignarse los tres tratamientos a los 15
pacientes?
DEPARTAMENTO DE CIENCIAS BIOLGICAS
65
UNSCH
Bioestadstica I
15!
15 14 13 12 11 10!
30030
10!3!.2!
10! (3 2 1 2 1)
8!
7168000 maneras.
5! 3!
8!
217728000 maneras.
2! 2! 4!
4.2.2 Combinaciones
Dado un conjunto de N objetos distintos, cualquier subconjunto no ordenado de tamao n
de los objetos se llama combinacin y se denota de la siguiente manera:
N
N
N!
Cn
n n! N n !
N
N PN
N!
PnN n! n
n
n n! n! N n !
DEPARTAMENTO DE CIENCIAS BIOLGICAS
66
UNSCH
Bioestadstica I
5
5!
5!
5 4 3!
10
5 C2
2! 5 2 ! 2! 3! 2! 3!
2
5C2
10
10!
10! 10 9 8 7!
120
3! 7 !
3 3!10 3! 3! 7 !
Para que un solo paciente est expuesto a contraer la hepatitis por esta causa, la unidad
seleccionada lo ha de ser de entre las cuatro contaminadas. La unidad contaminada puede
seleccionarse de
4
4!
4!
4 formas
1 1! 4 1! 1! 3!
Las unidades no contaminadas pueden ser seleccionadas de
6
6!
6!
15 formas
2 2! 6 2 ! 2! 4 !
En total hay (4)(15) 60 formas de seleccionar, en las que un solo paciente est expuesto a
la hepatitis por esta causa. Dando por supuesto que las 120 formas posibles de seleccionar
tres unidades de entre 10 son equiprobables, podemos hacer uso del mtodo clsico para
concluir que
DEPARTAMENTO DE CIENCIAS BIOLGICAS
67
UNSCH
Bioestadstica I
60
0.5
120
REFERENCIA BIBLIOGRFICA
Gua del curso de estadstica general. 2016. Departamento estadstica e
informtica. UNALM.
Blair R. Clifford y Richard A. Taylor. 2008. Bioestadstica. Pearson Educacin,
Mxico, 2008
Daniel W. Bioestadstica. Cuarta edicin. Limusa Wiley. 2006.
Milton, J. 2007. Estadstica para biologa y ciencias de la salud. McGRAWHILL/INTERAMERICANA DE ESPAA, S. A. U.
68
UNSCH
Bioestadstica I
4.3.
Clculo de probabilidades de evento.
EJEMPLO En un artculo de la revista American Journal of Drugs and Alcohol Abuse,
Erickson y Murray (A-I) afirman que las mujeres estn consideradas como un grupo con
riesgo especial de adiccin a la cocana, y que se ha sugerido que sus problemas con la
cocana son mayores que en los hombres. Con base en la revisin de textos especializados
y en el anlisis de los resultados de un estudio original, estos investigadores argumentan
que no hay evidencia de que el uso de cocana en las mujeres exceda al de los hombres, o
que el ndice de uso crezca ms rpido en comparacin con el de los hombres, o que
experimenten ms problemas. Los sujetos de estudio de Erickson y Murray comprenden una
muestra de 75 hombres y 36 mujeres. Los autores afirman que los individuos son una
muestra bastante representativa de adictos tpicos adultos sin tratamiento ni encarcelados.
Base de datos: Consumo de cocana por gnero entre adultos adictos.
Sexo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
M
M
M
M
M
F
M
M
M
M
M
M
M
M
M
M
F
M
M
M
M
F
F
M
F
F
M
F
F
F
Nmero de
veces de uso
de cocana en
el perodo de
vida
19
134
59
134
6
53
147
22
9
4
16
98
4
6
139
42
107
11
12
9
115
96
63
117
113
17
61
109
32
88
Categoras
Sexo
1-19
100-+
20-99
100-+
1-19
20-99
100-+
20-99
1-19
1-19
1-19
20-99
1-19
1-19
100-+
20-99
100-+
1-19
1-19
1-19
100-+
20-99
20-99
100-+
100-+
1-19
20-99
100-+
20-99
20-99
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
M
M
F
M
M
M
M
M
M
F
M
F
F
F
M
M
M
M
F
M
F
M
M
M
M
M
F
M
M
F
Nmero de
veces de uso
de cocana en
el perodo de
vida
3
18
143
98
3
130
146
146
129
42
8
52
136
16
48
2
16
30
57
8
34
8
26
22
105
8
1
122
10
59
Categoras
Sexo
1-19
1-19
100-+
20-99
1-19
100-+
100-+
100-+
100-+
20-99
1-19
20-99
100-+
1-19
20-99
1-19
1-19
20-99
20-99
1-19
20-99
1-19
20-99
20-99
100-+
1-19
1-19
100-+
1-19
20-99
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
F
M
F
F
M
M
F
F
M
F
F
F
F
F
M
M
M
F
M
M
M
M
M
F
M
M
F
M
M
M
Nmero de
veces de uso
de cocana en
el perodo de
vida
70
140
67
4
66
104
17
111
11
3
119
30
74
16
25
122
50
99
1
135
146
16
15
23
114
14
102
123
139
10
Categoras
Sexo
20-99
100-+
20-99
1-19
20-99
100-+
1-19
100-+
1-19
1-19
100-+
20-99
20-99
1-19
20-99
100-+
20-99
20-99
1-19
100-+
100-+
1-19
1-19
20-99
100-+
1-19
100-+
100-+
100-+
1-19
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
F
M
F
M
M
F
M
F
M
M
M
M
M
M
M
M
M
F
M
M
M
Nmero de
veces de uso
de cocana en
el perodo de
vida
45
2
125
13
15
24
131
73
137
31
130
44
2
25
95
99
18
48
5
129
130
Categoras
20-99
1-19
100-+
1-19
1-19
20-99
100-+
20-99
100-+
20-99
100-+
20-99
1-19
20-99
20-99
20-99
1-19
20-99
1-19
100-+
100-+
69
UNSCH
Bioestadstica I
total de hombres
total de individuos
75
P( M )
0.6757
111
P( M )
25
0.3333
75
Probabilidad conjunta
Algunas veces se quiere encontrar la probabilidad de que un individuo seleccionado
aleatoriamente a partir de un grupo de individuos posea dos caractersticas al mismo tiempo.
A esta probabilidad se le conoce como probabilidad conjunta.
Ejemplo. En referencia a la tabla 3.4.1, cul es la probabilidad de que una persona
seleccionada aleatoriamente de entre los 111 individuos sea del sexo masculino (M) y que
sea una persona que consumi cocana 100 veces o ms durante su tiempo de vida (C)?
Solucin: La probabilidad buscada se puede escribir en notacin simblica como P ( M C )
, donde el smbolo se lee como "interseccin" o "y". La expresin M C indica que la
condiciones M y C son una ocurrencia conjunta.
70
UNSCH
Bioestadstica I
se
25
0.2252
111
Regla de la multiplicacin
La probabilidad se puede calcular a partir de otras probabilidades. Por ejemplo, la
probabilidad conjunta se puede calcular como el producto de una probabilidad marginal y
una probabilidad condicional adecuadas.
Ejemplo. Se pretende calcular la probabilidad conjunta de seleccionar un individuo del sexo
masculino (M) con una frecuencia de consumo de cocana de 100 veces o ms (C) durante
toda su vida, a partir del conocimiento de dos probabilidades convenientes, una marginal y
otra condicional.
Solucin: La probabilidad buscada es P ( M C ) .
La probabilidad marginal:
75
P( M )
0.6757
111
Probabilidad condicional:
25
P(C\ M )
0.3333
75
P( M C ) P( M ) P(C \ M )
75 25
(0.6757)(0.3333) 0.2252
111 75
Observe que esto es lo que se esperaba: el mismo resultado obtenido anteriormente para
P(M C ) .
Se puede afirmar que la regla de la multiplicacin en trminos generales es como sigue:
Para cualesquiera dos eventos A y B,
P ( A B) P( B) P( A \ B), si P( B) 0
Para los mismos dos eventos A y B, la regla de multiplicacin tambin se escribe como
P ( A B ) P ( A) P ( B \ A), si P ( A) 0
71
UNSCH
Bioestadstica I
P( A B)
, si P( B) 0
P( B)
25
P(C M ) 111 25 111 25
P(C \ M )
0.3333
75 75 111 75
P( M )
111
Regla de la adicin
La probabilidad de la ocurrencia de uno de los dos eventos mutuamente excluyentes es
igual a la suma de sus probabilidades individuales.
Ejemplo. Suponga que se escoge
aleatoriamente a una persona de entre las
111 representadas en la tabla. Cul es
la probabilidad de que esta persona sea
del sexo masculino (M) o del sexo
femenino (F)? Se expresa esta
probabilidad con los smbolos P(M F), donde el smbolo
Puesto que los dos gneros son mutuamente excluyentes,
Y si los dos eventos no fueran mutuamente excluyentes? En este caso se utiliza la regla
de la adicin, la cual se enuncia como sigue:
Definicin
Dados dos eventos A y B, la probabilidad de que ocurra el evento A, el evento B o ambos
es igual a la probabilidad del evento A ms la probabilidad del evento B, menos la
probabilidad de que ocurran simultneamente.
La regla de la adicin se puede escribir como sigue:
P( A B) P( A) P( B) P( A B )
72
UNSCH
Bioestadstica I
0.7568
111 111 111
111
111
Observe que 25 individuos que cumplen ambas condiciones: ser del sexo masculino y haber
consumido cocana 100 veces o ms, estn incluidos entre los 75 individuos que son del
sexo masculino, as como en los 34 individuos que consumieron cocana 100 veces o ms.
Dado que, en el clculo de la probabilidad, estos 25 se agregaron en el numerador dos
veces, tienen que restarse una vez para superar los efectos de duplicacin o traslape.
Eventos independientes
Suponga que en la ecuacin se dice que el evento B ya ocurri, sin que este hecho afecte
la probabilidad de A. Es decir, suponga que la probabilidad del evento A es el mismo a
pesar de que ocurra o no el evento B. En esta situacin, P(A\B) = P(A). En tal caso se dice
que los eventos A y B son eventos independientes. Por lo tanto, la regla de la multiplicacin
para dos eventos independientes se puede escribir como sigue:
P( A B ) P ( B ) P ( A); P( A) 0, P( B) 0
As, se observa que si dos eventos son independientes, la probabilidad de que ocurran
conjuntamente es igual al producto de las probabilidades de sus ocurrencias individuales.
Advierta que cuando dos eventos con probabilidades diferentes de cero son independientes,
cada una de las siguientes sentencias es verdadera:
P( A \ B) P( A), P( B \ A) P( B), P( A B) P( A) P( B)
Dos eventos no son independientes a menos que todas estas afirmaciones sean ciertas.
Es importante estar conscientes de que los trminos independiente y mutuamente
excluyente no significan la misma cosa.
Con el siguiente ejemplo se ilustra el concepto de independencia.
Ejemplo. En un grupo de preparatoria, que consta de 60 mujeres y 40 varones, se observa
que 24 chicas y 16 muchachos usan lentes. Si un estudiante es elegido aleatoriamente, la
probabilidad de que el estudiante use lentes, P(L), es 40/100, o 0.4.
mujeres
24
Usan lentes
No usan lentes 36
60
Total
varones
16
24
40
Total
40
60
100
73
UNSCH
Bioestadstica I
Solucin:
resultado:
P( L \ V )
0.4
P(V )
40 / 100
P( L \ V )
P( L V )
P(V )
24 / 100 24
0.4 Se debe notar que la probabilidad de no ser varn
60 / 100 60
es igual a la probabilidad de ser mujer:
pero, tal como ya se mostr, los eventos L y V son independientes, entonces, se sustituye
P(L\V) por P(L) para obtener mediante la ecuacin:
40 40
P( L V ) P(V) P( L)
0.16
100 100
Eventos complementarios
La probabilidad del evento A es igual a 1 menos la probabilidad de su complemento, que
se escribe como A , y
P( A) 1 P( A)
Ejemplo. Suponga que de 1200 admisiones al hospital general durante cierto periodo, 750
son admisiones privadas. Si se designa a este como conjunto A, entonces A es igual a
1200 -750 = 450. Se puede calcular que:
Probabilidad de que las admisiones sean privadas: P( A) 750 / 1200 0.625
Probabilidad de que las admisiones no sean privadas:
Y que
Probabilidad marginal
Dada alguna variable que puede desglosarse en m categoras designadas por A1, A2,,
Ai,, Am y otra variable de ocurrencia conjunta que pueda desglosarse en n categoras
designadas por B1,B2, ,Bj,,Bn, la probabilidad marginal de Ai, P(Ai) es igual a la suma de
las probabilidades conjuntas de Ai con todas las categoras de B. Es decir,
74
UNSCH
Bioestadstica I
Ejemplo. Se pretende utilizar la ecuacin 3.4.6 y los datos de la tabla 3.4.1 para calcular la
probabilidad marginal P(M).
Solucin: La variable genero se divide en dos categoras, individuos del sexo masculino
(M) y del sexo femenino (E). La variable consumo de cocana se divide en tres categoras:
de 1 a 19 veces (A), de 20 a 99 veces (B) y de 1000 ms veces (C). La categora ser del
sexo masculino ocurre conjuntamente con las tres categoras de la variable frecuencia de
consumo de cocana. Las tres probabilidades conjuntas que pueden calcularse son
P ( M A) 32 / 111 0.2883
P( M B) 18 / 111 0.1662
P( M C ) 25 / 111 0.2252
Ahora,
se calcula la probabilidad
marginal P(M) sumando las tres probabilidades conjuntas como sigue:
P( M ) P ( M A) P ( M B ) P ( M C )
75
0.6757
111
P( A) P( B) P(C )
39
38
34
P( M ) P( F )
75
36
0.6757 0.3243 1
111 111
REFERENCIA BIBLIOGRFICA
Daniel W. Bioestadstica. Cuarta edicin. Limusa Wiley. 2006.
75
UNSCH
Bioestadstica I
V. Variables aleatorias
5.1 Definicin
Una variable aleatoria es cualquier funcin que tiene como dominio a los elementos que
constituyen el espacio muestral de un experimento aleatorio y como rango a un subconjunto
de los reales.
Y(MMF) = Y(MFM)
Y(FMM)
Y(MFF) = Y(FMF)
Y(FFM)
Y(FFF)
Entonces Ry = {0, 1, 2, 3}
76
UNSCH
Bioestadstica I
i ) f ( x) 0 para x R x
ii) f ( x) 0 para x R x
iii )
x i R x
f ( xi ) 1
1/8
3/8
3/8
1/8
77
UNSCH
Bioestadstica I
Nmero de
medicamentos
( x)
0
1
2
3
4
5
6
7
8
9
10
12
Frecuencia P( X x) P( X x)
1425
0.3405
0.3405
1351
0.3228
0.6633
793
0.1895
0.8528
348
0.0832
0.9360
156
0.0373
0.9732
58
0.0139
0.9871
28
0.0067
0.9938
15
0.0036
0.9974
6
0.0014
0.9988
3
0.0007
0.9995
1
0.0002
0.9998
1
0.0002
1.0000
4185
1.0000
0.35
0.34
0.33
0.32
0.31
0.30
0.29
0.28
0.27
0.26
0.25
0.24
0.23
0.22
0.21
0.20
0.19
0.18
0.17
0.16
0.15
0.14
0.13
0.12
0.11
0.10
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0.00
F(x)
Probabilidades
Total
Frecuencia Frecuencia
relativa
acumulada
1.00
0.95
0.90
0.85
0.80
0.75
0.70
0.65
0.60
0.55
0.50
0.45
0.40
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00
0 1 2 3 4 5 6 7 8 9 10 12
1 2 3 4 5 6 7 8 9 10 11 12
x (nmero de mediamentos)
x (nmero de medicamentos)
78
UNSCH
Bioestadstica I
1) 0 P( X 0) 1
2)
P( X
x) 1
a. Cul es la probabilidad de que una mujer seleccionada aleatoriamente sea una de las que
consumieron tres medicamentos con o sin prescripcin?
Solucin: Se puede escribir la probabilidad deseada como P(X = 3). En la tabla se puede ver que la
respuesta es 0.0832.
b. Cul es la probabilidad de que una mujer seleccionada aleatoriamente haya consumido uno o
dos medicamentos?
Solucin: Para responder a la pregunta, se utiliza la regla de adicin para eventos mutuamente
excluyentes. Mediante el uso de la notacin de probabilidad y los resultados de la tabla 4.2.2 la
respuesta se escribe como
P( 1 2) = P(1) + P(2) = 0.3228 + 0.1895 = 0.5123.
c. Cul es la probabilidad de que una mujer seleccionada aleatoriamente sea una de las que
consumieron dos o menos medicamentos?
Solucin: La probabilidad buscada se puede localizar directamente en la tabla 4.2.3, en el lado
opuesto a x = 2, donde se observa que es 0.8528. Es decir, P(x 2) = 0.8528. Tambin se puede
localizar la respuesta examinando la figura 4.2.2 y determinando la altura de la grfica (medida
sobre el eje vertical) arriba del valor de x = 2.
d. Cul es la probabilidad de que una mujer seleccionada aleatoriamente sea una de las que
consumieron menos de dos medicamentos?
Solucin: Puesto que una mujer que consumi menos de dos medicamentos indica que consumi
uno o ninguno, la respuesta es la probabilidad acumulada para 1, es decir,
P(x < 2) = P(x 1) = 0.6633.
e. Cul es la probabilidad de que una mujer seleccionada aleatoriamente haya consumido cinco o
ms medicamentos?
Solucin: Para encontrar la respuesta se utiliza el concepto de probabilidad complementaria. El
conjunto de mujeres que consumen cinco o ms medicamentos es el complemento del conjunto de
mujeres que consumen menos de cinco (es decir, cuatro o menos). La suma de las probabilidades
asociadas con este conjunto es igual a 1. Esta relacin escrita en notacin de probabilidad es
P(x 5) + P(x 4) = 1. Por lo tanto,
P(x 5) = 1 - P(x 4)= 1- 0.9733 = 0.0267.
f. Cul es la probabilidad de que una mujer seleccionada aleatoriamente sea una de las que
consumieron entre tres y cinco medicamentos, inclusive?
Solucin: P(x 5) = 0.9872 es la probabilidad de que una mujer haya consumido entre cero y 5
medicamentos, inclusive. Para obtener la probabilidad de entre 3 y 5, se resta de 0.9872 la
probabilidad de 2 o menos. La respuesta escrita en notacin de probabilidad queda como:
P(3 x 5) = P(x 5) - P(x 2) = 0.9872 -0.8528 = 0. 1344.
79
UNSCH
Bioestadstica I
2.
f ( x)dx 1
3. Si
A x / a x b P( A) P(a X b) f ( x)dx
a
4. P(a
X n 1
b n 1 a n 1
X
dx
a
n 1 a
n 1
b
Ejemplo. Una variable aleatoria continua X con valores entre 0 y 4 tiene una funcin
densidad dada por p( X ) 1 aX , donde a es una constante.
2
(a) Calcular a.
(b) Hallar P(1 < X < 2}.
Solucin
(a) El grfico de p( X ) 1 aX es una recta, como muestra la Figura 6.5. Para hallar a,
2
debemos constatar primero que el rea total bajo la recta entre X=0 y X=4, y sobre el eje X,
ha de ser 1:
80
UNSCH
Bioestadstica I
en X 0
1
p(0) a 0
2
1
p(0)
2
en X 4
1
p(4) 4a
2
Entonces debemos elegir a de modo que el rea del trapecio =1.
rea del trapecio=
1
(altura)(suma de bases)
2
1
1 1
4 4a 1
2
2 2
1 1
2 4a 1
2 2
2 1 4a 1
(1 4a)
1
2
1
1
2
1 2
4a
2
1
4a
2
1
a
8
Tambin se puede calcular a integrando de la siguiente manera:
4a
f ( x)dx 1
2 axdx 2 8a
0
2 axdx 1
0
2 8a 1
1
a
8
(b) La requerida probabilidad es el rea entre X=1 y X=2. Sombreada en la figura 6.6. De la parte
parte (a), p(X) 1 1 X ; as que
2 8
81
UNSCH
p(1)
p(2)
Bioestadstica I
1 1
3
1
2 8
8
1 1
1 1 1
2
2 8
2 4 4
1 3 1 15 5
1 , que es la probabilidad deseada.
2 8 4 2 8 16
1 1
5
A x / 1 x 2 P( A) (1 x 2) f ( x)dx xdx
2 8
16
1
1
E ( X ) p1 X1 p2 X 2 ... pk X k p j X j pK
j i
fX ) / N , que es la media
aritmtica X de una muestra de tamao N en la que X1, X2,,XK aparecen con estas
frecuencias relativas. Al crecer N ms y ms, las frecuencias relativas se acercan a las
probabilidades pj. As que nos vemos abocados a interpretar E(X) como la media de la
poblacin cuyo muestreo se consideraba. Si llamamos m a la media muestral, podemos
denotar la media poblacional por la correspondiente letra griega (mu).
Puede definirse, asimismo, la esperanza matemtica para variables aleatorias continuas.
82
UNSCH
Bioestadstica I
VI.
Distribuciones Discretas
x 0,1, 2,..., n
x (1 )
f ( x) P( X x)
de otro modo
Notacin : x
Binomial (n, )
E ( X ) n
2 Var ( X ) n (1 )
Ejemplo: Un examen consta de n=25 preguntas, cada una de las cuales tiene 5 alternativas de las
cuales slo una es correcta, si una persona est adivinando al responder y se desea saber el nmero
de respuestas correctamente respondidas.
Entonces, este es un experimento Binomial con xito: E={la respuesta es correcta} y
fracaso: F={la respuesta no es correcta} y siendo:
P( E )
1
5
f ( x) nx x (1 )n x
x
25 x
f ( x) 25
x 0.2 (1 0.2)
83
UNSCH
Bioestadstica I
x
25 x
f ( x) 25
x 0.2 (1 0.2)
x
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
0.0038
0.0236
0.0708
0.1358
0.1867
0.1960
0.1633
0.1108
0.0623
0.0294
0.0118
0.0040
0.0012
0.0003
0.0001
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
La probabilidad de que la persona acierte por lo menos 3, pero menos de 5 preguntas es:
P(3 X 5) P( X 3) P( X 4) 0.1358 0.1867 0.3225
84
UNSCH
Bioestadstica I
85
UNSCH
Bioestadstica I
Si X
Hiper (N, n, A)
f ( x) P( X x)
A
x
NA
n x
N
n
Hiper(N,n,A) entonces:
=E(X)=n
A
N
2 var(X) n
A
A N n
1
N N N 1
N 20
n3
A5
N A 15
x 0,1, 2,3
0.859
P( x 2) P( x 0) P( x 1)
5
0
15
3
5
1
15
2
20
3
86
UNSCH
Bioestadstica I
e x
x!
f ( x) P( X x)
x 0,1, 2,...
f ( x) P( X x)
e vt vt x
x!
x 0,1, 2,...
Donde:
v= promedio de sucesos por unidad de intervalo.
t = tamao de intervalos (ejemplo: t=2.3, t=5.8 etc.).
vt = promedio d sucesos por intervalo de tamao t
Notacin : X
Pois(vt )
e x
f ( x) P( X x)
x!
Donde vt , X
x 0,1, 2,...
Pois( )
Pois( ) entonces:
E( X )
2 Var( X ) con vt
Ejemplo.
Se cree que el nmero promedio de individuos por cada 2 km2 de cierta especie de
mamfero que habita en las alturas de cierta regin es de 1.2.
a. En una zona de 2.8 km2, cuntos individuos esperaramos en promedio encontrar?
Sea la v.a. X=Nmero de individuos en 2 km2
El nmero de individuos que habitan en promedio ser:
2.8(1.2) / 2 1.68
87
UNSCH
Bioestadstica I
3(1.2) / 2 1.8
e1.8 (1.8) x
p( x 3) 1 p( x 3) 1
1 0.8912 0.1087
x!
x 0
3
x
0
1
2
3
4
5
6
7
8
9
10
.
.
.
xi
0.1653
0.1653
0.4628
0.7306
0.8913
0.9636
0.9896
0.9974
0.9994
0.9999
1.0000
1.0000
0.2975
0.2678
0.1607
0.0723
0.0260
0.0078
0.0020
0.0005
0.0001
0.0000
.
.
.
.
.
.
0.0000
1.0000
Ejemplo
En Escherichia coli, una bacteria que aparece con frecuencia en el tracto digestivo humano, una
clula de cada 109 muta de ser sensible a la estreptomicina a ser resistente a ella. Esta mutacin
puede dar lugar a que el individuo implicado se vuelva resistente a la estreptomicina. Observando
2x109 de tales clulas,
a. cul es la probabilidad de que ninguna mute?
b. Cul es la probabilidad de que al menos una mute?
Este problema es efectivamente binomial, con n = 2 x 109 y p = 1/109. Como 1/109 es
extremadamente pequeo, la mutacin de una clula es un suceso muy raro. De modo que X,
nmero de clulas que mutan, puede considerarse como aproximadamente de Poisson con
=np=(2 x 109)(1/109) = 2.
a. cul es la probabilidad de que ninguna mute?
e2 (2)0
P( X 0)
0.1353
0!
b. Cul es la probabilidad de que al menos una mute?
DEPARTAMENTO DE CIENCIAS BIOLGICAS
88
UNSCH
Bioestadstica I
La probabilidad de que se produzca al menos una mutacin es P(X1). Esta probabilidad se halla por
sustraccin. Es decir,
P( X 1) 1 P( X 0) 1
e2 (2)0
1 0.1353 0.8647
0!
e x
P( X x)
x!
x
0
1
2
3
4
5
6
7
8
9
10
.
.
.
10
0.1353
0.2707
0.2707
0.1804
0.0902
0.0361
0.0120
0.0034
0.0009
0.0002
0.0000
.
.
.
0.0000
e x
x!
x 0
x
0.1353
0.4060
0.6767
0.8571
0.9473
0.9834
0.9955
0.9989
0.9998
1.0000
1.0000
.
.
.
1.0000
Para facilitar estos clculos las probabilidades acumuladas se encuentran tabuladas en los
diferentes libros de estadstica.
REFERENCIA BIBLIOGRFICA
Gua del curso de estadstica general. 2016. Departamento estadstica e
informtica. UNALM.
Daniel W. Bioestadstica. Cuarta edicin. Limusa Wiley. 2006
Spiegel, M. Estadstica. 2da ed. Mc GRAW HILL. Espaa 1991. 556 pag
89
UNSCH
Bioestadstica I
La variable aleatoria continua X tiene distribucin exponencial con parmetro con media igual a
E ( X ) y variancia
90
UNSCH
Bioestadstica I
Ejemplo
Una masa radiactiva emite partculas de acuerdo con un proceso de Poisson a una media de razn
de 15 partculas por minuto. En algn punto inicia un reloj.
a. Cul es la probabilidad de que transcurran cinco segundos antes de la siguiente emisin?
b. Cul es la media del tiempo de espera hasta que se emite la siguiente partcula?
Solucin
El tiempo se medir en segundos. T denota el tiempo en segundos que transcurre antes de que se
emita la siguiente partcula. La media de la razn de las emisiones es de 0.25 por segundo, por lo
que el parmetro de razn es = 0.25 y T~ Exp(0.25). La probabilidad de que transcurran ms de
cinco segundos antes de la siguiente emisin es igual a
Debes recordar que:
0.25
1
4
0.25
P(T 5) 1 P(T 5)
1 (1 e0.25(5) ) 1 (1 e5/4 )
e125
0.2865
La media del tiempo de espera es
1
4
0.25
91
UNSCH
Bioestadstica I
La variable aleatoria continua X tiene distribucin normal con media y variancia 2 si su funcin
de probabilidad es:
f ( x)
2
x
0
Notacin:
1 x
x N ( , 2 )
2.
3.
En el grfico anterior se aprecia dos distribuciones normales con igual promedio pero diferente
desviacin estndar (a menor desviacin estndar los datos estn ms cerca de la media)
N (, 2 ) , entonces la v.a.c. Z
f ( z)
2
z
1
z2
2
Esta prueba es incompleta porque slo demuestra que la media y la variancia de Z son 0 y 1
respectivamente pero no demuestra que Z tiene distribucin normal (esto es tema de un libro de
Estadstica Matemtica).
92
UNSCH
Bioestadstica I
P(Z a) 1 P(Z a)
93
UNSCH
Bioestadstica I
94
UNSCH
Bioestadstica I
5. Si
2( m) ,
entonces
X m y X2 2m .
Z2
(1)2
Ejemplo
Caractersticas de la distribucin t
1. Cada curva t(m) tiene forma acampanada con centro en 0.
2. Cada curva t(m) es ms dispersa que la curva normal estndar.
95
UNSCH
Bioestadstica I
3. Si X ~ t(m), entonces
0 0 y
2
X
m .
m2
N (0,1) y
(2m )
Z
V
m
t( m ) .
7.7 Distribucin F
Ronald A. Fisher (naci en Inglaterra el 17 de Febrero de 1890 y falleci el 29 de Julio de 1962) fue
un gran cientfico, matemtico, estadstico, bilogo evolutivo y genetista. Fisher aport mucho a la
estadstica, siendo una de sus ms importantes contribuciones, la Inferencia Estadstica creada por
l en 1920 (que se estudiar de manera introductoria en el captulo XI de este libro). A la
distribucin F tambin se le llama distribucin F de Snedecor o distribucin F de Fisher-Snedecor.
Una v.a. X tiene una distribucin F con n y m grados de libertad si su funcin de probabilidad es:
Caractersticas de la distribucin F
a.
b.
c.
d.
(2n ) y V
96
UNSCH
Bioestadstica I
U
U m
X n
V V n
m
F ( n, m )
Notacin
Si X
F(n, m) y
P( X k ) k F( ,n,m)
Propiedad recproca
F( ,n,m)
1
F(1 ,m,n )
REFERENCIA BIBLIOGRFICA
- Gua del curso de estadstica general. 2016. Departamento estadstica e
informtica. UNALM.
- Daniel W. Bioestadstica. Cuarta edicin. Limusa Wiley. 2006
- Spiegel, M. Estadstica. 2da ed. Mc GRAW HILL. Espaa 1991. 556 pag
- Balzarini Mnica; Di Rienzo Julio; Tablada Margot; Gonzlez, Laura; Bruno
Cecilia; Crdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadstica
y Biometra. Editorial Brujas. Argentina.
- Gua del curso de estadstica general. 2016. Departamento estadstica e
informtica. UNALM
-
97
UNSCH
Bioestadstica I
98
UNSCH
Bioestadstica I
99
UNSCH
Bioestadstica I
100
UNSCH
Bioestadstica I
101
UNSCH
Bioestadstica I
VII. Muestreo
7.1 Muestreo
Proceso de seleccin de muestras, se utiliza cuando no es posible contar o medir todos los
elementos de la poblacin objeto de estudio.
7.2 Muestra
Una muestra es una parte de la poblacin. (En algunos casos, una muestra puede incluir la
poblacin entera). Por lo general, se trata de usar la informacin de muestra para hacer inferencia
acerca de una poblacin. Por esta razn es particularmente importante definir la poblacin que se
estudia y obtener una muestra representativa de la poblacin definida.
102
UNSCH
Bioestadstica I
103
UNSCH
Bioestadstica I
Np N
N p 1
P p
pq
p(1 p)
N
Estas ecuaciones son vlidas tambin para una poblacin finita en la que se hace
muestreo con reposicin. Para poblaciones finitas en que se haga muestreo sin reposicin,
las ecuaciones quedan sustituidas por las ecuaciones
p y pq
104
UNSCH
Bioestadstica I
105
UNSCH
Bioestadstica I
(2,2)
(3,2)
(6,2)
(8,2)
(11,2)
3
(2,3)
(3,3)
(6,3)
(8,3)
(11,3)
6
(2,6)
(3,6)
(6,6)
(8,6)
(11,6)
8
(2,8)
(3,8)
(6,8)
(8,8)
(11,8)
11
(2,11)
(3,11)
(6,11)
(8,11)
(11,11)
2.5
3.0
4.5
5.5
7.0
4.0
4.5
6.0
7.0
8.5
5.0 6.5
5.5 7.0
7.0 8.5
8.0 9.5
9.5 11.0
106
UNSCH
Bioestadstica I
6.0
25
25
N
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Suma
Xi
( X i X )2
2.0
2.5
4.0
5.0
6.5
2.5
3.0
4.5
5.5
7.0
4.0
4.5
6.0
7.0
8.5
5.0
5.5
7.0
8.0
9.5
6.5
7.0
8.5
9.5
11.0
150.0
16.0
12.3
4.0
1.0
0.3
12.3
9.0
2.3
0.3
1.0
4.0
2.3
0.0
1.0
6.3
1.0
0.3
1.0
4.0
12.3
0.3
1.0
6.3
12.3
25.0
135.0
Media
6
Desv.Est. 2.372
N
25
8
7
6
Frecuencia
Medias
muestrales
5
4
3
2
1
0
10
12
Medias muestrales
N=25
(X
X )2
135
5.40
25
X 2 5.40 2.32
X
107
UNSCH
2
X
Bioestadstica I
2
N
10.8
5.40
2
2
10.8
2.32
N
2
(2,2)
(3,2)
(6,2)
(8,2)
(11,2)
3
(2,3)
(3,3)
(6,3)
(8,3)
(11,3)
6
(2,6)
(3,6)
(6,6)
(8,6)
(11,6)
8
(2,8)
(3,8)
(6,8)
(8,8)
(11,8)
11
(2,11)
(3,11)
(6,11)
(8,11)
(11,11)
2.5
3.0
4.5
5.5
7.0
4.0
4.5
6.0
7.0
8.5
5.0 6.5
5.5 7.0
7.0 8.5
8.0 9.5
9.5 11.0
108
UNSCH
Bioestadstica I
Xi
2.5
4
5
6.5
4.5
5.5
7
7
8.5
9.5
1
2
3
4
5
6
7
8
9
10
Suma
( X i X )2
12.3
4
1
0.25
2.25
0.25
1
1
6.25
12.3
40.5
60
Media
6
Desv.Est. 2.121
N
10
Frecuencia
Medias
muestrales
10
Medias muestrales
60
6.0
10
(X
X )2
2 Np N
N N p 1
(X
X )2
40.5
4.05
10
3.292 5 2
4.05
2 5 1
40.5
4.05 2.01
10
1
2
1
2
109
UNSCH
Bioestadstica I
Puesto que el nmero de caras es una variable discreta, nos preguntamos por la
probabilidad de que el nmero de caras est entre 47.5 y 72.5.
1 1
Npq (120) 5.48
2 2
Grfica de distribucin
Normal, Media=60, Desv.Est.=5.48
0.08
0.9775
0.07
Densidad
0.06
0.05
0.04
0.03
0.02
0.01
0.00
47.5
60
72.5
Recordar:
El 40% de 120 es = 48 48 0.5 = 47.5
El 60% de 120 es = 72 72 + 0.5 = 72.5
Puesto que nuestras tablas slo presentan Z, es decir con
estandarizar, como sigue: Z
P(47.5 X 72.5) P(
2 1 , debemos
47.5
72.5
) P(
47.5 60 X 72.5 60
)
5.48
5.48
P(2.28 Z 2.28)
110
UNSCH
Bioestadstica I
Grfica de distribucin
Normal, Media=0, Desv.Est.=1
0.9774
0.4
Densidad
0.3
0.2
0.1
0.0
-2.28
2.28
Grfica de distribucin
Normal, Media=0, Desv.Est.=1
0.4
0.6250-0.00417=0.62083
0.3
0.62083 0.5
2.65
0.0456
Densidad
0.2
0.1
0.0
0.004025
0
2.65
111
UNSCH
Bioestadstica I
Estimador
Se dice que un estimador, por ejemplo T, para el parmetro es un estimador insesgado
de si E(T)=
Poblacin muestreada
La poblacin muestreada es la poblacin de la cual se extrae una muestra.
Poblacin objetivo
La poblacin objetivo es la poblacin de la que pretende hacer una inferencia.
Dado que se desconoce el valor de , la expresin 2 X no dice mucho. Sin
embargo, se tiene una estimacin puntual de , que es
X.
112
UNSCH
Bioestadstica I
EJEMPLO. Suponga que un investigador, interesado en obtener una estimacin del nivel
promedio de alguna enzima en cierta poblacin de seres humano, toma una muestra de 10
individuos, determina el nivel de la enzima en cada uno de ellos, y calcula la media de la
= 22. Adems, que la variable de inters sigue una distribucin
muestra
aproximadamente normal, con una variancia de 45. Se desea estimar el valor de .
Solucin: Un intervalo de confianza de aproximadamente 95 por ciento para est dado
por:
X 2 X
45
10
22 2(2.1213)
17.76, 26.24
22 2
113
UNSCH
Bioestadstica I
Si :
0.05 1 1 0.05 0.95
0.05
1 / 2 1 1
1 0.025 0.975
2
2
0.05
/2
0.025
2
2
Grfica de distribucin
Grfica de distribucin
0.20
0.975
0.15
Densidad
Densidad
0.15
0.10
0.10
0.05
0.05
0.025
0.00
22
26.16
0.00
17.84
22
Grfica de distribucin
Normal, Media=22, Desv.Est.=2.1213
0.20
0.95
Densidad
0.15
0.10
0.05
0.00
17.84
22
26.16
Ahora, debemos observar que los valores no son lo que se muestra en la figura dada por
Minitab, esto se debe a que el valor del coeficiente de confiabilidad no es 2 si no debe ser
1.96, luego podemos resolverlo de la siguiente manera:
X 1.96 X
45
10
22 1.96(2.1213)
17.84, 26.16
22 1.96
114
UNSCH
Bioestadstica I
Interpretacin prctica
Cuando se hace un muestreo a partir de poblaciones que siguen una distribucin normal
y con desviacin estndar conocida, existe un 100( 1 - ) por ciento de confianza de que
el intervalo calculado X z 1 /2 X , contiene la media de la poblacin .
Precisin
A la cantidad que se obtiene al multiplicar el factor de confiabilidad por el error estndar de
la media se le llama precisin de la estimacin. Tambin, se le llama margen de error.
Coeficiente de confianza Factores de confiabilidad
1.645
0.90
1.96
0.95
2.58
0.99
EJEMPLO. Un fisioterapeuta desea estimar, con 99 por ciento de confianza, la media de
fuerza mxima de un msculo particular en cierto grupo de individuos. Se inclina a suponer
que los valores de dicha fuerza muestran una distribucin aproximadamente normal con
una variancia de 144. Una muestra de 15 individuos que participaron en el experimento
present una media de 84.3.
Solucin:
Coeficiente de confianza: 0.99
Coeficiente de confiabilidad: 2.58
Muestra: N=15
Media:
X = 84.3
Variancia:
2 144
Error estndar
12
15
0.14
3.0984
X 2.58 X
84.3 2.58(3.0984)
84.3 8.0
76.3, 92.3
0.99
0.12
0.10
Densidad
0.08
0.06
0.04
0.02
0.00
76.3
84.3
92.3
115
UNSCH
Bioestadstica I
Se dice que se tiene 99 por ciento de confianza de que la media de la poblacin est entre
76.3 y 92.3, porque al repetir el muestreo, 99 por ciento de todos los intervalos que pueden
construirse en la forma descrita, incluyen a la media de la poblacin.
8
35
1.3522 ,
0.30
17.2 1.645(1.3522)
17.2 2.2
15.0, 19.4.
0.25
0.20
Densidad
X z1 /2 X
0.15
0.10
0.05
0.00
15
17.2
19.4
1.65 Z
0.9505 0.95
0.01
2
1.65 Z
0.01
1.65 Z
2
0.01
Z
1.65
2
Z 1.645
DEPARTAMENTO DE CIENCIAS BIOLGICAS
116
UNSCH
Bioestadstica I
Nota:
Si se requiere conocer el valor de z cuando el nivel de confianza es 90%, por qu
usamos un valor de z0.95, cuando hacemos uso de la tabla de Daniel?
Es porque la tabla de Daniel muestra el rea bajo la curva normal P(z z0).
Por lo tanto
Grfica de distribucin
0.90 0.05 0.95 Normal, Media=0, Desv.Est.=1
0.9
0.4
Densidad
0.3
0.2
0.10
0.05
2
2
0.10
0.05
2
2
0.1
0.0
-1.645
1.645
117
UNSCH
Bioestadstica I
s
n
Para ser ms especficos, cuando se obtienen muestras a partir de una distribucin normal
cuya desviacin estndar, , se desconoce, el 100(1 ) por ciento del intervalo de
confianza para la media de la poblacin, , est dado por:
2
n
EJEMPLO. Maureen McCauley (A-l) realiz un estudio para evaluar los efectos de un
conjunto de instrucciones de mecnica en el lugar de labores sobre el desempeo laboral
de obreros jvenes recientemente contratados. Se utilizaron dos grupos de individuos
elegidos aleatoriamente; uno de los grupos para aplicar el experimento y el otro como
grupo de control. El grupo con el que se experiment recibi una hora de capacitacin
impartida por un terapeuta ocupacional. El grupo de control no recibi esta capacitacin.
Para evaluar el esfuerzo de cada obrero para levantar, bajar, jalar y transportar objetos
dentro del entorno laboral, se utiliz una lista de cotejo para la evaluacin de trabajo
mecnico que inclua criterios de referencia. Una tarea bien hecha recibi una calificacin
de 1. El grupo de control, formado por 15 individuos, alcanz una calificacin media de
11.53 en la evaluacin, con una desviacin estndar de 3.681. Se supone que el grupo de
control se comport como una muestra aleatoria extrada de una poblacin similar de
individuos. Se pretende utilizar los datos de la muestra para estimar la calificacin media
para la poblacin.
X t 1
Grfica de distribucin
T, df=14
0.95
0.4
X =11.53
0.3
Error estndar=
s
n
3.681
15
0.9504
Coeficiente de confiabilidad
Si t 1 = t 10.05 = t 0.975
2
2
Densidad
0.2
0.1
0.0
-2.145
2.145
X t 1
2
n
118
UNSCH
Bioestadstica I
Este intervalo puede interpretarse con ambos puntos de vista: probabilstico y prctico.
Puede asegurarse, en un 95 por ciento, que la media, , correcta de la poblacin se
encuentra entre 9.49 y 13.57, porque al repetir el muestreo, 95 por ciento de los intervalos
construidos de igual manera incluyen a .
p z1 2 p(1 p) / n
EJEMPLO 6.5.1
Mathers el al. (A-12) encontraron que en una muestra de 591 pacientes internados en un
hospital psiquitrico, 204 admitieron que consumieron marihuana al menos una vez
durante su vida. Se pretende construir un intervalo de confianza de 95 por ciento para la
proporcin de individuos que consumieron marihuana durante su vida en la poblacin
muestreada de los internos del hospital psiquitrico.
Solucin:
La mejor estimacin puntual para la proporcin de la poblacin es
204
0.3452
591
p p(1 p) / n
0.3452 0.6548
591
0.01956
119
UNSCH
Bioestadstica I
p z1 2 p(1 p) / n
p z1 /2 p
0.3452 1.96(0.01956)
0.3452 0.0383
0.3069, 0.3835
Se puede decir que se tiene 95 por ciento de confianza de que la proporcin p est entre
0.3069 y 0.3835 ya que, al repetir el muestreo, casi 95 por ciento de los intervalos
construidos en la forma de este intervalo incluyen a la proporcin p real. Con base en estos
resultados se espera, con una confianza de 95 por ciento, encontrar que entre 30.69 y
38.35 por ciento de los internados en el hospital psiquitrico tiene antecedentes de
consumo de marihuana.
120
UNSCH
Bioestadstica I
dz
dz
z 2 2
d2
N n
N 1
Nz 2 2
d 2 ( N 1) z 2 2
Las frmulas para el tamao de la muestra requieren del conocimiento de pero, como
ya se ha sealado, la variancia de la poblacin casi siempre se desconoce. Como
2
EJEMPLO. Un nutrilogo del departamento de salud, al efectuar una encuesta entre una
poblacin de muchachas adolescentes con el fin de determinar su ingestin diaria
promedio de protenas (medidas en gramos), busc el consejo de un bioestadstico con
respecto al tamao de la muestra que debera tomar.
Qu procedimiento debe seguir el bioestadstico para asesorar al nutrilogo? Antes de
que el estadstico pueda ayudar el nutrilogo, ste debe proporcionar tres elementos de
informacin: la dimensin deseada del intervalo de confianza, el nivel de confianza
deseado y la magnitud de la variancia de la poblacin.
121
UNSCH
Bioestadstica I
z 2 2 1.962 202
n 2
61.47
d
52
Se recomienda que el nutrilogo tome una muestra de tamao 62. Al calcular el tamao de
una muestra, el resultado se redondea al siguiente nmero entero mayor si los clculos
dan un nmero con decimales.
EJEMPLO. Considerando los datos del ejemplo anterior, calcule el tamao de la muestra,
suponiendo que el tamao de la poblacin es conocida, es decir N=5000.
Nz 2 2
5000 1.962 202
54.8344091
d 2 ( N 1) z 2 2 52 (5000 1) 1.962 202
z 2 pq
d2
Nz 2 pq
d 2 ( N 1) z 2 pq
Estimacin de p
Como puede observarse, ambas frmulas requieren que se conozca p, que es la
proporcin de poblacin que posee la caracterstica de inters. Obviamente, dado que ste
es el parmetro que se desea estimar, ser desconocido. Una solucin para este problema
consiste en tomar una muestra piloto y calcular una estimacin para utilizarla en lugar de p
dentro de la frmula para n. Algunas veces el investigador tendr nocin de algn lmite
superior para p que podr utilizar en la frmula. Por ejemplo, si se desea estimar la
proporcin de alguna poblacin que presenta cierta discapacidad, es posible que se crea
que la proporcin real no puede ser mayor que, digamos, 0.30. Se sustituye entonces p por
0.30 en la frmula para n. Si es imposible obtener una mejor estimacin, se puede igualar p
a 0.5 y resolver para n. Dado que p = 0.5 en la frmula proporciona el mximo valor de n,
DEPARTAMENTO DE CIENCIAS BIOLGICAS
122
UNSCH
Bioestadstica I
EJEMPLO. Se planea realizar una encuesta para determinar qu proporcin de familias en cierta
rea carece de servicios mdicos. Se cree que la proporcin no puede ser mayor que 0.35. Se
desea un intervalo de Confianza de 95 por ciento con d = 0.05. De qu tamao se debe
seleccionar la muestra de familias?
Solucin: Si se omite la correccin por poblacin finita, se tiene
349.6
d2
0.052
EJEMPLO. Considerando los datos del ejemplo anterior, calcule el tamao de la muestra,
suponiendo que el tamao de la poblacin es conocida, es decir N=8000.
Nz 2 pq
8000 1.962 0.35 0.65
334.989055
d 2 ( N 1) z 2 pq 0.052 (8000 1) 1.962 0.35 0.65
123
UNSCH
Bioestadstica I
Accin posible
No rechazar H0
Rechazar H0
X o
/ n
124
UNSCH
Bioestadstica I
X 27
2. Supuestos
Se supone que la muestra de valores proviene de una poblacin cuyas edades siguen una
distribucin aproximadamente normal. Suponga tambin que la poblacin tiene una
variancia conocida de
3. Hiptesis
2 20 .
Hiptesis nula
H 0 la edad media de la poblacin es igual a 30
Hiptesis alterna
H A = la edad media de la poblacin es diferente de 30
H 0 : 30
H A : 30
4. Estadsticos
X o
/ n
125
UNSCH
Bioestadstica I
Regin de rechazo
Regin de no rechazo
Regin de rechazo
27 30
20 / 10
3
2.12
1.4142
8. Decisin estadstica
Con base en la regla de decisin, se puede rechazar la hiptesis nula porque -2.12 est en la
regin de rechazo. Se puede decir que el valor calculado de la prueba estadstica tiene un
nivel de significacin de 0.05.
9. Conclusin
Se concluye que no es igual que 30 y que las acciones del administrador o mdico
debern estar de acuerdo con esta conclusin.
10. Valor de p
Grfica de distribucin
Normal, Media=0, Desv.Est.=1
0.4
Densidad
0.3
0.2
0.1
0.01700
0.0
0.01700
-2.12
2.12
126
UNSCH
Bioestadstica I
p 0.05 : Se rechaza la H 0
p 0.05 : No se rechaza la H 0
Prueba de H0 por medio de un intervalo de confianza
27 1.96 20 / 10
27 1.96(1.4142)
27 2.7718
24.2282, 29.7718
Dado que este intervalo no incluye a 30, se dice que 30 no es un candidato para la media
que se est estimando y, por lo tanto, no es igual a 30 y se rechaza a H0. sta es la
misma conclusin a la que se lleg mediante el procedimiento de prueba de hiptesis.
Prueba de hiptesis unilateral
Con base en el ejercicio 7.2.1, en lugar de preguntarse la posibilidad de concluir que 30,
suponga que los investigadores se hubieran preguntado: Es posible concluir que < 30? La
respuesta a esta pregunta es que puede llegarse a esta conclusin si es posible rechazar la hiptesis
nula 30.
Solucin: Mediante el uso del procedimiento de los diez pasos y con base en una prueba unilateral
se llega a una decisin.
1. Datos. Ver el ejemplo anterior.
2. Suposiciones. Ver el ejemplo anterior.
3. Hiptesis.
H 0 : 30
H A : 30
La desigualdad en la hiptesis nula implica que sta comprende un nmero infinito de hiptesis. La
prueba se hace slo para el punto de igualdad, porque puede mostrase que si H 0 se rechaza
cuando la prueba se hace en el punto de igualdad, sta sera rechazada si la prueba se hiciera para
cualquier otro valor de indicado en la hiptesis nula.
4. Estadstica de prueba.
X o
/ n
127
UNSCH
Bioestadstica I
Regin de rechazo
Regin de no rechazo
27 30
20 / 10
3
2.12
1.4142
8. Decisin estadstica. Se puede rechazar la hiptesis nula debido a que -2.12 < -1.645.
9. Conclusin. Se concluye que la media de la poblacin es menor a 30 y se deber actuar en
consecuencia.
10. El valor de p. El valor de p para esta prueba es 0.0170, porque P(z -2.12), cuando H 0 es
verdadera, es de 0.0170, valor que se presenta en la tabla D cuando se determina la magnitud del
rea a la izquierda de -2.12 bajo la curva normal estndar. Puede probarse una hiptesis nula
unilateral por medio de un intervalo de confianza unilateral.
Grfica de distribucin
Normal, Media=0, Desv.Est.=1
0.4
Densidad
0.3
0.2
0.1
0.01700
0.0
-2.12
X 0
s/ n
la cual, cuando H0 es verdadera, sigue una distribucin t de Student con n -1 grados de libertad. El
siguiente ejemplo ilustra el procedimiento de prueba de hiptesis cuando se supone que la
DEPARTAMENTO DE CIENCIAS BIOLGICAS
128
UNSCH
Bioestadstica I
poblacin sigue una distribucin normal y se desconoce la variancia. Esta situacin es muy comn
en la vida real.
Ejemplo. Los investigadores Castillo y Lillioja (A-l) describieron una tcnica, desarrollada por ellos,
para la canulacin linftica perifrica en seres humanos. Los autores afirman que su tcnica
simplifica el procedimiento y permite la recoleccin de volmenes convenientes de linfa para
estudios metablicos y cinticos. Los individuos estudiados fueron 14 adultos varones sanos
representativos de un rango amplio de pesos corporales. Una de las variables de medicin fue el
ndice de masa corporal (IMC) = peso (kg)/estatura2(m2). Los resultados se muestran en la tabla
7.2.1. Se pretende saber si es posible concluir que la media del IMC para la poblacin de la que se
extrajo la muestra no es 35.
1.
Datos. Los datos consisten en las mediciones del IMC de los 14 individuos, tal como se
describi previamente.
2.
Supuestos. Los 14 individuos constituyen una muestra aleatoria de una poblacin de
individuos con las mismas caractersticas.
3.
Hiptesis.
H 0 : 35
H A : 35
4.
Estadstica de prueba.
X 0
s/ n
5.
Distribucin de la estadstica de prueba. La estadstica de prueba sigue una distribucin t
de Student, con n-1 = 14-1 = 13 grados de libertad, si H0 es verdadera.
6.
Regla de decisin. Sea = 0.05. Dado que se tiene una prueba bilateral, se pone /2 =
0.025 en cada cola de la distribucin de la estadstica de prueba. Los valores de t a la derecha e
izquierda de los cuales est 0.025 del rea son 2.1604, y -2.1604.
129
UNSCH
Bioestadstica I
Grfica de distribucin
T, df=13
0.4
Densidad
0.3
0.2
0.1
0.025
0.0
0.025
-2.160
2.160
La regla de decisin indica que es necesario calcular un valor para la estadstica de prueba y que se
debe rechazar H0 si el valor de t calculado es mayor o igual que 2.1604 o menor o igual que -2.1604.
7. Clculo de la estadstica de prueba. A partir de los datos de la muestra se calcula una media
igual a 30.5 y una desviacin estndar de 10.6392.
X 0
s/ n
30.5 35
10.6392 / 14
4.5
1.58
2.2834
130
UNSCH
Bioestadstica I
Grfica de distribucin
T, df=13
0.4
Densidad
0.3
0.2
0.1
0.06906
0.06906
0.0
-1.58
1.58
X 0
/ n
X 0
s/ n
la cual, cuando H0 es verdadera, sigue una distribucin semejante a la distribucin normal estndar
si n es grande. El razonamiento para sustituir con s a es que la muestra grande, necesaria para
que el teorema del lmite central sea aplicable, proporcionar una desviacin estndar de la
muestra que se acerca lo suficiente a .
EJEMPLO
Los objetivos de un estudio de los investigadores Wilbur et al. (A-2) eran descubrir los estados
menopusicos, los sntomas, la energa utilizada y la condicin fsica aerbica en mujeres de edad
madura y, adems, determinar las relaciones entre estos factores. Entre las variables medidas
estaba el consumo mximo de oxgeno (Vo2mx). La calificacin media de (Vo2mx) para una muestra
de 242 mujeres fue de 33.3 con una desviacin estndar de 12.14 (Fuente: Family and Community
Health, Vol. 13:3, p. 73, Aspen Publishers, Inc., ). Se pretende saber si, con base en estos datos, es
posible concluir que la calificacin media para una poblacin de mujeres con estas caractersticas es
mayor que 30.
Solucin: Se dice que los datos proporcionan suficiente evidencia para concluir que la media de la
poblacin es mayor que 30 si puede rechazarse la hiptesis nula que dice que la media es menor o
igual que 30. Para tal fin, puede llevarse a cabo la siguiente prueba:
DEPARTAMENTO DE CIENCIAS BIOLGICAS
131
UNSCH
Bioestadstica I
1.
Datos. Los datos son las puntuaciones de Vo2mx para las 242 mujeres con
12.14.
X = 33.3 y s =
2.
Supuestos. Los datos constituyen una muestra aleatoria simple de una poblacin de
mujeres de edad madura con las caractersticas similares a las que se presentan en la muestra. Se
considera que las mediciones de Vo2mx siguen una distribucin normal en tal poblacin.
3.
Hiptesis.
H 0 : 30
H A : 30
4.
Estadstica de prueba. La estadstica de prueba est dada por la ecuacin 7-2.3, dado que
se desconoce.
X 0
s/ n
5.
Distribucin de la estadstica de prueba. En virtud del teorema del lmite central, la
estadstica de prueba sigue, en el peor de los casos, una distribucin aproximadamente normal con
= 0 si H0 es verdadera.
6.
Regla de decisin. Sea 0.05 . El valor crtico de la estadstica de prueba es de 1.645. Las
regiones de rechazo y de no rechazo se ilustran en la figura 7.2.5. Se rechaza H0 si se calcula z
1.645.
7.
z
8.
X 0
s/ n
33.3 30
12.14 / 242
3.3
4.23
0.7804
9.
Conclusin. Se concluye que el valor medio Vo2mx para la poblacin muestreada es mayor
que 30.
10.
El valor de p. El valor de p para esta prueba es < .001, porque 4.23 es mayor que 1.645.
132
UNSCH
Bioestadstica I
Grfica de distribucin
Normal, Media=0, Desv.Est.=1
0.4
Densidad
0.3
0.2
0.1
0.0
0.00001168
4.23
p p0
p0 q0
n
H 0 : p 0.05
H A : p 0.05
Se realiza esta prueba en el punto de igualdad. La conclusin a la que se puede llegar sera
igual a la que se llegara de llevarse a cabo la prueba utilizando un valor supuesto de p mayor
que 0.05. Si H0 es verdadero, p = 0.05 y el error estndar
133
UNSCH
Bioestadstica I
Ntese que se utiliza el valor supuesto de p para calcular p . Esto se hace porque la prueba
entera se basa en la suposicin de que la hiptesis nula es verdadera. Utilizar la proporcin
muestral, p , para calcular p no sera compatible con este concepto.
4. Estadstica de prueba. La estadstica de prueba se obtiene mediante la ecuacin 7.5.1.
p p0
p0 q0
n
0.0426 0.05
0.05 0.95
0.70
423
8. Decisin estadstica. No se rechaza H0 porque -0.70 > -1.645.
9. Conclusin. Se concluye que la proporcin de la poblacin que tiene VIH positivo
probablemente sea 0.05 o ms.
10. Valor de p. p = 0.2420.
REFERENCIA BIBLIOGRFICA
Daniel W. Bioestadstica. Cuarta edicin. Limusa Wiley. 2006.
134
UNSCH
Bioestadstica I
135
UNSCH
Bioestadstica I
Solucin:
1. Datos. Vase la tabla 12.4.3.
2. Supuestos. Se considera que la muestra disponible para el anlisis es equivalente
a una muestra aleatoria extrada de la poblacin de inters.
3. Hiptesis.
H0: el estadio del PVH y la etapa de infeccin por VIH son independientes.
HA: las dos variables no son independientes.
Sea = 0.05.
4. Prueba estadstica. La prueba estadstica es
Grfica de distribucin
Chi-cuadrada, df=2
0.5
Densidad
0.4
0.3
0.2
0.1
0.0
0.05
0
5.991
136
UNSCH
Bioestadstica I
Total
37
59
96
REFERENCIA BIBLIOGRFICA
Daniel W. Bioestadstica. Cuarta edicin. Limusa Wiley. 2006.
137
UNSCH
Bioestadstica I
Y (das de
x (horas de
la estacin
luz por da)
de cra)
12.8
110
13.9
54
14.1
98
14.7
50
15
67
15.1
58
16
52
16.5
50
16.6
43
17.2
15
17.9
28
138
UNSCH
Bioestadstica I
Diagramas de dispersin
139
UNSCH
Bioestadstica I
140
UNSCH
Bioestadstica I
141
UNSCH
Bioestadstica I
142
UNSCH
Bioestadstica I
La Figura 11.14 proporciona una escala sugerida para interpretar r. De acuerdo con la
escala, la correlacin -0.33 se describe como la correlacin negativa dbil.
Conclusin: las variables X e Y presentan una ligera correlacin negativa, donde r = -0.33.
143
UNSCH
Bioestadstica I
REFERENCIA BIBLIOGRFICA
144
UNSCH
Bioestadstica I
Consumo de
alimentos
Xi
Yi
a.
b.
c.
d.
4.6
87.1
5.1
93.1
4.8
89.8
4.4
91.4
5.9
99.5
4.7
92.1
5.1
95.5
5.2
99.3
4.9
93.4
5.1
94.4
Elaborar el diagrama de dispersin de peso promedio X y consumo de alimento Y
Calcular la recta de regresin del consumo de alimentos en funcin del peso del cuerpo.
Realizar el ajuste de la recta.
Cunto es la media de la poblacin de Y para X=5.5 lbs del peso de cuerpo?
Solucin:
5.2, 99.3
98
96
94
92
4.4, 91.4
90
5.9, 99.5
5.1, 95.5
4.9, 93.4 5.1, 94.4
5.1, 93.1
4.7, 92.1
4.8, 89.8
88
4.6, 87.1
86
4
4.5
5.5
X
Figura: Diagrama de dispersin de peso promedio X y consumo de alimento Y
b. Calcular la recta de regresin del consumo de alimentos en funcin del peso del cuerpo.
DEPARTAMENTO DE CIENCIAS BIOLGICAS
145
UNSCH
Bioestadstica I
Consumo de
alimentos
Xi
Yi
X i2
4.6
5.1
4.8
4.4
5.9
4.7
5.1
5.2
4.9
5.1
49.8
49.8
4.98
10
935.6
93.56
10
X i Yi
87.1
93.1
89.8
91.4
99.5
92.1
95.5
99.3
93.4
94.4
935.6
21.16
26.01
23.04
19.36
34.81
22.09
26.01
27.04
24.01
26.01
2
i
249.54
400.66
474.81
431.04
402.16
587.05
432.87
487.05
516.36
457.66
481.44
X Y
i i
4671.1
Coeficiente de regresin b:
n X i Yi X i Yi
n X X i
2
i
gallina.
Interpretacin de b: Para un aumento de una libra en el peso del cuerpo, el consumo de alimento
es de 7.69 libras.
Intercepto a: nos indica cunto es Y cuando X = 0, generalmente no tiene interpretacin.
a Y bX
a 93.56 7.69 4.98 55.26
Ecuacin de la recta:
Y a bX
Y 55.26 7.69 X
146
UNSCH
Bioestadstica I
Y a bX
Y i 55.26 7.69 X i
Xi
4.6
5.1
4.8
4.4
5.1
5.2
4.9
5.1
102
y = 7.6901x + 55.263
R = 0.6699
5.2, 99.3
100
98
96
4.9, 93.4
94
5.9, 99.5
5.1, 95.5
5.1, 94.4
5.1, 93.1
92
4.7, 92.1
4.4, 91.4
90
4.8, 89.8
88
4.6, 87.1
86
4
4.2
4.4
4.6
4.8
5.2
5.4
5.6
5.8
147
UNSCH
Bioestadstica I
Peso
Y
58
42
51
54
40
39
49
56
Existe una relacin lineal importante entre ambas variables?
Calcular la bondad del ajuste (coeficiente de determinacin)
Peso
X2
Y
12
8
10
11
7
7
10
14
58
42
51
54
40
39
49
56
X 79 Y 389 X
r
Y2
XY
144
64
100
121
49
49
100
196
2
823
3364
1764
2601
2916
1600
1521
2401
3136
696
336
510
594
280
273
490
784
19303
XY 3963
n XY X Y
n X 2 ( X ) 2 n Y 2 ( Y ) 2
8 3963 79 389
8 823 (79) 2 8 19303 (389)2
973
1031.66322
148
UNSCH
Bioestadstica I
r 0.9431
El coeficiente de correlacin lineal es 0.9431, por lo tanto el ajuste lineal es muy bueno.
b. Calcular la bondad del ajuste
Para determinar la bondad de ajuste se calcula el coeficiente de determinacin ( r 2 ).
r 2 0.94312
r 2 0.8894
La bondad de ajuste es r 0.8894 , por tanto podemos decir que el 88,94% de la variabilidad del
peso en funcin de la edad es explicado mediante la recta de regresin correspondiente. Lo mismo
podemos decir en cuanto a la variabilidad de la edad en funcin del peso. Del mismo modo puede
decirse que hay un 100 88, 94 % = 11, 06 % de varianza que no es explicada por las rectas de
regresin.
2
149