Separata de Bioestadística I 2016

UNIVERSIDAD NACIONAL DE SAN CRISTBAL DE
HUAMANGA
FACULTAD DE CIENCIAS BIOLGICAS
ESCUELA PROFESIONAL DE BIOLOGA
BIOESTADSTICA I
SEPARATA I
ESTADSTICA
DESCRIPTIVA
Prof. Reynn Cndor Alarcn
2016
UNSCH
DEPARTAMENTO DE CIENCIAS BIOLGICAS
Bioestadstica I
Prof. Reynn Cndor A.
UNSCH
Bioestadstica I
Contenido
BIOESTADSTICA ...................................................................................................................... 7
I.
1.1.
Estadstica y bioestadstica ............................................................................................... 7
1.2.
Objeto de estudio. .............................................................................................................. 7
1.3.
Estadstica descriptiva y estadstica inferencial. ........................................................... 7
1.4. Conceptos bsicos ...................................................................................................................... 8

1.5
Importancia de la Estadstica.......................................................................................... 12
1.6 La bioestadstica en la investigacin cientfica. ................................................................ 13

LOS DATOS .............................................................................................................................. 15
II.
2.1.
Observacin ...................................................................................................................... 15
2.2.
Datos .................................................................................................................................. 15
2.3.
Recoleccin de datos ....................................................................................................... 15
2.4.
Sistema y fuentes de informacin .................................................................................. 15
2.5.
Poblacin ........................................................................................................................... 16
2.6.
Muestra .............................................................................................................................. 16
2.7.
Elaboracin de los datos ................................................................................................. 17
2.8.
Mecanismos para presentar, tabular y graficar datos ................................................. 23
2.9.
Distribucin de frecuencias (Tablas de frecuencia) ............................................................ 26
2.10 Diagrama de Tallos y Hojas ............................................................................................ 43

III.
ANLISIS E INTERPRETACIN DE DATOS ................................................................................. 45
3.1.
Anlisis descriptivo. ............................................................................................................. 45
3.2.
Medidas estadsticas........................................................................................................ 45
3.3.
Medidas de tendencia central......................................................................................... 45
3.4.
Percentiles ....................................................................................................................... 50
3.5.
Medidas de Variabilidad o de dispersin. ..................................................................... 51
3.5.1 Rango o intervalo de variacin ........................................................................................... 52

3.5.2 La varianza .......................................................................................................................... 52
3.5.3 La desviacin estndar ....................................................................................................... 54
3.5.4 Coeficiente de variabilidad ................................................................................................. 54
3.6.
Medidas de asimetra....................................................................................................... 56
3.6.1 Formas de una distribucin ................................................................................................ 56

3.6.2 Variables ordinales: el ndice de asimetra intercuartlico ................................................. 57
3.6.3 Variables cuantitativas: Coeficiente de asimetra de Pearson ........................................... 57
3.7 Curtosis ...................................................................................................................................... 58
3.7.1 Variables ordinales: el ndice KU. ........................................................................................ 58
UNSCH
Bioestadstica I
3.7.2 Variables cuantitativas: el coeficiente de apuntamiento de Fisher ................................... 59

3.8 Diagrama de cajas (box plot) ..................................................................................................... 59
IV.
PROBABILIDADES..................................................................................................................... 62
4.1.
Conceptos bsicos de probabilidad objetiva y subjetiva. ........................................... 62
4.2.
Permutaciones y combinaciones. .................................................................................. 64
4.3.
Clculo de probabilidades de evento. ........................................................................... 69
4.4 Probabilidad condicional................................................................................................... 70

V. Variables aleatorias ......................................................................................................................... 76
5.1 Definicin .................................................................................................................................. 76
5.2 Variable aleatoria discreta ........................................................................................................ 76
5.2.1 Funcin de probabilidad de una variable aleatoria discreta .............................................. 77
5.3 Variable aleatoria continua ....................................................................................................... 80
5.3.1 Funcin de densidad de una v.a continua X ....................................................................... 80
5.4 ESPERANZA MATEMTICA ........................................................................................................ 82
VI.
Distribuciones Discretas .......................................................................................................... 83
6.1 Distribucin Binomial ................................................................................................................ 83

6.2 Distribucin Hipergeomtrica ................................................................................................... 86
6.3 La distribucin de Poisson. ........................................................................................................ 87
VII.
Distribuciones continuas ......................................................................................................... 90
7.1 Distribucin Exponencial ........................................................................................................... 90

7.2 Distribucin Normal .................................................................................................................. 91
7.3 Distribucin Normal Estndar ................................................................................................... 92
7.5 Distribucin Ji-Cuadrado ........................................................................................................... 94
7.6 Distribucin t de Student. ......................................................................................................... 95
7.7 Distribucin F ............................................................................................................................ 96
VII. Muestreo ..................................................................................................................................... 102
7.1 Muestreo ................................................................................................................................. 102
7.2 Muestra ................................................................................................................................... 102
7.3 Seleccin de la muestra........................................................................................................... 102
7.4 Caractersticas de la muestra .................................................................................................. 102
7.5 Tipos de muestreo. .................................................................................................................. 102
VIII. Distribucin de muestreo .......................................................................................................... 104
8.1 Distribucin de muestreo de medias ...................................................................................... 104
8.2 Distribucin de muestreo de proporciones ............................................................................ 104
8.3 Errores tpicos.......................................................................................................................... 104
8.4 Ejemplo de distribucin de muestreo de promedios .............................................................. 106
UNSCH
Bioestadstica I
8.5 Ejemplo de distribucin de muestreo de proporciones .......................................................... 109

IX. Inferencia Estadstica. .................................................................................................................. 112
9.1 Estimacin de parmetros: ..................................................................................................... 112
Estimacin puntual .................................................................................................................... 112
Estimacin por intervalos .......................................................................................................... 112
Estimador .................................................................................................................................. 112
Poblacin muestreada............................................................................................................... 112
Poblacin objetivo ..................................................................................................................... 112
9.2 Interpretacin del intervalo de confianza ............................................................................... 115
Interpretacin probabilstica ..................................................................................................... 115
Interpretacin prctica.............................................................................................................. 115
Precisin .................................................................................................................................... 115
9.3 Muestreo a partir de poblaciones que no presentan una distribucin normal ...................... 116
9.4 Intervalos de confianza que utilizan la distribucin t.............................................................. 118
9.5 Intervalo de confianza para la proporcin de una poblacin ................................................. 119
X. Determinacin del tamao de muestra. ....................................................................................... 121
10.1 Determinacin del tamao de la muestra para la estimacin del promedio ....................... 121
10.1.1 Variancia conocida ......................................................................................................... 121
10.1.2 Variancia desconocida .................................................................................................... 121
10.2 Determinacin del tamao de la muestra para la estimacin de las proporciones ............. 122
XI. Prueba de hiptesis. ..................................................................................................................... 124
11.1 Tipos de hiptesis .................................................................................................................. 124
11.2 El nivel de significacin.......................................................................................................... 124
11.3 Tipos de errores. ................................................................................................................... 124
11.4 Prueba de hiptesis para la media de una sola poblacin .................................................... 124
A. Muestreo a partir de poblaciones con distribucin normal y variancia conocidas .............. 125
B. Muestreo a partir de una poblacin con distribucin normal y variancia desconocida ....... 128
C. Muestreo a partir de una poblacin que no presenta una distribucin normal .................. 131
11.5 PRUEBA DE HIPTESIS PARA LA PROPORCIN DE UNA SOLA POBLACIN .......................... 133
XII Anlisis de Asociacin .................................................................................................................. 135
12.1 Distribucin Ji cuadrada: Prueba de independencia ............................................................. 135
XIII. Regresin simple ........................................................................................................................ 138
13.1 Regresin ............................................................................................................................... 138
XIV. El modelo de correlacin. .......................................................................................................... 141
14.1 Correlacin ............................................................................................................................ 141
14.2 El coeficiente de correlacin. ................................................................................................ 141
UNSCH
Bioestadstica I
14.3 El coeficiente de determinacin. .......................................................................................... 144

REFERENCIA BIBLIOGRFICA ............................................................................................................. 144
UNSCH
Bioestadstica I
I.
BIOESTADSTICA
1.1.
Estadstica y bioestadstica
Daniel indica que la estadstica es la disciplina que se ocupa de 1) la recoleccin,
organizacin, resumen y anlisis de datos, y 2) la obtencin de inferencias a partir de un
volumen de datos cuando se examina solo una parte de estos.
La Bioestadstica, en el mbito de la Estadstica, hace referencia a mtodos estadsticos y
matemticos que se aplican al anlisis de datos provenientes de las ciencias biolgicas.
Debido a que las cuestiones a investigar, cuando se trabaja con personas, animales,
plantas u otros organismos vivos, son de naturaleza muy variada. Incluye no slo
herramientas para el anlisis estadstico descriptivo de datos biolgicos sino tambin
el uso de numerosos procedimientos y algoritmos de clculo y computacin para el anlisis
inferencial, el reconocimiento de patrones en los datos y la construccin de modelos que
permiten describir y analizar procesos aleatorios (Balzarini et al, 2011).
1.2.
Objeto de estudio.
El objetivo de la estadstica es investigar y evaluar la naturaleza y el significado de la
informacin contenida en los datos (Daniel).
Es necesario tener en cuenta que la estadstica se ha propuesto como instrumento de
investigacin. La investigacin puede ser en gentica, mercadeo, nutricin, agronoma, etc.
Es el campo de investigacin, no el instrumento, el que debe proporcionar los porqu del
problema de investigacin. Aveces, este hecho se pasa por alto y los usuarios olvidan que
tienen que pensar, que la estadstica no puede pensar por ellos. La estadstica, sin embargo,
ayuda a los investigadores a disear experimentos y a evaluar objetivamente los datos
numricos resultantes. Es nuestra intencin proporcionar a los investigadores instrumentos
estadsticos tiles para este fin.
1.3.
Estadstica descriptiva y estadstica inferencial.
La Estadstica puede ser dividida en:
La Estadstica Descriptiva. Parte de la

estadstica que se ocupa de la
clasificacin, descripcin, simplificacin y
presentacin de los datos. Comprende el
uso de tablas de frecuencias, grficos y el
clculo de medidas estadsticas.
La Estadstica Inferencial. Parte de la

estadstica que se ocupa de la estimacin
y prueba de hiptesis de los parmetros
de una poblacin, a partir de una muestra
aleatoria extrada de dicha poblacin.
Ejemplo
Se desea hacer un estudio sobre el consumo
de drogas en el distrito de Comas. Con esta
finalidad se extrae una muestra aleatoria de
240 adolescentes del distrito de Comas en el
2013 y se les aplica la encuesta respectiva.
Se aplica la Estadstica Descriptiva para recopilar, clasificar, organizar y presentar en una
tabla de frecuencias y en forma grfica los datos recogidos de una encuesta.
UNSCH
Bioestadstica I
Distribucin de la frecuencia de consumo de droga

Frecuencia
consumo
de
Nmero
Porcentaje
No
100
41.7
Interdiario
80
33.3
Diario
40
16.7
A veces
20
8.3
Total
240
100.0
Fuente: UNAL La Molina Dpto. de Estadstica e Informtica
45.0
41.7
40.0
33.3
35.0
30.0
25.0
20.0
16.7
15.0
8.3
10.0
5.0
0.0
No
Interdiario
Diario
A veces
FRECUENCIA
Fuente: UNAL La Molina Dpto. de Estadstica e Informtica
Figura. Frecuencia de consumo de droga.

Tambin se calcula medidas estadsticas. La edad promedio de la muestra de los
adolescentes que consumen droga es 20.5 aos.
Se aplica la Estadstica Inferencial para estimar la proporcin de adolescentes que
consumen drogas diariamente del distrito de Comas, cuya estimacin fue de 16.7%. Para
probar la hiptesis si esta proporcin es mayor al 17%.
1.4. Conceptos bsicos

1) Poblacin. Es el conjunto de unidades elementales con caractersticas similares. El
estudio de toda la poblacin constituye un censo.
Ejemplo
1. El conjunto de todos los estudiantes de una institucin educativa.
2. El conjunto de todos los meses de venta en una casa comercial entre el 2007- 2011.
UNSCH
Bioestadstica I
3. El conjunto de personas que viven en el Distrito de Ayacucho.

2) Unidad Elemental. Es un elemento particular de la poblacin o muestra.
Ejemplo
1. Un estudiante de la Institucin educativa.
2. Cada mes de venta en una casa comercial entre el 2007-2011.
3. Cada persona que viven en el Distrito de Ayacucho.
3) Muestra. Es un subconjunto de la poblacin. Al proceso de obtencin de una muestra
se le llama "muestreo". Para que una muestra sea representativa debe cumplir con las
siguientes condiciones:
a) Debe haber sido obtenida al azar.
b) Su tamao y sus elementos deben haber sido seleccionados aplicando un mtodo de
muestreo.
Ejemplo
1. 120 estudiantes de la institucin educativa.
2. 45 meses de venta en una casa comercial entre el 2007-2011.
3. 80 personas que viven en el Distrito de Ayacucho.
4) Variable. Son las caractersticas que toman diferentes valores cuando son evaluadas en
las unidades elementales de una poblacin o muestra. Se representan por las ltimas
letras maysculas del alfabeto, por ejemplo: X, Y, Z, W, P, T, X1, X2, Y1, etc.
Tipos de Variables
A. Variables Cuantitativas. Son aquellas que se expresan en forma numrica y tiene
sentido realizar operaciones matemticas con ellas. Pueden ser del tipo:
Variable Cuantitativa Continua. Son aquellas que pueden tomar cualquier valor
numrico dentro de un intervalo continuo. Se utiliza un instrumento de medicin
para generar sus valores: balanza, termmetros, test, escalas, cronmetros,
winchas, etc.
Ejemplo
1. Peso del langostino de ro (en gr)
2. Tiempo para encontrar estacionamiento en un centro comercial (minutos)
3. Gasto mensual familiar en atencin mdica (nuevos soles)
Variable Cuantitativa Discreta. Son aquellas que cumplen con la condicin de

que entre un valor cualesquiera y su consecutivo no es posible que existan
valores intermedios. Generalmente son representados por el conjunto de
nmeros enteros. Las observaciones cuantitativas discretas se registran por
conteo.
Ejemplo
1. Nmero de artculos defectuosos en un lote de 20
2. Nmero de clientes atendidos cada 20 minutos en una ventanilla
3. Nmero de predios que posee un agricultor de un valle
B. Variable Cualitativa. Son aquellas que permiten que una unidad elemental pueda
ser clasificada como poseedora o no de cierta cualidad, propiedad o atributo. No tiene
UNSCH
Bioestadstica I
sentido realizar operaciones matemticas con ellas. Son aquellas cuyos valores
posibles son atributos o categoras.
Variable Cualitativa Nominal. Son aquellas cuyos valores (cualidades, propiedades o
atributos) no son factibles de ser clasificados a travs de un criterio de orden o
jerarqua. Sus valores posibles no tienen un orden de importancia.
Ejemplo
1. Sexo de los estudiantes (Masculino o Femenino)
2. Estado civil de una persona (Soltero, Casado, Divorciado, Viudo o Conviviente)
3. Marca de una computadora (A, B, C o D)
4. Marca de Automvil (Toyota, Chevrolet, Mercedes Benz, etc...)
Variable Cualitativa Jerrquica u Ordinal. Son aquellas donde s se puede
establecer un criterio de orden o jerarqua entre sus atributos de la variable.
Ejemplo
1. Nivel de instruccin (Sin instruccin, Primaria, Secundaria o Superior)
2. Nivel socioeconmico de un cliente (Alto, Medio o Bajo)
3. Calificacin de un servicio (Bueno, Regular o Malo)
4. Rango Militar (Cabo, Sargento, Coronel)
Variable aleatoria?
Otros autores hacen uso de la definicin de variables aleatorias, que en realidad se tratan
de las variables cuantitativas, pudiendo ser stas discretas y continuas. Pondremos nfasis
en la aleatoriedad, por lo tanto siempre que se determina la estatura, el peso o la edad de
un individuo, el resultado frecuentemente se denomina valor de la variable respectiva.
Cuando los valores se originan como resultado de factores aleatorios (al azar), que no
pueden predecirse con exactitud y anticipacin, la variable se llama variable aleatoria. Un
ejemplo de variable aleatoria es la estatura de los adultos; cuando nacen los nios no es
posible predecir con exactitud la estatura que tendrn en su edad adulta; la estatura que
alcanza un adulto es el resultado de muchos factores genticos y ambientales. Los valores
resultantes de los procedimientos de medicin se denominan observaciones o medidas.
Variable aleatoria discreta (Variable cuantitativa discreta)
Entre los ejemplos de variables aleatorias discretas: El nmero de admisiones diarias
en un hospital general es una variable aleatoria discreta, puesto que el nmero de
admisiones por da debe representarse con nmeros enteros tales como 0, 1, 2 o 3. El
nmero de admisiones en un da determinado no puede ser 1.5, 2.997 o 3.333. El
nmero de caries, amalgamas o prdida de dientes por nio en una escuela primaria
es otro ejemplo de una variable discreta.
Variable aleatoria continua (variable cuantitativa continua)
Entre los ejemplos de variables continuas se hallan las diversas mediciones que
pueden hacerse en individuos tales como su estatura, peso y dimetro craneano. Sin
importar cun cerca estn las estaturas de dos personas, tericamente siempre es
posible encontrar otra persona cuya estatura se encuentre entre las dos estaturas de
referencia.
Ahora bien, debido a las limitaciones de los instrumentos de medicin disponibles, las
observaciones sobre variables que son inherentemente continuas se registran como si
fueran discretas. La estatura, por ejemplo, normalmente se redondea metros o centmetros
completa ms cercanos, mientras que si se cuenta con el instrumento de medicin
adecuado, esa medida puede hacerse tan precisa como se desee.
10
UNSCH
Bioestadstica I
Ejemplos:
1. Decir cules de estos datos son discretos y cules continuos:
(a) Nmero de acciones vendidas un da en la Bolsa de Valores.
(b) Temperaturas medidas en un observatorio cada media hora.
(c) Vida media de los tubos de televisin producidos por una fbrica.
(d) Ingresos anuales de los profesores de Enseanza Media.
(e) Longitudes de 1000 tornillos producidos en una empresa.
Solucin
(a) Discretos; (b) continuos; (c) continuos; (d) discretos; (e) continuos.
2. Dar el dominio de las siguientes variables y decir cules son continuas:
(a) Nmero G de galones (gal) de agua en una lavadora.
(b) Nmero B de libros en una estantera.
(c) Suma S de los puntos obtenidos al lanzar un par de dados.
(d) Dimetro D de una esfera.
(e) Pas P de Europa.
Solucin
(a) Dominio: Cualquier valor entre 0 gal y la capacidad de la lavadora. Variable: Continua.
(b) Dominio: 0, 1, 2, 3,... hasta el nmero total de libros que caben en la estantera. Variable:
Discreta.
(c) Dominio: Los puntos de un dado pueden ser 1. 2, 3, 4, 5 6. Luego la suma de dos
dados puede ser 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 12, que es el dominio de S. Variable: Discreta.
(d) Dominio: Todos los valores positivos. Variable: Continua.
(e) Dominio: Francia, Italia, ..., etc., que pueden representarse numricamente como 1.
2, Variable: Discreta.
5) Observacin. Es el valor posible que toma una variable. A las observaciones se les suele
representar con las letras minsculas subindicadas, como por ejemplo x, y, zi
Ejemplo
1. X = Peso del langostino de ro (en gr). Observaciones:
x1= 2.5, x2 = 3.0,..,x10 = 3.2
2. Y = Calificacin de un servicio. Observaciones: .y1 = Bueno,y2 = Regular,y3 = Malo
6) Parmetro. Es una medida estadstica para describir el comportamiento de una variable
en la poblacin. Son calculadas con los datos de toda la poblacin. Es un valor constante.
Se representan con letras griegas.
Ejemplo
1. Suponga que el nmero promedio de cocinas vendidas en todos los meses de venta es
15.4 ( = 15.4).
2. El Censo Nacional 2007: XI de Poblacin y VI de Vivienda indica que en el grupo edad
de 20 a 29 aos, el 1.4% de los hombres no sabe leer y escribir mientras que el 3.1% de
las mujeres no sabe leer y escribir (1 = 0.014 y 2 = 0.031).
3. Suponga que en todo Brea la proporcin del nivel de instruccin result:
11
UNSCH
Bioestadstica I
7) Valor estadstico o Estadgrafo. Es una medida para describir el comportamiento de una

variable en la muestra. Se calculan con los datos obtenidos de una muestra. Son valores
variables (varan de muestra a muestra). Los estadsticos sirven para estimar a los
parmetros. Se representan con letras latinas.
Ejemplo
1. En una muestra de 30 meses de venta se encontr que el nmero promedio de cocinas
vendidas fue de 14.9 ( X = 14.9) .
2. En la encuesta nacional de hogares (ENAHO) indica que el 1.1% de los hombres no sabe
leer y ni escribir (p = 0.011) .
3. Suponga que en distrito de Brea se ha seleccionado una muestra de 500 personas
encontrndose los siguientes resultados:
1.5 Importancia de la Estadstica

Ya hemos visto que la Estadstica se encuentra ligada a nuestras actividades cotidianas.
Sirve tanto para pronosticar el resultado de unas elecciones, como para determinar el
nmero de ballenas que viven en nuestros ocanos, para descubrir leyes fundamentales
de la Fsica o para estudiar cmo ganar a la ruleta.
La Estadstica resuelve multitud de problemas que se plantean en ciencia:
Anlisis de muestras. Se elige una muestra de una poblacin para hacer inferencias
respecto a esa poblacin a partir de lo observado en la muestra (sondeos de
opinin, control de calidad, etc).
Descripcin de datos. Procedimientos para resumir la informacin contenida en un
conjunto (amplio) de datos.
Contraste de hiptesis. Metodologa estadstica para disear experimentos que
garanticen que las conclusiones que se extraigan sean vlidas. Sirve para
comparar las predicciones resultantes de las hiptesis con los datos observados
(medicina eficaz, diferencias entre poblaciones, etc).
Medicin de relaciones entre variables estadsticas (contenido de gas hidrgeno
neutro en galaxias y la tasa de formacin de estrellas, etc)
Prediccin. Prever la evolucin de una variable estudiando su historia y/o relacin
con otras variables.
12
UNSCH
Bioestadstica I
1.6 La bioestadstica en la investigacin cientfica.

La estadstica es un instrumento aplicable en el mtodo cientfico, para el cual fue
desarrollada. Su aplicacin particular est en los muchos aspectos del diseo de un
experimento, desde el plan inicial para la recoleccin de los datos, y en el anlisis de los
resultados a partir de los datos resumidos, hasta la evaluacin de la incertidumbre de toda
la inferencia extrada de ellos.
De una forma esquemtica, el proceso experimental suele desarrollarse siguiendo el
siguiente esquema: Definir la pregunta o problema a resolver. Cuanto ms claro y definido
sea el objetivo del experimento, mucho ms fcil ser realizar su planificacin y ejecucin.
Obtener informacin y recursos. Una vez definido el objetivo del experimento, es

necesario elaborar un plan de trabajo para poder alcanzarlo. Hay que identificar qu
equipos son necesarios, qu cantidades hay que medir, y de qu manera se va a
realizar el experimento.
Formular hiptesis, acerca de los resultados de nuestro experimento. Hacerlo antes
de su ejecucin evita el sesgo personal de identificar los resultados que ya se
conocen como objetivos iniciales (no debemos engaarnos a nosotros mismos).
Realizar el experimento y obtener las medidas. Esta tarea se subdivide en varios
pasos:
Preparacin: el equipo debe ser puesto a punto para su utilizacin. Si el
experimento requiere la utilizacin de aparatos con los que no estamos
familiarizados, es necesario leer atentamente los manuales de utilizacin, e
incluso consultar a experimentadores con experiencia previa en su manejo.
Todo ello evita perder tiempo y cometer errores de bulto, a la vez que
preserva la integridad del equipo (y la nuestra!).
Experimentacin preliminar: suele ser muy aconsejable realizar una
pequea experimentacin de prueba antes de iniciar la toma definitiva de
medidas. Esto facilita el uso correcto del equipo instrumental, permitiendo
identificar los aspectos ms difciles o en los que resulta ms fcil cometer
errores.
Toma de datos: el trabajo cuidadoso y detallado son fundamentales en
todo proceso experimental. Ejecutar dicha labor siguiendo un plan de
trabajo bien definido resulta bsico. No hay nada ms frustrante que
descubir, tras largas horas de medidas, que hemos olvidado anotar algn
parmetro esencial o sus unidades. En este sentido resulta imprescindible
tener presentes varias cuestiones
Cules son las unidades asociadas a cada medida?
Cul es la incertidumbre asociada?
Qu variabilidad presentan las medidas?
Cmo puedo tener una idea del orden de magnitud de una medida
antes de realizarla y saber as que los resultados que se van
obteniendo son razonables?
Qu informacin debe ser incluida en la tabla de datos?
Comprobacin de la repitibilidad: siempre que sea posible, todo
experimento debera repetirse varias veces para comprobar que los
resultados obtenidos son repetibles y representativos. Y aunque,
obviamente, la repeticin de un experimento no proporciona exactamente
los mismos nmeros, discrepancias muy grandes deben alertarnos acerca
de la existencia de efectos sistemticos que pueden estar distorsionando el
experimento.
13
UNSCH
Bioestadstica I
Analizar los datos: una vez obtenidas las medidas es necesario su tratamiento
estadstico para poder obtener magnitudes (e incertidumbres asociadas)
representativas del objeto de nuestro estudio.
Interpretar los datos y extraer conclusiones que sirvan como punto de partida para
nuevas hiptesis. El xito de esta interpretacin depender, bsicamente, de la
calidad de las medidas y de su anlisis.
Publicar los resultados. Los resultados de cualquier proceso experimental deben
ser comunicados de manera clara y concisa. Esto incluye desde un sencillo informe
de laboratorio, como el que se exigir en los diversos laboratorios en los que se
trabajar durante la licenciatura de Fsicas, hasta la publicacin de un artculo
cientfico en una revista reconocida.
Referencias bibliogrficas
Balzarini Mnica; Di Rienzo Julio; Tablada Margot; Gonzalez, Laura; Bruno Cecilia;
Crdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadstica y Biometra.
Editorial Brujas. Argentina.
Gua del curso de estadstica general. 2016. Departamento estadstica e informtica.
UNALM
14
UNSCH
Bioestadstica I
II.
LOS DATOS
2.1.
Observacin
Las observaciones constituyen la materia prima con la cual trabajan los investigadores. Para
que se pueda aplicar la estadstica a esas observaciones stas deben estar en forma
numrica.
-
En el mejoramiento de cultivos, los nmeros bien pueden ser rendimientos por

parcela.
En la investigacin mdica, pueden ser tiempos de recuperacin bajo varios
tratamientos.
En la industria, pueden ser cantidad de defectos en varios lotes de un artculo
producido en una lnea de montaje.
Tales nmeros constituyen datos y su caracterstica comn es la variabilidad o variacin.

2.2.
Datos
Daniel indica que los datos son la materia prima de la estadstica. Para este propsito defini
a los datos como nmeros. Las dos clases de nmeros que se utilizan en estadstica son
nmeros que resultan de la toma en el sentido literal del trmino de medidas, y aquellos
que resultan del proceso de conteo.
Por ejemplo, cuando una enfermera pesa al paciente o le toma la temperatura, se obtiene la
medida que consiste en una cantidad, por ejemplo 70 kilogramos o 37 grados Centgrados.
Un tipo bastante diferente de nmeros se obtiene cuando el administrador de un hospital
cuenta el nmero de pacientes, quiz 20, dados de alta en un da. Cada uno de los tres
nmeros es un dato (datum) y los tres juntos son datos.
REDONDEO DE DATOS
El resultado de redondear un nmero como 72.8 en unidades es 73, pues 72.8 est
ms prximo de 73 que de 72. Anlogamente, 72.8146 se redondea en centsimas (o
sea con dos decimales) a 72.81, porque 72.8146 est ms cerca de 72.81 que de
72.82.
Al redondear 72.465 en centesimas nos hallamos ante un dilema, ya que est
equidistante de 72.46 y de 72.47. Se adopta en tales casos la costumbre de redondear
al entero par que preceda al 5. As pues, 72.465 se redondea a 72.46, 183.575 se
redondea a 183.58 y 116.500.000 se redondea en millones a 116,000,000. Esta
estrategia es particularmente til para minimizar los errores de redondeo acumulados
cuando se efecta un gran nmero de operaciones (vase Prob. 1.4).
2.3.
Recoleccin de datos
Levine y Berenson, indican que en muchas ocasiones, los datos son medidas que se
obtienen de los elementos de una muestra, y las muestras se toman de la poblacin, de tal
forma que sean lo ms representativas posible. La tcnica ms comn para asegurar una
representacin adecuada es usar una muestra aleatoria.
2.4.
Sistema y fuentes de informacin
El desempeo de actividades estadsticas obedece a la necesidad de responder a diversas
preguntas. Por ejemplo, los mdicos probablemente quieran encontrar respuestas a
preguntas con respecto a la utilidad relativa de procedimientos de tratamiento alternativos.
Los administradores posiblemente quieran responder a preguntas respecto a reas de
inters como el espritu de equipo de los empleados o el uso de las instalaciones. Cuando
se determina que el enfoque adecuado para buscar una respuesta a la pregunta requiere
15
UNSCH
Bioestadstica I
del uso de la estadstica, se comienza a investigar datos apropiados que sirvan como la
materia prima en la investigacin. Estos datos normalmente estn disponibles de una o ms
fuentes como las siguientes:
1. Registros rutinarios. Es difcil imaginar algn tipo de organizacin que no lleve registros
de la operacin diaria de sus actividades. Mientras que los registros clnicos de un hospital,
por ejemplo, contienen una inmensa cantidad de informacin acerca de los pacientes, los
registros contables de la institucin contienen datos en abundancia sobre las actividades
financieras del hospital. Cuando surge la necesidad de tener datos, se debe buscar primero
en los registros que se llevan rutinariamente.
2. Encuesta. Si los datos necesarios para contestar una pregunta no estn disponibles a
partir de los registros almacenados de manera rutinaria, la fuente lgica puede ser una
encuesta. Por ejemplo, suponga que el administrador de una clnica desea obtener
informacin respecto a la forma de transporte que utiliza el paciente para visitar la clnica. Si
la forma de admisin no contiene una pregunta acerca del transporte, es posible llevar a
cabo una encuesta entre los pacientes para obtener esta informacin.
3. Experimentacin. Frecuentemente, los datos necesarios para responder una pregunta
estn disponibles slo como resultado de la experimentacin. Tal vez una enfermera quiere
saber qu estrategia es mejor para maximizar el seguimiento de las indicaciones mdicas
por parte del paciente. La enfermera podra conducir un experimento en el que se prueben
diferentes estrategias para motivar el cumplimiento del tratamiento en distintos pacientes. La
evaluacin subsecuente de las respuestas a las diversas estrategias puede capacitar a la
enfermera para decidir cul es ms efectiva.
4. Fuentes externas. Los datos necesarios para responder a una pregunta pueden ya existir
como informes publicados, bancos de datos disponibles o en la literatura de investigacin.
En otras palabras, uno se puede encontrar con que alguien ms ya plante la misma
pregunta y que la respuesta que obtuvo puede aplicarse a la situacin presente.
2.5.
Poblacin
Habitualmente se considera a una poblacin como una coleccin de entidades, por lo
general personas. Sin embargo, una poblacin o coleccin de entidades puede estar
compuesta de animales, mquinas, plantas o clulas. Una poblacin de entidades se define
como la coleccin ms grande de entidades de inters en un momento particular. Si se toma
la medida de alguna variable para cada una de las entidades en una poblacin, se obtiene
una poblacin de valores para esa variable. Por lo tanto, una poblacin de valores se puede
definir como la mayor coleccin de valores para una variable aleatoria, los cuales son de
inters en un momento particular. Por ejemplo, si se tiene inters en conocer el peso de
todos los nios inscritos en el sistema de educacin primaria del estado, la poblacin est
formada por todos esos pesos. Si se tiene inters slo en el peso de los estudiantes inscritos
en el primer grado, se tiene una poblacin diferente, compuesta por los pesos de los
estudiantes de primer grado. Por lo tanto, las poblaciones se determinan o definen con base
en el campo de inters. Las poblaciones pueden ser finitas o infinitas. Si una poblacin de
valores consiste en un nmero fijo de esos valores, se dice que la poblacin es finita. Si, por
otra parte, una poblacin consiste en una sucesin interminable de valores, entonces es una
poblacin infinita.
2.6.
Muestra
Una muestra puede definirse simplemente como una parte de una poblacin. Suponga que
una poblacin se compone de los pesos de todos los nios inscritos en el sistema de
16
UNSCH
Bioestadstica I
educacin primaria del estado, y se escoge para el anlisis slo una fraccin de los nios;
entonces se tiene nicamente una parte de la poblacin, es decir, se tiene una muestra.
2.7.
Elaboracin de los datos
Steel y Torrie (1988) mencionan que ha sido ampliamente demostrado que no se puede
tomar una muestra aleatoria sin emplear un proceso mecnico. En el proceso usado para
obtener una muestra aleatoria o para introducir la aleatoriedad en un experimento o
encuesta, por lo general interviene una tabla de nmeros aleatorios, como la tabla A.1. Esta
tabla est formada por los dgitos 0, 1, 2, 3, 4, 5, 6, 7, 8 y 9 distribuidos en una tabla de 100
por 100, dando lugar a 10,000 dgitos aleatorios. Estos nmeros se obtuvieron en una
mquina y no hay razn para pensar que algn nmero apareciera con ms frecuencia que
otro, ni que alguna sucesin de nmeros fuese ms frecuente que otra, excepto por el azar.
Hay 1,015 ceros, 1,026 unos, 1,013 doces, 975 treces, 976 cuatros, 932 cincos, 1,067 seis,
1,013 sietes, 1,023 ochos, 960 nueves; 5,094 son pares y 4 906 son impares. Ilustremos el
uso de la tabla tomando una muestra aleatoria de 10 observaciones de la tabla 4.1. Los
datos de la tabla 4.1 se han clasificado de acuerdo con la magnitud asignndoles nmeros
de orden. La organizacin por orden no es necesaria para extraer muestras al azar; el orden
de los nmeros aleatorios pudo haberse asignado en forma arbitraria.
Para obtener una muestra aleatoria de 10 pesos, tmense 20 dgitos consecutivos de la tabla
A.1 y regstrense como 10 pares. Estos sern los nmeros de orden de los pesos
correspondientes. Se puede comenzar en cualquier parte de la tabla, pero una forma ms
satisfactoria es sealar con el dedo en una de las pginas, leer los cuatro nmeros opuestos
ms cercanos a la punta del dedo y utilizar stos para localizar el punto de partida. As:
1.
En la primera pgina de la tabla A.1, el dedo encuentra el nmero 1188 (frente a 10
y son los primeros cuatro dgitos en la columna 20-24).
2.
Se va a la fila 11, columna 88, como punto de partida.
3.
Se registran en pares los 20 dgitos que se encuentran yendo hacia la derecha, y que
son 06, 17, 22, 84, 44 y 55; por comodidad, se baja una lnea y se procede al revs para
obtener los otros nmeros, o sea, 09,15,30 y 59.
4.
Se toman los nmeros de los elementos y se llevan a la tabla 4.1 para obtener las
correspondientes observaciones: 20, 30,32, 51, 39, 41, 25, 29, 35 y 42 libras.
Este es un procedimiento aleatorio que equivale a extraer de una bolsa con 100 frjoles
marcados con 100 contenidos de grasa de leche, volviendo cada frjol a la bolsa y mezclando
bien los frijoles antes de cada extraccin. Por esta razn, se dice que el muestreo es con
reemplazo. Ntese que cada elemento puede sacarse cualquier nmero de veces
17
UNSCH
Bioestadstica I
Tabla 4.1 Ordenamiento en libras, de la grasa de leche producida por 100 vacas Holstein
durante un mes
Los datos originales se modificaron para que se aproximaran a una distribucin normal con
=40 Ib y =12 Ib.
Unidad Libras Unidad Libras Unidad Libras Unidad Libras
0
10
25
33
50
40
75
47
1
12
26
33
51
40
76
48
2
14
27
34
52
41
77
48
3
15
28
34
53
41
78
48
4
17
29
34
54
41
79
49
5
18
30
35
55
41
80
49
6
20
31
35
56
42
81
49
7
22
32
35
57
42
82
50
8
23
33
36
58
42
83
50
9
25
34
36
59
42
84
51
10
26
35
36
60
43
85
51
11
27
36
37
61
43
86
52
12
28
37
37
62
43
87
52
13
28
38
37
63
43
88
53
14
29
39
37
64
44
89
54
15
29
40
38
65
44
90
55
16
30
41
38
66
44
91
57
17
30
42
38
67
45
92
58
18
31
43
38
68
45
93
60
19
31
44
39
69
45
94
62
20
31
45
39
70
46
95
63
21
32
46
39
71
46
96
65
22
32
47
39
72
46
97
66
23
32
48
40
73
47
98
68
24
33
49
40
74
47
99
70
Fuente: Steel y Torrie (1988)
18
UNSCH
Bioestadstica I
19
UNSCH
Bioestadstica I
20
UNSCH
Bioestadstica I
21
UNSCH
Bioestadstica I
22
UNSCH
2.8.
Bioestadstica I
Mecanismos para presentar, tabular y graficar datos
La siguiente Tabla muestra el nmero de bushels (bu) de trigo y maz producidos en la

cooperativa PQR durante los aos 1975-1985. Con referencia a esa tabla, determinar el ao
o aos durante los cuales: (a) la produccin de trigo fue mnima, (b) la de maz fue mxima,
(c) se dio el mayor descenso en la produccin de trigo, (d) decreci la produccin de maz
respecto del ao anterior y creci la de trigo, (e) se produjo idntica cantidad de trigo y (f) la
produccin conjunta de trigo y maz fue mxima.
Ao
Nmero de
bushels de
trigo
Nmero de
bushels de
maz
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
200
185
225
250
240
195
210
225
250
230
235
75
90
100
85
80
100
110
105
95
110
100
Solucin
(a) 1976; (b) 1981 y 1984; (c) 1980; (d) 1978, 1982, 1983 y 1985; (e) 1977 y 1982, y 1978 y
1983; (f) 1983.
Representar los datos del Problema anterior usando: (a) grficos de trazos y (b) grficos de
barras.
Solucin
(a) La Figura muestra el grfico de trazos.
23
UNSCH
Bioestadstica I
300
Nmero de bushels
250
200
150
Trigo
Maz
100
50
0
1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985
Ao
(b) Grfico de barras.
Nmero de bushels
300
250
200
150
Trigo
100
Maz
50
0
1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985
Ao
Grfico de barras en componentes

400
Nmero de bushels
350
300
250
200
Maz
150
Trigo
100
50
0
1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985
Ao
24
UNSCH
Bioestadstica I
(a) Expresar la cantidad anual de bushels de trigo y maz del Problema como porcentajes
de la produccin total anual.
(b) Representar los porcentajes obtenidos en la parte (a).
Solucin
(a) En 1975 el porcentaje de trigo = 200/(200 + 75) = 72.7%, y el maz 100% 72.7% =
27.5%; etc. Los porcentajes se indican en la Tabla 1.5.
Ao
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
Porcentaje de trigo
72.70% 67.30% 69.20% 74.60% 75.00% 66.10% 65.60% 68.20% 72.50% 67.60% 70.10%
Porcentaje de maz
27.30% 32.70% 30.80% 25.40% 25.00% 33.90% 34.40% 31.80% 27.50% 32.40% 29.90%
(b) El grfico de tales porcentajes, Figura 1.11, se llama grfico de porcentajes en

componentes. Puede usarse un grfico similar al de la Figura 1.9.
100.0%
90.0%
80.0%
Porcentaje
70.0%
60.0%
50.0%
Maz
40.0%
Trigo
30.0%
20.0%
10.0%
0.0%
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
Ao
Ejemplo: Las reas de los continentes se recogen en la siguiente Tabla. Representar los
datos grficamente.
Tabla. reas de los continentes
Continente
Asia
Amrica
frica
Antrtida
Europa
Oceana
Total
rea
km2
%
43810000
42330000
30370000
13720000
10180000
9008500
29%
28%
20%
9%
7%
6%
149418500 100%
Solucin
Primer mtodo
Grfico de barras en el que las barras son horizontales.
25
UNSCH
Bioestadstica I
REAS DE LOS CONTINENTES
Oceana
Continentes
Europa
Antrtida
frica
Amrica
Asia
0
10000000
20000000
30000000
40000000
50000000
rea en km2
Diagrama circular.
Oceana, 6%
Europa, 7%
Asia, 29%
Antrtida, 9%
frica, 20%
Amrica, 28%
2.9.
Distribucin de frecuencias (Tablas de frecuencia)
a. Organizacin para variables cualitativas (nominal o jerrquica)

La tabla de frecuencia es organizada por clases o categoras que corresponden a los
distintos valores (atributos) que toma la variable cualitativa.
Tabla de frecuencias
Clase o categora (f)
(fri)
Atributo 1
f1
fr1
Atributo 2
f2
fr2
.
.
.
Atributo k
fk
frk
n
1
(p)
P1
P2
Pk
100
26
UNSCH
Bioestadstica I
Donde:
k= Nmero de clases
n= Nmero de observaciones o unidades elementales
Frecuencia absoluta ( f i ). Es el nmero de observaciones que existen en la clase o
categora i.
k
Se cumple:
f
i 1
Frecuencia relativa ( fri ). Es la proporcin o porcentaje de obaservaciones con respecto

al total (n) que existen en l clase o categora i.
fri
fi
n
k
Se cumple:
fr 1
i
i 1
Frecuencia porcentual ( pi ). Es el porcentaje de observaciones con respecto al total (n)

que esxisten en la clase o categora i. se tiene:
pi fri 100
k
Se cumple:
p
i 1
100%
Tipo de grficos
Se pueden usar las frecuencias absolutas (fi) o relativas (fri) para elaborar dos tipos de
grficos
Grfico de barras vertical u horizontal
Grfico circular
Ejemplo. Se hizo una encuesta a una muestra de 45 clientes del Banco Comercial y se
obtuvo los siguientes resultados:
Ingreso
Mensual
Caso Edad
(miles de
S/.)
1
2
3
3,00
1,99
2,90
4
5
6
29
34
61
28
41
57
30
4,50
4,70
3,00
5,80
Tarjeta
N de
de
viajes
crdito
(mensual)
usada
3
3
2
0
1
2
4
Ta1
Ta2
Ta3
Ta2
Ta4
Ta1
Ta4
Monto
de
Lugar de uso de
deuda
tarjeta de crdito
(miles
de S/.)
centros comerciales
1,80
discotecas
1,10
0,60
restaurantes
grifos
2,70
centros comerciales
1,30
otros
0,80
grifos
0,64
Sexo
F
F
M
M
F
F
M
27
UNSCH
8
9
Bioestadstica I
13
14
15
43
45
35
42
28
28
24
35
16
42
6,60
Ta4
17
18
48
5,74
Ta1
discotecas
1,20
34
4,23
Ta5
centros comerciales
1,90
19
66
36
5,50
restaurantes
6,60
Ta1
Ta4
centros comerciales
2,35
1,90
M
F
59
3,85
Ta4
restaurantes
0,30
22
37
6,70
Ta6
centros comerciales
0,70
23
24
53
3,50
Ta5
restaurantes
0,67
35
8,80
Ta1
discotecas
0,50
25
63
10,00
Ta5
26
27
28
10,10
Ta1
restaurantes
centro de estudios
1,50
0,70
M
F
43
28
60
13,40
3,90
Ta2
Ta5
discotecas
otros
1,50
1,99
F
M
29
30
59
5,84
Ta5
restaurantes
0,60
63
3,50
Ta4
grifos
1,50
31
55
4,40
Ta2
centro de estudios
0,40
32
33
42
3,70
Ta5
1,80
51
4,50
Ta1
centros comerciales
otros
0,70
34
39
5,63
Ta1
otros
0,80
35
36
55
4,60
Ta1
discotecas
1,25
35
42
5,79
2,93
0
3
Ta5
Ta5
discotecas
grifos
1,60
0,20
M
M
38
39
36
6,60
Ta3
grifos
4,37
49
4,60
Ta3
centros comerciales
2,00
40
27
6,60
Ta4
grifos
0,90
41
42
36
2,90
Ta1
discotecas
0,47
42
4,69
Ta2
centros comerciales
0,80
43
25
3,99
Ta4
restaurantes
4,32
44
45
32
28
6,70
2,58
2
1
Ta1
Ta4
centros comerciales
otros
0,60
1,70
M
M
10
11
12
20
21
37
7,09
4,40
6,82
5,30
5,80
5,70
4,70
6,60
0
1
0
3
2
1
4
1
Ta3
Ta5
Ta2
Ta1
Ta4
Ta2
Ta4
Ta5
centro de estudios
centros comerciales
grifos
restaurantes
discotecas
grifos
restaurantes
0,90
1,40
2,46
1,10
0,20
0,80
F
M
F
F
M
F
discotecas
0,50
0,40
M
F
restaurantes
3,46
a.1 Organizacin de datos cualitativos nominales

Tabla de frecuencia de tipo de tarjeta de crdito usada
28
UNSCH
Bioestadstica I
N de
clase
1
2
3
4
5
6
Total
f3 = 4
Tarjeta de
crdito
Frecuencia Frecuencaia Frecuencia
usada
Absoluta
relativa
porcentual
Ta1
12
0.27
26.67
Ta2
7
0.16
15.56
Ta3
4
0.09
8.89
Ta4
11
0.24
24.44
Ta5
10
0.22
22.22
Ta6
1
0.02
2.22
45
1.00
100.00
indica que 4 de los clientes del Banco Comercial utilizan la tarjeta de crdito
Ta3
indica la proporcin de clientes del Banco Comercial que utilizan la tarjeta de
crdito
Ta1.
indica que el 15.56% de clientes del Banco Comercial utilizan la tarjeta de
crdito Ta2.
fr1 = 0.2667
P2 = 15.56
Grfico de barras
30.00
25.00
20.00
15.00
10.00
5.00
0.00
Ta1
Ta2
Ta3
Ta4
Ta5
Ta6
TARJETA DE CRDITO
En el grfico de barras, se aprecia que la tarjeta Tal es la de uso ms frecuente.

Grfico circular
2%
22%
27%
16%
24%
9%
Ta1
Ta2
Ta3
Ta4
Ta5
Ta6
29
UNSCH
Bioestadstica I
En el grfico circular, se aprecia que la tarjeta de crdito Ta6 es la de uso menos

frecuente.
a.2 Organizacin de datos cualitativos ordinales
Ahora veamos un caso que involucre una variable cualitativa jerrquica u odinal, pero
tambin veremos el uso de frecuencias acumuladas, para este caso estudiaremos los datos
de la base de datos de la tabla 2.1 (Blair et al 2008).
La tabla 2.1 muestra las respuestas (cticias) de 60 pacientes postoperados, a quienes se
solicit calicar su percepcin del dolor en una escala ordinal de cuatro puntos, como parte
de un estudio de manejo del dolor. Como puede verse, estos datos desorganizados son
bsicamente no informativos en lo que se reere a los patrones de respuesta. Algunos
niveles de dolor dominaron? Era comn el dolor severo? Qu proporcin de pacientes no
tena dolor? Qu proporcin sufra de dolor leve o de menor intensidad?
Con esta pequea cantidad de datos usted puede pasar unos minutos observando la tabla
para formular respuestas aproximadas a estas preguntas. Sin embargo, esta estrategia no
sera efectiva con un gran conjunto de datos. Aun con este nmero limitado de respuestas
sera conveniente reordenar los datos para facilitar la obtencin de las respuestas.
TABLA 2.1: Mediciones de dolor percibido de 60 pacientes.
Nmero de
paciente
Nivel de dolor
Nmero de
paciente
moderado
16
leve
31
ninguno
46
severo
ninguno
17
leve
32
moderado
47
ninguno
leve
18
moderado
33
ninguno
48
ninguno
ninguno
19
ninguno
34
ninguno
49
leve
severo
20
ninguno
35
leve
50
leve
ninguno
21
leve
36
ninguno
51
leve
moderado
22
ninguno
37
moderado
52
ninguno
ninguno
23
ninguno
38
leve
53
leve
ninguno
24
leve
39
ninguno
54
severo
10
leve
25
moderado
40
ninguno
55
moderado
11
leve
26
moderado
41
ninguno
56
ninguno
12
ninguno
27
ninguno
42
ninguno
57
ninguno
13
leve
28
ninguno
43
ninguno
58
ninguno
14
leve
29
leve
44
ninguno
59
leve
15
ninguno
30
severo
45
ninguno
60
ninguno
Nivel de dolor
Nmero de
paciente
Nivel de dolor
Nmero de
paciente
Nivel de dolor
Distribuciones de frecuencias absolutas

La tabla 2.2 muestra estos datos ordenados en distribuciones de frecuencias, frecuencias
relativas, frecuencias acumulativas y frecuencias relativas acumulativas. La primera columna
lista las categoras de la escala de menor a mayor. La segunda muestra la frecuencia de
respuesta para cada categora, que se obtiene mediante el conteo del nmero de veces que
ocurre cada respuesta en el conjunto de datos. La frecuencia, entonces, es el nmero de
respuestas de cada tipo.
30
UNSCH
Bioestadstica I
Tabla 2.2. Distribuciones de mediciones de dolor percibido.

Frecuencia
Frecuencia
Categora de Frecuencia
Frecuencia
absoluta
relativa
dolor
absoluta
relativa
acumulada
acumulada
Severo
4
0.07
60
1.00
Moderado
8
0.13
56
0.93
Leve
17
0.28
48
0.80
Ninguno
31
0.52
31
0.52
Distribuciones de frecuencias relativas

La tercer columna de la tabla 2.2 muestra la frecuencia relativa de respuesta, la cual se
obtiene dividiendo cada frecuencia entre el nmero total de respuestas (en este caso 60).
La frecuencia relativa, entonces, es la proporcin de respuestas de cada tipo.
Usted puede percibir rpidamente a partir de las dos primeras columnas que el mayor
nmero de pacientes (31) indic no haber tenido dolor. Este nmero representa 0.52 (o 52%)
del total de la muestra. El dolor severo fue menos comn, pues nicamente 4 personas (0.07
de la muestra) eligieron esta categora. En general, el nmero de respuestas en las
categoras disminuy conforme stas representaban niveles ms altos de dolor.
Distribuciones de frecuencias acumulativas
La columna de la frecuencia acumulativa muestra el nmero de pacientes que indicaron que
su dolor era menor o igual al nivel representado. Por ejemplo, 48 pacientes (31+17)
clasicaron su dolor como leve o menor que leve, mientras que 56 pacientes (31+17+8)
percibieron su dolor como moderado o menor que moderado. La frecuencia acumulativa se
obtiene mediante la suma de la frecuencia en una categora dada con las categoras que
indican un nivel menor de la variable medida.
Distribuciones de frecuencias relativas acumulativas
La frecuencia relativa acumulativa se calcula al dividir cada frecuencia acumulativa entre el
nme ro total de encuestados. Se puede ver que 0.80 de los pacientes creyeron que su dolor
era leve o de menor intensidad, mientras que 0.93 sintieron que su dolor era moderado o de
menor intensidad. La columna de la frecuencia relativa acumulativa, entonces, muestra la
proporcin de los pacientes que indicaron que su dolor fue menor que o igual que el nivel
representado.
Las distribuciones de frecuencias, frecuencias relativas, frecuencias acumulativas y
frecuencias relativas acumulativas que se muestran en la tabla 2.2 fueron calculadas para
una variable de nivel ordinal. Las primeras dos distribuciones tambin pueden utilizarse para
una variable de nivel nominal. Obviamente las distribuciones acumulativas no seran
apropiadas en este caso puesto que no hay un orden cuantitativo para una variable
de nivel nominal.
31
UNSCH
Bioestadstica I
Figura. Representacin en barras de las frecuencias absolutas, relativas, absolutas acumuladas y

relativas acumuladas.
Frecuencia absoluta
Frecuencia relativa
40
0.60
0.50
31
30
20
10
0.40
0.30
0.20
17
8
0.10
0.00
0
Severo Moderado
Leve
Ninguno
1.20
1.00
Leve
Ninguno
0.93
1.00
56
48
0.80
0.80
31
40
0.52
0.60
0.40
20
0.20
0.00
Severo Moderado
Leve
Ninguno
70
Severo Moderado
1.00
60
60
1.00
Leve
Ninguno
0.93
0.80
56
50
0.80
48
0.60
40
0.52
31
31
30
0.52
0.40
0.28
17
20
10
0.13
0.07
Frecuencia relativa acumulada
80
60
0.28
Severo Moderado
Frecuencia absoluta acumulada
60
0.52
0.20
0.07
0.13
0.00
Severo Moderado
Leve
Ninguno
Severo Moderado
Leve
Ninguno
b. Organizacin para variables cuantitativas discretas

La tabla de frecuencia es organizada por clases o categoras que corresponden a los
distintos valores (nmeros) que toma la variable cuantitativa discreta. Se usa cuando el
conjunto de valores posible de la variable cuantitativa discreta es pequeo.
Tabla de frecuencias
N de clase
Valor de la
(fi)
(fri)
(p)
variable
1
X1
f1
fr1
P1
2
X2
f2
fr2
P2
.
.
.
k
Xk
fk
frk
Pk
Total
n
1
100
32
UNSCH
Bioestadstica I
Tipo de grfico. Se elabora el grfico de bastones o varas con las frecuencias absolutas,
relativas o porcentuales.
Ejemplo 2. Organizacin de datos cuantitativos discretos
Tabla de frecuencias del nmero de viajes al mes
Frecuencia
N de
Absoluta
Frecuencia
viajes al
No de
Frecuencia Porcentual
mes
clientes fi Relativa fri
Pi
0
10
0.2222
22.22
1
15
0.3333
33.33
9
2
0.2000
20.00
3
6
0.1333
13.33
4
5
0.1111
11.11
Total
45
1
100
Interprete:
f2 = 15
p1 = 22.22
Existen 15 clientes del Banco Comercial que hacen un viaje al mes.

El 22.22% de los clientes no han realizado viajes.
Grfico de bastones o varas

35.00
30.00
25.00
20.00
15.00
10.00
5.00
0.00
0
VIAJES
En el grfico de varas, se aprecia que en la variable nmero de viajes al mes, el nmero 1

(un viaje al mes) es el ms frecuente.
33
UNSCH
Bioestadstica I
c. Organizacin para variables cuantitativas continuas

El conjunto de datos es agrupado por intervalos de clase que conforman las clases o
categoras de la tabla de frecuencias.
N de Intervalos
clases
de clase
Marca
Frec.
de Absoluta
Frec.
Frec.
Relativa Porc.
clase
[LI-LS>
X'i
Frec.
Frec.
Acumulada Acumulada
Frec.
Acum.
Absoluta
Relativa
Porc.
fi
fri
Fri
Pi
[LI1-LS1>
X'1
f1
fr1
p1
F1
Fr1
P1
2
.
.
.
[LI2-LS2>
X'2
f2
fr2
p2
F2
Fr2
P2
[LIk-LSk]
X'k
fK
N
frK
pk
Fk
Frk
Pk
100
100
k
Total
Donde:
LI i = Lmite inferior de la clase i (Lmite cerrado)
LSi =Lmite superior de la clase i (Lmite abierto, salvo ltima clase que es cerrado)
Marca de clase ( X i' ). Es el punto medio del intervalo de clase. Se considerar como el valor
representativo de los valores que pertenecen al intervalo de clase.
'
Se calcula: X i
LI i LSi
o X i' X i'1 TIC , donde TIC es el tamao del intervalo de clase
2
Frecuencia porcentual ( pi ). Indica el porcentaje de observaciones o unidades elementales

k
que hay en la clase i. Se cumple:
p
i 1
100%
Frecuencia acumulada absoluta (Fi). Indica el nmero de observaciones o unidades

elementales que hay desde la primera clase hasta la clase i. se calcula por:
k
Fk fi f1 f 2 ... f k
i 1
Propiedad: Ft Fh
i h 1
fi , h t
Frecuencia Acumulada Relativa (Fri). Indica la proporcin de observaciones o unidades

elementales que hay desde la primera clase hasta la clase i. Se calcula por:
i
Fi
Fri
n
f
j 1
fri
j 1
34
UNSCH
Bioestadstica I
Propiedad: Frt Frh
i h 1
fri , h t
Frecuencia Acumulada Porcentual (pi). Indica el porcentaje de observaciones o unidades

elementales que hay desde la primera clase hasta la clase i.
Propiedad: pt ph
p,
i h 1
ht
Pasos para la construccin de una tabla de frecuencias:

Paso 1. Hallar el rango o amplitud (r). r = Mximo-Mnimo
Paso 2. Hallar el nmero de intervalos de clase (k). Se aplica la regla de Sturges: k = 1 +
3.3log(n). Eligiendo un valor: 3 k 15
Se aplica el redondeo normal a entero.
Si el primer dgito decimal: es 5, se redondea al entero Inmediato superior y si
es < 5, se considera el entero obtenido.
Paso 3. Hallar el tamao de Intervalo de Clase (TIC).
r
TIC
k
El nmero de decimales debe ser igual al de las observaciones.
Se aplica el redondeo por exceso. Si la posicin del decimal es 1, se redondea al
valor inmediato superior, de lo contrario no se redondea.
Paso 4. Hallar los lmites inferiores y superiores de cada intervalo de clase.
LI1 = Mnimo
LI2 = LI1 + TIC = LS1
LI3 = LI2 + TIC = LS2
LIk = LIk-1 + TIC = LSk-1
LS1= LI1 + TIC

LS2= LI2 + TIC
LS3= LI3 + TIC
LSk= LIk + TIC
Paso 5. Realizar el conteo del conjunto de datos, como el resultado de asignar cada
observacin a alguno de los intervalos de clase. Luego completar la tabla hallando
X i' , fi , fri , Fi , Fri
Tipos de grficos
Histograma. Se usan las frecuencias absolutas o relativas en el eje vertical y los intervalos
de clase en el eje horizontal.
Polgono. Se usan las frecuencias absolutas o relativas en el eje vertical y las marcas de
clase en el eje horizontal.
Ejemplo 3. Organizacin de datos cuantitativos continuos
Organicemos las observaciones de la variable ingreso mensual de los clientes (en miles de
nuevos soles).
Paso 1. Calcule el rango ( R ).
R = Xmax - Xmin
En el ejemplo R = 13.40 - 1.99 = 11.41
Paso 2. Determine el nmero de intervalos de clase (k). Utilice la regla de Sturges
35
UNSCH
Bioestadstica I
k = 1 + 3.3 log n = 1 + 3.3 log 45 = 6.4556

Redondeo estadstico: Se toma en consideracin el primer valor decimal, si es:
5 se redondea al entero inmediato superior < 5 se considera el entero obtenido
En nuestro ejemplo, k = 6.4556, estamos en el segundo caso, por lo que el nmero de clases
que se debe considerar es k=6.
Paso 3. Halle el tamao de los intervalos de clase (TIC)
r 11.41
TIC
1.90167
k
6
Redondeo por exceso: se toma en consideracin el nmero mayor de decimales que tienen
las observaciones. Considerando la posicin de este decimal, se presentan 2 casos:
Si existe alguna cifra significativa a la derecha de este valor, se redondea al valor
inmediato superior
Si no existe ninguna cifra significativa a la derecha de este valor, entonces no se realiza
ningn redondeo
TIC = 1.90167
Como las observaciones tienen 2 decimales en el TIC tambin se considerar con 2
decimales y como hay al menos un valor diferente de cero a la derecha de las centsimas
se incrementa en una centsima quedando TIC = 1.91
Paso 4. Construya la tabla de frecuencias.
Tener en cuenta que en la ltima clase el intervalo es cerrado en el lado derecho.
Tabla de frecuencias del ingreso mensual
N de
clases
Ingreso
mensual
[LI-LS>
Marca
de clase
X i'
Frec.
Abs. f
Frec.
Rel. fri
Frec.
Porc.
P
Frec.
Acum.
Abs. f
Frec.
Acum.
Rel. fri
Frec.
Acum.
Porc. P
[1.99 - 3.90>
2.945
11
0.2444
24.44
11
0.2444
24.44
[3.90 - 5.81>
4.855
20
0.4444
44.44
31
0.6888
68.88
[5.81 - 7.72>
6.765
10
0.2222
22.22
41
0.9110
91.10
[7.72 - 9.63>
8.675
0.0222
2.22
42
0.9332
93.32
[9.63 -11.54>
10.585
0.0444
4.44
44
0.9776
97.76
[11.54-13.45]
0.0222
2.22
1.000
100
1.0000
100
12.495
45
45
Interprete:
f2 = 20; 20 de los clientes tienen un ingreso mensual de por lo menos S/. 3900 pero menos
de S/. 5810.
fr4 = 0.0222; 0.0222 es la proporcin de clientes que ganan por lo menos S/. 7720 pero menos
de S/. 9630
p5 = 4.44; 4.44% de los clientes ganan por lo menos S/. 9630 pero menos de S/. 11540.
36
UNSCH
Bioestadstica I
F3 fi f1 f 2 f3 11 + 20 + 10 = 41; 41 de los clientes ganan mensualmente por lo
menos S/. 1990 pero menos de S/. 7720.

F5 - F2 = 44 - 31 =13
i 1
F5 - F2 =
f
i 3
f 3 f 4 f 5 10 + l + 2 = 13; 13 de los clientes ganan por lo menos S/. 5810
pero menos de S/. 11540

4
Fr4 =
fr
= fr1 + fr2 + fr3 + fr4 = 0.2444 + 0.4444 + 0.2222 + 0.0222 = 0.9332, indica que
i 1
0.9332 es la proporcin de clientes que ganan por lo menos S/. 1990 pero menos de S/. 9630.
Fr5 - Fr3 = 0.9776 - 0.9110 = 0.0666
5
Fr5 - Fr3 =
fr = fr
i
i4
+ fr5 = 0.0222 + 0.0444 = 0.0666, indica que 0.0666 es la proporcin de
los clientes que ganan por lo menos S/.7720 pero menos de S/.11540.
3
P3 =
p
i 1
= pl + p2 + P3 = 24.44 + 44.44 + 22.22 = 91.10, indica que el 91.10% de los clientes
tienen ingresos mensuales de por lo menos S/.1990 pero menos de S/.7720

P5 - P2 = 97.76 - 68.88 = 28.88
5
P5 - P2 =
p
i 3
=P3 + P4 + P5 =22.22 + 2.22 + 4.44 = 28.88, indica que el 28.88% de los
clientes de ese banco tienen ingresos mensuales por lo menos S/. 5810 pero menos de S/.
11540.
X 3' = 6.765 es el valor representativo de los clientes que ganan por lo menos S/.5810 pero
menos de S/.7720. Las diez observaciones (f3 = 10) que hay en la clase 3 son representadas
por el valor S/. 6765.
Histograma de frecuencias
50.00
45.00
40.00
35.00
30.00
25.00
20.00
15.00
10.00
5.00
0.00
2.945
4.855
6.765
8.675
10.585
12.495
INGRESO
En el histograma se puede apreciar que la clase ms frecuente es la segunda esto indica

que los ingresos ms frecuentes son de por lo menos S/. 3900 pero menores a S/. 5810.
Polgono de frecuencias
37
UNSCH
Bioestadstica I
50.00
45.00
44.44
40.00
35.00
30.00
25.00
24.44
22.22
20.00
15.00
10.00
5.00
2.22
0.00
2.945
4.855
6.765
8.675
4.44
10.585
2.22
12.495
INGRESO
En el polgono de frecuencias se observa que son pocos los clientes con Ingresos
mensuales altos.
50.00
45.00
40.00
35.00
30.00
25.00
20.00
15.00
10.00
5.00
0.00
2.945
4.855
6.765
8.675
10.585
12.495
INGRESO
Presentamos a continuacin un nuevo caso, la tabla 2.3 presenta una distribucin de

frecuencias de las presiones sanguneas sistlicas (cticias) de 144 adolescentes
moderadamente obesos. En esta tabla las frecuencias se relacionan con los valores de la
presin sangunea ms que con categoras discretas, como fue el caso en la tabla 2.2. Como
resultado, hay un gran nmero de valores y sus frecuencias. Esto puede causar dicultades
de interpretacin, especialmente cuando las frecuencias individuales son pequeas e
incluyen el cero. En estos casos a veces es til reducir el nmero de valores mediante la
formacin de grupos. Entonces se pueden dar distribuciones de frecuencias, frecuencias
relativas, frecuencias acumulativas y frecuencias relativas acumulativas para estos grupos
de valores en lugar de valores individuales.
La tabla 2.4 presenta distribuciones agrupadas para los datos de la presin sangunea.
Como puede observarse, los valores de presin sangunea se colocaron en intervalos que
tcnicamente se conocen como intervalos de clase. Las diversas distribuciones se basan
entonces en esos intervalos. Al reducir los datos en esta forma, los patrones de respuesta
38
UNSCH
Bioestadstica I
se distinguen con mayor facilidad. Pero el precio que se paga por la comodidad interpretativa
es la prdida de informacin.
Por ejemplo, mientras que es fcil ver que alrededor del 21.5% de los valores cae en el
intervalo 135-139, no hay informacin acerca de los valores individuales en este intervalo.
Al construir tablas de este tipo se deben responder dos preguntas relacionadas. En cuntos
intervalos se deben agrupar los valores y qu tan grandes debern ser los intervalos? Muy
pocos intervalos provocan la prdida de mucha informacin, mientras que muchos intervalos
hacen fracasar el propsito de resumir los datos. El tamao de los intervalos depender del
nmero de intervalos utilizados y viceversa. No existen reglas rgidas y rpidas al respecto.
En esencia, usted desear presentar los datos dndoles el mayor signicado posible. Sin
embargo, hay algunas reglas generales que sirven como gua. Una sugerencia comn es
que no debe haber menos de seis ni ms de 15 intervalos. Otra regla til es que, cuando sea
posible, se debe usar una anchura en los intervalos de clase de 5 unidades, de 10 unidades
o de algn mltiplo de 10 para que el resumen de los datos sea ms comprensible.
Paciente
10
11
12
13
14
15
Presiones sanguneas
86
90
92
92
93
95
95
95
96
96
97
97
98
98
99
Paciente
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
100
100
100
100
102
103
105
105
106
107
107
109
110
110
110
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
111
111
111
114
114
115
115
115
115
115
115
116
116
116
117
Presiones sanguneas
Paciente
Presiones sanguneas
Paciente
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
118
118
119
119
120
120
120
121
122
122
122
123
123
124
124
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
124
124
125
125
125
125
126
126
126
126
126
126
126
127
127
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
127
128
128
128
129
129
129
130
130
130
130
130
131
131
131
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
Presiones sanguneas
132
132
132
132
133
133
133
133
133
133
133
133
134
134
134
Paciente
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
Presiones sanguneas
134
134
135
135
135
135
135
135
135
135
136
136
136
137
137
Paciente
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
Presiones sanguneas
137
137
137
137
137
137
137
137
137
138
138
138
139
139
139
Paciente
136
137
138
139
140
141
142
143
144
Presiones sanguneas
139
139
139
140
140
140
140
143
143
Presiones sanguneas
Paciente
Presiones sanguneas
Paciente
Presiones sanguneas
Paciente
39
UNSCH
Bioestadstica I
TABLA 2.3: Distribucin de frecuencias de las presiones sanguneas de 144 adolescentes

moderadamente obesos.
PS
Frec.
PS
Frec.
PS
Frec.
PS
Frec.
143
128
113
98
142
127
112
97
141
126
111
96
140
125
110
95
139
124
109
94
138
123
108
93
137
11
122
107
92
136
121
106
91
135
120
105
90
134
119
104
89
133
118
103
88
132
117
102
87
131
116
101
86
130
115
100
129
114
99
Paso 1. Calcule el rango ( R ).

R = Xmax - Xmin
En el ejemplo R = 143 - 86 = 57
Paso 2. Determine el nmero de intervalos de clase (k). Utilice la regla de Sturges
k = 1 + 3.3 log n = 1 + 3.3 log 144 = 8.122596224
k=8
Paso 3. Halle el tamao de los intervalos de clase (TIC)
R 57
TIC
7.125
k
8
TIC = 8
TABLA 2.4: Distribuciones agrupadas de las presiones sanguneas sistlicas utilizando 8
intervalos.
N de
clases
Presin
sangunea
[LI-LS>
Marca
de clase Frec.
Abs. fi
X i'
Frec.
Rel. fri
Frec.
Porc.
Pi
Frec.
Acum.
Abs. fi
Frec.
Acum.
Rel. fri
Frec.
Acum.
Porc. Pi
1 [86-94>
90
0.035
3.47
0.035
2 [94-102>
98
14
0.097
9.72
19
0.132
13
3 [102-110>
106
0.056
5.56
27
0.188
19
4 [110-118>
114
18
0.125
12.50
45
0.313
31
5 [118-126>
122
21
0.146
14.58
66
0.458
46
6 [126-134>
130
36
0.250
25.00
102
0.708
71
7 [134-142>
138
40
0.278
27.78
142
0.986
99
8 [142-150]
146
0.014
1.39
144
1.000
100
144
100
40
UNSCH
Bioestadstica I
30.00
25.00
20.00
15.00
10.00
5.00
0.00
90
98
106
114
122
130
138
146
PRESIN SANGUNEA
Figura. Histograma y polgono de frecuencias de la presin sangunea.

El nmero y tamao de los intervalos es exible.
No siempre es necesario formar distribuciones agrupadas para variables continuas. Cuando
el nmero de valores no es muy grande, las distribuciones pueden basarse en datos no
agrupados.
Referencia bibliogrfica:
Balzarini Mnica; Di Rienzo Julio; Tablada Margot; Gonzlez, Laura; Bruno Cecilia;
UNALM
Blair R. Clifford y Richard A. Taylor. 2008. Bioestadstica. Pearson Educacin, Mxico, 2008
41
UNSCH
Bioestadstica I
Ejercicio. Elabore la tabla de frecuencias y el histograma de las edades de 169 individuos

que participan en un estudio de oxidacin de espartena y mefenitona.
Tabla. Arreglo ordenado de las edades de los individuos
18 18 19 19 20 21 21 21 22 22 22 22 22
22 23 23 23 23 23 23 23 24 24 24 24 24
24 24 24 24 25 25 25 25 26 26 26 26 26
26 26 26 26 26 26 27 27 27 27 27 27 27
27 27 27 28 28 28 28 28 28 28 29 29 29
29 29 29 29 29 30 30 30 30 30 30 30 30
30 30 31 31 31 31 31 31 31 32 32 32 32
32 33 33 33 34 34 34 34 34 35 36 36 36
37 37 37 37 37 38 38 38 38 38 39 39 39
40 40 40 40 40 40 41 41 41 42 42 42 42
43 43 43 44 44 44 45 45 45 46 46 47 47
47 47 48 48 48 48 48 48 49 49 50 50 50
51 51 52 52 53 53 53 53 56 61 62 63 63
Se quiere saber cuntos intervalos de clase se tienen en la distribucin de frecuencias de
datos y tambin se quiere saber qu tan amplios deben ser los intervalos.
Solucin: Para tener una idea del nmero de intervalos a utilizar, la aplicacin de la regla de
Sturges indica:
k 1 3.322(log169) 1 3.22(2.227886705) 8.17379518885603 8
Ahora, al dividir el rango entre 8 para darse una idea de la amplitud de los intervalos de
clase, se obtiene:
TIC
R 63 18 45
5.625
k
8
8
Es evidente que un intervalo de clase con una amplitud de o 10 es ms conveniente y

significativo para el lector. Suponga que se decide que sea 10. Ahora es posible construir
los intervalos. Puesto que el valor ms pequeo en la tabla es 18 y el mayor es 63, entonces
los intervalos inician con 10 y terminan con 69. Se obtienen los siguientes intervalos:
TABLA. Distribuciones de: frecuencia, frecuencia relativa, frecuencia acumulada y
frecuencia relativa acumulada de las edades de los sujetos.
Frecuencia
Intervalo
Marca de
Frecuencia Frecuencia relativa
de clase
clase
Frecuencia relativa
acumulada acumulada
10-19
14.5
4
0.0237
4
0.0237
20-29
24.5
66
0.3905
70
0.4142
30-39
34.5
47
0.2781
117
0.6923
40-49
44.5
36
0.213
153
0.9053
50-59
54.5
12
0.071
165
0.9763
60-69
64.5
4
0.0237
169
1
169
1
42
UNSCH
Bioestadstica I
Si el inters est centrado en la frecuencia relativa de los valores que caen entre 30 y
59, entonces se utiliza la columna de las frecuencias relativas acumuladas de la tabla 2.3.2
y se resta 0.4142 de .9763 para obtener 0.5621.
Histograma de Edades
70
60
Frecuencia
50
40
30
20
10
0
10
20
30
40
50
60
70
Edades
2.10 Diagrama de Tallos y Hojas

Un diagrama de tallos y hojas es un ingenioso artificio que ofrece una representacin
parecida a un histograma. La ventaja de este diagrama es que no slo muestran las
frecuencias sino que contienen los valores reales. A diferencia de las tablas de frecuencias
con este procedimiento ningn dato se pierde.
Pasos para elaborar un diagrama de tallos y hojas
Paso 1. Cada dato se divide en dos: la primera se llama tallo y la segunda hoja.
Paso 2. Cada tallo se forma con uno o ms dgitos iniciales de cada dato y las hojas se
forman con los dgitos restantes (generalmente de un solo dgito).
Paso 3. Los tallos se presentan en una columna ordenada de menor a mayor.
Paso 4. Las hojas se muestran en filas ordenadas y listadas a la derecha de su respectivo
tallo.
Nota.
En caso de datos decimales, al construir el diagrama de tallos y hojas el punto decimal
se pierde, por tal razn se acostumbra indicar unidades que los datos del tallo
representan. Por ejemplo para un dato: 4.12 Unidad=0.01
Es necesario pone todos los tallos consecutivos. Si no existe el dato, se pone el valor
del tallo y en la fila de hoja se deja en blanco.
Si es necesario se divide en dos hojas cada tallo, segn los rango: (0 - 4) y (5 - 9).
Ejemplo. Los siguientes datos corresponden a la estatura de una muestra de 30 alumnos
universitarios.
158, 159, 161, 161, 163, 163, 164, 166, 166, 167, 168, 168, 168, 169, 170, 170, 170, 171,
171, 171, 172, 173, 174, 174, 174, 174, 174, 177, 182, 191
43
UNSCH
Bioestadstica I
Salida de resultados en Minitab.

Diseo de tallo y hoja: Estatura
Tallo y hoja de C3 N
Unidad de hoja = 1.0
= 30
Tallos
Profundidad
Hojas
2
7
14
(13)
3
2
1
1
15
16
16
17
17
18
18
19
89
11334
6678889
0001112344444
7
2
1
El diagrama de tallos y hojas representa la estatura de 30 alumnos. Existen tres partes en

el grfico.
La primera columna representa la profundidad.
La segunda columna representa los tallos.
La ltima columna representa las hojas.

Cada dgito de las hojas representa una observacin.
El diagrama de tallos y hojas muestra 8 tallos con sus respectivas hojas. El primer tallo es
15 y la primera hoja es 8. La observacin correspondiente es 158 que se obtuvo juntando
los dgitos del tallo y de la hoja y se multiplica por la unidad de hoja (1581.0=158).
La primera columna (la profundidad) indica cuantas observaciones hay en esa lnea o
antes. El nmero 14 en la tercera lnea indica que hay 14 observaciones en esa lnea y en
las lneas anteriores (14 observaciones menores o iguales a 169). Hay una lnea especial,
la lnea que contiene la mediana. El valor que muestra es encerrado entre parntesis e
indica cuantas observaciones hay en esa lnea. A partir de la siguiente lnea que contiene
la mediana, la columna de profundidad indica cuantas observaciones hay en esa lnea y en
las lneas posteriores. El nmero 3 en la quinta lnea indica que hay 3 observaciones en
esa lnea y en las lneas posteriores (3 observaciones mayores o iguales a 177).
La sptima lnea muestra al tallo 18 (1 18 ); sin embargo no tiene ninguna hoja, lo que
significa que no hay ninguna observacin en ese tallo. (Un error muy frecuente es
considerar el tallo 18 y la hoja 0 y por consiguiente considerar la observacin 18.0 con lo
que se tendran 31 observaciones).
Salida de resultados en SPSS.
Estatura de 30 alumnos Stem-and-Leaf Plot
Frequency
Stem &
2.00
15
5.00
16
7.00
16
13.00
17
1.00
17
1.00
18
1.00 Extremes
Stem width:
Each leaf:
.
.
.
.
.
.
Leaf
89
11334
6678889
0001112344444
7
2
(>=191)
10.00
1 case(s)
44
UNSCH
Bioestadstica I
III.
ANLISIS E INTERPRETACIN DE DATOS
3.1.
Anlisis descriptivo.
Se estableci que la toma de mediciones y el proceso de conteo producen nmeros que

contienen informacin. El objetivo de la gente que aplica herramientas estadsticas a esos
nmeros es determinar la naturaleza de esa informacin. Esta tarea es mucho ms fcil si
los nmeros estn organizados y resumidos. Cuando se hacen las mediciones sobre
entidades de una poblacin o muestra, los valores resultantes estn disponibles para el
investigador o estadstico como una masa de datos desorganizados. Las mediciones que no
han sido organizadas, procesadas o manejadas de alguna otra forma se les llama datos
crudos (materia prima). A menos que el nmero de observaciones sea extremadamente
pequeo, es improbable que esos datos crudos proporcionen suficiente informacin hasta
que sean puestos en algn orden.
Veremos algunas tcnicas para organizar y procesar datos de tal manera que sea ms fcil
determinar qu informacin contienen. Lo ms actual en procesamiento de datos es el
clculo de un nmero individual que de alguna manera incluye informacin importante acerca
de los datos que sirvieron para calcularlo. A estos nmeros individuales utilizados para
describir datos se les llama medidas descriptivas.
3.2.
Medidas estadsticas
Es posible caracterizar cualquier conjunto de datos numricos por la medicin de sus

tendencia central, variacin y forma. La mayora de los conjuntos de datos presentan una
tendencia central a agruparse en torno a un valor central. Cuando se habla de un promedio,
o valor medio, o del valor ms comn o frecuente, se refiere de manera informal a la media,
la mediana y la moda, tres medidas de tendencia central.
La variacin mide la distribucin o dispersin de valores que conforman el conjunto de datos.
Una medida simple de la variacin es el rango, que es la diferencia entre los valores mximo
y mnimo. En la estadstica, son de uso ms comn la desviacin estndar y la varianza, dos
medidas que se explican ms adelante en esta seccin. La forma de un conjunto de datos
representa un patrn para todos los valores, desde el mnimo hasta el mximo.
Las medidas estadsticas pueden ser calculadas con los datos provenientes de una
poblacin (N: Tamao de la poblacin) o muestra (n: Tamao de la muestra) para evaluar
diferentes variables (cuantitativas y cualitativas), cuya finalidad es resumir y representar el
conjunto de datos.
Muestra (n): X1,X2,,Xn
Poblacin (N): Xl,X2,,XN
=> Valores Estadsticos

=> Parmetros
Las medidas estadsticas asumen las mismas unidades de medida de la variable en

estudio, con la excepcin de ciertas medidas estadsticas relativas.
Para las variables cuantitativas, se pueden calcular medidas estadsticas como: media,
mediana, moda, rango, rango intercuartlico, varianza, desviacin estndar, coeficiente
de variabilidad, y otras. En el caso de las variables cualitativas, slo es posible calcular
las medidas como la moda y la proporcin.
3.3.
Medidas de tendencia central.
En cada una de las medidas de tendencia central, de las que se discuten slo tres,
nicamente un valor del conjunto de datos se considera como el representativo del todo. Las
medidas de tendencia central conllevan informacin respecto al valor promedio de un
45
UNSCH
Bioestadstica I
conjunto de valores. Tal como se ver, la palabra promedio se puede definir en diversas
formas.
Las tres medidas de tendencia central de uso ms frecuente son: la media, la moda y la
mediana.
3.3.1 La media aritmtica
La medida de tendencia central ms conocida es la media aritmtica. sta es la medida
descriptiva que la mayora de las personas tienen en mente cuando se habla de
promedio. El adjetivo aritmtica distingue a esta media de otras que se puedan calcular.
La media se obtiene sumando todos los valores en una poblacin o muestra y dividiendo
entre el nmero de valores sumados.
Media de la poblacin:
1 N
Xj
N j 1
Media de la muestras
1 n
Xj
n j 1
Ejemplo. Obtenga la edad media de la poblacin de los 169 individuos registrados tabla de
edades.
Solucin: Se procede de la siguiente forma:
Edad media: X
18 22 24 ... 47 50 63 5797
34.302
169
169
La media ponderada
k
xp
x w
j
j 1
k
w
j 1
x1w1 x2 w2 ... xk wk
w1 w2 ... wk
Ejemplo. Si el examen final de un curso cuenta tres veces ms que una evaluacin parcial,
y un estudiante tiene calificacin 85 en el examen final y 70 y 90 en los dos parciales, la
calificacin media es
X
(1)(70) (1)(90) (3)(85) 415
83
11 3
5
Cuando los datos se encuentran en una tabla de frecuencias correspondiente a una variable
cuantitativa discreta. La media se calcula por:
k
xp
fx
i
j 1
k
j 1
fi
fx
i
j 1
xp
fX
j 1
'
i
46
UNSCH
Bioestadstica I
Si x1 , x2 ,..., xk son las medias de k grupos y cada grupo tiene tamao n1, n2,...,nk
respectivamente, entonces la media de todos los datos n = n1+n2+... +nk se calcula por:
k
xp
n x
i
j 1
k
j 1
La media aritmtica para datos agrupados:

k
xp
fx
i
j 1
n
k
fX
j 1
'
j
Propiedades de la media
La media aritmtica tiene ciertas propiedades, algunas deseables y otras no tanto. Algunas
de estas propiedades son las siguientes:
1. Es nica. Para un conjunto de datos existe una y slo una media aritmtica.
2. Simplicidad. El clculo y comprensin de la media aritmtica son sencillos.
3. Puesto que todos y cada uno de los valores en el conjunto de datos entran en el clculo
de la media, sta es afectada por cada valor. Por lo tanto, los valores extremos influyen
sobre la media y, en algunos casos, pueden distorsionarla tanto que llega a ser
indeseable como medida de tendencia central.
A continuacin se muestra un ejemplo de cmo los valores extremos pueden afectar la
media. Considere la siguiente situacin: cinco mdicos que trabajan en cierta rea son
llamados a declarar sus cobros por realizar cierto procedimiento. Suponga que se reporta lo
siguiente: $75, $75, $80, $80 y $280. El cobro medio para los cinco mdicos es de $118, un
valor que no es muy representativo del conjunto de datos. El nico valor atpico del conjunto
tuvo el efecto de inflar la media.
Medias geomtrica, armnica y cuadrtica
Existen otras definiciones de media que pueden tener su utilidad en algunos casos.
Media geomtrica xG. En el caso de una muestra con valores diferentes de la variable se
define como la raz ensima (N es el tamao de la muestra) del producto de los valores de
la variable
xG N x1 x2 ...xN
Si los datos aparecen agrupados en k valores distintos la definicin sera

xG N x1n1 x2n2 ...xknk
Esta media tiene la caracterstica negativa de que si uno de los valores es nulo, la media
sera asimismo cero, y por lo tanto sera poco representativa del valor central. Adems si
existen valores negativos es posible que no se pueda calcular. A la hora de calcularla es til
tener en cuenta que el logaritmo de la media geomtrica es la media aritmtica del logaritmo
de los datos
47
UNSCH
Bioestadstica I
n log x
log xG
i 1
La media armnica xA se define como la inversa de la media aritmtica de las inversas de

los valores de la variable. Es decir, para variables no agrupadas y agrupadas, sera
xA
N
N
i 1
; xA
N
ni
i 1 xi
k
Es evidente que si una de las medidas es 0, la media armnica no tiene sentido.

La media cuadrtica xQ. Se define sta como la raz cuadrada de la media aritmtica de los
cuadrados de los valores
N
xQ
xi2
i 1
; xQ
x n
i 1
2
i i
Esta media tiene su utilidad con frecuencia en la aplicacin a fenmenos fsicos.

Se puede demostrar que estas medias se relacionan con la media aritmtica, en el caso de
valores positivos de la variable, por
x A xG x xQ
Ninguna de estas medias es muy robusta en general, aunque esto depende de cmo se
distribuyan las variables. Por ejemplo, la media armnica es muy poco sensible a valores
muy altos de x, mientras que a la media cuadrtica apenas le afectan los valores muy
bajos de la variable.
3.3.2 La mediana
La mediana de un conjunto finito de valores es aquel valor que divide al conjunto en dos
partes iguales, de forma que el nmero de valores mayores o iguales a la mediana es igual
al nmero de valores menores o iguales a sta. Si el nmero de valores es impar, la mediana
es el valor medio o central siempre y cuando todas las variables sean arregladas en orden
de magnitud. Cuando el nmero de valores en el conjunto es par, no existe un valor medio
nico, sino que existen dos valores medios. En tal caso, la mediana corresponde a la media
de esos dos valores centrales, cuando todos los valores son arreglados en orden de magnitud. Es decir, la mediana del conjunto de datos es la (n 1) / 2 -sima observacin, cuando
las observaciones han sido ordenadas. Por ejemplo, si se tienen 11 observaciones, la
mediana es la (11+1)/2=6-sima observacin ordenada. Si se tienen 12 observaciones, la
mediana es la (12+l)/2=6.5-sima observacin ordenada y es el valor que est entre la sexta
y sptima observacin ordenada.
n 1
100 50 Entero( E ) me x( E )
Si
n 1 50 Decimal ( E.d ) me x 0.d ( x
(E)
( E 1) x( E ) )
100
La mediana poblacional se representa por Me y la mediana muestral por me
48
UNSCH
Bioestadstica I
n impar me X n 1
Si
X n X n

1
2
n par me 2
2
Propiedades de la mediana:
Entre las propiedades de la mediana se encuentran las siguientes:
1. Es nica. Al igual que en el caso de la media, existe solamente una mediana para un
conjunto de datos.
2. Simplicidad. Es muy sencillo calcularla.
3. Los valores extremos no tienen efectos importantes sobre la mediana, lo que s ocurre
con la media.
Ejemplo. Los siguientes datos corresponden a los pesos (en Kg.) de 10 personas: 50, 77,
53, 76, 63, 64, 75, 54, 52, 80. Calcule la mediana
Datos ordenados: 50, 52, 53, 54, 63, 64, 75, 76, 77, 80
10 1
Posicin
50 5.5 me x(5) 0.5 ( x(6) x(5) ) 63 0.5 (64 63) 63.5 Kg
100
Interpretacin. Un 50% de personas pesan menos de 63.5 Kg. y el otro 50% pesa ms de
63.5 Kg.
La mediana para datos agrupados
n Frecuencia acumulada f
i 1
Me LI i 2
LI i 1 LI i
Frecuencia fi
3.3.3 La moda
La moda de un conjunto de datos es el valor que ocurre con mayor frecuencia. La moda
poblaciones se representa por Mo y la moda muestral por mo.
Propiedades:
1. La moda puede no existir o puede haber ms de una moda en un conjunto de datos.
2. La moda no est afectada por valores extremos.
3. Se aplica tanto para informacin cualitativa como cuantitativa.
Ejemplos:
1.
Se tiene las longitudes de peces de ro (cm) de la zona A: 4.0, 4.1, 4.2, 4.3, 4.5, 4.7,
4.8. No hay moda.
2. Las siguientes longitudes sonde la zona B: 4.0, 4.1, 4.1, 4.1, 4.2, 4.2, 4.5, 4.2.
Se distinguen dos modas mo1 = 4.1 y mo2 = 4.2 (distribucin bimodal).
3. Encuentre la edad modal de los individuos cuyas edades se presentan en la tabla de
edades.
El conteo de las edades en la tabla 2.2.1 revela que la edad 26 ocurre con ms frecuencia
(11 veces). La moda para esta poblacin de edades es de 26.
Moda para datos agrupados
49
UNSCH
Bioestadstica I
1 xi xi 1
2 xi xi 1
Mo LI i
1 2
LIi 1 LIi
3.4.
Percentiles
El percentil Pq divide a un conjunto ordenado de observaciones en un q% menores que Pq y
un (100 - q)% mayores que Pq. El percentil Pq es un valor expresado en las mismas unidades
que la variable en estudio.
Clculo del Percentil
n 1
Posicin
q
100
n 1
100 q Entero( E ) Pq x( E )
Si
n 1 q Decimal ( E.d ) P x 0.d ( x
q
(E)
( E 1) x( E ) )
100
Ejemplo. Se cuenta con los datos de los tiempos (en minutos) de tardanza de los estudiantes
de una universidad. Halle e interprete el percentil 45.
15 12 18 22 24 10 9 13 25 18 6 14
Datos ordenados:
6 9 10 12 13 14 15 18 18 22 24 25
12 1
Posicin
45 5.85 P45 x(5) 0.85 ( x(6) x(5) ) 13 0.85 (14 13) 13.85
100
Interpretacin: El 45% de los estudiantes tienen un tiempo de tardanza menor 13.85 minutos
y el otro 55% ms de 13.85 minutos.
Cuartiles
Son percentiles que dividen el conjunto de datos en 4 partes iguales (25% cada una). Son
conocidos tambin como Q1=P25, Q2=P50 y Q3=P75.
Ejemplo
Los siguientes datos corresponden a los pesos, en Kg. de 10 personas: 50, 52, 53, 54, 63,
64, 75, 76, 77, 80.
a. Calcule e interprete el percentil 25
P 25 x 10 1 x(2.75) x (2) 0.75 (x (3) x (2) ) 52 0.75 (53 52) 52.75 Kg
25
100
Interpretacin: Un 75% de personas pesa menos de 76.25 Kg. y el otro 25% pesa ms de
76.25 Kg.
Cuartiles para datos agrupados
50
UNSCH
Bioestadstica I
n Frecuencia acumulada f
i 1
Q1 LI i 4
LI i 1 LI i
4
Frecuencia f i
Q3 LI i
4
3 n Frecuencia acumulada f i 1
4
LI i 1 LI i
Frecuencia f i
Ejercicio
Se ha desarrollado un experimento para evaluar el efecto de alimentos balanceados en la
ganancia de pesos de pollos. Una muestra aleatoria de 30 pollos que recibieron el alimento
balanceado fue seleccionada. Al cabo de 10 das se registraron las ganancias de pesos (en
gr)
93 98 100 102 107 109 110 110 111 111 113 114 115 116 118
118 119 119 120 120 120 124 125 128 129 129 130 135 138 141
a. Halle e interprete las medidas de tendencia central para la ganancia de peso.
b. Cul es el peso mnimo de un pollo que fue alimentado con el alimento balanceado para
estar en el 10% superior de los que pesan ms?
c. Cul es peso mximo del 60% de pollos que pesan menos con el alimento balanceado?
Solucin:
a) N Media StDev CoefVar Mnimo Q1
Mediana Q3
Mximo
30 117,40 11,57 9,85
93,00 110,00 118,00
125,75 141,00
La ganancia de peso por pollo alimentado con A es de 117.4 gr.
El 50% de los pollos alimentados con A tuvieron ganancias de peso menores de 118 gr. y el
restante 50% tuvieron ganancias de peso mayores a 118 gr.
El valor de la ganancia de peso ms frecuente es de 120gr.
b) P90 = X27.5 = 134.5gr.
c) P60 = Xl8 = 119gr.
Referencia bibliogrfica:
UNALM
Blair R. Clifford y Richard A. Taylor. 2008. Bioestadstica. Pearson Educacin, Mxico, 2008
3.5.
Medidas de Variabilidad o de dispersin.
Son medidas estadsticas que permiten conocer el grado de dispersin o variabilidad
(homogeneidad o heterogeneidad) dentro de un conjunto de datos. Se usan para comparar
la variabilidad entre dos o ms conjuntos de datos. Cuando los datos presentan baja
variabilidad, se dice que son homogneos y cuando presentan alta variabilidad se dice que
son heterogneos.
Si todos los valores son iguales, no hay dispersin, pero si no todos son iguales, entonces
existe dispersin en los datos. La magnitud de la dispersin es pequea cuando los valores,
aunque diferentes, son cercanos entre s. La figura muestra los polgonos de frecuencia para
dos poblaciones que tienen medias iguales, pero diferente magnitud de variabilidad. La
poblacin B, ms variable que la poblacin A, es ms dispersa. Si los valores estn
51
UNSCH
Bioestadstica I
ampliamente esparcidos, la dispersin es mayor. Otros trminos sinnimos de dispersin

son: variacin, expansin y dispersin.
FIGURA. Dos distribuciones de frecuencias con igual media pero diferente magnitud de
dispersin.
3.5.1 Rango o intervalo de variacin

El rango o amplitud de un conjunto de observaciones es igual a la diferencia entre el valor
mximo y el valor mnimo.
R X max X min
La utilidad de rango es limitada. El hecho de que toma en consideracin slo dos valores
hace que sea una medida pobre de dispersin. Su ventaja principal es la simplicidad de su
clculo.
Desventajas:
a.
Queda afectada por valores extremos
b.
No mide la variabilidad de los datos intermedios
EJEMPLO. Calcule el rango de las edades de los individuos de la muestra estudiada en el
ejemplo edades.
Solucin: Puesto que el individuo ms joven en la muestra tiene 23 aos y el ms viejo tiene
61, el rango calculado es:
R 61 23 38
Rango intercuartil
El rango intercuartil, se define como la diferencia entre el percentil 75 (P75 = Q3) y el percentil
25 (P25 = Q1).
RI = P75 - P25
El RI excluye el 25% ms alto y el 25% ms bajo, dando un rango dentro del cual se
encuentra el 50% central de los datos.
Un RI pequeo indica alta homogeneidad o pequea variabilidad dentro del 50% central
de los datos.
3.5.2 La varianza
Cuando los valores de un conjunto de observaciones se encuentran ubicados cerca de su
media, la dispersin es menor que cuando estn esparcidos. En consecuencia, se puede
52
UNSCH
Bioestadstica I
pensar intuitivamente que es posible medir la dispersin en funcin del esparcimiento de los
valores alrededor de su media.
La varianza poblacional
2
1 N
1 N 2
2
X
X j N
j
N j 1
N j 1
La varianza muestral
S2
1 n
Xj X
n 1 j 1
2
1 n 2
X j nX
n 1 j 1
Ejemplo. Calcule la variancia de las edades de los 10 individuos.

N
Edades
individuos
42
28
28
61
31
23
50
34
32
10
37
de
Solucin:
S2
(42 36.6)2 (28 36.6)2 (28 36.6) 2 (61 36.6) 2 (31 36.6) 2 ... (37 36.6)2
9
S2
1196.399997
132.933333
9
Variancia para datos agrupados:

n
S2
f X
i 1
'2
j
nX
n 1
Donde:
X 'j : Marca de clase

f i : Frecuencia
53
UNSCH
Bioestadstica I
3.5.3 La desviacin estndar

La variancia representa unidades al cuadrado, por lo que no es una medida adecuada de
dispersin si se pretende expresar este concepto en trminos de las unidades originales.
Para obtener la medida de dispersin en unidades originales, simplemente se obtiene la raz
cuadrada de la variancia.
La desviacin estndar poblacional
2
La desviacin estndar muestral
S S2
Ejemplo. Calcule la desviacin estndar de las edades de los 10 individuos.
S S 2 132.933333 11.5296719
La desviacin estndar de un conjunto de datos es una medida de cunto se desvan los
datos de su media. Esta medida es ms estable que el recorrido y toma en consideracin el
valor de cada dato.
Para distribuciones normales, resulta:
(a) 68.27% de los casos estn entre X S y X S (o sea, una desviacin tpica a cada lado
de la media).
(b) 95.45% de los casos estn entre X 2S y X 2S (o sea, dos desviaciones tpicas a
cada lado de la media).
(c) 99.73% de los casos entre X 3S y X 3S (o sea, tres desviaciones tpicas a cada lado
de la media).
Para distribuciones poco asimtricas, los anteriores porcentajes son aproximadamente
vlidos.
3.5.4 Coeficiente de variabilidad

El coeficiente de variacin es una medida para comparar la variabilidad en un conjunto de
datos con la de otro, en situaciones en las que una comparacin directa de desviaciones
tpicas no es conveniente o suficientemente realista.
El coeficiente de variabilidad es una medida de dispersin relativa (no tiene unidades) y se
define como la razn entre la desviacin estndar y la media aritmtica de un conjunto de
observaciones.
Coeficiente de variabilidad poblacional:
CV
100
Coeficiente de variabilidad muestral:

54
UNSCH
cv
Bioestadstica I
100
X
Ejemplo: Los siguientes resultados corresponden a dos muestras formadas por varones:
Edad
Peso medio
Desviacin estndar
Muestra 1
25 aos
145 libras
10 libras
Muestra 2
11 aos
80 libras
10 libras
El propsito es saber cul tiene mayor variabilidad, los pesos de individuos de 25 aos o los
de 11 aos.
Solucin: Una comparacin de las desviaciones estndar puede conducir a la conclusin
de que las dos muestras tienen igual variabilidad. Sin embargo, si se calculan los coeficientes
de variacin, se obtiene para los sujetos de 25 aos de edad:
cv
10
(100) 6.9
145
y para los de 11 aos de edad:

cv
10
(100) 12.5
80
Si se comparan estos resultados, la impresin recibida es diferente.

El coeficiente de variacin tambin es til para comparar los resultados obtenidos por
diferentes personas que efectan investigaciones que involucran la misma variable. Debido
a que el coeficiente de variacin es independiente de la escala de medicin, constituye una
estadstica til para comparar la variabilidad de dos o ms variables medidas en escalas
diferentes. Por ejemplo, podra utilizarse el coeficiente de variacin para comparar la
variabilidad de los pesos de una muestra de individuos cuyos pesos se expresan en libras y
la variabilidad de los pesos de otra muestra, expresados en kilogramos.
Ejemplo, en un estudio del consumo de leche en Estados Unidos, se obtuvo que el nmero
medio de galones de leche consumida por unidad familiar por semana fue 8, con una
desviacin tpica muestral de 3 galones. Un estudio semejante en Canad dio un consumo
medio de 12 litros con una desviacin de 4 litros. No tiene sentido comparar estas
desviaciones tpicas directamente porque estn dadas en unidades diferentes. Una forma
rpida de comparar la variabilidad es con el coeficiente de variacin (CV) dado por:
Los coeficientes de variacin de las dos muestras son:
3
8
Estados Unidos: cv (100) 37.5%

Canad: cv
4
(100) 33.3% , respectivamente. Los datos de Estados Unidos presentan
12
ms variabilidad que los de Canad.
Comparacin de la variabilidad
Para comparar la variabilidad entre dos o ms conjuntos de datos, se debe considerar:
55
UNSCH
Bioestadstica I
Unidades
de Unidades de medidas iguales
medidas diferentes
Medias similares Medias diferentes
S1 con S2
cv1 con cv2
cv1 con cv2
El cuadro indica que cuando se compara la variabilidad de dos conjuntos de datos, si las
variables tienen unidades de medidas diferentes; se debe usar los coeficientes de variacin;
mientras si las variables tienen unidades de medida iguales, se debe observar si las medias
son similares para usar la desviacin estndar y en caso que las medias sean diferentes
usar el coeficiente de variacin.
3.6.
Medidas de asimetra.
Las medidas de asimetra permiten determinar la forma de una distribucin para un conjunto
de datos en lo que se refiere a su simetra o asimetra.
3.6.1 Formas de una distribucin
Distribucin simtrica. Un conjunto de datos muestra una distribucin simtrica, si su

curva guarda simetra con respecto al centro de los datos. Si la distribucin es simtrica
entonces = Me.
Distribucin asimtrica positiva. Si un conjunto de datos muestra una distribucin
asimtrica positiva o con cola a la derecha, entonces: > Me.
Distribucin asimtrica negativa. Si un conjunto de datos muestra una distribucin
asimtrica negativa o con cola a la izquierda, entonces: < Me.
Ejemplo. Los siguientes grficos corresponden a la distribucin de los ingresos mensuales

(miles S/.) de muestras al azar de los clientes de tres sucursales (A, B y C) de una caja rural.
Las relaciones entre la media y la mediana descritas anteriormente, se cumplen con

distribuciones unimodales (una sola moda).
56
UNSCH
Bioestadstica I
3.6.2 Variables ordinales: el ndice de asimetra intercuartlico

El ndice de asimetra intercuartlico se basa en las distancias entre los cuartiles a fin de establecer
un resumen de la asimetra de la distribucin. La frmula es la siguiente:
AsQ3 Q2
(Q3 Q2 ) (Q2 Q1 ) Q3 Q1 2Q2
Q3 Q1
Q3 Q1
Interpretacin: oscila entre -1 y 1, lo cual facilita su comprensin.
3.6.3 Variables cuantitativas: Coeficiente de asimetra de Pearson

Evala el grado de distorsin o inclinacin que adopta la distribucin de los datos respecto
a su valor promedio tomado como centro de gravedad. El coeficiente de asimetra de
Pearson es:
Poblacional:
As
3( Me)
Muestral:
as
3( X me)
S
Propiedades
1. Si as = 0 entonces la distribucin es simtrica.
2. Si as < 0 entonces la distribucin es asimtrica negativa o a la izquierda.
57
UNSCH
Bioestadstica I
3. Si as > 0 entonces la distribucin es asimtrica positiva o a la derecha.

Un mayor (menor) valor del coeficiente de asimetra de Pearson indica un mayor (menor)
grado de asimetra de la distribucin de los datos.
Ejemplo. Recordemos los datos de los ingresos mensuales del Banco Comercial que se
trabajaron en la parte de organizacin de datos. Con esa informacin se tienen los siguientes
valores:
X 5.350
me 4.700
s 2.181
x = 5.350, me = 4.700, s = 2.181.

Por lo tanto
3( X me) 3(5.350 4.700)
0.8941 0 , entonces la distribucin de los ingresos

s
2.181
mensuales tiene una asimtrica positiva.
as
Ejercicio 1. Se desea realizar un estudio sobre la utilizacin del agua en tres zonas rurales
(A, B y C). Con esta finalidad se ha seleccionado al azar 8 casas de la zona A, 6 de la zona
B y 10 de la zona C. Luego se registr el nmero de litros de agua consumidos por un da,
los cuales se presenta en el siguiente cuadro:
3.7 Curtosis
Evala el grado de apuntamiento de la distribucin.
El apuntamiento expresa el grado en que una distribucin acumula casos en sus
colas en comparacin con los casos acumulados en las colas de una distribucin normal
cuya dispersin sea equivalente (Pardo y Ruiz, 2002).
3.7.1 Variables ordinales: el ndice KU.

KU
P75 P25
2( P90 P10 )
Grado de Apuntamiento
Mesocurtica (Distribucin normal)
Leptocrtica (Elevada)
Platicrtica (Aplanada)
Valor de la Curtosis
0.263
Mayor a 0.263 o se aproxima a 0.5
Menor a 0.263 o se aproxima a 0
58
UNSCH
Bioestadstica I
Por ejemplo se tienen como Q3=8.9; Q1=6.85; P90=9.95 y P10=5.85.
P75 P25
8.9 6.85
0.25 , la curtosis de la distribucin es 0.25; por tanto, la

2( P90 P10 ) 2(9.95 5.85)
distribucin es ligeramente platicrtica.
KU
3.7.2 Variables cuantitativas: el coeficiente de apuntamiento de Fisher

El coeficiente de apuntamiento de Fisher se basa en las desviaciones de los valores
observados respecto a la media. La frmula para su clculo es la siguiente:
n
APF
(X
i 1
X )4
N S
4
X
(versin para distribucin de frecuencias: APF
n (X
i 1
X )4
N S X4
3)
Interpretacin: el valor de este coeficiente para la distribucin normal ser igual a 0, o sea
que cualquier distribucin para la que se obtenga un valor de ApF igual o prximo a 0
significar que su nivel de apuntamiento es como el de la distribucin normal (mesocrtica).
Valores mayores que 0, expresan que la distribucin es leptocrtica, mientras que si son
menores que 0 ponen de manifiesto que la distribucin es platicrtica. No est limitado a un
rango de valores.
3.8 Diagrama de cajas (box plot)

Un dispositivo visual muy til para comunicar la informacin contenida en un conjunto de
datos es la grfica de caja con valores extremos (algunas veces llamada slo boxplot). Para
la construccin de esta grfica se usan los cuartiles de un conjunto de datos, y se siguen los
cinco pasos que se mencionan a continuacin:
1. Representar a la variable de inters sobre el eje de las x.
2. Dibujar sobre el eje horizontal un cuadro, de tal forma que el extremo izquierdo est
alineado con el primer cuartil Q1 y el extremo derecho del cuadro quede alineado con el
tercer cuartil Q3.
3. Dividir el cuadro en dos partes con una lnea vertical que se alinee con la mediana Q2.
4. Dibujar una lnea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde
quede alineada con la medicin ms pequea en el conjunto de datos.
5. Dibujar otra lnea horizontal desde el extremo derecho del cuadro hasta el punto donde
se alinea con la medicin ms grande en el conjunto de datos.
El examen de la grfica para un conjunto de datos revela informacin respecto a la magnitud
de la dispersin, localizacin de la concentracin y simetra de los datos.
El siguiente ejemplo ilustra la construccin de la grfica de caja con valores extremos.
EJEMPLO. En una revista mdica de publicacin peridica, Pitts et al. (A-7) asegura que
los carcinomas con metaplasia y sarcomas producidos dentro del seno son difciles de
diagnosticar y clasificar con precisin debido a sus variados patrones histolgicos y a su
rareza. En un intento por estudiar ms detalles de las caractersticas biolgicas, los autores
investigaron una serie de sarcomas puros y carcinomas que exhiban metaplasia. La tabla
siguiente contiene ordenados en centmetros los dimetros de los neoplasmas extirpados
del pecho de 20 individuos con sarcomas puros.
59
UNSCH
Bioestadstica I
TABLA. Dimetros (cm) de sarcomas puros extirpados del pecho de 20 mujeres.

0.5 1.2 2.1 2.5 2.5 3.0 3.8 4.0 4.2 4.5 5.0
5.0 5.0 5.0 6.0 6.5 7.0 8.0 9.5 13.0
Solucin: La medicin ms pequea y la ms grande son 0.5 y 13.0, respectivamente. El
primer cuartil es Q1 = (20 + 1) / 4 = 5.25-sima medicin, la cual es 2.5 + (0.25)(3.0 - 2.5) =
2.625. La mediana es Q2 = (20 + 1) / 2 = 10.5-sima medicin igual a 4.5 + (0.5)(5.0-4.5) =
4.75. El tercer cuartil es Q3 = 3(20 + 1) / 4 = 15.75-sima medicin igual a 6.0 + (0.75)(6.5 6.0) = 6.375. La amplitud del intercuartil es IQR = 6.375 - 2.625 = 3.75. La amplitud es 12.5,
y el IQR es 100(3.75/12.5) = 30 por ciento de la amplitud. La caja de valores extremos
resultante se muestra en la siguiente figura.
FIGURA. Caja de valores extremos del ejemplo.

Al examinar la figura se observa que 50 por ciento de las mediciones estn entre 2.6 y 6.4,
los valores aproximados del primero y tercer cuartil, respectivamente.
La barra vertical dentro de la caja muestra que la mediana est cerca de 4.75.
La lnea mayor a la derecha indica que la distribucin de dimetros est inclinada hacia la
derecha.
Grfica de caja de Tamao de tumor
14
13.0
12
Tamao de tumor
10
6
4.75
FIGURA. Caja de valores extremos elaborada con el paquete MINITAB a partir de la tabla.
REFERENCIA BIBLIOGRFICA
Crdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadstica y
Biometra. Editorial Brujas. Argentina.
Gua del curso de estadstica general. 2016. Departamento estadstica e
informtica. UNALM.
Blair R. Clifford y Richard A. Taylor. 2008. Bioestadstica. Pearson Educacin,
Mxico, 2008
60
UNSCH
Bioestadstica I
Daniel W. Bioestadstica. Cuarta edicin. Limusa Wiley. 2006

Spiegel, M. Estadstica. 2da ed. Mc GRAW HILL. Espaa 1991. 556 pag
Molina J. y Rodrigo M. Estadstica descriptiva en Psicologa. Curso 2009-2010.
Universidad Valncia.
61
UNSCH
IV.
Bioestadstica I
PROBABILIDADES
4.1.
Conceptos bsicos de probabilidad objetiva y subjetiva.
4.1.1 Probabilidad: OBJETIVA
El concepto de probabilidad objetiva se puede dividir bajo los ttulos de 1) probabilidad
clsica o "a priori", y 2) frecuencia relativa o "a posteriori".
1) Probabilidad clsica o a priori
La probabilidad clsica data del siglo XVII en los trabajos de dos matemticos, Pascal
y Fermat. Gran parte de esta teora fue creada al intentar resolver problemas
relacionados con los juegos de azar, como el juego de los dados. Algunos ejemplos
tomados de dichos juegos ilustran perfectamente los principios de la probabilidad
clsica. Por ejemplo, si un dado normal es lanzado, la probabilidad de que caiga un
1 es igual a 1/6, y es lo mismo para los otros cinco lados. Si una carta es sacada al
azar de un mazo bien barajado, la probabilidad de sacar un corazn es de 13/52. Las
probabilidades como stas se calculan a travs del razonamiento abstracto. No es
necesario lanzar un dado o sacar una carta para calcular esas probabilidades. Al
lanzar un dado, se dice que cada uno de los seis lados tiene igual probabilidad, de
aparecer, si no hay razn que favorezca a alguno de los seis lados. Anlogamente,
si no hay razn que favorezca el sacar alguna carta en particular, se puede decir que
cada una de las 52 cartas tiene la misma probabilidad de salir. La probabilidad se
define en el sentido clsico como sigue:
DEFINICIN
Si un evento puede ocurrir de N formas, las cuales se excluyen mutuamente y son
igualmente probables, y si m de estos eventos poseen una caracterstica E, la
probabilidad de ocurrencia de E es igual a m/N.
P( E )
m
N
Ejemplo 2.1.3. Cul es la probabilidad de que un nio nacido de una pareja, cada
uno de cuyos miembros posee genes para ojos castaos y para ojos azules, tenga
los ojos castaos?
Para resolver esta cuestin, observemos que, dado que el nio recibe un gen de
cada uno de sus padres, las posibilidades para l son (castao, azul) (azul, castao)
(azul, azul) y (castao, castao), donde el gen que aparece representado en primer
lugar en cada uno de los pares es el gen que procede del padre. Puesto que cada
uno de los padres tiene exactamente la misma probabilidad de aportar un gen para
ojos azules que uno para ojos castaos, las cuatro alternativas son equiprobables.
Al ser dominante el gen para ojos castaos, tres de los cuatro pares dan como
resultado un nio de ojos castaos. En consecuencia, la probabilidad de que el nio
tenga los ojos castaos es:
P(ojos castaos )
3
0.75 .
4
Este mtodo tiene ventajas e inconvenientes. Su principal inconveniente es que no

siempre es aplicable; se necesita que los resultados posibles sean equiprobables.
Su mayor ventaja es que, si es aplicable, la probabilidad obtenida es exacta. Por otra
62
UNSCH
Bioestadstica I
parte, no exige la realizacin de experiencias ni la recogida de datos y es de fcil

uso.
2) Probabilidad de frecuencia relativa o "a posteriori".
El enfoque de frecuencia relativa de la probabilidad depende de la repetibilidad de
algunos procesos y la capacidad de contar el nmero de repeticiones, as como el
nmero de veces que algn evento de inters ocurre. En este contexto, se puede
definir la probabilidad de observar alguna caracterstica, E, de un evento como sigue:
DEFINICIN
Si algn proceso es repetido un gran nmero de veces, n, y si algn evento
resultante, con la caracterstica E, ocurre m veces, la frecuencia relativa de la
ocurrencia de E, m/n, es aproximadamente igual a la probabilidad de E.
P( E )
m
n
Sin embargo, se debe tener en mente que, estrictamente hablando, m/n es slo una
estimacin de P(E).
Ejemplo 2.1.2. Un investigador trabaja en un nuevo frmaco para insensibilizar a los
pacientes frente a picaduras de abejas. De 200 sujetos sometidos a prueba, 180
presentaron una disminucin en la gravedad de los sntomas tras sufrir una picadura,
despus de ser sometidos al tratamiento. Es natural suponer, entonces, que la
probabilidad de que ocurra lo mismo en otro paciente que reciba el mismo tratamiento
es por lo menos de aproximadamente
180
0.90
200
Basndose en este estudio, se informa de que el frmaco es eficaz en un 90 % de

los casos para disminuir la reaccin de pacientes sensibles a las picaduras de abejas.
Tal probabilidad no es simplemente una opinin personal. Es una asignacin
numrica basada en la repeticin de una experiencia y en la observacin de los
resultados. Se trata, de hecho, de una frecuencia relativa.
4.1.2 Probabilidad subjetiva
En los primeros aos de la dcada de 1950, L. J. Savage (4) dio un gran impulso a lo que
se conoce como probabilidad personalstica o subjetiva. Este enfoque sostiene que la
probabilidad mide la confianza que un individuo tiene en la certeza de una proposicin
determinada. Este concepto no depende de la repetibilidad de ningn proceso. De hecho, al
aplicar este concepto de probabilidad, se puede calcular la probabilidad de un evento que
slo puede ocurrir una vez, por ejemplo, la probabilidad de descubrir una cura para el cncer
en los prximos diez aos.
Aunque el punto de vista subjetivo de la probabilidad ha gozado de gran popularidad, los
estadsticos que tienen orientacin tradicional an no la aceptan del todo.
Ejemplo 2.1.1. Un paciente sufre de clculos renales, y no se ha conseguido mejora alguna
a partir de los mtodos ordinarios. Su mdico est plantendose llevar a cabo una
intervencin quirrgica y debe responder a la siguiente pregunta. Cul es la probabilidad
de que la operacin sea un xito? Varios factores, como son la edad del paciente, su estado
general de salud y su actitud frente a la operacin, intervienen en este caso. Esta particular
63
UNSCH
Bioestadstica I
combinacin de factores es una peculiaridad de este paciente. El mdico no se ha enfrentado

antes con un caso exactamente igual a ste, ni espera enfrentarse a otro igual en el futuro.
Es una situacin peculiar y es preciso establecer un juicio de valores para resolverla. En este
caso, cualquier probabilidad que se asigne al suceso la operacin ser un xito es una
apreciacin personal.
Este ejemplo ilustra las ventajas e inconvenientes de una estimacin personal. Su mayor
ventaja consiste en que siempre es aplicable. Cualquiera puede establecer una apreciacin
personal sobre lo que sea. Su mayor inconveniente es obvio: su acierto depende de lo
correcta que sea la informacin de que dispone y de la capacidad del cientfico para evaluarla
adecuadamente.
4.1.3 La interpretacin de probabilidades
La interpretacin de probabilidades puede sintetizarse de la siguiente forma:
1. Las probabilidades son nmeros comprendidos entre 0 y 1, ambos inclusive, que reflejan
las expectativas con respecto a que un suceso fsico determinado ocurra.
2. Probabilidades prximas a 1 indican que cabe esperar que ocurran los sucesos de que
se trate. No indican que el suceso vaya a producirse, slo que es un tipo de suceso que
generalmente se produce.
3. Probabilidades prximas a 0 indican que no cabe esperar que ocurran los sucesos de
que se trate. No indican que el suceso no vaya a producirse, slo que este tipo de sucesos
se considera raro.
4. Probabilidades prximas a 1/2 indican que es tan verosmil que el suceso se produzca
como que no.
4.2.
Permutaciones y combinaciones.
4.2.1 Permutaciones
Cualquier secuencia ordenada de n objetos tomados de un conjunto de N objetos distintos
se llama permutacin de tamao n de los objetos. El nmero de permutaciones de tamao
n que puede construirse con los N objetos (donde s importa el orden) se obtiene por la regla
del producto de la siguiente manera:
PnN N ( N 1)( N 2)...( N n 2)( N n 1)

Utilizando factoriales se obtiene: PnN
N!
N n !
Definicin. Una permutacin es una distribucin de objetos en un orden determinado.

Ejemplo Los bilogos estn interesados en el orden en que los cuatro ribonucletidos
adenina (A), uracilo (U), guanina (G) y citosina (C) se combinan para formar cadenas
pequeas. Estos nucletidos constituyen las subunidades principales de RNA, molcula
intermediaria portadora de la informacin que acta en la traduccin del cdigo gentico del
DNA. Cuntas cadenas formadas por dos nucletidos diferentes pueden formarse?
La cuestin puede resolverse muy fcilmente por medio del diagrama de rbol de la Figura
4.2.1. La solucin es evidentemente 12. Obsrvese que estamos considerando que la
cadena AC es distinta de la CA. Es decir, que el orden en que se disponen los nucletidos
es importante.
64
UNSCH
Bioestadstica I
Figura 4.2.1. Cadenas de dos nucletidos.

Hemos demostrado, por tanto, que hay 12 permutaciones de cuatro elementos distintos
tomados de dos en dos. Este resultado puede predecirse sin necesidad de recurrir al
diagrama, .aplicando la siguiente ecuacin:
PnN
N!
4!
4! 4 3 2!
P24

12
2!
N n !
4 2 ! 2!
Ejemplo En un campeonato de ftbol participan 12 equipos De cuntas maneras se

pueden ocupar los tres primeros puestos?
Sea el evento A = {Nmero de maneras que puede ocupar los 3 primeros puestos}
Total de equipos: N = 12
Seleccionar 3 equipos: n= 3
P312
12!
12! 12 11 10 9!
1320
9!
12 3! 9!
Casos especiales:
a) Permutaciones de N en N
PNN N ! N ( N 1)( N 2)...1
Ejemplo Se tiene un grupo de 5 caballos para alquiler. Si llegan 5 personas para
alquilar caballo cada una de ellas De cuntas maneras se puede hacer el alquiler?
imaneras.
b) Permutaciones con repeticin. El nmero de permutaciones de N elementos, de
los cuales son iguales entre si N1, N2, N3,..., Nk y donde N = N1+ N2 + N3 +...+ Nk, est
N!
dado por: PNN1 , N2 ,... Nk
N1 ! N2 !...Nk !
Ejemplo Se utilizan 15 pacientes en un experimento para comparar un frmaco
estndar, un frmaco experimental y un placebo. Se asigna aleatoriamente a cada
paciente un tratamiento.
De cuntas formas distintas pueden asignarse los tres tratamientos a los 15
pacientes?
65
UNSCH
Bioestadstica I
Cul es la probabilidad de que, asignando aleatoriamente los tratamientos a los

pacientes, salga la alternativa de que 10 pacientes reciben el placebo, 3 el frmaco
experimental y 2 el frmaco estndar?
La primera pregunta no es nueva. Hay
3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 315 14348907 formas alternativas de
asignar el tratamiento a los pacientes.
La segunda pregunta s. Para hallar la probabilidad que se pide aqu, debemos

determinar cuntas de las alternativas posibles incluyen 10 veces el placebo, tres
veces el frmaco experimental y dos veces el frmaco estndar. Por medio de la
frmula obtenemos inmediatamente
15
P10,3,.2
15!
15 14 13 12 11 10!
30030
10!3!.2!
10! (3 2 1 2 1)
La probabilidad buscada es, por lo tanto:

30030
0.0021
14348907
Ejemplo En la casa comercial "El Palco" hay 4 sinfonas N 9 de Beethoven, 5

Sinfonas N 100 de Haydn y 6 Sinfonas N 36 de Mozart. Suponga que se
seleccionan con restitucin y considerando el orden de extraccin 8 de estas obras
maestras.
a. De cuntas maneras sern seleccionadas 5 sinfonas de Beethoven y 3 de
Haydn?
Sinfonas N 9 de Beethoven: 4
Sinfonas N 100 de Haydn: 5
Sinfonas N 36 de Mozart: 6
8
n( A) 45 53 P5,3
45 53
8!
7168000 maneras.
5! 3!
b. De cuntas maneras sern seleccionadas 2 sinfonas de Beethoven, 2 de Haydn

y 4 de Mozart?
8
n( A) 42 52 64 P2,2,4
4 2 52 6 4
8!
217728000 maneras.
2! 2! 4!
4.2.2 Combinaciones
Dado un conjunto de N objetos distintos, cualquier subconjunto no ordenado de tamao n
de los objetos se llama combinacin y se denota de la siguiente manera:
N
N
N!
Cn
n n! N n !
Cuando haya N objetos distintos, cualquier permutacin de tamao n se obtiene al ordenar

los n objetos no ordenados de una combinacin en una de n! formas (donde no importa el
orden), as:
N
N PN
N!
PnN n! n
n
n n! n! N n !
66
UNSCH
Bioestadstica I
Definicin Una combinacin es una seleccin de objetos con independencia de su

ordenamiento.
Ejemplo Cinco personas se ofrecen voluntarias para participar en un programa
experimental. Se necesitan solamente dos para llevar a cabo el estudio. De cuntas formas
pueden seleccionarse dos personas de entre las cinco?
En este caso el orden no importa. Lo que interesa nicamente es el hecho de que sean dos
los seleccionados, no el orden en que lo son. Estamos, pues, preguntando, cuntas
combinaciones de cinco elementos tomados dos a dos existen? La cuestin puede
resolverse adjudicando una de las letras A, B, C, D, E a cada uno de los voluntarios y
formando una lista con todos los subconjuntos posibles de tamao dos, del siguiente modo:
{A,B} {A,E} (B,E} {D,E}
{A,C} {B,C} {C,D}
{A,D} {B,D} {C,E}
Obviamente, existen 10 combinaciones. Escribiremos
5
5!
5!
5 4 3!
10
5 C2
2! 5 2 ! 2! 3! 2! 3!
2
5C2
=10, donde el 5 indica el nmero disponible de objetos, el 2 el nmero de objetos que

hay que seleccionar, y C las combinaciones en cuestin.
Ejemplo Un banco de sangre dispone de 10 unidades de sangre tipo A*. De ellas, cuatro
estn contaminadas con suero de hepatitis. Se seleccionan aleatoriamente tres unidades de
entre las 10 para utilizarlas con tres pacientes diferentes. Cul es la probabilidad de que un
solo paciente est expuesto a contraer la hepatitis por esta causa?
Esta pregunta se refiere a las combinaciones, ya que slo estamos interesados en las
unidades seleccionadas, no en el orden en que se seleccionan. Consideremos el diagrama
de la Figura 2.7. El nmero total de formas de seleccionar tres unidades de entre las 10
disponibles es
10
10!
10! 10 9 8 7!
120

3! 7 !
3 3!10 3! 3! 7 !
Para que un solo paciente est expuesto a contraer la hepatitis por esta causa, la unidad
seleccionada lo ha de ser de entre las cuatro contaminadas. La unidad contaminada puede
seleccionarse de
4
4!
4!
4 formas

1 1! 4 1! 1! 3!
Las unidades no contaminadas pueden ser seleccionadas de
6
6!
6!
15 formas

2 2! 6 2 ! 2! 4 !
En total hay (4)(15) 60 formas de seleccionar, en las que un solo paciente est expuesto a
la hepatitis por esta causa. Dando por supuesto que las 120 formas posibles de seleccionar
tres unidades de entre 10 son equiprobables, podemos hacer uso del mtodo clsico para
concluir que
67
UNSCH
Bioestadstica I
P(un solo paciente est expuesto al riesgo) =
60
0.5
120
informtica. UNALM.
Mxico, 2008
Daniel W. Bioestadstica. Cuarta edicin. Limusa Wiley. 2006.
Milton, J. 2007. Estadstica para biologa y ciencias de la salud. McGRAWHILL/INTERAMERICANA DE ESPAA, S. A. U.
68
UNSCH
Bioestadstica I
4.3.
Clculo de probabilidades de evento.
EJEMPLO En un artculo de la revista American Journal of Drugs and Alcohol Abuse,
Erickson y Murray (A-I) afirman que las mujeres estn consideradas como un grupo con
riesgo especial de adiccin a la cocana, y que se ha sugerido que sus problemas con la
cocana son mayores que en los hombres. Con base en la revisin de textos especializados
y en el anlisis de los resultados de un estudio original, estos investigadores argumentan
que no hay evidencia de que el uso de cocana en las mujeres exceda al de los hombres, o
que el ndice de uso crezca ms rpido en comparacin con el de los hombres, o que
experimenten ms problemas. Los sujetos de estudio de Erickson y Murray comprenden una
muestra de 75 hombres y 36 mujeres. Los autores afirman que los individuos son una
muestra bastante representativa de adictos tpicos adultos sin tratamiento ni encarcelados.
Base de datos: Consumo de cocana por gnero entre adultos adictos.
Sexo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
M
M
M
M
M
F
M
M
M
M
M
M
M
M
M
M
F
M
M
M
M
F
F
M
F
F
M
F
F
F
Nmero de
veces de uso
de cocana en
el perodo de
vida
19
134
59
134
6
53
147
22
9
4
16
98
4
6
139
42
107
11
12
9
115
96
63
117
113
17
61
109
32
88
Categoras
Sexo
1-19
100-+
20-99
100-+
1-19
20-99
100-+
20-99
1-19
1-19
1-19
20-99
1-19
1-19
100-+
20-99
100-+
1-19
1-19
1-19
100-+
20-99
20-99
100-+
100-+
1-19
20-99
100-+
20-99
20-99
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
M
M
F
M
M
M
M
M
M
F
M
F
F
F
M
M
M
M
F
M
F
M
M
M
M
M
F
M
M
F
Nmero de
veces de uso
de cocana en
el perodo de
vida
3
18
143
98
3
130
146
146
129
42
8
52
136
16
48
2
16
30
57
8
34
8
26
22
105
8
1
122
10
59
Categoras
Sexo
1-19
1-19
100-+
20-99
1-19
100-+
100-+
100-+
100-+
20-99
1-19
20-99
100-+
1-19
20-99
1-19
1-19
20-99
20-99
1-19
20-99
1-19
20-99
20-99
100-+
1-19
1-19
100-+
1-19
20-99
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
F
M
F
F
M
M
F
F
M
F
F
F
F
F
M
M
M
F
M
M
M
M
M
F
M
M
F
M
M
M
Nmero de
veces de uso
de cocana en
el perodo de
vida
70
140
67
4
66
104
17
111
11
3
119
30
74
16
25
122
50
99
1
135
146
16
15
23
114
14
102
123
139
10
Categoras
Sexo
20-99
100-+
20-99
1-19
20-99
100-+
1-19
100-+
1-19
1-19
100-+
20-99
20-99
1-19
20-99
100-+
20-99
20-99
1-19
100-+
100-+
1-19
1-19
20-99
100-+
1-19
100-+
100-+
100-+
1-19
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
F
M
F
M
M
F
M
F
M
M
M
M
M
M
M
M
M
F
M
M
M
Nmero de
veces de uso
de cocana en
el perodo de
vida
45
2
125
13
15
24
131
73
137
31
130
44
2
25
95
99
18
48
5
129
130
Categoras
20-99
1-19
100-+
1-19
1-19
20-99
100-+
20-99
100-+
20-99
100-+
20-99
1-19
20-99
20-99
20-99
1-19
20-99
1-19
100-+
100-+
La tabla 3.4.1 muestra la frecuencia de uso de la cocana en el tiempo de vida y el sexo de

los individuos.
TABLA 3.4.1 Frecuencia de consumo de cocana por gnero entre adultos adictos
69
UNSCH
Bioestadstica I
Ejemplo. Suponga que se escoge a uno de ellos aleatoriamente de entre la muestra. Qu

probabilidad existe de que sea hombre?
Solucin:
Se supone que hombres y mujeres son categoras mutuamente excluyentes,
y que la probabilidad de seleccionar a cualquier persona es igual a la probabilidad de
seleccionar a cualquier otra persona.
Se define la probabilidad deseada como el nmero de individuos con la caracterstica de
inters (hombre) dividida entre el total de individuos. Se puede escribir en notacin
probabilstica como sigue:
total de hombres
total de individuos
75
P( M )
0.6757
111
P( M )
La probabilidad de que se elija a un hombre es 0.6757.
4.4 Probabilidad condicional.

Cuando se calculan las probabilidades con un subconjunto del conjunto universal como
denominador, el resultado es una probabilidad condicional.
Ejemplo. Suponga que se escoge aleatoriamente a un individuo de entre los 111 y se
encuentra que es un individuo del sexo masculino (M). Cul es la probabilidad de que este
individuo haya consumido cocana 100 veces o ms durante su vida (C)?
Solucin:
Ya no es importante saber el nmero total de individuos, porque, al seleccionar a un individuo
del sexo masculino, los individuos del sexo femenino son eliminados.
Entonces, se puede definir la probabilidad deseada como: Que probabilidad existe de
que un individuo haya consumido cocana 100 veces o ms (C) durante su tiempo
de vida, dado que el individuo seleccionado es del sexo masculino (M)? Esta es una
probabilidad condicional y se escribe como P(C\M), donde la lnea vertical se lee como
"dado".
P(C\ M )
25
0.3333
75
Probabilidad conjunta
Algunas veces se quiere encontrar la probabilidad de que un individuo seleccionado
aleatoriamente a partir de un grupo de individuos posea dos caractersticas al mismo tiempo.
A esta probabilidad se le conoce como probabilidad conjunta.
Ejemplo. En referencia a la tabla 3.4.1, cul es la probabilidad de que una persona
seleccionada aleatoriamente de entre los 111 individuos sea del sexo masculino (M) y que
sea una persona que consumi cocana 100 veces o ms durante su tiempo de vida (C)?
Solucin: La probabilidad buscada se puede escribir en notacin simblica como P ( M C )
, donde el smbolo se lee como "interseccin" o "y". La expresin M C indica que la
condiciones M y C son una ocurrencia conjunta.
70
UNSCH
Bioestadstica I
El nmero de individuos que satisfacen ambas condiciones deseadas es 25, y

encuentran en la tabla en la interseccin etiquetada como columna M y rengln C.
P( M C )
se
25
0.2252
111
Regla de la multiplicacin
La probabilidad se puede calcular a partir de otras probabilidades. Por ejemplo, la
probabilidad conjunta se puede calcular como el producto de una probabilidad marginal y
una probabilidad condicional adecuadas.
Ejemplo. Se pretende calcular la probabilidad conjunta de seleccionar un individuo del sexo
masculino (M) con una frecuencia de consumo de cocana de 100 veces o ms (C) durante
toda su vida, a partir del conocimiento de dos probabilidades convenientes, una marginal y
otra condicional.
Solucin: La probabilidad buscada es P ( M C ) .
La probabilidad marginal:
75
P( M )
0.6757
111
Probabilidad condicional:
25
P(C\ M )
0.3333
75
P( M C ) P( M ) P(C \ M )
75 25
(0.6757)(0.3333) 0.2252
111 75
Observe que esto es lo que se esperaba: el mismo resultado obtenido anteriormente para
P(M C ) .
Se puede afirmar que la regla de la multiplicacin en trminos generales es como sigue:
Para cualesquiera dos eventos A y B,
P ( A B) P( B) P( A \ B), si P( B) 0
Para los mismos dos eventos A y B, la regla de multiplicacin tambin se escribe como
P ( A B ) P ( A) P ( B \ A), si P ( A) 0
71
UNSCH
Bioestadstica I
Definicin de la probabilidad condicional

La probabilidad condicional de A dado B es igual a la probabilidad de A B dividida entre
la probabilidad de B, siempre que la probabilidad de B sea diferente de cero.
Esto es: P( A \ B)
P( A B)
, si P( B) 0
P( B)
Ejemplo. Qu probabilidad existe de que

un individuo haya consumido cocana 100
veces o ms (C) durante su tiempo de
vida, dado que el individuo seleccionado
es del sexo masculino (M)?
Solucin: para encontrar la probabilidad
condicional P(C\M).
25
P(C M ) 111 25 111 25
P(C \ M )
0.3333
75 75 111 75
P( M )
111
Regla de la adicin
La probabilidad de la ocurrencia de uno de los dos eventos mutuamente excluyentes es
igual a la suma de sus probabilidades individuales.
Ejemplo. Suponga que se escoge
aleatoriamente a una persona de entre las
111 representadas en la tabla. Cul es
la probabilidad de que esta persona sea
del sexo masculino (M) o del sexo
femenino (F)? Se expresa esta
probabilidad con los smbolos P(M F), donde el smbolo
Puesto que los dos gneros son mutuamente excluyentes,
se lee como "unin" u "0".
P( M F ) P( M ) P( F ) (75 / 111) (36 / 111) 0.6757 3243 1 .
Y si los dos eventos no fueran mutuamente excluyentes? En este caso se utiliza la regla
de la adicin, la cual se enuncia como sigue:
Definicin
Dados dos eventos A y B, la probabilidad de que ocurra el evento A, el evento B o ambos
es igual a la probabilidad del evento A ms la probabilidad del evento B, menos la
probabilidad de que ocurran simultneamente.
La regla de la adicin se puede escribir como sigue:
P( A B) P( A) P( B) P( A B )
72
UNSCH
Bioestadstica I
Ejemplo. Si se escoge aleatoriamente a

una persona de los
111 individuos
representados en la tabla, cul es la
probabilidad de que esa persona sea del
sexo masculino (M) o de que haya
consumido cocana 100 veces o ms
durante su tiempo de vida (C) o ambas?
Solucin: La probabilidad que se busca es P ( M C ) .
P( M C ) P( M ) P(C ) P( M C )
75 34 25 75 34 25 84
P( M C )
0.7568
111 111 111
111
111
Observe que 25 individuos que cumplen ambas condiciones: ser del sexo masculino y haber
consumido cocana 100 veces o ms, estn incluidos entre los 75 individuos que son del
sexo masculino, as como en los 34 individuos que consumieron cocana 100 veces o ms.
Dado que, en el clculo de la probabilidad, estos 25 se agregaron en el numerador dos
veces, tienen que restarse una vez para superar los efectos de duplicacin o traslape.
Eventos independientes
Suponga que en la ecuacin se dice que el evento B ya ocurri, sin que este hecho afecte
la probabilidad de A. Es decir, suponga que la probabilidad del evento A es el mismo a
pesar de que ocurra o no el evento B. En esta situacin, P(A\B) = P(A). En tal caso se dice
que los eventos A y B son eventos independientes. Por lo tanto, la regla de la multiplicacin
para dos eventos independientes se puede escribir como sigue:
P( A B ) P ( B ) P ( A); P( A) 0, P( B) 0
As, se observa que si dos eventos son independientes, la probabilidad de que ocurran
conjuntamente es igual al producto de las probabilidades de sus ocurrencias individuales.
Advierta que cuando dos eventos con probabilidades diferentes de cero son independientes,
cada una de las siguientes sentencias es verdadera:
P( A \ B) P( A), P( B \ A) P( B), P( A B) P( A) P( B)
Dos eventos no son independientes a menos que todas estas afirmaciones sean ciertas.
Es importante estar conscientes de que los trminos independiente y mutuamente
excluyente no significan la misma cosa.
Con el siguiente ejemplo se ilustra el concepto de independencia.
Ejemplo. En un grupo de preparatoria, que consta de 60 mujeres y 40 varones, se observa
que 24 chicas y 16 muchachos usan lentes. Si un estudiante es elegido aleatoriamente, la
probabilidad de que el estudiante use lentes, P(L), es 40/100, o 0.4.
mujeres
24
Usan lentes
No usan lentes 36
60
Total
varones
16
24
40
Total
40
60
100
a) Cul es la probabilidad de que un estudiante elegido aleatoriamente use lentes dado

que es un estudiante varn?
73
UNSCH
Bioestadstica I
Solucin:
resultado:
P( L \ V )
Con la frmula para calcular la probabilidad condicional se obtiene como

P( L V ) 16 / 100
0.4
P(V )
40 / 100
De esta forma, la informacin adicional de que el estudiante es un varn no altera la

probabilidad de que el estudiante use lentes, y P(L) = P(L \ V). Se puede decir que los
eventos "ser varn" y "usar lentes" en ese grupo, son independientes. Se puede mostrar
que los eventos "usar lentes", E, y "no ser varn", V , tambin son independientes:
P( L \ V )
P( L V )
P(V )
24 / 100 24
0.4 Se debe notar que la probabilidad de no ser varn
60 / 100 60
es igual a la probabilidad de ser mujer:
P(V ) P(M ) 60 / 100 0.6

b) Cul es la probabilidad de que ambos eventos, que el estudiante use lentes y sea un
varn, ocurran simultneamente?
Solucin:
P ( L V ) P (V ) P ( L \ V )
pero, tal como ya se mostr, los eventos L y V son independientes, entonces, se sustituye
P(L\V) por P(L) para obtener mediante la ecuacin:
40 40
P( L V ) P(V) P( L)
0.16
100 100
Eventos complementarios
La probabilidad del evento A es igual a 1 menos la probabilidad de su complemento, que
se escribe como A , y
P( A) 1 P( A)
Ejemplo. Suponga que de 1200 admisiones al hospital general durante cierto periodo, 750
son admisiones privadas. Si se designa a este como conjunto A, entonces A es igual a
1200 -750 = 450. Se puede calcular que:
Probabilidad de que las admisiones sean privadas: P( A) 750 / 1200 0.625
Probabilidad de que las admisiones no sean privadas:
Y que
P( A) 450 /1200 0.375
P( A) 1 P( A) 0.375 1 0.625 0.375 0.375
Probabilidad marginal
Dada alguna variable que puede desglosarse en m categoras designadas por A1, A2,,
Ai,, Am y otra variable de ocurrencia conjunta que pueda desglosarse en n categoras
designadas por B1,B2, ,Bj,,Bn, la probabilidad marginal de Ai, P(Ai) es igual a la suma de
las probabilidades conjuntas de Ai con todas las categoras de B. Es decir,
P( Ai ) P( Ai Bi ) , para todos los valores de j.

74
UNSCH
Bioestadstica I
Ejemplo. Se pretende utilizar la ecuacin 3.4.6 y los datos de la tabla 3.4.1 para calcular la
probabilidad marginal P(M).
Solucin: La variable genero se divide en dos categoras, individuos del sexo masculino
(M) y del sexo femenino (E). La variable consumo de cocana se divide en tres categoras:
de 1 a 19 veces (A), de 20 a 99 veces (B) y de 1000 ms veces (C). La categora ser del
sexo masculino ocurre conjuntamente con las tres categoras de la variable frecuencia de
consumo de cocana. Las tres probabilidades conjuntas que pueden calcularse son
P ( M A) 32 / 111 0.2883
P( M B) 18 / 111 0.1662
P( M C ) 25 / 111 0.2252
Ahora,
se calcula la probabilidad
marginal P(M) sumando las tres probabilidades conjuntas como sigue:
P( M ) P ( M A) P ( M B ) P ( M C )
Se debe recordar que la P( M )
0.2883 0.1622 0.2252 0.6757
75
0.6757
111
La sumatoria de las probabilidades marginales de filas es 1:
P( A) P( B) P(C )
39
38
34
0.3514 0.3423 0.3063 1

111 111 111
La sumatoria de las probabilidades marginales de columnas es 1:
P( M ) P( F )
75
36
0.6757 0.3243 1
111 111
75
UNSCH
Bioestadstica I
V. Variables aleatorias
5.1 Definicin
Una variable aleatoria es cualquier funcin que tiene como dominio a los elementos que
constituyen el espacio muestral de un experimento aleatorio y como rango a un subconjunto
de los reales.
Las variables aleatorias pueden ser:

Variables aleatorias discretas
Variables aleatorias continuas
5.2 Variable aleatoria discreta

Si su rango es un conjunto finito o infinito numerable.
Ejemplo. Sea el experimento aleatorio registrar los sexos de los prximos tres nios que
van a nacer. Si se define la v.a.d. Y como el nmero de nios de sexo femenino que
nacern. Halle el dominio y el rango de Y.
Solucin:
={ MMM, MMF, MFM, FMM, MFF, FMF, FFM, FFF }
Y(MMM)
Y(MMF) = Y(MFM)
Y(FMM)
Y(MFF) = Y(FMF)
Y(FFM)
Y(FFF)
Entonces Ry = {0, 1, 2, 3}
76
UNSCH
Bioestadstica I
5.2.1 Funcin de probabilidad de una variable aleatoria discreta

Sea X una variable aleatoria discreta. Se denomina funcin (ley, modelo o distribucin) de
probabilidad de X a la funcin f(x) definida por f(x)=P(X = x) para todo nmero real x, que
satisface las siguientes condiciones:
i ) f ( x) 0 para x R x
ii) f ( x) 0 para x R x
iii )
x i R x
f ( xi ) 1
Ejemplo. Con relacin al Ejemplo 1, halle la funcin de probabilidad de la v.a.d Y definida

como el nmero de nios de sexo femenino que nacern, asumiendo que los eventos
simples son igualmente probables (o que P(M)=P(F)=l/2 y que M y F son eventos
Independientes).
Solucin:
f (0) = P(Y = 0) = P({MMM}) = 1/8
f (1) = P(Y = l) = P({MMF, MFM, FMM}) = 3/8
f (2) = P{Y = 2) = P({MFF, FMF, FFM }) =3/8
f (3) = P{Y = 3) = P({FFF})=1/8
La funcin de probabilidad tambin se puede representar de la siguiente manera:
Y
f(y) = P(Y = y)
1/8
3/8
3/8
1/8
77
UNSCH
Bioestadstica I
EJEMPLO. En un artculo de la revista American Journal of Obstetrics and Gynecology, Buitendijk y

Bracken (A-1) aseguran que durante 25 aos se ha tomado mayor conciencia de los efectos
potencialmente dainos de los medicamentos y qumicos en el desarrollo de los fetos. En una
poblacin de mujeres dadas de alta en maternidad, en un hospital del este de EUA, entre 1980 y
1982, los autores valoraron y estudiaron la asociacin del uso de medicamentos con varias
caractersticas de la madre, por ejemplo uso de alcohol, tabaco y adiccin a frmacos. Sus hallazgos
sugieren que la mujer que muestra un comportamiento ms propenso a correr riesgos durante el
embarazo, tambin est ms propensa a utilizar medicamentos durante el mismo. La tabla muestra
la prevalencia del consumo de medicamentos prescritos y no prescritos durante el embarazo entre
las mujeres estudiadas.
Nmero de
medicamentos
( x)
0
1
2
3
4
5
6
7
8
9
10
12
Frecuencia P( X x) P( X x)
1425
0.3405
0.3405
1351
0.3228
0.6633
793
0.1895
0.8528
348
0.0832
0.9360
156
0.0373
0.9732
58
0.0139
0.9871
28
0.0067
0.9938
15
0.0036
0.9974
6
0.0014
0.9988
3
0.0007
0.9995
1
0.0002
0.9998
1
0.0002
1.0000
4185
1.0000
0.35
0.34
0.33
0.32
0.31
0.30
0.29
0.28
0.27
0.26
0.25
0.24
0.23
0.22
0.21
0.20
0.19
0.18
0.17
0.16
0.15
0.14
0.13
0.12
0.11
0.10
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0.00
F(x)
Probabilidades
Total
Frecuencia Frecuencia
relativa
acumulada
1.00
0.95
0.90
0.85
0.80
0.75
0.70
0.65
0.60
0.55
0.50
0.45
0.40
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00
0 1 2 3 4 5 6 7 8 9 10 12
1 2 3 4 5 6 7 8 9 10 11 12
x (nmero de mediamentos)
x (nmero de medicamentos)
78
UNSCH
Bioestadstica I
Propiedades de una distribucin de probabilidad para una variable discreta:
1) 0 P( X 0) 1
2)
P( X
x) 1
a. Cul es la probabilidad de que una mujer seleccionada aleatoriamente sea una de las que
consumieron tres medicamentos con o sin prescripcin?
Solucin: Se puede escribir la probabilidad deseada como P(X = 3). En la tabla se puede ver que la
respuesta es 0.0832.
b. Cul es la probabilidad de que una mujer seleccionada aleatoriamente haya consumido uno o
dos medicamentos?
Solucin: Para responder a la pregunta, se utiliza la regla de adicin para eventos mutuamente
excluyentes. Mediante el uso de la notacin de probabilidad y los resultados de la tabla 4.2.2 la
respuesta se escribe como
P( 1 2) = P(1) + P(2) = 0.3228 + 0.1895 = 0.5123.
c. Cul es la probabilidad de que una mujer seleccionada aleatoriamente sea una de las que
consumieron dos o menos medicamentos?
Solucin: La probabilidad buscada se puede localizar directamente en la tabla 4.2.3, en el lado
opuesto a x = 2, donde se observa que es 0.8528. Es decir, P(x 2) = 0.8528. Tambin se puede
localizar la respuesta examinando la figura 4.2.2 y determinando la altura de la grfica (medida
sobre el eje vertical) arriba del valor de x = 2.
d. Cul es la probabilidad de que una mujer seleccionada aleatoriamente sea una de las que
consumieron menos de dos medicamentos?
Solucin: Puesto que una mujer que consumi menos de dos medicamentos indica que consumi
uno o ninguno, la respuesta es la probabilidad acumulada para 1, es decir,
P(x < 2) = P(x 1) = 0.6633.
e. Cul es la probabilidad de que una mujer seleccionada aleatoriamente haya consumido cinco o
ms medicamentos?
Solucin: Para encontrar la respuesta se utiliza el concepto de probabilidad complementaria. El
conjunto de mujeres que consumen cinco o ms medicamentos es el complemento del conjunto de
mujeres que consumen menos de cinco (es decir, cuatro o menos). La suma de las probabilidades
asociadas con este conjunto es igual a 1. Esta relacin escrita en notacin de probabilidad es
P(x 5) + P(x 4) = 1. Por lo tanto,
P(x 5) = 1 - P(x 4)= 1- 0.9733 = 0.0267.
f. Cul es la probabilidad de que una mujer seleccionada aleatoriamente sea una de las que
consumieron entre tres y cinco medicamentos, inclusive?
Solucin: P(x 5) = 0.9872 es la probabilidad de que una mujer haya consumido entre cero y 5
medicamentos, inclusive. Para obtener la probabilidad de entre 3 y 5, se resta de 0.9872 la
probabilidad de 2 o menos. La respuesta escrita en notacin de probabilidad queda como:
P(3 x 5) = P(x 5) - P(x 2) = 0.9872 -0.8528 = 0. 1344.
79
UNSCH
Bioestadstica I
5.3 Variable aleatoria continua

Si su rango es un conjunto infinito no numerable.
Ejemplo. Se desea determinar el pH de un compuesto qumico seleccionado al azar, entonces la
variable aleatoria X definida como el pH del compuesto es una variable aleatoria continua con rango
[0,14]
5.3.1 Funcin de densidad de una v.a continua X

La funcin f ( x) de la v.a. continua X es su funcin de densidad si cumple con lo siguiente:
1. f ( x) 0, x
, f (x) no es una probabilidad por ejemplo f ( x) 3.9 es posible.
2.
f ( x)dx 1
3. Si
A x / a x b P( A) P(a X b) f ( x)dx
a
4. P(a
X b) P(a X b) P(a X b) P(a X b) f ( x)dx

a
X n 1
b n 1 a n 1
X
dx
a
n 1 a
n 1
b
Ejemplo. Una variable aleatoria continua X con valores entre 0 y 4 tiene una funcin
densidad dada por p( X ) 1 aX , donde a es una constante.
2
(a) Calcular a.
(b) Hallar P(1 < X < 2}.
Solucin
(a) El grfico de p( X ) 1 aX es una recta, como muestra la Figura 6.5. Para hallar a,
2
debemos constatar primero que el rea total bajo la recta entre X=0 y X=4, y sobre el eje X,
ha de ser 1:
80
UNSCH
Bioestadstica I
en X 0
1
p(0) a 0
2
1
p(0)
2
en X 4
1
p(4) 4a
2
Entonces debemos elegir a de modo que el rea del trapecio =1.
rea del trapecio=
1
(altura)(suma de bases)
2
1
1 1
4 4a 1
2
2 2
1 1
2 4a 1
2 2
2 1 4a 1
(1 4a)
1
2
1
1
2
1 2
4a
2
1
4a
2
1
a
8
Tambin se puede calcular a integrando de la siguiente manera:
4a
f ( x)dx 1
2 axdx 2 8a
0
2 axdx 1
0
2 8a 1
1
a
8
(b) La requerida probabilidad es el rea entre X=1 y X=2. Sombreada en la figura 6.6. De la parte
parte (a), p(X) 1 1 X ; as que
2 8
81
UNSCH
p(1)
p(2)
Bioestadstica I
1 1
3
1
2 8
8
1 1
1 1 1
2
2 8
2 4 4
El rea del trapecio pedida es:
1 3 1 15 5
1 , que es la probabilidad deseada.
2 8 4 2 8 16
Integrando se obtiene el mismo resultado:

2
1 1
5
A x / 1 x 2 P( A) (1 x 2) f ( x)dx xdx
2 8
16
1
1
5.4 ESPERANZA MATEMTICA

Si pj es la probabilidad de que una persona reciba una cantidad S de dinero, la esperanza
matemtica (o simplemente esperanza) se define como pS.
EJEMPLO. Si la probabilidad de que un hombre gane un premio de $10 es 1/5, su esperanza
matemtica es 1 ($10) $2 .
5
El concepto de esperanza matemtica se extiende fcilmente. Si X denota una variable

aleatoria discreta que puede tomar los valores X1, X2,,XK con probabilidades p1,p2,,pk,
donde p1 + p2 ++ pk = 1, la esperanza matemtica de X (o simplemente esperanza de X),
denotada E[X] y se define como
k
E ( X ) p1 X1 p2 X 2 ... pk X k p j X j pK
j i
Si las probabilidades pj en esa expresin se sustituyen por las frecuencias relativas f j / N ,

donde N
, la esperanza matemtica se reduce a (
fX ) / N , que es la media
aritmtica X de una muestra de tamao N en la que X1, X2,,XK aparecen con estas
frecuencias relativas. Al crecer N ms y ms, las frecuencias relativas se acercan a las
probabilidades pj. As que nos vemos abocados a interpretar E(X) como la media de la
poblacin cuyo muestreo se consideraba. Si llamamos m a la media muestral, podemos
denotar la media poblacional por la correspondiente letra griega (mu).
Puede definirse, asimismo, la esperanza matemtica para variables aleatorias continuas.
82
UNSCH
Bioestadstica I
VI.
Distribuciones Discretas
6.1 Distribucin Binomial

Cuando en un proceso aleatorio o experimento, llamado ensayo, puede ocurrir slo uno de dos
resultados mutuamente excluyentes, como vida o muerte, enfermo o sano, masculino o femenino,
el ensayo se llama ensayo de Bernoulli.
6.1.1 La funcin de probabilidad Binomial
n
x
n x
x 0,1, 2,..., n
x (1 )
f ( x) P( X x)
de otro modo
Notacin : x
Binomial (n, )
6.1.2 La media y la varianza de X

Si x
Binomial (n, ) entonces:
E ( X ) n
2 Var ( X ) n (1 )
Ejemplo: Un examen consta de n=25 preguntas, cada una de las cuales tiene 5 alternativas de las
cuales slo una es correcta, si una persona est adivinando al responder y se desea saber el nmero
de respuestas correctamente respondidas.
Entonces, este es un experimento Binomial con xito: E={la respuesta es correcta} y
fracaso: F={la respuesta no es correcta} y siendo:
P( E )
1
5
Sea la v.a. X=EI nmero de respuestas correctas en las 25 preguntas,

x
Binomial (25, 0.2)
La distribucin de probabilidad Binomial ser:
f ( x) nx x (1 )n x
x
25 x
f ( x) 25
x 0.2 (1 0.2)
x 0,1, 2,3, 4,..., 25
83
UNSCH
Bioestadstica I
x
25 x
f ( x) 25
x 0.2 (1 0.2)
x
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
0.0038
0.0236
0.0708
0.1358
0.1867
0.1960
0.1633
0.1108
0.0623
0.0294
0.0118
0.0040
0.0012
0.0003
0.0001
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
La probabilidad de que la persona acierte por lo menos 3, pero menos de 5 preguntas es:
P(3 X 5) P( X 3) P( X 4) 0.1358 0.1867 0.3225
Uso de una tabla binomial (Libro de Bioestadistica Daniels)

Ejemplo.
84
UNSCH
Bioestadstica I
Utilizar la tabla B cuando p>0.5 (libro de Bioestadstica Daniels)

Ejemplo.
85
UNSCH
Bioestadstica I
6.2 Distribucin Hipergeomtrica

Cuando una poblacin finita contiene dos tipos de unidades, que pueden ser denominados como
xitos y fracasos, y se extrae una muestra aleatoria simple de la poblacin, cada unidad representa
un ensayo de Bernoulli. A medida que se selecciona cada unidad, la proporcin de xitos en la
poblacin restante disminuye o aumenta, dependiendo si la unidad extrada es un xito o fracaso.
Por esta razn, los ensayos no son independientes, de ah que el nmero de xitos en la muestra no
siga una distribucin binomial. En su lugar, la distribucin que describe adecuadamente el nmero
de xitos en esta situacin se llama distribucin hipergeomtrica.
6.2.1 La funcin de probabilidad hipergeomtrica
Notacin : x
Si X
Hiper (N, n, A)
Hiper ( N , n, A) entonces su distribucin de probabilidad es:

f ( x) P( X x)

A
x
NA
n x
N
n
para x entero t.q mx(0, n A - N ) x min(n, A)
6.2.2 La media y la variancia de x

Si X
Hiper(N,n,A) entonces:
=E(X)=n
A
N
2 var(X) n
A
A N n
1
N N N 1
Ejemplo. Un determinado antibitico es empacado en cajas de 20 botellas. Suponga que en una

caja, la cual es enviada a una farmacia hay 5 botellas mal envasadas. El dueo de la farmacia
sospecha que la cantidad de antibitico en algunos de los frascos es insuficiente por lo que
selecciona al azar y sin reemplazo una muestra de tres frascos y decide que si encuentra la mitad o
ms de frascos mal envasados en esa muestra cambiar de distribuidor. Cul es la probabilidad de
que el dueo de la farmacia no cambie de distribuidor?
Respuesta:
N 20
n3
A5
N A 15
x 0,1, 2,3
0.859
P( x 2) P( x 0) P( x 1)

5
0
15
3
5
1
15
2
20
3
86
UNSCH
Bioestadstica I
6.3 La distribucin de Poisson.

La distribucin de Poisson se utiliza con frecuencia en el trabajo cientfico. Una manera de
considerarla es como una aproximacin de la distribucin binomial cuando n es grande y p es
pequea.
e x
x!
f ( x) P( X x)
x 0,1, 2,...
6.3.1 Funcin de probabilidad para un Proceso de Poisson
f ( x) P( X x)
e vt vt x
x!
x 0,1, 2,...
Donde:
v= promedio de sucesos por unidad de intervalo.
t = tamao de intervalos (ejemplo: t=2.3, t=5.8 etc.).
vt = promedio d sucesos por intervalo de tamao t
Notacin : X
Pois(vt )
Tambin se puede expresar:
e x
f ( x) P( X x)
x!
Donde vt , X
x 0,1, 2,...
Pois( )
6.3.2 La media y la variancia de X

X
Pois( ) entonces:
E( X )
2 Var( X ) con vt
Ejemplo.
Se cree que el nmero promedio de individuos por cada 2 km2 de cierta especie de
mamfero que habita en las alturas de cierta regin es de 1.2.
a. En una zona de 2.8 km2, cuntos individuos esperaramos en promedio encontrar?
Sea la v.a. X=Nmero de individuos en 2 km2
El nmero de individuos que habitan en promedio ser:
2.8(1.2) / 2 1.68
b. Si se observa un rea de 3 km2 en dicha regin, cul es la probabilidad que se

encuentren ms de 3 individuos de esta especie?
Sea la v.a. X: Nmero de individuos en 3km2
87
UNSCH
Bioestadstica I
3(1.2) / 2 1.8
Por lo tanto 1.8
e1.8 (1.8) x
p( x 3) 1 p( x 3) 1
1 0.8912 0.1087
x!
x 0
3
Recordar que: e=2.71828183
x
0
1
2
3
4
5
6
7
8
9
10
.
.
.
xi
0.1653
0.1653
0.4628
0.7306
0.8913
0.9636
0.9896
0.9974
0.9994
0.9999
1.0000
1.0000
0.2975
0.2678
0.1607
0.0723
0.0260
0.0078
0.0020
0.0005
0.0001
0.0000
.
.
.
.
.
.
0.0000
1.0000
Ejemplo
En Escherichia coli, una bacteria que aparece con frecuencia en el tracto digestivo humano, una
clula de cada 109 muta de ser sensible a la estreptomicina a ser resistente a ella. Esta mutacin
puede dar lugar a que el individuo implicado se vuelva resistente a la estreptomicina. Observando
2x109 de tales clulas,
a. cul es la probabilidad de que ninguna mute?
b. Cul es la probabilidad de que al menos una mute?
Este problema es efectivamente binomial, con n = 2 x 109 y p = 1/109. Como 1/109 es
extremadamente pequeo, la mutacin de una clula es un suceso muy raro. De modo que X,
nmero de clulas que mutan, puede considerarse como aproximadamente de Poisson con
=np=(2 x 109)(1/109) = 2.
a. cul es la probabilidad de que ninguna mute?
e2 (2)0
P( X 0)
0.1353
0!
b. Cul es la probabilidad de que al menos una mute?
88
UNSCH
Bioestadstica I
La probabilidad de que se produzca al menos una mutacin es P(X1). Esta probabilidad se halla por
sustraccin. Es decir,
P( X 1) 1 P( X 0) 1
e2 (2)0
1 0.1353 0.8647
0!
A continuacin se muestra la probabilidad cuando X=x y el acumulado.
e x
P( X x)
x!
x
0
1
2
3
4
5
6
7
8
9
10
.
.
.
10
0.1353
0.2707
0.2707
0.1804
0.0902
0.0361
0.0120
0.0034
0.0009
0.0002
0.0000
.
.
.
0.0000
e x
x!
x 0
x
0.1353
0.4060
0.6767
0.8571
0.9473
0.9834
0.9955
0.9989
0.9998
1.0000
1.0000
.
.
.
1.0000
Para facilitar estos clculos las probabilidades acumuladas se encuentran tabuladas en los
diferentes libros de estadstica.
informtica. UNALM.
Daniel W. Bioestadstica. Cuarta edicin. Limusa Wiley. 2006
Spiegel, M. Estadstica. 2da ed. Mc GRAW HILL. Espaa 1991. 556 pag
89
UNSCH
Bioestadstica I
VII. Distribuciones continuas

Recuerde que una variable aleatoria continua es una variable aleatoria que, de por s, puede tomar
cualquier valor en cierto intervalo o secuencia de nmeros reales y no exclusivamente en puntos
aislados.
7.1 Distribucin Exponencial

Esta ley de distribucin describe procesos en los que:
Nos interesa saber el tiempo hasta que ocurre determinado evento, sabiendo que, el tiempo que
pueda ocurrir desde cualquier instante dado t, hasta que ello ocurra en un instante tf, no depende
del tiempo transcurrido anteriormente en el que no ha pasado nada.
La variable aleatoria continua X tiene distribucin exponencial con parmetro con media igual a
E ( X ) y variancia
V ( X ) 2 , si su funcin de densidad es:
90
UNSCH
Bioestadstica I
Ejemplo
Una masa radiactiva emite partculas de acuerdo con un proceso de Poisson a una media de razn
de 15 partculas por minuto. En algn punto inicia un reloj.
a. Cul es la probabilidad de que transcurran cinco segundos antes de la siguiente emisin?
b. Cul es la media del tiempo de espera hasta que se emite la siguiente partcula?
Solucin
El tiempo se medir en segundos. T denota el tiempo en segundos que transcurre antes de que se
emita la siguiente partcula. La media de la razn de las emisiones es de 0.25 por segundo, por lo
que el parmetro de razn es = 0.25 y T~ Exp(0.25). La probabilidad de que transcurran ms de
cinco segundos antes de la siguiente emisin es igual a
Debes recordar que:
0.25
1
4
0.25
P(T 5) 1 P(T 5)
1 (1 e0.25(5) ) 1 (1 e5/4 )
e125
0.2865
La media del tiempo de espera es
1
4
0.25
7.2 Distribucin Normal

La Distribucin Normal fue hallada por primera vez en 1733, por A. De Moivre. Pero el
descubrimiento de De Moivre al parecer pas inadvertido y fue "redescubierta" por C.F Gauss en
1809 y P.S Laplace en 1780 hizo trabajos preliminares que profundiz en 1812.
En Estadstica una buena cantidad de variables continuas (peso, longitud, ingresos, temperatura
etc.) se consideran que tienen Distribucin Normal (se dice que es lo normal que tenga esa
distribucin).
91
UNSCH
Bioestadstica I
La variable aleatoria continua X tiene distribucin normal con media y variancia 2 si su funcin
de probabilidad es:
f ( x)
2
x

0
Notacin:
1 x

x N ( , 2 )
Caractersticas de la distribucin normal

1.
Tiene forma acampanada.
2.
Es simtrica respecto a la recta X
3.
Es asinttica respecto al eje X
En el grfico anterior se aprecia dos distribuciones normales con igual promedio pero diferente
desviacin estndar (a menor desviacin estndar los datos estn ms cerca de la media)
7.3 Distribucin Normal Estndar

Si
N (, 2 ) , entonces la v.a.c. Z
se dice tiene distribucin normal estndar; su
media es 0, su variancia 1 y su funcin de probabilidad es:
f ( z)
2
z
1
z2
2
Esta prueba es incompleta porque slo demuestra que la media y la variancia de Z son 0 y 1
respectivamente pero no demuestra que Z tiene distribucin normal (esto es tema de un libro de
Estadstica Matemtica).
92
UNSCH
Bioestadstica I
Uso de tabla de la distribucin Normal Estndar

P( Z a )
P(Z a) 1 P(Z a)
P(a Z b) P(Z b) P(Z a)
93
UNSCH
Bioestadstica I
7.5 Distribucin Ji-Cuadrado

La distribucin Ji-cuadrado fue encontrada por primera vez por F.R Helmert en 1876. Esta
distribucin toma el nombre de la letra griega elevada al cuadrado. Esta letra en castellano se
llama Ji y en ingls Chi.
Una v.a X tiene distribucin Ji-cuadrado con m grados de libertad si su funcin de probabilidad est
dada por:
94
UNSCH
Bioestadstica I
Caractersticas de una distribucin Ji-cuadrado tpica

Como se aprecia en el grfico anterior:
1.
2.
3.
4.
Presenta un sesgo o asimetra positiva.

Es asinttica con respecto al eje horizontal en el lado positivo.
El rango de la variable considera slo los valores positivos.
La distribucin tiene menor sesgo conforme los grados de libertad son mayores (m > 30)
5. Si
2( m) ,
entonces
Teorema Si Z ~ N(0,1) entonces
X m y X2 2m .
Z2
(1)2
Ejemplo
7.6 Distribucin t de Student.

La distribucin t fue empleada por primera vez en un problema de Estadstica importante por W.S
Gosset en 1908 (l escriba bajo el seudnimo de Student).
Una v.a X tiene distribucin t con m grados de libertad si su funcin de probabilidad es:
Caractersticas de la distribucin t
1. Cada curva t(m) tiene forma acampanada con centro en 0.
2. Cada curva t(m) es ms dispersa que la curva normal estndar.
95
UNSCH
Bioestadstica I
3. Si X ~ t(m), entonces
0 0 y
2
X
m .
m2
4. Conforme aumenta m, la dispersin de la curva t(m) disminuye.

5.
A medida que m , la curva t(m) se aproxima a la curva normal estndar.
Teorema
Si las v.as Z
N (0,1) y
(2m )
son independientes, entonces la v.a X
Z
V
m
t( m ) .
7.7 Distribucin F
Ronald A. Fisher (naci en Inglaterra el 17 de Febrero de 1890 y falleci el 29 de Julio de 1962) fue
un gran cientfico, matemtico, estadstico, bilogo evolutivo y genetista. Fisher aport mucho a la
estadstica, siendo una de sus ms importantes contribuciones, la Inferencia Estadstica creada por
l en 1920 (que se estudiar de manera introductoria en el captulo XI de este libro). A la
distribucin F tambin se le llama distribucin F de Snedecor o distribucin F de Fisher-Snedecor.
Una v.a. X tiene una distribucin F con n y m grados de libertad si su funcin de probabilidad es:
Caractersticas de la distribucin F
a.
b.
c.
d.
Est definida solamente para valores positivos de la variable.

Tiene asimetra positiva.
Es asinttica respecto al eje horizontal en su parte positiva.
Las distribuciones F(n,m) tienden a ser simtricas cuando n y m suficientemente grandes
(mayores que 30)
Teorema
Si U
(2n ) y V
(2m ) , son v.a. independientes, entonces la variable aleatoria
96
UNSCH
Bioestadstica I
U
U m
X n
V V n
m
F ( n, m )
Notacin
Si X
F(n, m) y
P( X k ) k F( ,n,m)
Propiedad recproca
F( ,n,m)
1
F(1 ,m,n )
- Gua del curso de estadstica general. 2016. Departamento estadstica e
informtica. UNALM.
- Daniel W. Bioestadstica. Cuarta edicin. Limusa Wiley. 2006
- Spiegel, M. Estadstica. 2da ed. Mc GRAW HILL. Espaa 1991. 556 pag
- Balzarini Mnica; Di Rienzo Julio; Tablada Margot; Gonzlez, Laura; Bruno
Cecilia; Crdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadstica
y Biometra. Editorial Brujas. Argentina.
informtica. UNALM
-

Mxico, 2008
97
UNSCH
Bioestadstica I
98
UNSCH
Bioestadstica I
99
UNSCH
Bioestadstica I
100
UNSCH
Bioestadstica I
101
UNSCH
Bioestadstica I
VII. Muestreo
7.1 Muestreo
Proceso de seleccin de muestras, se utiliza cuando no es posible contar o medir todos los
elementos de la poblacin objeto de estudio.
7.2 Muestra
Una muestra es una parte de la poblacin. (En algunos casos, una muestra puede incluir la
poblacin entera). Por lo general, se trata de usar la informacin de muestra para hacer inferencia
acerca de una poblacin. Por esta razn es particularmente importante definir la poblacin que se
estudia y obtener una muestra representativa de la poblacin definida.
7.3 Seleccin de la muestra.

Ha sido ampliamente demostrado que no se puede tomar una muestra aleatoria sin emplear un
proceso mecnico. En el proceso usado para obtener una muestra aleatoria o para introducir la
aleatoriedad en un experimento o encuesta, por lo general interviene una tabla de nmeros
aleatorios.
Cmo seleccionar una muestra:

Tamao reducido.
Ausencia de sesgos.
o Conclusiones obtenidas de la muestra son vlidas para la poblacin.
Facilidad en la definicin de la muestra.
Mejor alternativa: Muestras aleatorias simples
o Cada miembro de la poblacin tiene la misma probabilidad de pertenecer a la muestra.
o La seleccin se realiza de manera independiente.
La seleccin de un individuo concreto no afecta a la probabilidad de seleccionar
cualquiera de los otros.
7.4 Caractersticas de la muestra

Una muestra debe ser representativa de la poblacin si tiene como fin obtener inferencias vlidas.
Para obtener una muestra representativa, el principio de aleatoriedad se incorpora a las reglas para
obtener la muestra. La aleatoriedad es el resultado de un proceso mecnico para asegurar que los
sesgos individuales, conocidos o desconocidos en su naturaleza, no influyan en la seleccin de las
observaciones de la muestra. En consecuencia, se aplican las leyes de la probabilidad y se usan
para extraer inferencias.
En resumen, para que una muestra sea representativa debe cumplir con las siguientes condiciones:
a) Debe haber sido obtenida al azar.
b) Su tamao y sus elementos deben haber sido seleccionados aplicando un mtodo de
muestreo.
7.5 Tipos de muestreo.

Existen dos mtodos para seleccionar muestras de poblaciones:
a) Muestreo no aleatorio o de juicio: Se emplea el conocimiento y la opinin personal para
identificar aquellos elementos de la poblacin que deben incluirse en la muestra.
b) Muestreo aleatorio o de probabilidad: En el cual todos los elementos de la poblacin
tienen la oportunidad de ser escogidos para la muestra. Dentro de este tipo de muestreo se
encuentran:
102
UNSCH
Bioestadstica I
b.1) Muestreo aleatorio simple: el cual es un mtodo de seleccin de muestras que

permite que cada muestra posible pueda ser elegida con la misma probabilidad. Por su
parte cada elemento de la poblacin tiene la misma oportunidad igual de ser incluido en la
muestra.
b.2) Muestreo sistemtico: mtodo en el cual los elementos que se muestrearn se
seleccionan de la poblacin en un intervalo uniforme que se mide con respecto al tiempo,
al orden o al espacio.
b.3) Muestreo estratificado: mtodo en el que la poblacin se divide en grupos
homogneos, o estratos, y despus se toma una muestra aleatoria simple de cada estrato.
Aqu la variabilidad dentro de cada grupo es pequea y entre los grupos es grande.
b.4) Muestreo de racimo: mtodo en el que la poblacin se divide en grupos o racimos de
elementos, y luego se selecciona una muestra aleatoria de estos racimos. La variabilidad
dentro de cada grupo es grande y entre los grupos es pequea; es como si cada racimo
fuese un pequea representacin de la poblacin en si mima.
informtica. UNALM.
- Daniel W. Bioestadstica. Cuarta edicin. Limusa Wiley. 2006
- Spiegel, M. Estadstica. 2da ed. Mc GRAW HILL. Espaa 1991. 556 pag
- Balzarini Mnica; Di Rienzo Julio; Tablada Margot; Gonzlez, Laura; Bruno
Cecilia; Crdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadstica
y Biometra. Editorial Brujas. Argentina.
informtica. UNALM
-

Mxico, 2008
103
UNSCH
Bioestadstica I
VIII. Distribucin de muestreo

Consideremos todas las posibles muestras de tamao N en una poblacin dada (con o sin
reposicin). Para cada muestra, podemos calcular un estadstico (tal como la media o la
desviacin tpica) que variar de muestra a muestra. De esta manera obtenemos una
distribucin del estadstico que se llama su distribucin de muestreo.
8.1 Distribucin de muestreo de medias

Supongamos que se toman todas las posibles muestras de tamao N, sin reposicin, de
una poblacin finita de tamao Np > N. Si denotamos la media y la desviacin tpica de la
distribucin de muestreo de medias por X y X y las de la poblacin por y .
respectivamente, entonces
Np N
N p 1
Si la poblacin es infinita o si el muestreo es con reposicin, los resultados anteriores se

reducen a
8.2 Distribucin de muestreo de proporciones

Supongamos que una poblacin es infinita y que la probabilidad de ocurrencia de un
suceso (su xito) es p, mientras la probabilidad de que no ocurra es q = 1 p. Se obtiene
una distribucin de muestreo de proporciones cuya media P y cuya desviacin tpica P
vienen dadas por
P p
pq
p(1 p)
N
Estas ecuaciones son vlidas tambin para una poblacin finita en la que se hace
muestreo con reposicin. Para poblaciones finitas en que se haga muestreo sin reposicin,
las ecuaciones quedan sustituidas por las ecuaciones
p y pq
8.3 Errores tpicos

La desviacin tpica de una distribucin de muestreo de un estadstico se suele llamar su
error tpico.
104
UNSCH
Bioestadstica I
105
UNSCH
Bioestadstica I
8.4 Ejemplo de distribucin de muestreo de promedios

Ejemplo: Una poblacin consta de los nmeros 2, 3, 6, 8 y 11. Consideremos todas las
posibles muestras de tamao 2 que pueden tomarse con reposicin de esa poblacin.
Hallar (a) la media de la poblacin, (b) la desviacin tpica de la poblacin, (c) la media de
la distribucin de muestreo de medias y (d) la desviacin tpica de la distribucin de
muestreo de medias (o sea, el error tpico de medias).
Solucin
(a) la media de la poblacin,
(b) la desviacin tpica de la poblacin,
(c) la media de la distribucin de muestreo de medias

2
2
3
6
8
11
(2,2)
(3,2)
(6,2)
(8,2)
(11,2)
3
(2,3)
(3,3)
(6,3)
(8,3)
(11,3)
6
(2,6)
(3,6)
(6,6)
(8,6)
(11,6)
8
(2,8)
(3,8)
(6,8)
(8,8)
(11,8)
11
(2,11)
(3,11)
(6,11)
(8,11)
(11,11)
Las correspondientes medias muestrales son

2.0
2.5
4.0
5.0
6.5
2.5
3.0
4.5
5.5
7.0
4.0
4.5
6.0
7.0
8.5
5.0 6.5
5.5 7.0
7.0 8.5
8.0 9.5
9.5 11.0
106
UNSCH
Bioestadstica I
suma de todas las medias muestrales 150
6.0
25
25
(d) la desviacin tpica de la distribucin de muestreo de medias (o sea, el error tpico de

medias).
N
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Suma
Xi
( X i X )2
2.0
2.5
4.0
5.0
6.5
2.5
3.0
4.5
5.5
7.0
4.0
4.5
6.0
7.0
8.5
5.0
5.5
7.0
8.0
9.5
6.5
7.0
8.5
9.5
11.0
150.0
16.0
12.3
4.0
1.0
0.3
12.3
9.0
2.3
0.3
1.0
4.0
2.3
0.0
1.0
6.3
1.0
0.3
1.0
4.0
12.3
0.3
1.0
6.3
12.3
25.0
135.0
Histograma de Medias muestrales

Normal
9
Media
6
Desv.Est. 2.372
N
25
8
7
6
Frecuencia
Medias
muestrales
5
4
3
2
1
0
10
12
Medias muestrales
N=25
(X
X )2
135
5.40
25
X 2 5.40 2.32
X
107
UNSCH
2
X
Bioestadstica I
2
N
10.8
5.40
2
2
10.8
2.32
N
2
Problema. Resolver el problema anterior para el caso sin reposicin.

(a) la media de la poblacin,
(b) la desviacin tpica de la poblacin,
(c) la media de la distribucin de muestreo de medias

2
2
3
6
8
11
(2,2)
(3,2)
(6,2)
(8,2)
(11,2)
3
(2,3)
(3,3)
(6,3)
(8,3)
(11,3)
6
(2,6)
(3,6)
(6,6)
(8,6)
(11,6)
8
(2,8)
(3,8)
(6,8)
(8,8)
(11,8)
11
(2,11)
(3,11)
(6,11)
(8,11)
(11,11)
Las correspondientes medias muestrales son:

2.0
2.5
4.0
5.0
6.5
2.5
3.0
4.5
5.5
7.0
4.0
4.5
6.0
7.0
8.5
5.0 6.5
5.5 7.0
7.0 8.5
8.0 9.5
9.5 11.0
108
UNSCH
Bioestadstica I
Xi
2.5
4
5
6.5
4.5
5.5
7
7
8.5
9.5
1
2
3
4
5
6
7
8
9
10
Suma
( X i X )2
12.3
4
1
0.25
2.25
0.25
1
1
6.25
12.3
40.5
60
Histograma de Medias muestrales

Normal
4
Media
6
Desv.Est. 2.121
N
10
Frecuencia
Medias
muestrales
10
Medias muestrales
60
6.0
10
(d) la desviacin tpica de la distribucin de muestreo de medias (o sea, el error tpico de

medias).
(X
X )2
2 Np N
N N p 1
(X
X )2
40.5
4.05
10
3.292 5 2
4.05
2 5 1
40.5
4.05 2.01
10
8.5 Ejemplo de distribucin de muestreo de proporciones

Hallar la probabilidad de que en 120 lanzamientos de una moneda
(a) entre el 40% y 60% sean caras y
(b) 5/8 o ms sean caras.
Solucin
1
2
1
2
(a) entre el 40% y 60% sean caras

El 40% de 120 es = 48
El 60% de 120 es = 72
Usaremos la aproximacin normal.
109
UNSCH
Bioestadstica I
Puesto que el nmero de caras es una variable discreta, nos preguntamos por la
probabilidad de que el nmero de caras est entre 47.5 y 72.5.
Nmero esperado de caras Np 120 60

2
1 1
Npq (120) 5.48
2 2
Grfica de distribucin
Normal, Media=60, Desv.Est.=5.48
0.08
0.9775
0.07
Densidad
0.06
0.05
0.04
0.03
0.02
0.01
0.00
47.5
60
72.5
Recordar:
El 40% de 120 es = 48 48 0.5 = 47.5
El 60% de 120 es = 72 72 + 0.5 = 72.5
Puesto que nuestras tablas slo presentan Z, es decir con
estandarizar, como sigue: Z
P(47.5 X 72.5) P(
2 1 , debemos
47.5
72.5
) P(
47.5 60 X 72.5 60
)
5.48
5.48
P(2.28 Z 2.28)
P(2.28 Z 2.28) P(Z 2.28) P(Z 2.28) 0.9887 0.0113 0.9774
110
UNSCH
Bioestadstica I
Normal, Media=0, Desv.Est.=1
0.9774
0.4
Densidad
0.3
0.2
0.1
0.0
-2.28
2.28
0.4
0.6250-0.00417=0.62083
0.3
0.62083 0.5
2.65
0.0456
P(Z 2.65) 1 (Z 2.65) 1 0.9960 0.004
Densidad
(b) 5/8 o ms sean caras.

5/8=0.6250
0.2
0.1
0.0
0.004025
0
2.65
111
UNSCH
Bioestadstica I
IX. Inferencia Estadstica.

La inferencia estadstica es el procedimiento por medio del cual se llega a conclusiones
acerca de una poblacin con base en la informacin que se obtiene a partir de una muestra
seleccionada de esa poblacin.
9.1 Estimacin de parmetros:

Estimacin puntual
Una estimacin puntual es un solo valor numrico utilizado para estimar el parmetro
correspondiente de la poblacin.
Estimacin por intervalos

Una estimacin por intervalos consta de dos valores numricos que definen un intervalo
que, con un grado especfico de confianza, se considera que incluye al parmetro por
estimar.
Estimador
Se dice que un estimador, por ejemplo T, para el parmetro es un estimador insesgado
de si E(T)=
Poblacin muestreada
La poblacin muestreada es la poblacin de la cual se extrae una muestra.
Poblacin objetivo
La poblacin objetivo es la poblacin de la que pretende hacer una inferencia.
Dado que se desconoce el valor de , la expresin 2 X no dice mucho. Sin
embargo, se tiene una estimacin puntual de , que es
X.
Resultara til obtener un intervalo en torno a esta estimacin puntual de ?

La respuesta es s. Suponga que se forman intervalos a partir de todos los valores posibles
de x calculados a partir de todas las muestras posibles de tamao n de la poblacin de
inters. De esa forma se tendra un gran nmero de intervalos de la forma X 2 X , con
amplitudes todas iguales a la del intervalo en torno a la desconocida. Aproximadamente
95 por ciento de estos intervalos tendra centros que caen dentro del intervalo 2 X en
torno a . Cada uno de estos intervalos que caen dentro de 2 X en torno a pueden
contener a la misma . Estas ideas se muestran en la figura 6.2.1. En dicha figura se
observa que X 1 , X 3 y X 4 caen dentro del intervalo 2 X en torno a y, en
consecuencia, los intervalos, 2 X alrededor de las medias de la muestra incluyen el valor

de . Las medias mustrales X 2 y X 5 no caen dentro del intervalo 2 X en torno a , y
los intervalos de 2 X en torno a ellas no incluyen a .
112
UNSCH
Bioestadstica I
EJEMPLO. Suponga que un investigador, interesado en obtener una estimacin del nivel
promedio de alguna enzima en cierta poblacin de seres humano, toma una muestra de 10
individuos, determina el nivel de la enzima en cada uno de ellos, y calcula la media de la
= 22. Adems, que la variable de inters sigue una distribucin
muestra
aproximadamente normal, con una variancia de 45. Se desea estimar el valor de .
Solucin: Un intervalo de confianza de aproximadamente 95 por ciento para est dado
por:
X 2 X
45
10
22 2(2.1213)
17.76, 26.24
22 2
estimador (coeficiente de confiabilidad) (error estndar)

X z1 /2 X
donde z 1 / 2 es el valor de z a la izquierda de donde est 1 / 2 y a la derecha en que
se encuentra / 2 del rea bajo la curva.
113
UNSCH
Bioestadstica I
Si :
0.05 1 1 0.05 0.95
0.05
1 / 2 1 1
1 0.025 0.975
2
2
0.05
/2
0.025
2
2

0.20
0.20
0.975
0.15
Densidad
Densidad
0.15
0.10
0.10
0.05
0.05
0.025
0.00
22
26.16
0.00
17.84
22
0.975 0.025 0.95
0.20
0.95
Densidad
0.15
0.10
0.05
0.00
17.84
22
26.16
Ahora, debemos observar que los valores no son lo que se muestra en la figura dada por
Minitab, esto se debe a que el valor del coeficiente de confiabilidad no es 2 si no debe ser
1.96, luego podemos resolverlo de la siguiente manera:
X 1.96 X
45
10
22 1.96(2.1213)
17.84, 26.16
22 1.96
114
UNSCH
Bioestadstica I
9.2 Interpretacin del intervalo de confianza

Interpretacin probabilstica
En el muestreo repetido, de una poblacin con distribucin normal y desviacin estndar
conocida 100(1 - ) por ciento de todos los intervalos de la forma X z 1 /2 X
incluyen a la larga la media de la poblacin .
Interpretacin prctica
Cuando se hace un muestreo a partir de poblaciones que siguen una distribucin normal
y con desviacin estndar conocida, existe un 100( 1 - ) por ciento de confianza de que
el intervalo calculado X z 1 /2 X , contiene la media de la poblacin .
Precisin
A la cantidad que se obtiene al multiplicar el factor de confiabilidad por el error estndar de
la media se le llama precisin de la estimacin. Tambin, se le llama margen de error.
Coeficiente de confianza Factores de confiabilidad
1.645
0.90
1.96
0.95
2.58
0.99
EJEMPLO. Un fisioterapeuta desea estimar, con 99 por ciento de confianza, la media de
fuerza mxima de un msculo particular en cierto grupo de individuos. Se inclina a suponer
que los valores de dicha fuerza muestran una distribucin aproximadamente normal con
una variancia de 144. Una muestra de 15 individuos que participaron en el experimento
present una media de 84.3.
Solucin:
Coeficiente de confianza: 0.99
Coeficiente de confiabilidad: 2.58
Muestra: N=15
Media:
X = 84.3
Variancia:
2 144
Desviacin estndar: 2 144 12

Error estndar
12
15
0.14
3.0984
X 2.58 X
84.3 2.58(3.0984)
84.3 8.0
76.3, 92.3
0.99
0.12
0.10
Densidad
Normal, Media=84.3, Desv.Est.=3.0984
0.08
0.06
0.04
0.02
0.00
76.3
84.3
92.3
115
UNSCH
Bioestadstica I
Se dice que se tiene 99 por ciento de confianza de que la media de la poblacin est entre
76.3 y 92.3, porque al repetir el muestreo, 99 por ciento de todos los intervalos que pueden
construirse en la forma descrita, incluyen a la media de la poblacin.
9.3 Muestreo a partir de poblaciones que no presentan una distribucin normal

EJEMPLO. Un equipo de investigadores est interesado en la puntualidad de los pacientes
en las citas concertadas. En un estudio de flujo de pacientes en los consultorios de
mdicos generales se encontr que una muestra de 35 pacientes llegaba 17.2 minutos
tarde a las citas, en promedio. Una investigacin previa haba demostrado que la
desviacin estndar era de 8 minutos aproximadamente. Se tuvo la sensacin de que la
distribucin de la poblacin no era normal. Cul es el intervalo de confianza de 90 por
ciento para , que es el promedio real de impuntualidad en las citas?
Solucin: Dado que el tamao de la muestra es bastante grande (mayor que 30) y se conoce
la desviacin estndar de la poblacin, la situacin se aproxima al teorema del lmite
central y se supone que la distribucin muestral de X presenta una distribucin
aproximadamente normal. Al consultar la tabla de la distribucin Normal se encuentra
que el coeficiente de confiabilidad que corresponde a un coeficiente de confianza de 0.90
se aproxima a 1.645 si se interpola. El error estndar es de
8
35
1.3522 ,
de modo que el intervalo de confianza de 90 por ciento para es

Normal, Media=17.2, Desv.Est.=1.3522
0.90
0.30
17.2 1.645(1.3522)
17.2 2.2
15.0, 19.4.
0.25
0.20
Densidad
X z1 /2 X
0.15
0.10
0.05
0.00
15
17.2
19.4
Con frecuencia, cuando la muestra es lo suficientemente grande para aplicar el teorema

del lmite central, la variancia de la poblacin se desconoce. En ese caso, se sustituye esta
variancia con la de la muestra en la frmula para construir el intervalo de confianza para la
media de la poblacin.
Nota: para interpolar se realiza lo siguiente:
Z 1.65 0.9505
Z
0.95
Z 1.64 0.9495
1.65 1.64 0.9505 0.9495
1.65 Z
0.9505 0.95
0.01
2
1.65 Z
0.01
1.65 Z
2
0.01
Z
1.65
2
Z 1.645
116
UNSCH
Bioestadstica I
Nota:
Si se requiere conocer el valor de z cuando el nivel de confianza es 90%, por qu
usamos un valor de z0.95, cuando hacemos uso de la tabla de Daniel?
Es porque la tabla de Daniel muestra el rea bajo la curva normal P(z z0).
Por lo tanto
0.90 0.05 0.95 Normal, Media=0, Desv.Est.=1
0.9
0.4
Densidad
0.3
0.2
0.10
0.05
2
2
0.10
0.05
2
2
0.1
0.0
-1.645
1.645
Es por esa razn, para interpolar usamos el valor de 0.95.

Esto explicacin ser diferente dependiendo dela tabla que se emplee.
117
UNSCH
Bioestadstica I
9.4 Intervalos de confianza que utilizan la distribucin t

X
t
s
n
Para ser ms especficos, cuando se obtienen muestras a partir de una distribucin normal
cuya desviacin estndar, , se desconoce, el 100(1 ) por ciento del intervalo de
confianza para la media de la poblacin, , est dado por:

X t 1
2
n
EJEMPLO. Maureen McCauley (A-l) realiz un estudio para evaluar los efectos de un
conjunto de instrucciones de mecnica en el lugar de labores sobre el desempeo laboral
de obreros jvenes recientemente contratados. Se utilizaron dos grupos de individuos
elegidos aleatoriamente; uno de los grupos para aplicar el experimento y el otro como
grupo de control. El grupo con el que se experiment recibi una hora de capacitacin
impartida por un terapeuta ocupacional. El grupo de control no recibi esta capacitacin.
Para evaluar el esfuerzo de cada obrero para levantar, bajar, jalar y transportar objetos
dentro del entorno laboral, se utiliz una lista de cotejo para la evaluacin de trabajo
mecnico que inclua criterios de referencia. Una tarea bien hecha recibi una calificacin
de 1. El grupo de control, formado por 15 individuos, alcanz una calificacin media de
11.53 en la evaluacin, con una desviacin estndar de 3.681. Se supone que el grupo de
control se comport como una muestra aleatoria extrada de una poblacin similar de
individuos. Se pretende utilizar los datos de la muestra para estimar la calificacin media
para la poblacin.
X t 1
T, df=14
0.95
0.4
X =11.53
0.3
Error estndar=
s
n
3.681
15
0.9504
Coeficiente de confiabilidad
Si t 1 = t 10.05 = t 0.975
2
2
Densidad
Intervalo de confianza: 95%
0.2
0.1
0.0
-2.145
2.145
Grados de libertad = n-1 = 15-1 = 14

Luego de buscar en la tabla t, tenemos que el Coeficiente de confiabilidad es = 2.1448
X t 1
2
n
11.53 2.1448 0.9504

11.53 2.04
9.49, 13.57
118
UNSCH
Bioestadstica I
Este intervalo puede interpretarse con ambos puntos de vista: probabilstico y prctico.
Puede asegurarse, en un 95 por ciento, que la media, , correcta de la poblacin se
encuentra entre 9.49 y 13.57, porque al repetir el muestreo, 95 por ciento de los intervalos
construidos de igual manera incluyen a .
9.5 Intervalo de confianza para la proporcin de una poblacin

Para estimar la proporcin de una poblacin se procede en la misma forma que cuando
se estima la media de una poblacin. Se extrae una muestra de la poblacin de inters y
se calcula su proporcin p . Esta se utiliza como el estimador puntual para la proporcin
de la poblacin. Un intervalo de confianza se obtiene mediante la siguiente frmula
general:
Cuando np y n(1 - p) son mayores que 5, se puede considerar que la distribucin

muestral de p se aproxima bastante a una distribucin normal. Cuando se cumple con
esta condicin, el coeficiente de confiabilidad es algn valor de z de la distribucin normal
estndar.
El error estndar es igual p p(1 p) / n .Puesto que p , que es el parmetro que se
trata de calcular, se desconoce, se debe utilizar p como una estimacin. As, se estima
por medio de p(1 p) / n , y el intervalo de confianza de
est dado por:
100(1 ) por ciento para p
p z1 2 p(1 p) / n
EJEMPLO 6.5.1
Mathers el al. (A-12) encontraron que en una muestra de 591 pacientes internados en un
hospital psiquitrico, 204 admitieron que consumieron marihuana al menos una vez
durante su vida. Se pretende construir un intervalo de confianza de 95 por ciento para la
proporcin de individuos que consumieron marihuana durante su vida en la poblacin
muestreada de los internos del hospital psiquitrico.
Solucin:
La mejor estimacin puntual para la proporcin de la poblacin es
204
0.3452
591
El tamao de la muestra y la estimacin de p tienen una magnitud suficiente para justificar

el empleo de la distribucin normal estndar para elaborar un intervalo de confianza.
El coeficiente de confiabilidad que corresponde al nivel de confianza de 0.95 es 1.96 y la
estimacin del error estndar p , es
p p(1 p) / n
0.3452 0.6548
591
0.01956
El intervalo de confianza para p, de acuerdo con estos datos, es:

119
UNSCH
Bioestadstica I
p z1 2 p(1 p) / n
p z1 /2 p
0.3452 1.96(0.01956)
0.3452 0.0383
0.3069, 0.3835
Se puede decir que se tiene 95 por ciento de confianza de que la proporcin p est entre
0.3069 y 0.3835 ya que, al repetir el muestreo, casi 95 por ciento de los intervalos
construidos en la forma de este intervalo incluyen a la proporcin p real. Con base en estos
resultados se espera, con una confianza de 95 por ciento, encontrar que entre 30.69 y
38.35 por ciento de los internados en el hospital psiquitrico tiene antecedentes de
consumo de marihuana.
120
UNSCH
Bioestadstica I
X. Determinacin del tamao de muestra.

10.1 Determinacin del tamao de la muestra para la estimacin del promedio
10.1.1 Variancia conocida
d (coeficiente de confiabilidad) (error estndar)

Error mximo tolerable = d = e
Tamao de la poblacin desconocido,
tamao de la poblacin muy grande
Tamao de la poblacin conocido
dz
dz
z 2 2
d2
N n
N 1
Nz 2 2
d 2 ( N 1) z 2 2
10.1.2 Variancia desconocida

Estimacin de
Las frmulas para el tamao de la muestra requieren del conocimiento de pero, como
ya se ha sealado, la variancia de la poblacin casi siempre se desconoce. Como
2
resultado, es necesario estimar . Las fuentes de estimacin de

ms frecuencia son las siguientes:
2
que se utilizan con
1. Se extrae una muestra piloto o preliminar de la poblacin y se puede utilizar la variancia

calculada a partir de esta muestra como una estimacin de . Las observaciones
utilizadas en la muestra piloto se toman como parte de la muestra final, de modo que n (el
tamao calculado de la muestra) n1, (el tamao de la muestra piloto) = n2 (el nmero de
observaciones necesarias para satisfacer el requerimiento total del tamao de la muestra).
2
2. A partir de estudios anteriores o similares es posible obtener estimaciones de .

2
3. Si se cree que la poblacin de la cual se extrae la muestra posee una distribucin

aproximadamente normal, se puede aprovechar el hecho de que la amplitud es
aproximadamente igual a 6 desviaciones estndar y calcular R 6 . Este mtodo
requiere algn conocimiento acerca de los valores mnimo y mximo de la variable en la
poblacin.
EJEMPLO. Un nutrilogo del departamento de salud, al efectuar una encuesta entre una
poblacin de muchachas adolescentes con el fin de determinar su ingestin diaria
promedio de protenas (medidas en gramos), busc el consejo de un bioestadstico con
respecto al tamao de la muestra que debera tomar.
Qu procedimiento debe seguir el bioestadstico para asesorar al nutrilogo? Antes de
que el estadstico pueda ayudar el nutrilogo, ste debe proporcionar tres elementos de
informacin: la dimensin deseada del intervalo de confianza, el nivel de confianza
deseado y la magnitud de la variancia de la poblacin.
121
UNSCH
Bioestadstica I
Solucin: Suponga que el nutrilogo requiere un intervalo con una dimensin de

aproximadamente 10 gramos, es decir, la estimacin se debera encontrar alrededor de 5
gramos de la media de la poblacin en ambas direcciones. En otras palabras, se desea un
margen de error de 5 gramos. Suponga que se decide por un coeficiente de confianza de
0.95 y que con base en su experiencia previa, el nutrilogo percibe que la desviacin
estndar de la poblacin es probablemente de alrededor de 20 gramos.
El estadstico dispone ya de la informacin necesaria para calcular el tamao de la
muestra: z = 1.96, = 20 y d = 5. Suponga que el tamao de la poblacin es grande, as
que el estadstico puede ignorar la correccin por poblacin finita y utilizar la ecuacin
6.7.3. Con las sustituciones adecuadas, el valor de n se calcula como
z 2 2 1.962 202
n 2
61.47
d
52
Se recomienda que el nutrilogo tome una muestra de tamao 62. Al calcular el tamao de
una muestra, el resultado se redondea al siguiente nmero entero mayor si los clculos
dan un nmero con decimales.
EJEMPLO. Considerando los datos del ejemplo anterior, calcule el tamao de la muestra,
suponiendo que el tamao de la poblacin es conocida, es decir N=5000.
Nz 2 2
5000 1.962 202
54.8344091
d 2 ( N 1) z 2 2 52 (5000 1) 1.962 202
Se recomienda que el nutrilogo tome una muestra de tamao 55.

Observe que cuando se conoce N, la muestra es menor al anterior, cuando N era
desconocido.
10.2 Determinacin del tamao de la muestra para la estimacin de las proporciones

Tamao de la poblacin desconocido,
tamao de la poblacin muy grande
z 2 pq
d2
Tamao de la poblacin conocido
Nz 2 pq
d 2 ( N 1) z 2 pq
Estimacin de p
Como puede observarse, ambas frmulas requieren que se conozca p, que es la
proporcin de poblacin que posee la caracterstica de inters. Obviamente, dado que ste
es el parmetro que se desea estimar, ser desconocido. Una solucin para este problema
consiste en tomar una muestra piloto y calcular una estimacin para utilizarla en lugar de p
dentro de la frmula para n. Algunas veces el investigador tendr nocin de algn lmite
superior para p que podr utilizar en la frmula. Por ejemplo, si se desea estimar la
proporcin de alguna poblacin que presenta cierta discapacidad, es posible que se crea
que la proporcin real no puede ser mayor que, digamos, 0.30. Se sustituye entonces p por
0.30 en la frmula para n. Si es imposible obtener una mejor estimacin, se puede igualar p
a 0.5 y resolver para n. Dado que p = 0.5 en la frmula proporciona el mximo valor de n,
122
UNSCH
Bioestadstica I
este procedimiento dar una muestra lo suficientemente grande para alcanzar la

confiabilidad y la dimensin del intervalo deseadas. Sin embargo puede ser ms grande de
lo necesario y resultar ms costosa que si se dispusiera de una mejor estimacin de p.
Este procedimiento se debe utilizar solamente si no se puede llegar a una mejor estimacin
de p.
EJEMPLO. Se planea realizar una encuesta para determinar qu proporcin de familias en cierta
rea carece de servicios mdicos. Se cree que la proporcin no puede ser mayor que 0.35. Se
desea un intervalo de Confianza de 95 por ciento con d = 0.05. De qu tamao se debe
seleccionar la muestra de familias?
Solucin: Si se omite la correccin por poblacin finita, se tiene
z 2 pq 1.962 0.35 0.65
349.6
d2
0.052
Por lo tanto, el tamao de la muestra es de 350.
EJEMPLO. Considerando los datos del ejemplo anterior, calcule el tamao de la muestra,
suponiendo que el tamao de la poblacin es conocida, es decir N=8000.
Nz 2 pq
8000 1.962 0.35 0.65
334.989055
d 2 ( N 1) z 2 pq 0.052 (8000 1) 1.962 0.35 0.65
Por lo tanto, el tamao de la muestra es de 335.
Observe que cuando se conoce N, la muestra es menor al anterior, cuando N era

desconocido.
123
UNSCH
Bioestadstica I
XI. Prueba de hiptesis.

Una hiptesis se define simplemente como una proposicin acerca de una o ms
poblaciones.
11.1 Tipos de hiptesis

Los investigadores se interesan en dos tipos de hiptesis: de investigacin y estadsticas.
La hiptesis de investigacin es la conjetura o suposicin que motiva la
investigacin.
Las hiptesis estadsticas se establecen de tal forma que pueden ser evaluadas por
medio de tcnicas estadsticas adecuadas.
11.2 El nivel de significacin.

El nivel de significacin es una probabilidad y, de hecho, es la probabilidad de rechazar
una hiptesis nula verdadera.
11.3 Tipos de errores.

El error que se comete cuando se rechaza una hiptesis nula verdadera se conoce como
error del tipo I. El error del tipo II se comete cuando no se rechaza una hiptesis nula falsa.
La probabilidad de cometer un error del tipo II se designa por .
Accin posible
No rechazar H0
Rechazar H0
Condicin de la hiptesis nula

Verdadera
Falsa
Accin correcta Error tipo II
Error Tipo I
Accin correcta
11.4 Prueba de hiptesis para la media de una sola poblacin

Cuando el muestreo se realiza a partir de una poblacin que sigue una distribucin normal y se
conoce la variancia de la poblacin, la estadstica de prueba para H o : o es
X o
/ n
124
UNSCH
Bioestadstica I
A. Muestreo a partir de poblaciones con distribucin normal y variancia conocidas

Ejemplo. Un grupo de investigadores est interesado en conocer la edad media de cierta
poblacin. Por decirlo as, se preguntan lo siguiente: Se puede concluir que la edad media
de la poblacin es diferente de 30 aos?
Solucin:
1. Datos
n = 10
X 27
2. Supuestos
Se supone que la muestra de valores proviene de una poblacin cuyas edades siguen una
distribucin aproximadamente normal. Suponga tambin que la poblacin tiene una
variancia conocida de
3. Hiptesis
2 20 .
Hiptesis nula
H 0 la edad media de la poblacin es igual a 30
Hiptesis alterna
H A = la edad media de la poblacin es diferente de 30
H 0 : 30
H A : 30
4. Estadsticos
X o
/ n
5. Distribucin de la estadstica de prueba

Con base en el conocimiento acerca de las distribuciones mustrales y de la distribucin
normal, se sabe que la estadstica de prueba tiene una distribucin normal, con una media
de 0 y una variancia de 1, si H0 es verdadera.
6. Regla de decisin
Suponga que se quiere que la probabilidad de rechazar una hiptesis nula verdadera sea
0.05 .
125
UNSCH
Bioestadstica I
Regin de rechazo
Regin de no rechazo
Regin de rechazo
Nota: La regin de no rechazo se compone de todos los valores intermedios. Se puede

establecer la regla de decisin para esta prueba como sigue: rechazar H0 si el valor
calculado de la estadstica de prueba es 1.96 o - 1.96. De otra forma, no se rechaza H0.
Por lo tanto es una prueba de hiptesis bilateral.
7. Clculo de la estadstica de prueba
27 30
20 / 10
3
2.12
1.4142
8. Decisin estadstica
Con base en la regla de decisin, se puede rechazar la hiptesis nula porque -2.12 est en la
regin de rechazo. Se puede decir que el valor calculado de la prueba estadstica tiene un
nivel de significacin de 0.05.
9. Conclusin
Se concluye que no es igual que 30 y que las acciones del administrador o mdico
debern estar de acuerdo con esta conclusin.
10. Valor de p
0.4
Densidad
0.3
0.2
0.1
0.01700
0.0
0.01700
-2.12
2.12
p p 2 p 2 0.0170 0.0170 0.0340

Puesto que p<0.05, se tiene suficiente evidencia estadstica para rechazar la H0.
126
UNSCH
Bioestadstica I
p 0.05 : Se rechaza la H 0
p 0.05 : No se rechaza la H 0
Prueba de H0 por medio de un intervalo de confianza
27 1.96 20 / 10
27 1.96(1.4142)
27 2.7718
24.2282, 29.7718
Dado que este intervalo no incluye a 30, se dice que 30 no es un candidato para la media
que se est estimando y, por lo tanto, no es igual a 30 y se rechaza a H0. sta es la
misma conclusin a la que se lleg mediante el procedimiento de prueba de hiptesis.
Prueba de hiptesis unilateral
Con base en el ejercicio 7.2.1, en lugar de preguntarse la posibilidad de concluir que 30,
suponga que los investigadores se hubieran preguntado: Es posible concluir que < 30? La
respuesta a esta pregunta es que puede llegarse a esta conclusin si es posible rechazar la hiptesis
nula 30.
Solucin: Mediante el uso del procedimiento de los diez pasos y con base en una prueba unilateral
se llega a una decisin.
1. Datos. Ver el ejemplo anterior.
2. Suposiciones. Ver el ejemplo anterior.
3. Hiptesis.
H 0 : 30
H A : 30
La desigualdad en la hiptesis nula implica que sta comprende un nmero infinito de hiptesis. La
prueba se hace slo para el punto de igualdad, porque puede mostrase que si H 0 se rechaza
cuando la prueba se hace en el punto de igualdad, sta sera rechazada si la prueba se hiciera para
cualquier otro valor de indicado en la hiptesis nula.
4. Estadstica de prueba.
X o
/ n
5. Distribucin de la estadstica de prueba. Ver el ejemplo anterior.

6. Regla de decisin
La regla de decisin seala que se rechaza H 0 si el valor calculado de la estadstica de prueba es
menor o igual que -1.645.
127
UNSCH
Bioestadstica I
Regin de rechazo
Regin de no rechazo
7. Clculo de la estadstica de prueba. A partir de los datos, se calcula que
27 30
20 / 10
3
2.12
1.4142
8. Decisin estadstica. Se puede rechazar la hiptesis nula debido a que -2.12 < -1.645.
9. Conclusin. Se concluye que la media de la poblacin es menor a 30 y se deber actuar en
consecuencia.
10. El valor de p. El valor de p para esta prueba es 0.0170, porque P(z -2.12), cuando H 0 es
verdadera, es de 0.0170, valor que se presenta en la tabla D cuando se determina la magnitud del
rea a la izquierda de -2.12 bajo la curva normal estndar. Puede probarse una hiptesis nula
unilateral por medio de un intervalo de confianza unilateral.
0.4
Densidad
0.3
0.2
0.1
0.01700
0.0
-2.12
B. Muestreo a partir de una poblacin con distribucin normal y variancia desconocida

Como ya se ha sealado, en general, se desconoce la variancia de la poblacin en situaciones reales
que tienen que ver con la inferencia estadstica en torno a la media de una poblacin. Cuando el
muestreo se realiza a partir de una poblacin que sigue una distribucin normal con una variancia
desconocida la estadstica de prueba H0: = 0 es
X 0
s/ n
la cual, cuando H0 es verdadera, sigue una distribucin t de Student con n -1 grados de libertad. El
siguiente ejemplo ilustra el procedimiento de prueba de hiptesis cuando se supone que la
128
UNSCH
Bioestadstica I
poblacin sigue una distribucin normal y se desconoce la variancia. Esta situacin es muy comn
en la vida real.
Ejemplo. Los investigadores Castillo y Lillioja (A-l) describieron una tcnica, desarrollada por ellos,
para la canulacin linftica perifrica en seres humanos. Los autores afirman que su tcnica
simplifica el procedimiento y permite la recoleccin de volmenes convenientes de linfa para
estudios metablicos y cinticos. Los individuos estudiados fueron 14 adultos varones sanos
representativos de un rango amplio de pesos corporales. Una de las variables de medicin fue el
ndice de masa corporal (IMC) = peso (kg)/estatura2(m2). Los resultados se muestran en la tabla
7.2.1. Se pretende saber si es posible concluir que la media del IMC para la poblacin de la que se
extrajo la muestra no es 35.
1.
Datos. Los datos consisten en las mediciones del IMC de los 14 individuos, tal como se
describi previamente.
2.
Supuestos. Los 14 individuos constituyen una muestra aleatoria de una poblacin de
individuos con las mismas caractersticas.
3.
Hiptesis.
H 0 : 35
H A : 35
4.
Estadstica de prueba.
X 0
s/ n
5.
Distribucin de la estadstica de prueba. La estadstica de prueba sigue una distribucin t
de Student, con n-1 = 14-1 = 13 grados de libertad, si H0 es verdadera.
6.
Regla de decisin. Sea = 0.05. Dado que se tiene una prueba bilateral, se pone /2 =
0.025 en cada cola de la distribucin de la estadstica de prueba. Los valores de t a la derecha e
izquierda de los cuales est 0.025 del rea son 2.1604, y -2.1604.
129
UNSCH
Bioestadstica I
T, df=13
0.4
Densidad
0.3
0.2
0.1
0.025
0.0
0.025
-2.160
2.160
La regla de decisin indica que es necesario calcular un valor para la estadstica de prueba y que se
debe rechazar H0 si el valor de t calculado es mayor o igual que 2.1604 o menor o igual que -2.1604.
7. Clculo de la estadstica de prueba. A partir de los datos de la muestra se calcula una media
igual a 30.5 y una desviacin estndar de 10.6392.
X 0
s/ n
30.5 35
10.6392 / 14
4.5
1.58
2.2834
8. Decisin estadstica. No se rechaza H0, ya que -1.58 cae en la regin de no rechazo.

9. Conclusin. La conclusin, con base en estos datos, es que la media de la poblacin de la cual se
extrajo la muestra puede ser 35.
10. El valor de p. El valor exacto de p para esta prueba no se puede obtener de la tabla E debido a
que slo presenta valores de t para percentiles seleccionados. Sin embargo, el valor p puede
enunciarse como un intervalo. En este ejemplo, -1.58 es menor que -1.350, el valor de t a la
izquierda del cual est 0. 10 del rea bajo t con 13 grados de libertad, pero mayor que -1.7709, a la
izquierda del cual est 0.05 del rea. En consecuencia, cuando H0 es verdadera, la probabilidad de
obtener un valor de t menor o igual que -1.58 es menor que 0.10, pero mayor que 0.05. Es
decir, 0.05 < p(t-1.58) < 0.10. Dado que la prueba es bilateral, debe permitirse la posibilidad de
un valor calculado de la estadstica de prueba tan grande en la direccin opuesta como el
observado. La tabla E revela que 0.05 < p(t1.58) < 0.10. EI valor de p, entonces, es de 0.10 < P<
0.20. La figura 7.2.4 muestra el valor p para este ejemplo.
En MINITAB se puede calcular el valor exacto de p
130
UNSCH
Bioestadstica I
T, df=13
0.4
Densidad
0.3
0.2
0.1
0.06906
0.06906
0.0
-1.58
1.58
p p 2 p 2 0.06906 0.06906 0.13812

C. Muestreo a partir de una poblacin que no presenta una distribucin normal
Si, como ocurre con frecuencia, la muestra en la cual se basa la prueba de la hiptesis acerca de la
media de una poblacin proviene de una poblacin que no presenta una distribucin normal, y si la
muestra es grande (mayor o igual que 30), es posible utilizar el teorema del lmite central y usar
X 0
/ n
como la estadstica de prueba. Si no se conoce la desviacin estndar de la poblacin, la prctica

comn es utilizar la desviacin estndar de la muestra como una estimacin. La estadstica de
prueba para la prueba de la hiptesis nula H0: p = p0, entonces, es
X 0
s/ n
la cual, cuando H0 es verdadera, sigue una distribucin semejante a la distribucin normal estndar
si n es grande. El razonamiento para sustituir con s a es que la muestra grande, necesaria para
que el teorema del lmite central sea aplicable, proporcionar una desviacin estndar de la
muestra que se acerca lo suficiente a .
EJEMPLO
Los objetivos de un estudio de los investigadores Wilbur et al. (A-2) eran descubrir los estados
menopusicos, los sntomas, la energa utilizada y la condicin fsica aerbica en mujeres de edad
madura y, adems, determinar las relaciones entre estos factores. Entre las variables medidas
estaba el consumo mximo de oxgeno (Vo2mx). La calificacin media de (Vo2mx) para una muestra
de 242 mujeres fue de 33.3 con una desviacin estndar de 12.14 (Fuente: Family and Community
Health, Vol. 13:3, p. 73, Aspen Publishers, Inc., ). Se pretende saber si, con base en estos datos, es
posible concluir que la calificacin media para una poblacin de mujeres con estas caractersticas es
mayor que 30.
Solucin: Se dice que los datos proporcionan suficiente evidencia para concluir que la media de la
poblacin es mayor que 30 si puede rechazarse la hiptesis nula que dice que la media es menor o
igual que 30. Para tal fin, puede llevarse a cabo la siguiente prueba:
131
UNSCH
Bioestadstica I
1.
Datos. Los datos son las puntuaciones de Vo2mx para las 242 mujeres con
12.14.
X = 33.3 y s =
2.
Supuestos. Los datos constituyen una muestra aleatoria simple de una poblacin de
mujeres de edad madura con las caractersticas similares a las que se presentan en la muestra. Se
considera que las mediciones de Vo2mx siguen una distribucin normal en tal poblacin.
3.
Hiptesis.
H 0 : 30
H A : 30
4.
Estadstica de prueba. La estadstica de prueba est dada por la ecuacin 7-2.3, dado que
se desconoce.
X 0
s/ n
5.
Distribucin de la estadstica de prueba. En virtud del teorema del lmite central, la
estadstica de prueba sigue, en el peor de los casos, una distribucin aproximadamente normal con
= 0 si H0 es verdadera.
6.
Regla de decisin. Sea 0.05 . El valor crtico de la estadstica de prueba es de 1.645. Las
regiones de rechazo y de no rechazo se ilustran en la figura 7.2.5. Se rechaza H0 si se calcula z
1.645.
7.
z
8.
Clculo de la estadstica de prueba.
X 0
s/ n
33.3 30
12.14 / 242
3.3
4.23
0.7804
Decisin estadstica. Se rechaza H0 porque 4.23 > 1.645.
9.
Conclusin. Se concluye que el valor medio Vo2mx para la poblacin muestreada es mayor
que 30.
10.
El valor de p. El valor de p para esta prueba es < .001, porque 4.23 es mayor que 1.645.
132
UNSCH
Bioestadstica I
0.4
Densidad
0.3
0.2
0.1
0.0
0.00001168
4.23
11.5 PRUEBA DE HIPTESIS PARA LA PROPORCIN DE UNA SOLA POBLACIN

La prueba de hiptesis de proporciones poblacionales se realiza casi en la misma forma
utilizada para las medias cuando son satisfechas las condiciones necesarias para emplear
la curva normal. Pueden efectuarse pruebas unilaterales o bilaterales, dependiendo de la
cuestin que se plantee. Cuando se dispone de una muestra lo suficientemente grande para
la aplicacin del teorema del lmite central, la estadstica de prueba es
p p0
p0 q0
n
la cual, cuando H0 es verdadera, sigue aproximadamente una distribucin normal estndar.

EJEMPLO. En una investigacin de consumidores de drogas intravenosas en una ciudad
grande, Coates et al. (A-17) encontraron a 18 de 423 individuos con VIH positivo. Se
pretende saber si es posible concluir que menos de 5 por ciento de los consumidores de
drogas intravenosas en la poblacin muestreada tienen VIH positivo.
Solucin:
1. Datos. Los datos se obtienen a partir de la respuesta de 423 individuos de los cuales 18
tenan la caracterstica de inters (VIH positivo), es decir, p = 18/423 = .0426.
2. Supuestos. La distribucin muestral de p sigue una distribucin aproximadamente normal
de acuerdo con el teorema del lmite central.
3. Hiptesis.
H 0 : p 0.05
H A : p 0.05
Se realiza esta prueba en el punto de igualdad. La conclusin a la que se puede llegar sera
igual a la que se llegara de llevarse a cabo la prueba utilizando un valor supuesto de p mayor
que 0.05. Si H0 es verdadero, p = 0.05 y el error estndar
0.05 0.95 / 423 .
133
UNSCH
Bioestadstica I
Ntese que se utiliza el valor supuesto de p para calcular p . Esto se hace porque la prueba
entera se basa en la suposicin de que la hiptesis nula es verdadera. Utilizar la proporcin
muestral, p , para calcular p no sera compatible con este concepto.
4. Estadstica de prueba. La estadstica de prueba se obtiene mediante la ecuacin 7.5.1.
p p0
p0 q0
n
5. Distribucin de la estadstica de prueba. Si la hiptesis nula es verdadera, la estadstica

de prueba sigue una distribucin aproximadamente normal con una media de cero.
6. Regla de decisin. Sea = 0.05. El valor crtico de z es -1.645. Se rechaza H0 si el valor
calculado de z es -1.645.
7. Clculo de la estadstica de prueba.
0.0426 0.05
0.05 0.95
0.70
423
8. Decisin estadstica. No se rechaza H0 porque -0.70 > -1.645.
9. Conclusin. Se concluye que la proporcin de la poblacin que tiene VIH positivo
probablemente sea 0.05 o ms.
10. Valor de p. p = 0.2420.
134
UNSCH
Bioestadstica I
XII Anlisis de Asociacin

12.1 Distribucin Ji cuadrada: Prueba de independencia
Otro uso, quiz el ms frecuente, de la distribucin ji-cuadrada es el de probar la hiptesis nula que
indica que dos criterios de clasificacin son independientes cuando se aplican al mismo conjunto de
entidades. Se dice que dos criterios de clasificacin son independientes si la distribucin de un criterio
es la misma, sin importar cul sea la distribucin del otro. Por ejemplo, si el estado socioeconmico y
el rea de residencia de los habitantes de cierta ciudad son independientes, se esperara encontrar
la misma proporcin de familias en los grupos socioeconmicos bajo, medio y alto en todas las reas
de la ciudad.
135
UNSCH
Bioestadstica I
Solucin:
1. Datos. Vase la tabla 12.4.3.
2. Supuestos. Se considera que la muestra disponible para el anlisis es equivalente
a una muestra aleatoria extrada de la poblacin de inters.
3. Hiptesis.
H0: el estadio del PVH y la etapa de infeccin por VIH son independientes.
HA: las dos variables no son independientes.
Sea = 0.05.
4. Prueba estadstica. La prueba estadstica es
Chi-cuadrada, df=2
0.5
Densidad
0.4
0.3
0.2
0.1
0.0
0.05
0
5.991
136
UNSCH
Bioestadstica I
Nota: los esperados se calculan de la siguiente manera.

Esperado
VIH
Seropositivo,
Seropositivo,
Seronegativo
sintomtico
asintomtico
(33x37)/96=12.72 (33x37)/96=6.94
(33x37)/96=17.34
Positivo
(33x59)/96=20.28 (33x59)/96=11.06 (33x59)/96=27.66
Negativo
33
18
45
Total
Total
37
59
96
137
UNSCH
Bioestadstica I
XIII. Regresin simple

13.1 Regresin
El anlisis de regresin es til para averiguar la forma probable de las relaciones entre las variables,
y el objetivo final, cuando se emplea este mtodo de anlisis, es predecir o estimar el valor de una
variable que corresponde al valor dado de otra variable.
Y (das de
x (horas de
la estacin
luz por da)
de cra)
12.8
110
13.9
54
14.1
98
14.7
50
15
67
15.1
58
16
52
16.5
50
16.6
43
17.2
15
17.9
28
138
UNSCH
Bioestadstica I
Diagramas de dispersin
139
UNSCH
Bioestadstica I
a: representa el valor medio de la variable Y|X = 0, que en muchas ocasiones carece de

sentido.
b: representa la variacin de la variable Y, cuando X aumenta o disminuye una unidad.
Interpretacin de b: El coeficiente de 15.11, negativo, indica que, un incremento de 1 una hora de
luz por da genera una disminucin de 15.11 das de la estacin de cra.
Otros tipos de regresin.

Regresiones mltiples, Regresin logstica, etc.
140
UNSCH
Bioestadstica I
XIV. El modelo de correlacin.

14.1 Correlacin
Por otra parte, ei anlisis de correlacin se refiere a la medicin de la intensidad de la relacin entre
variables. Cuando se calculan mediciones de correlacin a partir de un conjunto de datos, el inters
recae en el grado de correlacin entre las variables.
14.2 El coeficiente de correlacin.
141
UNSCH
Bioestadstica I
142
UNSCH
Bioestadstica I
La Figura 11.14 proporciona una escala sugerida para interpretar r. De acuerdo con la
escala, la correlacin -0.33 se describe como la correlacin negativa dbil.
Conclusin: las variables X e Y presentan una ligera correlacin negativa, donde r = -0.33.
143
UNSCH
Bioestadstica I
14.3 El coeficiente de determinacin.
El coeficiente de determinacin puede utilizarse para justificar la escala de correlacin de la Figura

11.14. Cualquier correlacin que se site estrictamente entre -0.5 y 0.5 se considera dbil, porque el
r2 de estos valores es inferior a 0.25. Para estos valores, menos del 25 % de la variacin en Y se
atribuye a una asociacin lineal con X; ms del 75 % de la variacin en Y no est explicada. Los
coeficientes de correlacin moderados tienen valores r2 que, como mnimo, son 0.25, pero inferiores
a 0.81. Para decir que una correlacin es fuerte, deseamos que su valor absoluto sea al menos 0.9.
En este caso, el porcentaje de variacin en Y explicado por su asociacin lineal con X es sustancial
en el sentido de que es del 8 1 % o ms.

Mxico, 2008
Milton, J. 2007. Estadstica para biologa y ciencias de la salud. McGRAWHILL/INTERAMERICANA DE ESPAA, S. A. U.
144
UNSCH
Bioestadstica I
REGRESIN LINEAL Y CORRELACIN

Problema 1. Peso promedio X y consumo de alimento Y de 50 gallinas provenientes de 10 razas
White Leghorn.
Peso del
cuerpo
Consumo de
alimentos
Xi
Yi
a.
b.
c.
d.
4.6
87.1
5.1
93.1
4.8
89.8
4.4
91.4
5.9
99.5
4.7
92.1
5.1
95.5
5.2
99.3
4.9
93.4
5.1
94.4
Elaborar el diagrama de dispersin de peso promedio X y consumo de alimento Y
Calcular la recta de regresin del consumo de alimentos en funcin del peso del cuerpo.
Realizar el ajuste de la recta.
Cunto es la media de la poblacin de Y para X=5.5 lbs del peso de cuerpo?
Solucin:
a. Elaborar el diagrama de dispersin de peso promedio X y consumo de alimento Y

102
100
5.2, 99.3
98
96
94
92
4.4, 91.4
90
5.9, 99.5
5.1, 95.5
4.9, 93.4 5.1, 94.4
5.1, 93.1
4.7, 92.1
4.8, 89.8
88
4.6, 87.1
86
4
4.5
5.5
X
Figura: Diagrama de dispersin de peso promedio X y consumo de alimento Y
b. Calcular la recta de regresin del consumo de alimentos en funcin del peso del cuerpo.
145
UNSCH
Bioestadstica I
Peso del cuerpo
Consumo de
alimentos
Xi
Yi
X i2
4.6
5.1
4.8
4.4
5.9
4.7
5.1
5.2
4.9
5.1
49.8
49.8
4.98
10
935.6
93.56
10
X i Yi
87.1
93.1
89.8
91.4
99.5
92.1
95.5
99.3
93.4
94.4
935.6
21.16
26.01
23.04
19.36
34.81
22.09
26.01
27.04
24.01
26.01
2
i
249.54
400.66
474.81
431.04
402.16
587.05
432.87
487.05
516.36
457.66
481.44
X Y
i i
4671.1
Coeficiente de regresin b:
n X i Yi X i Yi
n X X i
2
i
10 4671.1 49.8 935.6

7.69 lbs de alimento por libra de
10 249.54 49.82
gallina.
Interpretacin de b: Para un aumento de una libra en el peso del cuerpo, el consumo de alimento
es de 7.69 libras.
Intercepto a: nos indica cunto es Y cuando X = 0, generalmente no tiene interpretacin.
a Y bX
a 93.56 7.69 4.98 55.26
Ecuacin de la recta:
Y a bX
Y 55.26 7.69 X
c. Realizar el ajuste de la recta.

146
UNSCH
Bioestadstica I
Y a bX
Y i 55.26 7.69 X i
Xi
4.6
Y 4.6 55.26 7.69 4.6 90.634
5.1
Y 5.1 55.26 7.69 5.1 94.479
4.8
Y 4.8 55.26 7.69 4.8 92.172
4.4
Y 4.4 55.26 7.69 4.4 89.096
5.9 Y 5.9 55.26 7.69 5.9 100.631

4.7
Y 4.7 55.26 7.69 4.7 91.403
5.1
Y 5.1 55.26 7.69 5.1 94.479
5.2
Y 5.2 55.26 7.69 5.2 95.248
4.9
Y 4.9 55.26 7.69 4.9 92.941
5.1
Y 5.1 55.26 7.69 5.1 94.479
102
y = 7.6901x + 55.263
R = 0.6699
5.2, 99.3
100
98
96
4.9, 93.4
94
5.9, 99.5
5.1, 95.5
5.1, 94.4
5.1, 93.1
92
4.7, 92.1
4.4, 91.4
90
4.8, 89.8
88
4.6, 87.1
86
4
4.2
4.4
4.6
4.8
5.2
5.4
5.6
5.8
Figura: Peso promedio X y consumo de alimento Y

d. Cunto es la media de la poblacin de Y para X=5.5 lbs del peso de cuerpo?
Y 5.5 55.26 7.69 5.5 97.6 lb de alimentos
147
UNSCH
Bioestadstica I
Problema 2. En un grupo de 8 pacientes se miden las cantidades antropomtricas peso y edad,

obtenindose los siguientes resultados:
Edad
X
12
8
10
11
7
7
10
14
a.
b.
Peso
Y
58
42
51
54
40
39
49
56
Existe una relacin lineal importante entre ambas variables?
Calcular la bondad del ajuste (coeficiente de determinacin)
a. Existe una relacin lineal importante entre ambas variables?

Para saber si existe una relacin lineal entre ambas variables se calcula el coeficiente de
correlacin lineal, que vale:
Edad
X
Peso
X2
Y
12
8
10
11
7
7
10
14
58
42
51
54
40
39
49
56
X 79 Y 389 X
r
Y2
XY
144
64
100
121
49
49
100
196
2
823
3364
1764
2601
2916
1600
1521
2401
3136
696
336
510
594
280
273
490
784
19303
XY 3963
n XY X Y
n X 2 ( X ) 2 n Y 2 ( Y ) 2
8 3963 79 389
8 823 (79) 2 8 19303 (389)2
973
1031.66322
148
UNSCH
Bioestadstica I
r 0.9431
El coeficiente de correlacin lineal es 0.9431, por lo tanto el ajuste lineal es muy bueno.
b. Calcular la bondad del ajuste
Para determinar la bondad de ajuste se calcula el coeficiente de determinacin ( r 2 ).
r 2 0.94312
r 2 0.8894
La bondad de ajuste es r 0.8894 , por tanto podemos decir que el 88,94% de la variabilidad del
peso en funcin de la edad es explicado mediante la recta de regresin correspondiente. Lo mismo
podemos decir en cuanto a la variabilidad de la edad en funcin del peso. Del mismo modo puede
decirse que hay un 100 88, 94 % = 11, 06 % de varianza que no es explicada por las rectas de
regresin.
2
149

Separata de Bioestadística I 2016

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Separata de Bioestadística I 2016

Hochgeladen von

Copyright:

Verfügbare Formate

UNIVERSIDAD NACIONAL DE SAN CRISTBAL DE

ESCUELA PROFESIONAL DE BIOLOGA

Prof. Reynn Cndor Alarcn

DEPARTAMENTO DE CIENCIAS BIOLGICAS

Prof. Reynn Cndor A.

Prof. Reynn Cndor A.

Estadstica y bioestadstica ............................................................................................... 7

Objeto de estudio. .............................................................................................................. 7

Estadstica descriptiva y estadstica inferencial. ........................................................... 7

1.4. Conceptos bsicos ...................................................................................................................... 8

1.6 La bioestadstica en la investigacin cientfica. ................................................................ 13

Recoleccin de datos ....................................................................................................... 15

Sistema y fuentes de informacin .................................................................................. 15

Elaboracin de los datos ................................................................................................. 17

Mecanismos para presentar, tabular y graficar datos ................................................. 23

Distribucin de frecuencias (Tablas de frecuencia) ............................................................ 26

2.10 Diagrama de Tallos y Hojas ............................................................................................ 43

ANLISIS E INTERPRETACIN DE DATOS ................................................................................. 45

Anlisis descriptivo. ............................................................................................................. 45

Medidas de tendencia central......................................................................................... 45

Medidas de Variabilidad o de dispersin. ..................................................................... 51

3.5.1 Rango o intervalo de variacin ........................................................................................... 52

3.6.1 Formas de una distribucin ................................................................................................ 56

DEPARTAMENTO DE CIENCIAS BIOLGICAS

Prof. Reynn Cndor A.

3.7.2 Variables cuantitativas: el coeficiente de apuntamiento de Fisher ................................... 59

Conceptos bsicos de probabilidad objetiva y subjetiva. ........................................... 62

Permutaciones y combinaciones. .................................................................................. 64

Clculo de probabilidades de evento. ........................................................................... 69

4.4 Probabilidad condicional................................................................................................... 70

Distribuciones Discretas .......................................................................................................... 83

6.1 Distribucin Binomial ................................................................................................................ 83

Distribuciones continuas ......................................................................................................... 90

7.1 Distribucin Exponencial ........................................................................................................... 90

Prof. Reynn Cndor A.

8.5 Ejemplo de distribucin de muestreo de proporciones .......................................................... 109

Prof. Reynn Cndor A.

14.3 El coeficiente de determinacin. .......................................................................................... 144

DEPARTAMENTO DE CIENCIAS BIOLGICAS

Prof. Reynn Cndor A.

Estadstica descriptiva y estadstica inferencial.

La Estadstica puede ser dividida en:

La Estadstica Descriptiva. Parte de la

La Estadstica Inferencial. Parte de la

Prof. Reynn Cndor A.

Distribucin de la frecuencia de consumo de droga

Fuente: UNAL La Molina Dpto. de Estadstica e Informtica

Figura. Frecuencia de consumo de droga.

1.4. Conceptos bsicos

Prof. Reynn Cndor A.

3. El conjunto de personas que viven en el Distrito de Ayacucho.

Variable Cuantitativa Discreta. Son aquellas que cumplen con la condicin de

Prof. Reynn Cndor A.

Prof. Reynn Cndor A.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

Prof. Reynn Cndor A.

7) Valor estadstico o Estadgrafo. Es una medida para describir el comportamiento de una

1.5 Importancia de la Estadstica

DEPARTAMENTO DE CIENCIAS BIOLGICAS

Prof. Reynn Cndor A.

1.6 La bioestadstica en la investigacin cientfica.

Obtener informacin y recursos. Una vez definido el objetivo del experimento, es

DEPARTAMENTO DE CIENCIAS BIOLGICAS