Sie sind auf Seite 1von 149

UNIVERSIDAD NACIONAL DE SAN CRISTBAL DE

HUAMANGA
FACULTAD DE CIENCIAS BIOLGICAS

ESCUELA PROFESIONAL DE BIOLOGA

BIOESTADSTICA I
SEPARATA I
ESTADSTICA
DESCRIPTIVA

Prof. Reynn Cndor Alarcn

2016

UNSCH

DEPARTAMENTO DE CIENCIAS BIOLGICAS

Bioestadstica I

Prof. Reynn Cndor A.

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Contenido
BIOESTADSTICA ...................................................................................................................... 7

I.

1.1.

Estadstica y bioestadstica ............................................................................................... 7

1.2.

Objeto de estudio. .............................................................................................................. 7

1.3.

Estadstica descriptiva y estadstica inferencial. ........................................................... 7

1.4. Conceptos bsicos ...................................................................................................................... 8


1.5

Importancia de la Estadstica.......................................................................................... 12

1.6 La bioestadstica en la investigacin cientfica. ................................................................ 13


LOS DATOS .............................................................................................................................. 15

II.

2.1.

Observacin ...................................................................................................................... 15

2.2.

Datos .................................................................................................................................. 15

2.3.

Recoleccin de datos ....................................................................................................... 15

2.4.

Sistema y fuentes de informacin .................................................................................. 15

2.5.

Poblacin ........................................................................................................................... 16

2.6.

Muestra .............................................................................................................................. 16

2.7.

Elaboracin de los datos ................................................................................................. 17

2.8.

Mecanismos para presentar, tabular y graficar datos ................................................. 23

2.9.

Distribucin de frecuencias (Tablas de frecuencia) ............................................................ 26

2.10 Diagrama de Tallos y Hojas ............................................................................................ 43


III.

ANLISIS E INTERPRETACIN DE DATOS ................................................................................. 45

3.1.

Anlisis descriptivo. ............................................................................................................. 45

3.2.

Medidas estadsticas........................................................................................................ 45

3.3.

Medidas de tendencia central......................................................................................... 45

3.4.

Percentiles ....................................................................................................................... 50

3.5.

Medidas de Variabilidad o de dispersin. ..................................................................... 51

3.5.1 Rango o intervalo de variacin ........................................................................................... 52


3.5.2 La varianza .......................................................................................................................... 52
3.5.3 La desviacin estndar ....................................................................................................... 54
3.5.4 Coeficiente de variabilidad ................................................................................................. 54
3.6.

Medidas de asimetra....................................................................................................... 56

3.6.1 Formas de una distribucin ................................................................................................ 56


3.6.2 Variables ordinales: el ndice de asimetra intercuartlico ................................................. 57
3.6.3 Variables cuantitativas: Coeficiente de asimetra de Pearson ........................................... 57
3.7 Curtosis ...................................................................................................................................... 58
3.7.1 Variables ordinales: el ndice KU. ........................................................................................ 58

DEPARTAMENTO DE CIENCIAS BIOLGICAS

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

3.7.2 Variables cuantitativas: el coeficiente de apuntamiento de Fisher ................................... 59


3.8 Diagrama de cajas (box plot) ..................................................................................................... 59
IV.

PROBABILIDADES..................................................................................................................... 62

4.1.

Conceptos bsicos de probabilidad objetiva y subjetiva. ........................................... 62

4.2.

Permutaciones y combinaciones. .................................................................................. 64

4.3.

Clculo de probabilidades de evento. ........................................................................... 69

4.4 Probabilidad condicional................................................................................................... 70


V. Variables aleatorias ......................................................................................................................... 76
5.1 Definicin .................................................................................................................................. 76
5.2 Variable aleatoria discreta ........................................................................................................ 76
5.2.1 Funcin de probabilidad de una variable aleatoria discreta .............................................. 77
5.3 Variable aleatoria continua ....................................................................................................... 80
5.3.1 Funcin de densidad de una v.a continua X ....................................................................... 80
5.4 ESPERANZA MATEMTICA ........................................................................................................ 82
VI.

Distribuciones Discretas .......................................................................................................... 83

6.1 Distribucin Binomial ................................................................................................................ 83


6.2 Distribucin Hipergeomtrica ................................................................................................... 86
6.3 La distribucin de Poisson. ........................................................................................................ 87
VII.

Distribuciones continuas ......................................................................................................... 90

7.1 Distribucin Exponencial ........................................................................................................... 90


7.2 Distribucin Normal .................................................................................................................. 91
7.3 Distribucin Normal Estndar ................................................................................................... 92
7.5 Distribucin Ji-Cuadrado ........................................................................................................... 94
7.6 Distribucin t de Student. ......................................................................................................... 95
7.7 Distribucin F ............................................................................................................................ 96
VII. Muestreo ..................................................................................................................................... 102
7.1 Muestreo ................................................................................................................................. 102
7.2 Muestra ................................................................................................................................... 102
7.3 Seleccin de la muestra........................................................................................................... 102
7.4 Caractersticas de la muestra .................................................................................................. 102
7.5 Tipos de muestreo. .................................................................................................................. 102
VIII. Distribucin de muestreo .......................................................................................................... 104
8.1 Distribucin de muestreo de medias ...................................................................................... 104
8.2 Distribucin de muestreo de proporciones ............................................................................ 104
8.3 Errores tpicos.......................................................................................................................... 104
8.4 Ejemplo de distribucin de muestreo de promedios .............................................................. 106
DEPARTAMENTO DE CIENCIAS BIOLGICAS

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

8.5 Ejemplo de distribucin de muestreo de proporciones .......................................................... 109


IX. Inferencia Estadstica. .................................................................................................................. 112
9.1 Estimacin de parmetros: ..................................................................................................... 112
Estimacin puntual .................................................................................................................... 112
Estimacin por intervalos .......................................................................................................... 112
Estimador .................................................................................................................................. 112
Poblacin muestreada............................................................................................................... 112
Poblacin objetivo ..................................................................................................................... 112
9.2 Interpretacin del intervalo de confianza ............................................................................... 115
Interpretacin probabilstica ..................................................................................................... 115
Interpretacin prctica.............................................................................................................. 115
Precisin .................................................................................................................................... 115
9.3 Muestreo a partir de poblaciones que no presentan una distribucin normal ...................... 116
9.4 Intervalos de confianza que utilizan la distribucin t.............................................................. 118
9.5 Intervalo de confianza para la proporcin de una poblacin ................................................. 119
X. Determinacin del tamao de muestra. ....................................................................................... 121
10.1 Determinacin del tamao de la muestra para la estimacin del promedio ....................... 121
10.1.1 Variancia conocida ......................................................................................................... 121
10.1.2 Variancia desconocida .................................................................................................... 121
10.2 Determinacin del tamao de la muestra para la estimacin de las proporciones ............. 122
XI. Prueba de hiptesis. ..................................................................................................................... 124
11.1 Tipos de hiptesis .................................................................................................................. 124
11.2 El nivel de significacin.......................................................................................................... 124
11.3 Tipos de errores. ................................................................................................................... 124
11.4 Prueba de hiptesis para la media de una sola poblacin .................................................... 124
A. Muestreo a partir de poblaciones con distribucin normal y variancia conocidas .............. 125
B. Muestreo a partir de una poblacin con distribucin normal y variancia desconocida ....... 128
C. Muestreo a partir de una poblacin que no presenta una distribucin normal .................. 131
11.5 PRUEBA DE HIPTESIS PARA LA PROPORCIN DE UNA SOLA POBLACIN .......................... 133
XII Anlisis de Asociacin .................................................................................................................. 135
12.1 Distribucin Ji cuadrada: Prueba de independencia ............................................................. 135
XIII. Regresin simple ........................................................................................................................ 138
13.1 Regresin ............................................................................................................................... 138
XIV. El modelo de correlacin. .......................................................................................................... 141
14.1 Correlacin ............................................................................................................................ 141
14.2 El coeficiente de correlacin. ................................................................................................ 141
DEPARTAMENTO DE CIENCIAS BIOLGICAS

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

14.3 El coeficiente de determinacin. .......................................................................................... 144


REFERENCIA BIBLIOGRFICA ............................................................................................................. 144

DEPARTAMENTO DE CIENCIAS BIOLGICAS

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

I.
BIOESTADSTICA
1.1.
Estadstica y bioestadstica
Daniel indica que la estadstica es la disciplina que se ocupa de 1) la recoleccin,
organizacin, resumen y anlisis de datos, y 2) la obtencin de inferencias a partir de un
volumen de datos cuando se examina solo una parte de estos.
La Bioestadstica, en el mbito de la Estadstica, hace referencia a mtodos estadsticos y
matemticos que se aplican al anlisis de datos provenientes de las ciencias biolgicas.
Debido a que las cuestiones a investigar, cuando se trabaja con personas, animales,
plantas u otros organismos vivos, son de naturaleza muy variada. Incluye no slo
herramientas para el anlisis estadstico descriptivo de datos biolgicos sino tambin
el uso de numerosos procedimientos y algoritmos de clculo y computacin para el anlisis
inferencial, el reconocimiento de patrones en los datos y la construccin de modelos que
permiten describir y analizar procesos aleatorios (Balzarini et al, 2011).
1.2.
Objeto de estudio.
El objetivo de la estadstica es investigar y evaluar la naturaleza y el significado de la
informacin contenida en los datos (Daniel).
Es necesario tener en cuenta que la estadstica se ha propuesto como instrumento de
investigacin. La investigacin puede ser en gentica, mercadeo, nutricin, agronoma, etc.
Es el campo de investigacin, no el instrumento, el que debe proporcionar los porqu del
problema de investigacin. Aveces, este hecho se pasa por alto y los usuarios olvidan que
tienen que pensar, que la estadstica no puede pensar por ellos. La estadstica, sin embargo,
ayuda a los investigadores a disear experimentos y a evaluar objetivamente los datos
numricos resultantes. Es nuestra intencin proporcionar a los investigadores instrumentos
estadsticos tiles para este fin.
1.3.

Estadstica descriptiva y estadstica inferencial.

La Estadstica puede ser dividida en:

La Estadstica Descriptiva. Parte de la


estadstica que se ocupa de la
clasificacin, descripcin, simplificacin y
presentacin de los datos. Comprende el
uso de tablas de frecuencias, grficos y el
clculo de medidas estadsticas.

La Estadstica Inferencial. Parte de la


estadstica que se ocupa de la estimacin
y prueba de hiptesis de los parmetros
de una poblacin, a partir de una muestra
aleatoria extrada de dicha poblacin.

Ejemplo
Se desea hacer un estudio sobre el consumo
de drogas en el distrito de Comas. Con esta
finalidad se extrae una muestra aleatoria de
240 adolescentes del distrito de Comas en el
2013 y se les aplica la encuesta respectiva.
Se aplica la Estadstica Descriptiva para recopilar, clasificar, organizar y presentar en una
tabla de frecuencias y en forma grfica los datos recogidos de una encuesta.
DEPARTAMENTO DE CIENCIAS BIOLGICAS

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Distribucin de la frecuencia de consumo de droga


Frecuencia
consumo

de
Nmero

Porcentaje

No

100

41.7

Interdiario

80

33.3

Diario

40

16.7

A veces

20

8.3

Total

240

100.0

Fuente: UNAL La Molina Dpto. de Estadstica e Informtica

45.0

41.7

40.0
33.3

35.0
30.0

25.0
20.0

16.7

15.0
8.3

10.0
5.0
0.0
No

Interdiario

Diario

A veces

FRECUENCIA
Fuente: UNAL La Molina Dpto. de Estadstica e Informtica

Figura. Frecuencia de consumo de droga.


Tambin se calcula medidas estadsticas. La edad promedio de la muestra de los
adolescentes que consumen droga es 20.5 aos.
Se aplica la Estadstica Inferencial para estimar la proporcin de adolescentes que
consumen drogas diariamente del distrito de Comas, cuya estimacin fue de 16.7%. Para
probar la hiptesis si esta proporcin es mayor al 17%.

1.4. Conceptos bsicos


1) Poblacin. Es el conjunto de unidades elementales con caractersticas similares. El
estudio de toda la poblacin constituye un censo.
Ejemplo
1. El conjunto de todos los estudiantes de una institucin educativa.
2. El conjunto de todos los meses de venta en una casa comercial entre el 2007- 2011.
DEPARTAMENTO DE CIENCIAS BIOLGICAS

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

3. El conjunto de personas que viven en el Distrito de Ayacucho.


2) Unidad Elemental. Es un elemento particular de la poblacin o muestra.
Ejemplo
1. Un estudiante de la Institucin educativa.
2. Cada mes de venta en una casa comercial entre el 2007-2011.
3. Cada persona que viven en el Distrito de Ayacucho.
3) Muestra. Es un subconjunto de la poblacin. Al proceso de obtencin de una muestra
se le llama "muestreo". Para que una muestra sea representativa debe cumplir con las
siguientes condiciones:
a) Debe haber sido obtenida al azar.
b) Su tamao y sus elementos deben haber sido seleccionados aplicando un mtodo de
muestreo.
Ejemplo
1. 120 estudiantes de la institucin educativa.
2. 45 meses de venta en una casa comercial entre el 2007-2011.
3. 80 personas que viven en el Distrito de Ayacucho.
4) Variable. Son las caractersticas que toman diferentes valores cuando son evaluadas en
las unidades elementales de una poblacin o muestra. Se representan por las ltimas
letras maysculas del alfabeto, por ejemplo: X, Y, Z, W, P, T, X1, X2, Y1, etc.
Tipos de Variables
A. Variables Cuantitativas. Son aquellas que se expresan en forma numrica y tiene
sentido realizar operaciones matemticas con ellas. Pueden ser del tipo:
Variable Cuantitativa Continua. Son aquellas que pueden tomar cualquier valor
numrico dentro de un intervalo continuo. Se utiliza un instrumento de medicin
para generar sus valores: balanza, termmetros, test, escalas, cronmetros,
winchas, etc.
Ejemplo
1. Peso del langostino de ro (en gr)
2. Tiempo para encontrar estacionamiento en un centro comercial (minutos)
3. Gasto mensual familiar en atencin mdica (nuevos soles)

Variable Cuantitativa Discreta. Son aquellas que cumplen con la condicin de


que entre un valor cualesquiera y su consecutivo no es posible que existan
valores intermedios. Generalmente son representados por el conjunto de
nmeros enteros. Las observaciones cuantitativas discretas se registran por
conteo.

Ejemplo
1. Nmero de artculos defectuosos en un lote de 20
2. Nmero de clientes atendidos cada 20 minutos en una ventanilla
3. Nmero de predios que posee un agricultor de un valle
B. Variable Cualitativa. Son aquellas que permiten que una unidad elemental pueda
ser clasificada como poseedora o no de cierta cualidad, propiedad o atributo. No tiene
DEPARTAMENTO DE CIENCIAS BIOLGICAS

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

sentido realizar operaciones matemticas con ellas. Son aquellas cuyos valores
posibles son atributos o categoras.
Variable Cualitativa Nominal. Son aquellas cuyos valores (cualidades, propiedades o
atributos) no son factibles de ser clasificados a travs de un criterio de orden o
jerarqua. Sus valores posibles no tienen un orden de importancia.
Ejemplo
1. Sexo de los estudiantes (Masculino o Femenino)
2. Estado civil de una persona (Soltero, Casado, Divorciado, Viudo o Conviviente)
3. Marca de una computadora (A, B, C o D)
4. Marca de Automvil (Toyota, Chevrolet, Mercedes Benz, etc...)
Variable Cualitativa Jerrquica u Ordinal. Son aquellas donde s se puede
establecer un criterio de orden o jerarqua entre sus atributos de la variable.
Ejemplo
1. Nivel de instruccin (Sin instruccin, Primaria, Secundaria o Superior)
2. Nivel socioeconmico de un cliente (Alto, Medio o Bajo)
3. Calificacin de un servicio (Bueno, Regular o Malo)
4. Rango Militar (Cabo, Sargento, Coronel)

Variable aleatoria?
Otros autores hacen uso de la definicin de variables aleatorias, que en realidad se tratan
de las variables cuantitativas, pudiendo ser stas discretas y continuas. Pondremos nfasis
en la aleatoriedad, por lo tanto siempre que se determina la estatura, el peso o la edad de
un individuo, el resultado frecuentemente se denomina valor de la variable respectiva.
Cuando los valores se originan como resultado de factores aleatorios (al azar), que no
pueden predecirse con exactitud y anticipacin, la variable se llama variable aleatoria. Un
ejemplo de variable aleatoria es la estatura de los adultos; cuando nacen los nios no es
posible predecir con exactitud la estatura que tendrn en su edad adulta; la estatura que
alcanza un adulto es el resultado de muchos factores genticos y ambientales. Los valores
resultantes de los procedimientos de medicin se denominan observaciones o medidas.
Variable aleatoria discreta (Variable cuantitativa discreta)
Entre los ejemplos de variables aleatorias discretas: El nmero de admisiones diarias
en un hospital general es una variable aleatoria discreta, puesto que el nmero de
admisiones por da debe representarse con nmeros enteros tales como 0, 1, 2 o 3. El
nmero de admisiones en un da determinado no puede ser 1.5, 2.997 o 3.333. El
nmero de caries, amalgamas o prdida de dientes por nio en una escuela primaria
es otro ejemplo de una variable discreta.
Variable aleatoria continua (variable cuantitativa continua)
Entre los ejemplos de variables continuas se hallan las diversas mediciones que
pueden hacerse en individuos tales como su estatura, peso y dimetro craneano. Sin
importar cun cerca estn las estaturas de dos personas, tericamente siempre es
posible encontrar otra persona cuya estatura se encuentre entre las dos estaturas de
referencia.
Ahora bien, debido a las limitaciones de los instrumentos de medicin disponibles, las
observaciones sobre variables que son inherentemente continuas se registran como si
fueran discretas. La estatura, por ejemplo, normalmente se redondea metros o centmetros
completa ms cercanos, mientras que si se cuenta con el instrumento de medicin
adecuado, esa medida puede hacerse tan precisa como se desee.
DEPARTAMENTO DE CIENCIAS BIOLGICAS

10

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Ejemplos:
1. Decir cules de estos datos son discretos y cules continuos:
(a) Nmero de acciones vendidas un da en la Bolsa de Valores.
(b) Temperaturas medidas en un observatorio cada media hora.
(c) Vida media de los tubos de televisin producidos por una fbrica.
(d) Ingresos anuales de los profesores de Enseanza Media.
(e) Longitudes de 1000 tornillos producidos en una empresa.
Solucin
(a) Discretos; (b) continuos; (c) continuos; (d) discretos; (e) continuos.
2. Dar el dominio de las siguientes variables y decir cules son continuas:
(a) Nmero G de galones (gal) de agua en una lavadora.
(b) Nmero B de libros en una estantera.
(c) Suma S de los puntos obtenidos al lanzar un par de dados.
(d) Dimetro D de una esfera.
(e) Pas P de Europa.
Solucin
(a) Dominio: Cualquier valor entre 0 gal y la capacidad de la lavadora. Variable: Continua.
(b) Dominio: 0, 1, 2, 3,... hasta el nmero total de libros que caben en la estantera. Variable:
Discreta.
(c) Dominio: Los puntos de un dado pueden ser 1. 2, 3, 4, 5 6. Luego la suma de dos
dados puede ser 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 12, que es el dominio de S. Variable: Discreta.
(d) Dominio: Todos los valores positivos. Variable: Continua.
(e) Dominio: Francia, Italia, ..., etc., que pueden representarse numricamente como 1.
2, Variable: Discreta.
5) Observacin. Es el valor posible que toma una variable. A las observaciones se les suele
representar con las letras minsculas subindicadas, como por ejemplo x, y, zi
Ejemplo
1. X = Peso del langostino de ro (en gr). Observaciones:
x1= 2.5, x2 = 3.0,..,x10 = 3.2
2. Y = Calificacin de un servicio. Observaciones: .y1 = Bueno,y2 = Regular,y3 = Malo
6) Parmetro. Es una medida estadstica para describir el comportamiento de una variable
en la poblacin. Son calculadas con los datos de toda la poblacin. Es un valor constante.
Se representan con letras griegas.
Ejemplo
1. Suponga que el nmero promedio de cocinas vendidas en todos los meses de venta es
15.4 ( = 15.4).
2. El Censo Nacional 2007: XI de Poblacin y VI de Vivienda indica que en el grupo edad
de 20 a 29 aos, el 1.4% de los hombres no sabe leer y escribir mientras que el 3.1% de
las mujeres no sabe leer y escribir (1 = 0.014 y 2 = 0.031).
3. Suponga que en todo Brea la proporcin del nivel de instruccin result:

DEPARTAMENTO DE CIENCIAS BIOLGICAS

11

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

7) Valor estadstico o Estadgrafo. Es una medida para describir el comportamiento de una


variable en la muestra. Se calculan con los datos obtenidos de una muestra. Son valores
variables (varan de muestra a muestra). Los estadsticos sirven para estimar a los
parmetros. Se representan con letras latinas.
Ejemplo
1. En una muestra de 30 meses de venta se encontr que el nmero promedio de cocinas
vendidas fue de 14.9 ( X = 14.9) .
2. En la encuesta nacional de hogares (ENAHO) indica que el 1.1% de los hombres no sabe
leer y ni escribir (p = 0.011) .
3. Suponga que en distrito de Brea se ha seleccionado una muestra de 500 personas
encontrndose los siguientes resultados:

1.5 Importancia de la Estadstica


Ya hemos visto que la Estadstica se encuentra ligada a nuestras actividades cotidianas.
Sirve tanto para pronosticar el resultado de unas elecciones, como para determinar el
nmero de ballenas que viven en nuestros ocanos, para descubrir leyes fundamentales
de la Fsica o para estudiar cmo ganar a la ruleta.
La Estadstica resuelve multitud de problemas que se plantean en ciencia:
Anlisis de muestras. Se elige una muestra de una poblacin para hacer inferencias
respecto a esa poblacin a partir de lo observado en la muestra (sondeos de
opinin, control de calidad, etc).
Descripcin de datos. Procedimientos para resumir la informacin contenida en un
conjunto (amplio) de datos.
Contraste de hiptesis. Metodologa estadstica para disear experimentos que
garanticen que las conclusiones que se extraigan sean vlidas. Sirve para
comparar las predicciones resultantes de las hiptesis con los datos observados
(medicina eficaz, diferencias entre poblaciones, etc).
Medicin de relaciones entre variables estadsticas (contenido de gas hidrgeno
neutro en galaxias y la tasa de formacin de estrellas, etc)
Prediccin. Prever la evolucin de una variable estudiando su historia y/o relacin
con otras variables.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

12

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

1.6 La bioestadstica en la investigacin cientfica.


La estadstica es un instrumento aplicable en el mtodo cientfico, para el cual fue
desarrollada. Su aplicacin particular est en los muchos aspectos del diseo de un
experimento, desde el plan inicial para la recoleccin de los datos, y en el anlisis de los
resultados a partir de los datos resumidos, hasta la evaluacin de la incertidumbre de toda
la inferencia extrada de ellos.
De una forma esquemtica, el proceso experimental suele desarrollarse siguiendo el
siguiente esquema: Definir la pregunta o problema a resolver. Cuanto ms claro y definido
sea el objetivo del experimento, mucho ms fcil ser realizar su planificacin y ejecucin.

Obtener informacin y recursos. Una vez definido el objetivo del experimento, es


necesario elaborar un plan de trabajo para poder alcanzarlo. Hay que identificar qu
equipos son necesarios, qu cantidades hay que medir, y de qu manera se va a
realizar el experimento.
Formular hiptesis, acerca de los resultados de nuestro experimento. Hacerlo antes
de su ejecucin evita el sesgo personal de identificar los resultados que ya se
conocen como objetivos iniciales (no debemos engaarnos a nosotros mismos).
Realizar el experimento y obtener las medidas. Esta tarea se subdivide en varios
pasos:
Preparacin: el equipo debe ser puesto a punto para su utilizacin. Si el
experimento requiere la utilizacin de aparatos con los que no estamos
familiarizados, es necesario leer atentamente los manuales de utilizacin, e
incluso consultar a experimentadores con experiencia previa en su manejo.
Todo ello evita perder tiempo y cometer errores de bulto, a la vez que
preserva la integridad del equipo (y la nuestra!).
Experimentacin preliminar: suele ser muy aconsejable realizar una
pequea experimentacin de prueba antes de iniciar la toma definitiva de
medidas. Esto facilita el uso correcto del equipo instrumental, permitiendo
identificar los aspectos ms difciles o en los que resulta ms fcil cometer
errores.
Toma de datos: el trabajo cuidadoso y detallado son fundamentales en
todo proceso experimental. Ejecutar dicha labor siguiendo un plan de
trabajo bien definido resulta bsico. No hay nada ms frustrante que
descubir, tras largas horas de medidas, que hemos olvidado anotar algn
parmetro esencial o sus unidades. En este sentido resulta imprescindible
tener presentes varias cuestiones
Cules son las unidades asociadas a cada medida?
Cul es la incertidumbre asociada?
Qu variabilidad presentan las medidas?
Cmo puedo tener una idea del orden de magnitud de una medida
antes de realizarla y saber as que los resultados que se van
obteniendo son razonables?
Qu informacin debe ser incluida en la tabla de datos?
Comprobacin de la repitibilidad: siempre que sea posible, todo
experimento debera repetirse varias veces para comprobar que los
resultados obtenidos son repetibles y representativos. Y aunque,
obviamente, la repeticin de un experimento no proporciona exactamente
los mismos nmeros, discrepancias muy grandes deben alertarnos acerca
de la existencia de efectos sistemticos que pueden estar distorsionando el
experimento.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

13

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Analizar los datos: una vez obtenidas las medidas es necesario su tratamiento
estadstico para poder obtener magnitudes (e incertidumbres asociadas)
representativas del objeto de nuestro estudio.
Interpretar los datos y extraer conclusiones que sirvan como punto de partida para
nuevas hiptesis. El xito de esta interpretacin depender, bsicamente, de la
calidad de las medidas y de su anlisis.
Publicar los resultados. Los resultados de cualquier proceso experimental deben
ser comunicados de manera clara y concisa. Esto incluye desde un sencillo informe
de laboratorio, como el que se exigir en los diversos laboratorios en los que se
trabajar durante la licenciatura de Fsicas, hasta la publicacin de un artculo
cientfico en una revista reconocida.

Referencias bibliogrficas
Balzarini Mnica; Di Rienzo Julio; Tablada Margot; Gonzalez, Laura; Bruno Cecilia;
Crdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadstica y Biometra.
Editorial Brujas. Argentina.
Gua del curso de estadstica general. 2016. Departamento estadstica e informtica.
UNALM

DEPARTAMENTO DE CIENCIAS BIOLGICAS

14

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

II.
LOS DATOS
2.1.
Observacin
Las observaciones constituyen la materia prima con la cual trabajan los investigadores. Para
que se pueda aplicar la estadstica a esas observaciones stas deben estar en forma
numrica.
-

En el mejoramiento de cultivos, los nmeros bien pueden ser rendimientos por


parcela.
En la investigacin mdica, pueden ser tiempos de recuperacin bajo varios
tratamientos.
En la industria, pueden ser cantidad de defectos en varios lotes de un artculo
producido en una lnea de montaje.

Tales nmeros constituyen datos y su caracterstica comn es la variabilidad o variacin.


2.2.
Datos
Daniel indica que los datos son la materia prima de la estadstica. Para este propsito defini
a los datos como nmeros. Las dos clases de nmeros que se utilizan en estadstica son
nmeros que resultan de la toma en el sentido literal del trmino de medidas, y aquellos
que resultan del proceso de conteo.
Por ejemplo, cuando una enfermera pesa al paciente o le toma la temperatura, se obtiene la
medida que consiste en una cantidad, por ejemplo 70 kilogramos o 37 grados Centgrados.
Un tipo bastante diferente de nmeros se obtiene cuando el administrador de un hospital
cuenta el nmero de pacientes, quiz 20, dados de alta en un da. Cada uno de los tres
nmeros es un dato (datum) y los tres juntos son datos.
REDONDEO DE DATOS
El resultado de redondear un nmero como 72.8 en unidades es 73, pues 72.8 est
ms prximo de 73 que de 72. Anlogamente, 72.8146 se redondea en centsimas (o
sea con dos decimales) a 72.81, porque 72.8146 est ms cerca de 72.81 que de
72.82.
Al redondear 72.465 en centesimas nos hallamos ante un dilema, ya que est
equidistante de 72.46 y de 72.47. Se adopta en tales casos la costumbre de redondear
al entero par que preceda al 5. As pues, 72.465 se redondea a 72.46, 183.575 se
redondea a 183.58 y 116.500.000 se redondea en millones a 116,000,000. Esta
estrategia es particularmente til para minimizar los errores de redondeo acumulados
cuando se efecta un gran nmero de operaciones (vase Prob. 1.4).
2.3.
Recoleccin de datos
Levine y Berenson, indican que en muchas ocasiones, los datos son medidas que se
obtienen de los elementos de una muestra, y las muestras se toman de la poblacin, de tal
forma que sean lo ms representativas posible. La tcnica ms comn para asegurar una
representacin adecuada es usar una muestra aleatoria.
2.4.
Sistema y fuentes de informacin
El desempeo de actividades estadsticas obedece a la necesidad de responder a diversas
preguntas. Por ejemplo, los mdicos probablemente quieran encontrar respuestas a
preguntas con respecto a la utilidad relativa de procedimientos de tratamiento alternativos.
Los administradores posiblemente quieran responder a preguntas respecto a reas de
inters como el espritu de equipo de los empleados o el uso de las instalaciones. Cuando
se determina que el enfoque adecuado para buscar una respuesta a la pregunta requiere
DEPARTAMENTO DE CIENCIAS BIOLGICAS

15

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

del uso de la estadstica, se comienza a investigar datos apropiados que sirvan como la
materia prima en la investigacin. Estos datos normalmente estn disponibles de una o ms
fuentes como las siguientes:
1. Registros rutinarios. Es difcil imaginar algn tipo de organizacin que no lleve registros
de la operacin diaria de sus actividades. Mientras que los registros clnicos de un hospital,
por ejemplo, contienen una inmensa cantidad de informacin acerca de los pacientes, los
registros contables de la institucin contienen datos en abundancia sobre las actividades
financieras del hospital. Cuando surge la necesidad de tener datos, se debe buscar primero
en los registros que se llevan rutinariamente.
2. Encuesta. Si los datos necesarios para contestar una pregunta no estn disponibles a
partir de los registros almacenados de manera rutinaria, la fuente lgica puede ser una
encuesta. Por ejemplo, suponga que el administrador de una clnica desea obtener
informacin respecto a la forma de transporte que utiliza el paciente para visitar la clnica. Si
la forma de admisin no contiene una pregunta acerca del transporte, es posible llevar a
cabo una encuesta entre los pacientes para obtener esta informacin.
3. Experimentacin. Frecuentemente, los datos necesarios para responder una pregunta
estn disponibles slo como resultado de la experimentacin. Tal vez una enfermera quiere
saber qu estrategia es mejor para maximizar el seguimiento de las indicaciones mdicas
por parte del paciente. La enfermera podra conducir un experimento en el que se prueben
diferentes estrategias para motivar el cumplimiento del tratamiento en distintos pacientes. La
evaluacin subsecuente de las respuestas a las diversas estrategias puede capacitar a la
enfermera para decidir cul es ms efectiva.
4. Fuentes externas. Los datos necesarios para responder a una pregunta pueden ya existir
como informes publicados, bancos de datos disponibles o en la literatura de investigacin.
En otras palabras, uno se puede encontrar con que alguien ms ya plante la misma
pregunta y que la respuesta que obtuvo puede aplicarse a la situacin presente.
2.5.
Poblacin
Habitualmente se considera a una poblacin como una coleccin de entidades, por lo
general personas. Sin embargo, una poblacin o coleccin de entidades puede estar
compuesta de animales, mquinas, plantas o clulas. Una poblacin de entidades se define
como la coleccin ms grande de entidades de inters en un momento particular. Si se toma
la medida de alguna variable para cada una de las entidades en una poblacin, se obtiene
una poblacin de valores para esa variable. Por lo tanto, una poblacin de valores se puede
definir como la mayor coleccin de valores para una variable aleatoria, los cuales son de
inters en un momento particular. Por ejemplo, si se tiene inters en conocer el peso de
todos los nios inscritos en el sistema de educacin primaria del estado, la poblacin est
formada por todos esos pesos. Si se tiene inters slo en el peso de los estudiantes inscritos
en el primer grado, se tiene una poblacin diferente, compuesta por los pesos de los
estudiantes de primer grado. Por lo tanto, las poblaciones se determinan o definen con base
en el campo de inters. Las poblaciones pueden ser finitas o infinitas. Si una poblacin de
valores consiste en un nmero fijo de esos valores, se dice que la poblacin es finita. Si, por
otra parte, una poblacin consiste en una sucesin interminable de valores, entonces es una
poblacin infinita.
2.6.
Muestra
Una muestra puede definirse simplemente como una parte de una poblacin. Suponga que
una poblacin se compone de los pesos de todos los nios inscritos en el sistema de

DEPARTAMENTO DE CIENCIAS BIOLGICAS

16

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

educacin primaria del estado, y se escoge para el anlisis slo una fraccin de los nios;
entonces se tiene nicamente una parte de la poblacin, es decir, se tiene una muestra.
2.7.
Elaboracin de los datos
Steel y Torrie (1988) mencionan que ha sido ampliamente demostrado que no se puede
tomar una muestra aleatoria sin emplear un proceso mecnico. En el proceso usado para
obtener una muestra aleatoria o para introducir la aleatoriedad en un experimento o
encuesta, por lo general interviene una tabla de nmeros aleatorios, como la tabla A.1. Esta
tabla est formada por los dgitos 0, 1, 2, 3, 4, 5, 6, 7, 8 y 9 distribuidos en una tabla de 100
por 100, dando lugar a 10,000 dgitos aleatorios. Estos nmeros se obtuvieron en una
mquina y no hay razn para pensar que algn nmero apareciera con ms frecuencia que
otro, ni que alguna sucesin de nmeros fuese ms frecuente que otra, excepto por el azar.
Hay 1,015 ceros, 1,026 unos, 1,013 doces, 975 treces, 976 cuatros, 932 cincos, 1,067 seis,
1,013 sietes, 1,023 ochos, 960 nueves; 5,094 son pares y 4 906 son impares. Ilustremos el
uso de la tabla tomando una muestra aleatoria de 10 observaciones de la tabla 4.1. Los
datos de la tabla 4.1 se han clasificado de acuerdo con la magnitud asignndoles nmeros
de orden. La organizacin por orden no es necesaria para extraer muestras al azar; el orden
de los nmeros aleatorios pudo haberse asignado en forma arbitraria.
Para obtener una muestra aleatoria de 10 pesos, tmense 20 dgitos consecutivos de la tabla
A.1 y regstrense como 10 pares. Estos sern los nmeros de orden de los pesos
correspondientes. Se puede comenzar en cualquier parte de la tabla, pero una forma ms
satisfactoria es sealar con el dedo en una de las pginas, leer los cuatro nmeros opuestos
ms cercanos a la punta del dedo y utilizar stos para localizar el punto de partida. As:
1.
En la primera pgina de la tabla A.1, el dedo encuentra el nmero 1188 (frente a 10
y son los primeros cuatro dgitos en la columna 20-24).
2.

Se va a la fila 11, columna 88, como punto de partida.

3.
Se registran en pares los 20 dgitos que se encuentran yendo hacia la derecha, y que
son 06, 17, 22, 84, 44 y 55; por comodidad, se baja una lnea y se procede al revs para
obtener los otros nmeros, o sea, 09,15,30 y 59.
4.
Se toman los nmeros de los elementos y se llevan a la tabla 4.1 para obtener las
correspondientes observaciones: 20, 30,32, 51, 39, 41, 25, 29, 35 y 42 libras.
Este es un procedimiento aleatorio que equivale a extraer de una bolsa con 100 frjoles
marcados con 100 contenidos de grasa de leche, volviendo cada frjol a la bolsa y mezclando
bien los frijoles antes de cada extraccin. Por esta razn, se dice que el muestreo es con
reemplazo. Ntese que cada elemento puede sacarse cualquier nmero de veces

DEPARTAMENTO DE CIENCIAS BIOLGICAS

17

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Tabla 4.1 Ordenamiento en libras, de la grasa de leche producida por 100 vacas Holstein
durante un mes
Los datos originales se modificaron para que se aproximaran a una distribucin normal con
=40 Ib y =12 Ib.
Unidad Libras Unidad Libras Unidad Libras Unidad Libras
0
10
25
33
50
40
75
47
1
12
26
33
51
40
76
48
2
14
27
34
52
41
77
48
3
15
28
34
53
41
78
48
4
17
29
34
54
41
79
49
5
18
30
35
55
41
80
49
6
20
31
35
56
42
81
49
7
22
32
35
57
42
82
50
8
23
33
36
58
42
83
50
9
25
34
36
59
42
84
51
10
26
35
36
60
43
85
51
11
27
36
37
61
43
86
52
12
28
37
37
62
43
87
52
13
28
38
37
63
43
88
53
14
29
39
37
64
44
89
54
15
29
40
38
65
44
90
55
16
30
41
38
66
44
91
57
17
30
42
38
67
45
92
58
18
31
43
38
68
45
93
60
19
31
44
39
69
45
94
62
20
31
45
39
70
46
95
63
21
32
46
39
71
46
96
65
22
32
47
39
72
46
97
66
23
32
48
40
73
47
98
68
24
33
49
40
74
47
99
70

Fuente: Steel y Torrie (1988)

DEPARTAMENTO DE CIENCIAS BIOLGICAS

18

UNSCH

DEPARTAMENTO DE CIENCIAS BIOLGICAS

Bioestadstica I

Prof. Reynn Cndor A.

19

UNSCH

DEPARTAMENTO DE CIENCIAS BIOLGICAS

Bioestadstica I

Prof. Reynn Cndor A.

20

UNSCH

DEPARTAMENTO DE CIENCIAS BIOLGICAS

Bioestadstica I

Prof. Reynn Cndor A.

21

UNSCH

DEPARTAMENTO DE CIENCIAS BIOLGICAS

Bioestadstica I

Prof. Reynn Cndor A.

22

UNSCH
2.8.

Bioestadstica I

Prof. Reynn Cndor A.

Mecanismos para presentar, tabular y graficar datos

La siguiente Tabla muestra el nmero de bushels (bu) de trigo y maz producidos en la


cooperativa PQR durante los aos 1975-1985. Con referencia a esa tabla, determinar el ao
o aos durante los cuales: (a) la produccin de trigo fue mnima, (b) la de maz fue mxima,
(c) se dio el mayor descenso en la produccin de trigo, (d) decreci la produccin de maz
respecto del ao anterior y creci la de trigo, (e) se produjo idntica cantidad de trigo y (f) la
produccin conjunta de trigo y maz fue mxima.

Ao

Nmero de
bushels de
trigo

Nmero de
bushels de
maz

1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985

200
185
225
250
240
195
210
225
250
230
235

75
90
100
85
80
100
110
105
95
110
100

Solucin
(a) 1976; (b) 1981 y 1984; (c) 1980; (d) 1978, 1982, 1983 y 1985; (e) 1977 y 1982, y 1978 y
1983; (f) 1983.
Representar los datos del Problema anterior usando: (a) grficos de trazos y (b) grficos de
barras.
Solucin
(a) La Figura muestra el grfico de trazos.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

23

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

300

Nmero de bushels

250
200
150

Trigo
Maz

100
50
0
1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985

Ao

(b) Grfico de barras.

Nmero de bushels

300
250
200
150

Trigo

100

Maz

50
0
1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985

Ao

Grfico de barras en componentes


400

Nmero de bushels

350
300
250
200

Maz

150

Trigo

100
50
0
1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985

Ao

DEPARTAMENTO DE CIENCIAS BIOLGICAS

24

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

(a) Expresar la cantidad anual de bushels de trigo y maz del Problema como porcentajes
de la produccin total anual.
(b) Representar los porcentajes obtenidos en la parte (a).
Solucin
(a) En 1975 el porcentaje de trigo = 200/(200 + 75) = 72.7%, y el maz 100% 72.7% =
27.5%; etc. Los porcentajes se indican en la Tabla 1.5.
Ao

1975

1976

1977

1978

1979

1980

1981

1982

1983

1984

1985

Porcentaje de trigo

72.70% 67.30% 69.20% 74.60% 75.00% 66.10% 65.60% 68.20% 72.50% 67.60% 70.10%

Porcentaje de maz

27.30% 32.70% 30.80% 25.40% 25.00% 33.90% 34.40% 31.80% 27.50% 32.40% 29.90%

(b) El grfico de tales porcentajes, Figura 1.11, se llama grfico de porcentajes en


componentes. Puede usarse un grfico similar al de la Figura 1.9.

100.0%
90.0%
80.0%

Porcentaje

70.0%
60.0%
50.0%

Maz

40.0%

Trigo

30.0%
20.0%
10.0%
0.0%
1975

1976

1977

1978

1979

1980

1981

1982

1983

1984

1985

Ao

Ejemplo: Las reas de los continentes se recogen en la siguiente Tabla. Representar los
datos grficamente.
Tabla. reas de los continentes
Continente
Asia
Amrica
frica
Antrtida
Europa
Oceana
Total

rea
km2

%
43810000
42330000
30370000
13720000
10180000
9008500

29%
28%
20%
9%
7%
6%
149418500 100%

Solucin
Primer mtodo
Grfico de barras en el que las barras son horizontales.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

25

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

REAS DE LOS CONTINENTES

Oceana

Continentes

Europa
Antrtida
frica
Amrica
Asia
0

10000000

20000000

30000000

40000000

50000000

rea en km2

Diagrama circular.

Oceana, 6%
Europa, 7%
Asia, 29%
Antrtida, 9%

frica, 20%

Amrica, 28%

2.9.

Distribucin de frecuencias (Tablas de frecuencia)

a. Organizacin para variables cualitativas (nominal o jerrquica)


La tabla de frecuencia es organizada por clases o categoras que corresponden a los
distintos valores (atributos) que toma la variable cualitativa.
Tabla de frecuencias
Clase o categora (f)
(fri)
Atributo 1
f1
fr1
Atributo 2
f2
fr2
.
.
.
Atributo k
fk
frk
n
1
DEPARTAMENTO DE CIENCIAS BIOLGICAS

(p)
P1
P2

Pk
100
26

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Donde:
k= Nmero de clases
n= Nmero de observaciones o unidades elementales
Frecuencia absoluta ( f i ). Es el nmero de observaciones que existen en la clase o
categora i.
k

Se cumple:

f
i 1

Frecuencia relativa ( fri ). Es la proporcin o porcentaje de obaservaciones con respecto


al total (n) que existen en l clase o categora i.

fri

fi
n
k

Se cumple:

fr 1
i

i 1

Frecuencia porcentual ( pi ). Es el porcentaje de observaciones con respecto al total (n)


que esxisten en la clase o categora i. se tiene:
pi fri 100
k

Se cumple:

p
i 1

100%

Tipo de grficos
Se pueden usar las frecuencias absolutas (fi) o relativas (fri) para elaborar dos tipos de
grficos

Grfico de barras vertical u horizontal

Grfico circular

Ejemplo. Se hizo una encuesta a una muestra de 45 clientes del Banco Comercial y se
obtuvo los siguientes resultados:
Ingreso
Mensual
Caso Edad
(miles de
S/.)
1
2
3

3,00
1,99
2,90

4
5
6

29
34
61
28
41
57

30

4,50

4,70
3,00
5,80

Tarjeta
N de
de
viajes
crdito
(mensual)
usada
3
3
2
0
1
2
4

DEPARTAMENTO DE CIENCIAS BIOLGICAS

Ta1
Ta2
Ta3
Ta2
Ta4
Ta1
Ta4

Monto
de
Lugar de uso de
deuda
tarjeta de crdito
(miles
de S/.)
centros comerciales
1,80
discotecas
1,10
0,60
restaurantes
grifos
2,70
centros comerciales
1,30
otros
0,80
grifos

0,64

Sexo

F
F
M
M
F
F
M
27

UNSCH
8
9

Bioestadstica I

13
14
15

43
45
35
42
28
28
24
35

16

42

6,60

Ta4

17
18

48

5,74

Ta1

discotecas

1,20

34

4,23

Ta5

centros comerciales

1,90

19

66
36

5,50

restaurantes

6,60

Ta1
Ta4

centros comerciales

2,35
1,90

M
F

59

3,85

Ta4

restaurantes

0,30

22

37

6,70

Ta6

centros comerciales

0,70

23
24

53

3,50

Ta5

restaurantes

0,67

35

8,80

Ta1

discotecas

0,50

25

63

10,00

Ta5

26
27

28

10,10

Ta1

restaurantes
centro de estudios

1,50
0,70

M
F

43

28

60

13,40
3,90

Ta2
Ta5

discotecas
otros

1,50
1,99

F
M

29
30

59

5,84

Ta5

restaurantes

0,60

63

3,50

Ta4

grifos

1,50

31

55

4,40

Ta2

centro de estudios

0,40

32
33

42

3,70

Ta5

1,80

51

4,50

Ta1

centros comerciales
otros

0,70

34

39

5,63

Ta1

otros

0,80

35
36

55

4,60

Ta1

discotecas

1,25

35
42

5,79
2,93

0
3

Ta5
Ta5

discotecas
grifos

1,60
0,20

M
M

38
39

36

6,60

Ta3

grifos

4,37

49

4,60

Ta3

centros comerciales

2,00

40

27

6,60

Ta4

grifos

0,90

41
42

36

2,90

Ta1

discotecas

0,47

42

4,69

Ta2

centros comerciales

0,80

43

25

3,99

Ta4

restaurantes

4,32

44
45

32
28

6,70
2,58

2
1

Ta1
Ta4

centros comerciales
otros

0,60
1,70

M
M

10
11
12

20
21

37

7,09
4,40
6,82
5,30
5,80
5,70
4,70
6,60

0
1
0
3
2
1
4
1

Ta3
Ta5
Ta2
Ta1
Ta4
Ta2

Prof. Reynn Cndor A.

Ta4
Ta5

centro de estudios
centros comerciales
grifos
restaurantes
discotecas
grifos
restaurantes

0,90
1,40
2,46
1,10
0,20
0,80

F
M
F
F
M
F

discotecas

0,50
0,40

M
F

restaurantes

3,46

a.1 Organizacin de datos cualitativos nominales


Tabla de frecuencia de tipo de tarjeta de crdito usada
DEPARTAMENTO DE CIENCIAS BIOLGICAS

28

UNSCH

Bioestadstica I

N de
clase
1
2
3
4
5
6
Total
f3 = 4

Prof. Reynn Cndor A.

Tarjeta de
crdito
Frecuencia Frecuencaia Frecuencia
usada
Absoluta
relativa
porcentual
Ta1
12
0.27
26.67
Ta2
7
0.16
15.56
Ta3
4
0.09
8.89
Ta4
11
0.24
24.44
Ta5
10
0.22
22.22
Ta6
1
0.02
2.22
45
1.00
100.00

indica que 4 de los clientes del Banco Comercial utilizan la tarjeta de crdito
Ta3
indica la proporcin de clientes del Banco Comercial que utilizan la tarjeta de
crdito
Ta1.
indica que el 15.56% de clientes del Banco Comercial utilizan la tarjeta de
crdito Ta2.

fr1 = 0.2667

P2 = 15.56

Grfico de barras
30.00
25.00

20.00
15.00
10.00
5.00
0.00
Ta1

Ta2

Ta3

Ta4

Ta5

Ta6

TARJETA DE CRDITO

En el grfico de barras, se aprecia que la tarjeta Tal es la de uso ms frecuente.


Grfico circular
2%
22%

27%

16%

24%
9%
Ta1

DEPARTAMENTO DE CIENCIAS BIOLGICAS

Ta2

Ta3

Ta4

Ta5

Ta6

29

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

En el grfico circular, se aprecia que la tarjeta de crdito Ta6 es la de uso menos


frecuente.
a.2 Organizacin de datos cualitativos ordinales
Ahora veamos un caso que involucre una variable cualitativa jerrquica u odinal, pero
tambin veremos el uso de frecuencias acumuladas, para este caso estudiaremos los datos
de la base de datos de la tabla 2.1 (Blair et al 2008).
La tabla 2.1 muestra las respuestas (cticias) de 60 pacientes postoperados, a quienes se
solicit calicar su percepcin del dolor en una escala ordinal de cuatro puntos, como parte
de un estudio de manejo del dolor. Como puede verse, estos datos desorganizados son
bsicamente no informativos en lo que se reere a los patrones de respuesta. Algunos
niveles de dolor dominaron? Era comn el dolor severo? Qu proporcin de pacientes no
tena dolor? Qu proporcin sufra de dolor leve o de menor intensidad?
Con esta pequea cantidad de datos usted puede pasar unos minutos observando la tabla
para formular respuestas aproximadas a estas preguntas. Sin embargo, esta estrategia no
sera efectiva con un gran conjunto de datos. Aun con este nmero limitado de respuestas
sera conveniente reordenar los datos para facilitar la obtencin de las respuestas.
TABLA 2.1: Mediciones de dolor percibido de 60 pacientes.
Nmero de
paciente

Nivel de dolor

Nmero de
paciente

moderado

16

leve

31

ninguno

46

severo

ninguno

17

leve

32

moderado

47

ninguno

leve

18

moderado

33

ninguno

48

ninguno

ninguno

19

ninguno

34

ninguno

49

leve

severo

20

ninguno

35

leve

50

leve

ninguno

21

leve

36

ninguno

51

leve

moderado

22

ninguno

37

moderado

52

ninguno

ninguno

23

ninguno

38

leve

53

leve

ninguno

24

leve

39

ninguno

54

severo

10

leve

25

moderado

40

ninguno

55

moderado

11

leve

26

moderado

41

ninguno

56

ninguno

12

ninguno

27

ninguno

42

ninguno

57

ninguno

13

leve

28

ninguno

43

ninguno

58

ninguno

14

leve

29

leve

44

ninguno

59

leve

15

ninguno

30

severo

45

ninguno

60

ninguno

Nivel de dolor

Nmero de
paciente

Nivel de dolor

Nmero de
paciente

Nivel de dolor

Distribuciones de frecuencias absolutas


La tabla 2.2 muestra estos datos ordenados en distribuciones de frecuencias, frecuencias
relativas, frecuencias acumulativas y frecuencias relativas acumulativas. La primera columna
lista las categoras de la escala de menor a mayor. La segunda muestra la frecuencia de
respuesta para cada categora, que se obtiene mediante el conteo del nmero de veces que
ocurre cada respuesta en el conjunto de datos. La frecuencia, entonces, es el nmero de
respuestas de cada tipo.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

30

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Tabla 2.2. Distribuciones de mediciones de dolor percibido.


Frecuencia
Frecuencia
Categora de Frecuencia
Frecuencia
absoluta
relativa
dolor
absoluta
relativa
acumulada
acumulada
Severo
4
0.07
60
1.00
Moderado
8
0.13
56
0.93
Leve
17
0.28
48
0.80
Ninguno
31
0.52
31
0.52

Distribuciones de frecuencias relativas


La tercer columna de la tabla 2.2 muestra la frecuencia relativa de respuesta, la cual se
obtiene dividiendo cada frecuencia entre el nmero total de respuestas (en este caso 60).
La frecuencia relativa, entonces, es la proporcin de respuestas de cada tipo.
Usted puede percibir rpidamente a partir de las dos primeras columnas que el mayor
nmero de pacientes (31) indic no haber tenido dolor. Este nmero representa 0.52 (o 52%)
del total de la muestra. El dolor severo fue menos comn, pues nicamente 4 personas (0.07
de la muestra) eligieron esta categora. En general, el nmero de respuestas en las
categoras disminuy conforme stas representaban niveles ms altos de dolor.
Distribuciones de frecuencias acumulativas
La columna de la frecuencia acumulativa muestra el nmero de pacientes que indicaron que
su dolor era menor o igual al nivel representado. Por ejemplo, 48 pacientes (31+17)
clasicaron su dolor como leve o menor que leve, mientras que 56 pacientes (31+17+8)
percibieron su dolor como moderado o menor que moderado. La frecuencia acumulativa se
obtiene mediante la suma de la frecuencia en una categora dada con las categoras que
indican un nivel menor de la variable medida.
Distribuciones de frecuencias relativas acumulativas
La frecuencia relativa acumulativa se calcula al dividir cada frecuencia acumulativa entre el
nme ro total de encuestados. Se puede ver que 0.80 de los pacientes creyeron que su dolor
era leve o de menor intensidad, mientras que 0.93 sintieron que su dolor era moderado o de
menor intensidad. La columna de la frecuencia relativa acumulativa, entonces, muestra la
proporcin de los pacientes que indicaron que su dolor fue menor que o igual que el nivel
representado.
Las distribuciones de frecuencias, frecuencias relativas, frecuencias acumulativas y
frecuencias relativas acumulativas que se muestran en la tabla 2.2 fueron calculadas para
una variable de nivel ordinal. Las primeras dos distribuciones tambin pueden utilizarse para
una variable de nivel nominal. Obviamente las distribuciones acumulativas no seran
apropiadas en este caso puesto que no hay un orden cuantitativo para una variable
de nivel nominal.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

31

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Figura. Representacin en barras de las frecuencias absolutas, relativas, absolutas acumuladas y


relativas acumuladas.
Frecuencia absoluta

Frecuencia relativa

40

0.60
0.50

31

30
20
10

0.40
0.30
0.20

17
8

0.10
0.00

0
Severo Moderado

Leve

Ninguno

1.20

1.00

Leve

Ninguno

0.93

1.00

56

48

0.80

0.80
31

40

0.52

0.60
0.40

20

0.20

0.00
Severo Moderado

Leve

Ninguno

70

Severo Moderado

1.00

60

60

1.00

Leve

Ninguno

0.93

0.80

56

50

0.80

48
0.60

40

0.52

31
31

30

0.52
0.40

0.28

17

20
10

0.13
0.07

Frecuencia relativa acumulada

80
60

0.28

Severo Moderado

Frecuencia absoluta acumulada

60

0.52

0.20

0.07

0.13

0.00
Severo Moderado

Leve

Ninguno

Severo Moderado

Leve

Ninguno

b. Organizacin para variables cuantitativas discretas


La tabla de frecuencia es organizada por clases o categoras que corresponden a los
distintos valores (nmeros) que toma la variable cuantitativa discreta. Se usa cuando el
conjunto de valores posible de la variable cuantitativa discreta es pequeo.
Tabla de frecuencias
N de clase
Valor de la
(fi)
(fri)
(p)
variable
1
X1
f1
fr1
P1
2
X2
f2
fr2
P2
.
.
.
k
Xk
fk
frk
Pk
Total
n
1
100
DEPARTAMENTO DE CIENCIAS BIOLGICAS

32

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Tipo de grfico. Se elabora el grfico de bastones o varas con las frecuencias absolutas,
relativas o porcentuales.
Ejemplo 2. Organizacin de datos cuantitativos discretos
Tabla de frecuencias del nmero de viajes al mes
Frecuencia
N de
Absoluta
Frecuencia
viajes al
No de
Frecuencia Porcentual
mes
clientes fi Relativa fri
Pi
0
10
0.2222
22.22
1
15
0.3333
33.33
9
2
0.2000
20.00
3
6
0.1333
13.33
4
5
0.1111
11.11
Total
45
1
100
Interprete:
f2 = 15
p1 = 22.22

Existen 15 clientes del Banco Comercial que hacen un viaje al mes.


El 22.22% de los clientes no han realizado viajes.

Grfico de bastones o varas


35.00
30.00
25.00

20.00
15.00
10.00
5.00
0.00
0

VIAJES

En el grfico de varas, se aprecia que en la variable nmero de viajes al mes, el nmero 1


(un viaje al mes) es el ms frecuente.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

33

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

c. Organizacin para variables cuantitativas continuas


El conjunto de datos es agrupado por intervalos de clase que conforman las clases o
categoras de la tabla de frecuencias.
N de Intervalos
clases
de clase

Marca
Frec.
de Absoluta

Frec.
Frec.
Relativa Porc.

clase
[LI-LS>

X'i

Frec.
Frec.
Acumulada Acumulada

Frec.
Acum.

Absoluta

Relativa

Porc.

fi

fri

Fri

Pi

[LI1-LS1>

X'1

f1

fr1

p1

F1

Fr1

P1

2
.
.
.

[LI2-LS2>

X'2

f2

fr2

p2

F2

Fr2

P2

[LIk-LSk]

X'k

fK
N

frK

pk

Fk

Frk

Pk

100

100

k
Total

Donde:
LI i = Lmite inferior de la clase i (Lmite cerrado)
LSi =Lmite superior de la clase i (Lmite abierto, salvo ltima clase que es cerrado)

Marca de clase ( X i' ). Es el punto medio del intervalo de clase. Se considerar como el valor
representativo de los valores que pertenecen al intervalo de clase.
'
Se calcula: X i

LI i LSi
o X i' X i'1 TIC , donde TIC es el tamao del intervalo de clase
2

Frecuencia porcentual ( pi ). Indica el porcentaje de observaciones o unidades elementales


k

que hay en la clase i. Se cumple:

p
i 1

100%

Frecuencia acumulada absoluta (Fi). Indica el nmero de observaciones o unidades


elementales que hay desde la primera clase hasta la clase i. se calcula por:
k

Fk fi f1 f 2 ... f k
i 1

Propiedad: Ft Fh

i h 1

fi , h t

Frecuencia Acumulada Relativa (Fri). Indica la proporcin de observaciones o unidades


elementales que hay desde la primera clase hasta la clase i. Se calcula por:
i

Fi
Fri
n

f
j 1

fri
j 1

DEPARTAMENTO DE CIENCIAS BIOLGICAS

34

UNSCH

Bioestadstica I

Propiedad: Frt Frh

Prof. Reynn Cndor A.

i h 1

fri , h t

Frecuencia Acumulada Porcentual (pi). Indica el porcentaje de observaciones o unidades


elementales que hay desde la primera clase hasta la clase i.
Propiedad: pt ph

p,

i h 1

ht

Pasos para la construccin de una tabla de frecuencias:


Paso 1. Hallar el rango o amplitud (r). r = Mximo-Mnimo
Paso 2. Hallar el nmero de intervalos de clase (k). Se aplica la regla de Sturges: k = 1 +
3.3log(n). Eligiendo un valor: 3 k 15
Se aplica el redondeo normal a entero.
Si el primer dgito decimal: es 5, se redondea al entero Inmediato superior y si
es < 5, se considera el entero obtenido.
Paso 3. Hallar el tamao de Intervalo de Clase (TIC).
r
TIC
k
El nmero de decimales debe ser igual al de las observaciones.
Se aplica el redondeo por exceso. Si la posicin del decimal es 1, se redondea al
valor inmediato superior, de lo contrario no se redondea.
Paso 4. Hallar los lmites inferiores y superiores de cada intervalo de clase.
LI1 = Mnimo
LI2 = LI1 + TIC = LS1
LI3 = LI2 + TIC = LS2

LIk = LIk-1 + TIC = LSk-1

LS1= LI1 + TIC


LS2= LI2 + TIC
LS3= LI3 + TIC
LSk= LIk + TIC

Paso 5. Realizar el conteo del conjunto de datos, como el resultado de asignar cada
observacin a alguno de los intervalos de clase. Luego completar la tabla hallando
X i' , fi , fri , Fi , Fri
Tipos de grficos
Histograma. Se usan las frecuencias absolutas o relativas en el eje vertical y los intervalos
de clase en el eje horizontal.
Polgono. Se usan las frecuencias absolutas o relativas en el eje vertical y las marcas de
clase en el eje horizontal.
Ejemplo 3. Organizacin de datos cuantitativos continuos
Organicemos las observaciones de la variable ingreso mensual de los clientes (en miles de
nuevos soles).
Paso 1. Calcule el rango ( R ).
R = Xmax - Xmin
En el ejemplo R = 13.40 - 1.99 = 11.41
Paso 2. Determine el nmero de intervalos de clase (k). Utilice la regla de Sturges
DEPARTAMENTO DE CIENCIAS BIOLGICAS

35

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

k = 1 + 3.3 log n = 1 + 3.3 log 45 = 6.4556


Redondeo estadstico: Se toma en consideracin el primer valor decimal, si es:
5 se redondea al entero inmediato superior < 5 se considera el entero obtenido
En nuestro ejemplo, k = 6.4556, estamos en el segundo caso, por lo que el nmero de clases
que se debe considerar es k=6.
Paso 3. Halle el tamao de los intervalos de clase (TIC)
r 11.41
TIC
1.90167
k
6
Redondeo por exceso: se toma en consideracin el nmero mayor de decimales que tienen
las observaciones. Considerando la posicin de este decimal, se presentan 2 casos:
Si existe alguna cifra significativa a la derecha de este valor, se redondea al valor
inmediato superior
Si no existe ninguna cifra significativa a la derecha de este valor, entonces no se realiza
ningn redondeo

TIC = 1.90167
Como las observaciones tienen 2 decimales en el TIC tambin se considerar con 2
decimales y como hay al menos un valor diferente de cero a la derecha de las centsimas
se incrementa en una centsima quedando TIC = 1.91
Paso 4. Construya la tabla de frecuencias.
Tener en cuenta que en la ltima clase el intervalo es cerrado en el lado derecho.
Tabla de frecuencias del ingreso mensual

N de
clases

Ingreso
mensual
[LI-LS>

Marca
de clase

X i'

Frec.
Abs. f

Frec.
Rel. fri

Frec.
Porc.
P

Frec.
Acum.
Abs. f

Frec.
Acum.
Rel. fri

Frec.
Acum.
Porc. P

[1.99 - 3.90>

2.945

11

0.2444

24.44

11

0.2444

24.44

[3.90 - 5.81>

4.855

20

0.4444

44.44

31

0.6888

68.88

[5.81 - 7.72>

6.765

10

0.2222

22.22

41

0.9110

91.10

[7.72 - 9.63>

8.675

0.0222

2.22

42

0.9332

93.32

[9.63 -11.54>

10.585

0.0444

4.44

44

0.9776

97.76

[11.54-13.45]

0.0222

2.22

1.000

100

1.0000

100

12.495

45

45

Interprete:

f2 = 20; 20 de los clientes tienen un ingreso mensual de por lo menos S/. 3900 pero menos
de S/. 5810.
fr4 = 0.0222; 0.0222 es la proporcin de clientes que ganan por lo menos S/. 7720 pero menos
de S/. 9630
p5 = 4.44; 4.44% de los clientes ganan por lo menos S/. 9630 pero menos de S/. 11540.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

36

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

F3 fi f1 f 2 f3 11 + 20 + 10 = 41; 41 de los clientes ganan mensualmente por lo

menos S/. 1990 pero menos de S/. 7720.


F5 - F2 = 44 - 31 =13

i 1

F5 - F2 =

f
i 3

f 3 f 4 f 5 10 + l + 2 = 13; 13 de los clientes ganan por lo menos S/. 5810

pero menos de S/. 11540


4

Fr4 =

fr

= fr1 + fr2 + fr3 + fr4 = 0.2444 + 0.4444 + 0.2222 + 0.0222 = 0.9332, indica que

i 1

0.9332 es la proporcin de clientes que ganan por lo menos S/. 1990 pero menos de S/. 9630.
Fr5 - Fr3 = 0.9776 - 0.9110 = 0.0666
5

Fr5 - Fr3 =

fr = fr
i

i4

+ fr5 = 0.0222 + 0.0444 = 0.0666, indica que 0.0666 es la proporcin de

los clientes que ganan por lo menos S/.7720 pero menos de S/.11540.
3

P3 =

p
i 1

= pl + p2 + P3 = 24.44 + 44.44 + 22.22 = 91.10, indica que el 91.10% de los clientes

tienen ingresos mensuales de por lo menos S/.1990 pero menos de S/.7720


P5 - P2 = 97.76 - 68.88 = 28.88
5

P5 - P2 =

p
i 3

=P3 + P4 + P5 =22.22 + 2.22 + 4.44 = 28.88, indica que el 28.88% de los

clientes de ese banco tienen ingresos mensuales por lo menos S/. 5810 pero menos de S/.
11540.

X 3' = 6.765 es el valor representativo de los clientes que ganan por lo menos S/.5810 pero
menos de S/.7720. Las diez observaciones (f3 = 10) que hay en la clase 3 son representadas
por el valor S/. 6765.
Histograma de frecuencias
50.00
45.00
40.00
35.00

30.00
25.00
20.00
15.00
10.00
5.00
0.00
2.945

4.855

6.765

8.675

10.585

12.495

INGRESO

En el histograma se puede apreciar que la clase ms frecuente es la segunda esto indica


que los ingresos ms frecuentes son de por lo menos S/. 3900 pero menores a S/. 5810.
Polgono de frecuencias

DEPARTAMENTO DE CIENCIAS BIOLGICAS

37

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

50.00
45.00

44.44

40.00
35.00

30.00
25.00

24.44

22.22

20.00
15.00
10.00
5.00

2.22

0.00
2.945

4.855

6.765

8.675

4.44
10.585

2.22
12.495

INGRESO

En el polgono de frecuencias se observa que son pocos los clientes con Ingresos
mensuales altos.
50.00
45.00
40.00
35.00

30.00
25.00
20.00
15.00
10.00
5.00
0.00
2.945

4.855

6.765

8.675

10.585

12.495

INGRESO

Presentamos a continuacin un nuevo caso, la tabla 2.3 presenta una distribucin de


frecuencias de las presiones sanguneas sistlicas (cticias) de 144 adolescentes
moderadamente obesos. En esta tabla las frecuencias se relacionan con los valores de la
presin sangunea ms que con categoras discretas, como fue el caso en la tabla 2.2. Como
resultado, hay un gran nmero de valores y sus frecuencias. Esto puede causar dicultades
de interpretacin, especialmente cuando las frecuencias individuales son pequeas e
incluyen el cero. En estos casos a veces es til reducir el nmero de valores mediante la
formacin de grupos. Entonces se pueden dar distribuciones de frecuencias, frecuencias
relativas, frecuencias acumulativas y frecuencias relativas acumulativas para estos grupos
de valores en lugar de valores individuales.
La tabla 2.4 presenta distribuciones agrupadas para los datos de la presin sangunea.
Como puede observarse, los valores de presin sangunea se colocaron en intervalos que
tcnicamente se conocen como intervalos de clase. Las diversas distribuciones se basan
entonces en esos intervalos. Al reducir los datos en esta forma, los patrones de respuesta
DEPARTAMENTO DE CIENCIAS BIOLGICAS

38

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

se distinguen con mayor facilidad. Pero el precio que se paga por la comodidad interpretativa
es la prdida de informacin.
Por ejemplo, mientras que es fcil ver que alrededor del 21.5% de los valores cae en el
intervalo 135-139, no hay informacin acerca de los valores individuales en este intervalo.
Al construir tablas de este tipo se deben responder dos preguntas relacionadas. En cuntos
intervalos se deben agrupar los valores y qu tan grandes debern ser los intervalos? Muy
pocos intervalos provocan la prdida de mucha informacin, mientras que muchos intervalos
hacen fracasar el propsito de resumir los datos. El tamao de los intervalos depender del
nmero de intervalos utilizados y viceversa. No existen reglas rgidas y rpidas al respecto.
En esencia, usted desear presentar los datos dndoles el mayor signicado posible. Sin
embargo, hay algunas reglas generales que sirven como gua. Una sugerencia comn es
que no debe haber menos de seis ni ms de 15 intervalos. Otra regla til es que, cuando sea
posible, se debe usar una anchura en los intervalos de clase de 5 unidades, de 10 unidades
o de algn mltiplo de 10 para que el resumen de los datos sea ms comprensible.
Paciente

10

11

12

13

14

15

Presiones sanguneas

86

90

92

92

93

95

95

95

96

96

97

97

98

98

99

Paciente

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

100

100

100

100

102

103

105

105

106

107

107

109

110

110

110

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

111

111

111

114

114

115

115

115

115

115

115

116

116

116

117

Presiones sanguneas
Paciente
Presiones sanguneas
Paciente

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

118

118

119

119

120

120

120

121

122

122

122

123

123

124

124

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

124

124

125

125

125

125

126

126

126

126

126

126

126

127

127

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

127

128

128

128

129

129

129

130

130

130

130

130

131

131

131

91

92

93

94

95

96

97

98

99

100

101

102

103

104

105

Presiones sanguneas

132

132

132

132

133

133

133

133

133

133

133

133

134

134

134

Paciente

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

Presiones sanguneas

134

134

135

135

135

135

135

135

135

135

136

136

136

137

137

Paciente

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

Presiones sanguneas

137

137

137

137

137

137

137

137

137

138

138

138

139

139

139

Paciente

136

137

138

139

140

141

142

143

144

Presiones sanguneas

139

139

139

140

140

140

140

143

143

Presiones sanguneas
Paciente
Presiones sanguneas
Paciente
Presiones sanguneas
Paciente

DEPARTAMENTO DE CIENCIAS BIOLGICAS

39

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

TABLA 2.3: Distribucin de frecuencias de las presiones sanguneas de 144 adolescentes


moderadamente obesos.
PS

Frec.

PS

Frec.

PS

Frec.

PS

Frec.

143

128

113

98

142

127

112

97

141

126

111

96

140

125

110

95

139

124

109

94

138

123

108

93

137

11

122

107

92

136

121

106

91

135

120

105

90

134

119

104

89

133

118

103

88

132

117

102

87

131

116

101

86

130

115

100

129

114

99

Paso 1. Calcule el rango ( R ).


R = Xmax - Xmin
En el ejemplo R = 143 - 86 = 57
Paso 2. Determine el nmero de intervalos de clase (k). Utilice la regla de Sturges
k = 1 + 3.3 log n = 1 + 3.3 log 144 = 8.122596224
k=8
Paso 3. Halle el tamao de los intervalos de clase (TIC)
R 57
TIC
7.125
k
8
TIC = 8
TABLA 2.4: Distribuciones agrupadas de las presiones sanguneas sistlicas utilizando 8
intervalos.
N de
clases

Presin
sangunea
[LI-LS>

Marca
de clase Frec.
Abs. fi
X i'

Frec.
Rel. fri

Frec.
Porc.
Pi

Frec.
Acum.
Abs. fi

Frec.
Acum.
Rel. fri

Frec.
Acum.
Porc. Pi

1 [86-94>

90

0.035

3.47

0.035

2 [94-102>

98

14

0.097

9.72

19

0.132

13

3 [102-110>

106

0.056

5.56

27

0.188

19

4 [110-118>

114

18

0.125

12.50

45

0.313

31

5 [118-126>

122

21

0.146

14.58

66

0.458

46

6 [126-134>

130

36

0.250

25.00

102

0.708

71

7 [134-142>

138

40

0.278

27.78

142

0.986

99

8 [142-150]

146

0.014

1.39

144

1.000

100

144

100

DEPARTAMENTO DE CIENCIAS BIOLGICAS

40

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

30.00
25.00

20.00
15.00
10.00
5.00
0.00
90

98

106

114

122

130

138

146

PRESIN SANGUNEA

Figura. Histograma y polgono de frecuencias de la presin sangunea.


El nmero y tamao de los intervalos es exible.
No siempre es necesario formar distribuciones agrupadas para variables continuas. Cuando
el nmero de valores no es muy grande, las distribuciones pueden basarse en datos no
agrupados.

Referencia bibliogrfica:
Balzarini Mnica; Di Rienzo Julio; Tablada Margot; Gonzlez, Laura; Bruno Cecilia;
Crdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadstica y Biometra.
Editorial Brujas. Argentina.
Gua del curso de estadstica general. 2016. Departamento estadstica e informtica.
UNALM
Blair R. Clifford y Richard A. Taylor. 2008. Bioestadstica. Pearson Educacin, Mxico, 2008

DEPARTAMENTO DE CIENCIAS BIOLGICAS

41

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Ejercicio. Elabore la tabla de frecuencias y el histograma de las edades de 169 individuos


que participan en un estudio de oxidacin de espartena y mefenitona.
Tabla. Arreglo ordenado de las edades de los individuos
18 18 19 19 20 21 21 21 22 22 22 22 22
22 23 23 23 23 23 23 23 24 24 24 24 24
24 24 24 24 25 25 25 25 26 26 26 26 26
26 26 26 26 26 26 27 27 27 27 27 27 27
27 27 27 28 28 28 28 28 28 28 29 29 29
29 29 29 29 29 30 30 30 30 30 30 30 30
30 30 31 31 31 31 31 31 31 32 32 32 32
32 33 33 33 34 34 34 34 34 35 36 36 36
37 37 37 37 37 38 38 38 38 38 39 39 39
40 40 40 40 40 40 41 41 41 42 42 42 42
43 43 43 44 44 44 45 45 45 46 46 47 47
47 47 48 48 48 48 48 48 49 49 50 50 50
51 51 52 52 53 53 53 53 56 61 62 63 63
Se quiere saber cuntos intervalos de clase se tienen en la distribucin de frecuencias de
datos y tambin se quiere saber qu tan amplios deben ser los intervalos.
Solucin: Para tener una idea del nmero de intervalos a utilizar, la aplicacin de la regla de
Sturges indica:
k 1 3.322(log169) 1 3.22(2.227886705) 8.17379518885603 8

Ahora, al dividir el rango entre 8 para darse una idea de la amplitud de los intervalos de
clase, se obtiene:
TIC

R 63 18 45

5.625
k
8
8

Es evidente que un intervalo de clase con una amplitud de o 10 es ms conveniente y


significativo para el lector. Suponga que se decide que sea 10. Ahora es posible construir
los intervalos. Puesto que el valor ms pequeo en la tabla es 18 y el mayor es 63, entonces
los intervalos inician con 10 y terminan con 69. Se obtienen los siguientes intervalos:
TABLA. Distribuciones de: frecuencia, frecuencia relativa, frecuencia acumulada y
frecuencia relativa acumulada de las edades de los sujetos.
Frecuencia
Intervalo
Marca de
Frecuencia Frecuencia relativa
de clase
clase
Frecuencia relativa
acumulada acumulada
10-19
14.5
4
0.0237
4
0.0237
20-29
24.5
66
0.3905
70
0.4142
30-39
34.5
47
0.2781
117
0.6923
40-49
44.5
36
0.213
153
0.9053
50-59
54.5
12
0.071
165
0.9763
60-69
64.5
4
0.0237
169
1
169
1

DEPARTAMENTO DE CIENCIAS BIOLGICAS

42

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Si el inters est centrado en la frecuencia relativa de los valores que caen entre 30 y
59, entonces se utiliza la columna de las frecuencias relativas acumuladas de la tabla 2.3.2
y se resta 0.4142 de .9763 para obtener 0.5621.

Histograma de Edades
70
60

Frecuencia

50
40
30
20
10
0

10

20

30

40

50

60

70

Edades

2.10 Diagrama de Tallos y Hojas


Un diagrama de tallos y hojas es un ingenioso artificio que ofrece una representacin
parecida a un histograma. La ventaja de este diagrama es que no slo muestran las
frecuencias sino que contienen los valores reales. A diferencia de las tablas de frecuencias
con este procedimiento ningn dato se pierde.
Pasos para elaborar un diagrama de tallos y hojas
Paso 1. Cada dato se divide en dos: la primera se llama tallo y la segunda hoja.
Paso 2. Cada tallo se forma con uno o ms dgitos iniciales de cada dato y las hojas se
forman con los dgitos restantes (generalmente de un solo dgito).
Paso 3. Los tallos se presentan en una columna ordenada de menor a mayor.
Paso 4. Las hojas se muestran en filas ordenadas y listadas a la derecha de su respectivo
tallo.
Nota.
En caso de datos decimales, al construir el diagrama de tallos y hojas el punto decimal
se pierde, por tal razn se acostumbra indicar unidades que los datos del tallo
representan. Por ejemplo para un dato: 4.12 Unidad=0.01
Es necesario pone todos los tallos consecutivos. Si no existe el dato, se pone el valor
del tallo y en la fila de hoja se deja en blanco.
Si es necesario se divide en dos hojas cada tallo, segn los rango: (0 - 4) y (5 - 9).
Ejemplo. Los siguientes datos corresponden a la estatura de una muestra de 30 alumnos
universitarios.
158, 159, 161, 161, 163, 163, 164, 166, 166, 167, 168, 168, 168, 169, 170, 170, 170, 171,
171, 171, 172, 173, 174, 174, 174, 174, 174, 177, 182, 191

DEPARTAMENTO DE CIENCIAS BIOLGICAS

43

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Salida de resultados en Minitab.


Diseo de tallo y hoja: Estatura
Tallo y hoja de C3 N
Unidad de hoja = 1.0

= 30
Tallos
Profundidad
Hojas

2
7
14
(13)
3
2
1
1

15
16
16
17
17
18
18
19

89
11334
6678889
0001112344444
7
2
1

El diagrama de tallos y hojas representa la estatura de 30 alumnos. Existen tres partes en


el grfico.

La primera columna representa la profundidad.

La segunda columna representa los tallos.

La ltima columna representa las hojas.


Cada dgito de las hojas representa una observacin.
El diagrama de tallos y hojas muestra 8 tallos con sus respectivas hojas. El primer tallo es
15 y la primera hoja es 8. La observacin correspondiente es 158 que se obtuvo juntando
los dgitos del tallo y de la hoja y se multiplica por la unidad de hoja (1581.0=158).
La primera columna (la profundidad) indica cuantas observaciones hay en esa lnea o
antes. El nmero 14 en la tercera lnea indica que hay 14 observaciones en esa lnea y en
las lneas anteriores (14 observaciones menores o iguales a 169). Hay una lnea especial,
la lnea que contiene la mediana. El valor que muestra es encerrado entre parntesis e
indica cuantas observaciones hay en esa lnea. A partir de la siguiente lnea que contiene
la mediana, la columna de profundidad indica cuantas observaciones hay en esa lnea y en
las lneas posteriores. El nmero 3 en la quinta lnea indica que hay 3 observaciones en
esa lnea y en las lneas posteriores (3 observaciones mayores o iguales a 177).
La sptima lnea muestra al tallo 18 (1 18 ); sin embargo no tiene ninguna hoja, lo que
significa que no hay ninguna observacin en ese tallo. (Un error muy frecuente es
considerar el tallo 18 y la hoja 0 y por consiguiente considerar la observacin 18.0 con lo
que se tendran 31 observaciones).
Salida de resultados en SPSS.
Estatura de 30 alumnos Stem-and-Leaf Plot
Frequency

Stem &

2.00
15
5.00
16
7.00
16
13.00
17
1.00
17
1.00
18
1.00 Extremes
Stem width:
Each leaf:

.
.
.
.
.
.

Leaf
89
11334
6678889
0001112344444
7
2
(>=191)

10.00
1 case(s)

DEPARTAMENTO DE CIENCIAS BIOLGICAS

44

UNSCH

Bioestadstica I

III.

ANLISIS E INTERPRETACIN DE DATOS

3.1.

Anlisis descriptivo.

Prof. Reynn Cndor A.

Se estableci que la toma de mediciones y el proceso de conteo producen nmeros que


contienen informacin. El objetivo de la gente que aplica herramientas estadsticas a esos
nmeros es determinar la naturaleza de esa informacin. Esta tarea es mucho ms fcil si
los nmeros estn organizados y resumidos. Cuando se hacen las mediciones sobre
entidades de una poblacin o muestra, los valores resultantes estn disponibles para el
investigador o estadstico como una masa de datos desorganizados. Las mediciones que no
han sido organizadas, procesadas o manejadas de alguna otra forma se les llama datos
crudos (materia prima). A menos que el nmero de observaciones sea extremadamente
pequeo, es improbable que esos datos crudos proporcionen suficiente informacin hasta
que sean puestos en algn orden.
Veremos algunas tcnicas para organizar y procesar datos de tal manera que sea ms fcil
determinar qu informacin contienen. Lo ms actual en procesamiento de datos es el
clculo de un nmero individual que de alguna manera incluye informacin importante acerca
de los datos que sirvieron para calcularlo. A estos nmeros individuales utilizados para
describir datos se les llama medidas descriptivas.

3.2.

Medidas estadsticas

Es posible caracterizar cualquier conjunto de datos numricos por la medicin de sus


tendencia central, variacin y forma. La mayora de los conjuntos de datos presentan una
tendencia central a agruparse en torno a un valor central. Cuando se habla de un promedio,
o valor medio, o del valor ms comn o frecuente, se refiere de manera informal a la media,
la mediana y la moda, tres medidas de tendencia central.
La variacin mide la distribucin o dispersin de valores que conforman el conjunto de datos.
Una medida simple de la variacin es el rango, que es la diferencia entre los valores mximo
y mnimo. En la estadstica, son de uso ms comn la desviacin estndar y la varianza, dos
medidas que se explican ms adelante en esta seccin. La forma de un conjunto de datos
representa un patrn para todos los valores, desde el mnimo hasta el mximo.
Las medidas estadsticas pueden ser calculadas con los datos provenientes de una
poblacin (N: Tamao de la poblacin) o muestra (n: Tamao de la muestra) para evaluar
diferentes variables (cuantitativas y cualitativas), cuya finalidad es resumir y representar el
conjunto de datos.
Muestra (n): X1,X2,,Xn
Poblacin (N): Xl,X2,,XN

=> Valores Estadsticos


=> Parmetros

Las medidas estadsticas asumen las mismas unidades de medida de la variable en


estudio, con la excepcin de ciertas medidas estadsticas relativas.
Para las variables cuantitativas, se pueden calcular medidas estadsticas como: media,
mediana, moda, rango, rango intercuartlico, varianza, desviacin estndar, coeficiente
de variabilidad, y otras. En el caso de las variables cualitativas, slo es posible calcular
las medidas como la moda y la proporcin.
3.3.
Medidas de tendencia central.
En cada una de las medidas de tendencia central, de las que se discuten slo tres,
nicamente un valor del conjunto de datos se considera como el representativo del todo. Las
medidas de tendencia central conllevan informacin respecto al valor promedio de un
DEPARTAMENTO DE CIENCIAS BIOLGICAS

45

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

conjunto de valores. Tal como se ver, la palabra promedio se puede definir en diversas
formas.
Las tres medidas de tendencia central de uso ms frecuente son: la media, la moda y la
mediana.
3.3.1 La media aritmtica
La medida de tendencia central ms conocida es la media aritmtica. sta es la medida
descriptiva que la mayora de las personas tienen en mente cuando se habla de
promedio. El adjetivo aritmtica distingue a esta media de otras que se puedan calcular.
La media se obtiene sumando todos los valores en una poblacin o muestra y dividiendo
entre el nmero de valores sumados.
Media de la poblacin:

1 N
Xj
N j 1

Media de la muestras

1 n
Xj
n j 1

Ejemplo. Obtenga la edad media de la poblacin de los 169 individuos registrados tabla de
edades.
Solucin: Se procede de la siguiente forma:
Edad media: X

18 22 24 ... 47 50 63 5797

34.302
169
169

La media ponderada
k

xp

x w
j

j 1
k

w
j 1

x1w1 x2 w2 ... xk wk
w1 w2 ... wk

Ejemplo. Si el examen final de un curso cuenta tres veces ms que una evaluacin parcial,
y un estudiante tiene calificacin 85 en el examen final y 70 y 90 en los dos parciales, la
calificacin media es
X

(1)(70) (1)(90) (3)(85) 415

83
11 3
5

Cuando los datos se encuentran en una tabla de frecuencias correspondiente a una variable
cuantitativa discreta. La media se calcula por:
k

xp

fx
i

j 1
k

j 1

fi

fx
i

j 1

xp

fX
j 1

'
i

DEPARTAMENTO DE CIENCIAS BIOLGICAS

46

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Si x1 , x2 ,..., xk son las medias de k grupos y cada grupo tiene tamao n1, n2,...,nk
respectivamente, entonces la media de todos los datos n = n1+n2+... +nk se calcula por:
k

xp

n x
i

j 1
k

j 1

La media aritmtica para datos agrupados:


k

xp

fx
i

j 1

n
k

fX
j 1

'
j

Propiedades de la media
La media aritmtica tiene ciertas propiedades, algunas deseables y otras no tanto. Algunas
de estas propiedades son las siguientes:
1. Es nica. Para un conjunto de datos existe una y slo una media aritmtica.
2. Simplicidad. El clculo y comprensin de la media aritmtica son sencillos.
3. Puesto que todos y cada uno de los valores en el conjunto de datos entran en el clculo
de la media, sta es afectada por cada valor. Por lo tanto, los valores extremos influyen
sobre la media y, en algunos casos, pueden distorsionarla tanto que llega a ser
indeseable como medida de tendencia central.
A continuacin se muestra un ejemplo de cmo los valores extremos pueden afectar la
media. Considere la siguiente situacin: cinco mdicos que trabajan en cierta rea son
llamados a declarar sus cobros por realizar cierto procedimiento. Suponga que se reporta lo
siguiente: $75, $75, $80, $80 y $280. El cobro medio para los cinco mdicos es de $118, un
valor que no es muy representativo del conjunto de datos. El nico valor atpico del conjunto
tuvo el efecto de inflar la media.
Medias geomtrica, armnica y cuadrtica
Existen otras definiciones de media que pueden tener su utilidad en algunos casos.
Media geomtrica xG. En el caso de una muestra con valores diferentes de la variable se
define como la raz ensima (N es el tamao de la muestra) del producto de los valores de
la variable
xG N x1 x2 ...xN

Si los datos aparecen agrupados en k valores distintos la definicin sera


xG N x1n1 x2n2 ...xknk

Esta media tiene la caracterstica negativa de que si uno de los valores es nulo, la media
sera asimismo cero, y por lo tanto sera poco representativa del valor central. Adems si
existen valores negativos es posible que no se pueda calcular. A la hora de calcularla es til
tener en cuenta que el logaritmo de la media geomtrica es la media aritmtica del logaritmo
de los datos

DEPARTAMENTO DE CIENCIAS BIOLGICAS

47

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

n log x

log xG

i 1

La media armnica xA se define como la inversa de la media aritmtica de las inversas de


los valores de la variable. Es decir, para variables no agrupadas y agrupadas, sera

xA

N
N

i 1

; xA

N
ni

i 1 xi
k

Es evidente que si una de las medidas es 0, la media armnica no tiene sentido.


La media cuadrtica xQ. Se define sta como la raz cuadrada de la media aritmtica de los
cuadrados de los valores
N

xQ

xi2
i 1

; xQ

x n
i 1

2
i i

Esta media tiene su utilidad con frecuencia en la aplicacin a fenmenos fsicos.


Se puede demostrar que estas medias se relacionan con la media aritmtica, en el caso de
valores positivos de la variable, por
x A xG x xQ

Ninguna de estas medias es muy robusta en general, aunque esto depende de cmo se
distribuyan las variables. Por ejemplo, la media armnica es muy poco sensible a valores
muy altos de x, mientras que a la media cuadrtica apenas le afectan los valores muy
bajos de la variable.
3.3.2 La mediana
La mediana de un conjunto finito de valores es aquel valor que divide al conjunto en dos
partes iguales, de forma que el nmero de valores mayores o iguales a la mediana es igual
al nmero de valores menores o iguales a sta. Si el nmero de valores es impar, la mediana
es el valor medio o central siempre y cuando todas las variables sean arregladas en orden
de magnitud. Cuando el nmero de valores en el conjunto es par, no existe un valor medio
nico, sino que existen dos valores medios. En tal caso, la mediana corresponde a la media
de esos dos valores centrales, cuando todos los valores son arreglados en orden de magnitud. Es decir, la mediana del conjunto de datos es la (n 1) / 2 -sima observacin, cuando
las observaciones han sido ordenadas. Por ejemplo, si se tienen 11 observaciones, la
mediana es la (11+1)/2=6-sima observacin ordenada. Si se tienen 12 observaciones, la
mediana es la (12+l)/2=6.5-sima observacin ordenada y es el valor que est entre la sexta
y sptima observacin ordenada.

n 1
100 50 Entero( E ) me x( E )

Si
n 1 50 Decimal ( E.d ) me x 0.d ( x
(E)
( E 1) x( E ) )
100
La mediana poblacional se representa por Me y la mediana muestral por me
DEPARTAMENTO DE CIENCIAS BIOLGICAS

48

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

n impar me X n 1

Si

X n X n


1
2
n par me 2
2

Propiedades de la mediana:
Entre las propiedades de la mediana se encuentran las siguientes:
1. Es nica. Al igual que en el caso de la media, existe solamente una mediana para un
conjunto de datos.
2. Simplicidad. Es muy sencillo calcularla.
3. Los valores extremos no tienen efectos importantes sobre la mediana, lo que s ocurre
con la media.
Ejemplo. Los siguientes datos corresponden a los pesos (en Kg.) de 10 personas: 50, 77,
53, 76, 63, 64, 75, 54, 52, 80. Calcule la mediana
Datos ordenados: 50, 52, 53, 54, 63, 64, 75, 76, 77, 80
10 1
Posicin
50 5.5 me x(5) 0.5 ( x(6) x(5) ) 63 0.5 (64 63) 63.5 Kg
100
Interpretacin. Un 50% de personas pesan menos de 63.5 Kg. y el otro 50% pesa ms de
63.5 Kg.
La mediana para datos agrupados
n Frecuencia acumulada f
i 1
Me LI i 2
LI i 1 LI i
Frecuencia fi

3.3.3 La moda
La moda de un conjunto de datos es el valor que ocurre con mayor frecuencia. La moda
poblaciones se representa por Mo y la moda muestral por mo.
Propiedades:
1. La moda puede no existir o puede haber ms de una moda en un conjunto de datos.
2. La moda no est afectada por valores extremos.
3. Se aplica tanto para informacin cualitativa como cuantitativa.
Ejemplos:
1.
Se tiene las longitudes de peces de ro (cm) de la zona A: 4.0, 4.1, 4.2, 4.3, 4.5, 4.7,
4.8. No hay moda.
2. Las siguientes longitudes sonde la zona B: 4.0, 4.1, 4.1, 4.1, 4.2, 4.2, 4.5, 4.2.
Se distinguen dos modas mo1 = 4.1 y mo2 = 4.2 (distribucin bimodal).
3. Encuentre la edad modal de los individuos cuyas edades se presentan en la tabla de
edades.
El conteo de las edades en la tabla 2.2.1 revela que la edad 26 ocurre con ms frecuencia
(11 veces). La moda para esta poblacin de edades es de 26.
Moda para datos agrupados
DEPARTAMENTO DE CIENCIAS BIOLGICAS

49

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

1 xi xi 1
2 xi xi 1
Mo LI i

1 2

LIi 1 LIi

3.4.
Percentiles
El percentil Pq divide a un conjunto ordenado de observaciones en un q% menores que Pq y
un (100 - q)% mayores que Pq. El percentil Pq es un valor expresado en las mismas unidades
que la variable en estudio.
Clculo del Percentil
n 1
Posicin
q
100

n 1
100 q Entero( E ) Pq x( E )

Si
n 1 q Decimal ( E.d ) P x 0.d ( x
q
(E)
( E 1) x( E ) )
100
Ejemplo. Se cuenta con los datos de los tiempos (en minutos) de tardanza de los estudiantes
de una universidad. Halle e interprete el percentil 45.
15 12 18 22 24 10 9 13 25 18 6 14
Datos ordenados:
6 9 10 12 13 14 15 18 18 22 24 25

12 1
Posicin
45 5.85 P45 x(5) 0.85 ( x(6) x(5) ) 13 0.85 (14 13) 13.85
100
Interpretacin: El 45% de los estudiantes tienen un tiempo de tardanza menor 13.85 minutos
y el otro 55% ms de 13.85 minutos.
Cuartiles
Son percentiles que dividen el conjunto de datos en 4 partes iguales (25% cada una). Son
conocidos tambin como Q1=P25, Q2=P50 y Q3=P75.
Ejemplo
Los siguientes datos corresponden a los pesos, en Kg. de 10 personas: 50, 52, 53, 54, 63,
64, 75, 76, 77, 80.
a. Calcule e interprete el percentil 25
P 25 x 10 1 x(2.75) x (2) 0.75 (x (3) x (2) ) 52 0.75 (53 52) 52.75 Kg

25
100

Interpretacin: Un 75% de personas pesa menos de 76.25 Kg. y el otro 25% pesa ms de
76.25 Kg.
Cuartiles para datos agrupados

DEPARTAMENTO DE CIENCIAS BIOLGICAS

50

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

n Frecuencia acumulada f
i 1
Q1 LI i 4
LI i 1 LI i
4
Frecuencia f i
Q3 LI i
4

3 n Frecuencia acumulada f i 1
4
LI i 1 LI i
Frecuencia f i

Ejercicio
Se ha desarrollado un experimento para evaluar el efecto de alimentos balanceados en la
ganancia de pesos de pollos. Una muestra aleatoria de 30 pollos que recibieron el alimento
balanceado fue seleccionada. Al cabo de 10 das se registraron las ganancias de pesos (en
gr)
93 98 100 102 107 109 110 110 111 111 113 114 115 116 118
118 119 119 120 120 120 124 125 128 129 129 130 135 138 141
a. Halle e interprete las medidas de tendencia central para la ganancia de peso.
b. Cul es el peso mnimo de un pollo que fue alimentado con el alimento balanceado para
estar en el 10% superior de los que pesan ms?
c. Cul es peso mximo del 60% de pollos que pesan menos con el alimento balanceado?
Solucin:
a) N Media StDev CoefVar Mnimo Q1
Mediana Q3
Mximo
30 117,40 11,57 9,85
93,00 110,00 118,00
125,75 141,00
La ganancia de peso por pollo alimentado con A es de 117.4 gr.
El 50% de los pollos alimentados con A tuvieron ganancias de peso menores de 118 gr. y el
restante 50% tuvieron ganancias de peso mayores a 118 gr.
El valor de la ganancia de peso ms frecuente es de 120gr.
b) P90 = X27.5 = 134.5gr.
c) P60 = Xl8 = 119gr.
Referencia bibliogrfica:
Balzarini Mnica; Di Rienzo Julio; Tablada Margot; Gonzlez, Laura; Bruno Cecilia;
Crdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadstica y Biometra.
Editorial Brujas. Argentina.
Gua del curso de estadstica general. 2016. Departamento estadstica e informtica.
UNALM
Blair R. Clifford y Richard A. Taylor. 2008. Bioestadstica. Pearson Educacin, Mxico, 2008
3.5.
Medidas de Variabilidad o de dispersin.
Son medidas estadsticas que permiten conocer el grado de dispersin o variabilidad
(homogeneidad o heterogeneidad) dentro de un conjunto de datos. Se usan para comparar
la variabilidad entre dos o ms conjuntos de datos. Cuando los datos presentan baja
variabilidad, se dice que son homogneos y cuando presentan alta variabilidad se dice que
son heterogneos.
Si todos los valores son iguales, no hay dispersin, pero si no todos son iguales, entonces
existe dispersin en los datos. La magnitud de la dispersin es pequea cuando los valores,
aunque diferentes, son cercanos entre s. La figura muestra los polgonos de frecuencia para
dos poblaciones que tienen medias iguales, pero diferente magnitud de variabilidad. La
poblacin B, ms variable que la poblacin A, es ms dispersa. Si los valores estn
DEPARTAMENTO DE CIENCIAS BIOLGICAS

51

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

ampliamente esparcidos, la dispersin es mayor. Otros trminos sinnimos de dispersin


son: variacin, expansin y dispersin.

FIGURA. Dos distribuciones de frecuencias con igual media pero diferente magnitud de
dispersin.

3.5.1 Rango o intervalo de variacin


El rango o amplitud de un conjunto de observaciones es igual a la diferencia entre el valor
mximo y el valor mnimo.
R X max X min

La utilidad de rango es limitada. El hecho de que toma en consideracin slo dos valores
hace que sea una medida pobre de dispersin. Su ventaja principal es la simplicidad de su
clculo.
Desventajas:
a.
Queda afectada por valores extremos
b.
No mide la variabilidad de los datos intermedios
EJEMPLO. Calcule el rango de las edades de los individuos de la muestra estudiada en el
ejemplo edades.
Solucin: Puesto que el individuo ms joven en la muestra tiene 23 aos y el ms viejo tiene
61, el rango calculado es:
R 61 23 38

Rango intercuartil
El rango intercuartil, se define como la diferencia entre el percentil 75 (P75 = Q3) y el percentil
25 (P25 = Q1).
RI = P75 - P25
El RI excluye el 25% ms alto y el 25% ms bajo, dando un rango dentro del cual se
encuentra el 50% central de los datos.
Un RI pequeo indica alta homogeneidad o pequea variabilidad dentro del 50% central
de los datos.

3.5.2 La varianza
Cuando los valores de un conjunto de observaciones se encuentran ubicados cerca de su
media, la dispersin es menor que cuando estn esparcidos. En consecuencia, se puede
DEPARTAMENTO DE CIENCIAS BIOLGICAS

52

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

pensar intuitivamente que es posible medir la dispersin en funcin del esparcimiento de los
valores alrededor de su media.
La varianza poblacional

2
1 N
1 N 2
2
X

X j N

j
N j 1
N j 1

La varianza muestral

S2

1 n
Xj X
n 1 j 1

2
1 n 2
X j nX
n 1 j 1

Ejemplo. Calcule la variancia de las edades de los 10 individuos.


N

Edades
individuos

42

28

28

61

31

23

50

34

32

10

37

de

Solucin:

S2

(42 36.6)2 (28 36.6)2 (28 36.6) 2 (61 36.6) 2 (31 36.6) 2 ... (37 36.6)2
9

S2

1196.399997
132.933333
9

Variancia para datos agrupados:


n

S2

f X
i 1

'2
j

nX

n 1

Donde:

X 'j : Marca de clase


f i : Frecuencia

DEPARTAMENTO DE CIENCIAS BIOLGICAS

53

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

3.5.3 La desviacin estndar


La variancia representa unidades al cuadrado, por lo que no es una medida adecuada de
dispersin si se pretende expresar este concepto en trminos de las unidades originales.
Para obtener la medida de dispersin en unidades originales, simplemente se obtiene la raz
cuadrada de la variancia.
La desviacin estndar poblacional

2
La desviacin estndar muestral

S S2
Ejemplo. Calcule la desviacin estndar de las edades de los 10 individuos.

S S 2 132.933333 11.5296719
La desviacin estndar de un conjunto de datos es una medida de cunto se desvan los
datos de su media. Esta medida es ms estable que el recorrido y toma en consideracin el
valor de cada dato.
Para distribuciones normales, resulta:
(a) 68.27% de los casos estn entre X S y X S (o sea, una desviacin tpica a cada lado
de la media).
(b) 95.45% de los casos estn entre X 2S y X 2S (o sea, dos desviaciones tpicas a
cada lado de la media).
(c) 99.73% de los casos entre X 3S y X 3S (o sea, tres desviaciones tpicas a cada lado
de la media).
Para distribuciones poco asimtricas, los anteriores porcentajes son aproximadamente
vlidos.

3.5.4 Coeficiente de variabilidad


El coeficiente de variacin es una medida para comparar la variabilidad en un conjunto de
datos con la de otro, en situaciones en las que una comparacin directa de desviaciones
tpicas no es conveniente o suficientemente realista.
El coeficiente de variabilidad es una medida de dispersin relativa (no tiene unidades) y se
define como la razn entre la desviacin estndar y la media aritmtica de un conjunto de
observaciones.
Coeficiente de variabilidad poblacional:

CV
100

Coeficiente de variabilidad muestral:


DEPARTAMENTO DE CIENCIAS BIOLGICAS

54

UNSCH

cv

Bioestadstica I

Prof. Reynn Cndor A.

100

X
Ejemplo: Los siguientes resultados corresponden a dos muestras formadas por varones:
Edad
Peso medio
Desviacin estndar

Muestra 1
25 aos
145 libras
10 libras

Muestra 2
11 aos
80 libras
10 libras

El propsito es saber cul tiene mayor variabilidad, los pesos de individuos de 25 aos o los
de 11 aos.
Solucin: Una comparacin de las desviaciones estndar puede conducir a la conclusin
de que las dos muestras tienen igual variabilidad. Sin embargo, si se calculan los coeficientes
de variacin, se obtiene para los sujetos de 25 aos de edad:
cv

10
(100) 6.9
145

y para los de 11 aos de edad:


cv

10
(100) 12.5
80

Si se comparan estos resultados, la impresin recibida es diferente.


El coeficiente de variacin tambin es til para comparar los resultados obtenidos por
diferentes personas que efectan investigaciones que involucran la misma variable. Debido
a que el coeficiente de variacin es independiente de la escala de medicin, constituye una
estadstica til para comparar la variabilidad de dos o ms variables medidas en escalas
diferentes. Por ejemplo, podra utilizarse el coeficiente de variacin para comparar la
variabilidad de los pesos de una muestra de individuos cuyos pesos se expresan en libras y
la variabilidad de los pesos de otra muestra, expresados en kilogramos.
Ejemplo, en un estudio del consumo de leche en Estados Unidos, se obtuvo que el nmero
medio de galones de leche consumida por unidad familiar por semana fue 8, con una
desviacin tpica muestral de 3 galones. Un estudio semejante en Canad dio un consumo
medio de 12 litros con una desviacin de 4 litros. No tiene sentido comparar estas
desviaciones tpicas directamente porque estn dadas en unidades diferentes. Una forma
rpida de comparar la variabilidad es con el coeficiente de variacin (CV) dado por:
Los coeficientes de variacin de las dos muestras son:
3
8

Estados Unidos: cv (100) 37.5%


Canad: cv

4
(100) 33.3% , respectivamente. Los datos de Estados Unidos presentan
12

ms variabilidad que los de Canad.

Comparacin de la variabilidad
Para comparar la variabilidad entre dos o ms conjuntos de datos, se debe considerar:
DEPARTAMENTO DE CIENCIAS BIOLGICAS

55

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Unidades
de Unidades de medidas iguales
medidas diferentes
Medias similares Medias diferentes
S1 con S2
cv1 con cv2
cv1 con cv2
El cuadro indica que cuando se compara la variabilidad de dos conjuntos de datos, si las
variables tienen unidades de medidas diferentes; se debe usar los coeficientes de variacin;
mientras si las variables tienen unidades de medida iguales, se debe observar si las medias
son similares para usar la desviacin estndar y en caso que las medias sean diferentes
usar el coeficiente de variacin.
3.6.
Medidas de asimetra.
Las medidas de asimetra permiten determinar la forma de una distribucin para un conjunto
de datos en lo que se refiere a su simetra o asimetra.

3.6.1 Formas de una distribucin

Distribucin simtrica. Un conjunto de datos muestra una distribucin simtrica, si su


curva guarda simetra con respecto al centro de los datos. Si la distribucin es simtrica
entonces = Me.
Distribucin asimtrica positiva. Si un conjunto de datos muestra una distribucin
asimtrica positiva o con cola a la derecha, entonces: > Me.
Distribucin asimtrica negativa. Si un conjunto de datos muestra una distribucin
asimtrica negativa o con cola a la izquierda, entonces: < Me.

Ejemplo. Los siguientes grficos corresponden a la distribucin de los ingresos mensuales


(miles S/.) de muestras al azar de los clientes de tres sucursales (A, B y C) de una caja rural.

Las relaciones entre la media y la mediana descritas anteriormente, se cumplen con


distribuciones unimodales (una sola moda).

DEPARTAMENTO DE CIENCIAS BIOLGICAS

56

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

3.6.2 Variables ordinales: el ndice de asimetra intercuartlico


El ndice de asimetra intercuartlico se basa en las distancias entre los cuartiles a fin de establecer
un resumen de la asimetra de la distribucin. La frmula es la siguiente:

AsQ3 Q2

(Q3 Q2 ) (Q2 Q1 ) Q3 Q1 2Q2

Q3 Q1
Q3 Q1

Interpretacin: oscila entre -1 y 1, lo cual facilita su comprensin.

3.6.3 Variables cuantitativas: Coeficiente de asimetra de Pearson


Evala el grado de distorsin o inclinacin que adopta la distribucin de los datos respecto
a su valor promedio tomado como centro de gravedad. El coeficiente de asimetra de
Pearson es:
Poblacional:
As

3( Me)

Muestral:

as

3( X me)
S

Propiedades
1. Si as = 0 entonces la distribucin es simtrica.
2. Si as < 0 entonces la distribucin es asimtrica negativa o a la izquierda.
DEPARTAMENTO DE CIENCIAS BIOLGICAS

57

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

3. Si as > 0 entonces la distribucin es asimtrica positiva o a la derecha.


Un mayor (menor) valor del coeficiente de asimetra de Pearson indica un mayor (menor)
grado de asimetra de la distribucin de los datos.
Ejemplo. Recordemos los datos de los ingresos mensuales del Banco Comercial que se
trabajaron en la parte de organizacin de datos. Con esa informacin se tienen los siguientes
valores:
X 5.350
me 4.700
s 2.181

x = 5.350, me = 4.700, s = 2.181.


Por lo tanto

3( X me) 3(5.350 4.700)

0.8941 0 , entonces la distribucin de los ingresos


s
2.181
mensuales tiene una asimtrica positiva.
as

Ejercicio 1. Se desea realizar un estudio sobre la utilizacin del agua en tres zonas rurales
(A, B y C). Con esta finalidad se ha seleccionado al azar 8 casas de la zona A, 6 de la zona
B y 10 de la zona C. Luego se registr el nmero de litros de agua consumidos por un da,
los cuales se presenta en el siguiente cuadro:

3.7 Curtosis
Evala el grado de apuntamiento de la distribucin.
El apuntamiento expresa el grado en que una distribucin acumula casos en sus
colas en comparacin con los casos acumulados en las colas de una distribucin normal
cuya dispersin sea equivalente (Pardo y Ruiz, 2002).

3.7.1 Variables ordinales: el ndice KU.


KU

P75 P25
2( P90 P10 )

Grado de Apuntamiento
Mesocurtica (Distribucin normal)
Leptocrtica (Elevada)
Platicrtica (Aplanada)

DEPARTAMENTO DE CIENCIAS BIOLGICAS

Valor de la Curtosis
0.263
Mayor a 0.263 o se aproxima a 0.5
Menor a 0.263 o se aproxima a 0

58

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Por ejemplo se tienen como Q3=8.9; Q1=6.85; P90=9.95 y P10=5.85.

P75 P25
8.9 6.85

0.25 , la curtosis de la distribucin es 0.25; por tanto, la


2( P90 P10 ) 2(9.95 5.85)
distribucin es ligeramente platicrtica.
KU

3.7.2 Variables cuantitativas: el coeficiente de apuntamiento de Fisher


El coeficiente de apuntamiento de Fisher se basa en las desviaciones de los valores
observados respecto a la media. La frmula para su clculo es la siguiente:
n

APF

(X
i 1

X )4

N S

4
X

(versin para distribucin de frecuencias: APF

n (X
i 1

X )4

N S X4

3)

Interpretacin: el valor de este coeficiente para la distribucin normal ser igual a 0, o sea
que cualquier distribucin para la que se obtenga un valor de ApF igual o prximo a 0
significar que su nivel de apuntamiento es como el de la distribucin normal (mesocrtica).
Valores mayores que 0, expresan que la distribucin es leptocrtica, mientras que si son
menores que 0 ponen de manifiesto que la distribucin es platicrtica. No est limitado a un
rango de valores.

3.8 Diagrama de cajas (box plot)


Un dispositivo visual muy til para comunicar la informacin contenida en un conjunto de
datos es la grfica de caja con valores extremos (algunas veces llamada slo boxplot). Para
la construccin de esta grfica se usan los cuartiles de un conjunto de datos, y se siguen los
cinco pasos que se mencionan a continuacin:
1. Representar a la variable de inters sobre el eje de las x.
2. Dibujar sobre el eje horizontal un cuadro, de tal forma que el extremo izquierdo est
alineado con el primer cuartil Q1 y el extremo derecho del cuadro quede alineado con el
tercer cuartil Q3.
3. Dividir el cuadro en dos partes con una lnea vertical que se alinee con la mediana Q2.
4. Dibujar una lnea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde
quede alineada con la medicin ms pequea en el conjunto de datos.
5. Dibujar otra lnea horizontal desde el extremo derecho del cuadro hasta el punto donde
se alinea con la medicin ms grande en el conjunto de datos.
El examen de la grfica para un conjunto de datos revela informacin respecto a la magnitud
de la dispersin, localizacin de la concentracin y simetra de los datos.
El siguiente ejemplo ilustra la construccin de la grfica de caja con valores extremos.
EJEMPLO. En una revista mdica de publicacin peridica, Pitts et al. (A-7) asegura que
los carcinomas con metaplasia y sarcomas producidos dentro del seno son difciles de
diagnosticar y clasificar con precisin debido a sus variados patrones histolgicos y a su
rareza. En un intento por estudiar ms detalles de las caractersticas biolgicas, los autores
investigaron una serie de sarcomas puros y carcinomas que exhiban metaplasia. La tabla
siguiente contiene ordenados en centmetros los dimetros de los neoplasmas extirpados
del pecho de 20 individuos con sarcomas puros.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

59

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

TABLA. Dimetros (cm) de sarcomas puros extirpados del pecho de 20 mujeres.


0.5 1.2 2.1 2.5 2.5 3.0 3.8 4.0 4.2 4.5 5.0
5.0 5.0 5.0 6.0 6.5 7.0 8.0 9.5 13.0
Solucin: La medicin ms pequea y la ms grande son 0.5 y 13.0, respectivamente. El
primer cuartil es Q1 = (20 + 1) / 4 = 5.25-sima medicin, la cual es 2.5 + (0.25)(3.0 - 2.5) =
2.625. La mediana es Q2 = (20 + 1) / 2 = 10.5-sima medicin igual a 4.5 + (0.5)(5.0-4.5) =
4.75. El tercer cuartil es Q3 = 3(20 + 1) / 4 = 15.75-sima medicin igual a 6.0 + (0.75)(6.5 6.0) = 6.375. La amplitud del intercuartil es IQR = 6.375 - 2.625 = 3.75. La amplitud es 12.5,
y el IQR es 100(3.75/12.5) = 30 por ciento de la amplitud. La caja de valores extremos
resultante se muestra en la siguiente figura.

FIGURA. Caja de valores extremos del ejemplo.


Al examinar la figura se observa que 50 por ciento de las mediciones estn entre 2.6 y 6.4,
los valores aproximados del primero y tercer cuartil, respectivamente.
La barra vertical dentro de la caja muestra que la mediana est cerca de 4.75.
La lnea mayor a la derecha indica que la distribucin de dimetros est inclinada hacia la
derecha.
Grfica de caja de Tamao de tumor
14
13.0

12

Tamao de tumor

10

6
4.75

FIGURA. Caja de valores extremos elaborada con el paquete MINITAB a partir de la tabla.

REFERENCIA BIBLIOGRFICA
Balzarini Mnica; Di Rienzo Julio; Tablada Margot; Gonzlez, Laura; Bruno Cecilia;
Crdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadstica y
Biometra. Editorial Brujas. Argentina.
Gua del curso de estadstica general. 2016. Departamento estadstica e
informtica. UNALM.
Blair R. Clifford y Richard A. Taylor. 2008. Bioestadstica. Pearson Educacin,
Mxico, 2008

DEPARTAMENTO DE CIENCIAS BIOLGICAS

60

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Daniel W. Bioestadstica. Cuarta edicin. Limusa Wiley. 2006


Spiegel, M. Estadstica. 2da ed. Mc GRAW HILL. Espaa 1991. 556 pag
Molina J. y Rodrigo M. Estadstica descriptiva en Psicologa. Curso 2009-2010.
Universidad Valncia.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

61

UNSCH

IV.

Bioestadstica I

Prof. Reynn Cndor A.

PROBABILIDADES

4.1.
Conceptos bsicos de probabilidad objetiva y subjetiva.
4.1.1 Probabilidad: OBJETIVA
El concepto de probabilidad objetiva se puede dividir bajo los ttulos de 1) probabilidad
clsica o "a priori", y 2) frecuencia relativa o "a posteriori".
1) Probabilidad clsica o a priori
La probabilidad clsica data del siglo XVII en los trabajos de dos matemticos, Pascal
y Fermat. Gran parte de esta teora fue creada al intentar resolver problemas
relacionados con los juegos de azar, como el juego de los dados. Algunos ejemplos
tomados de dichos juegos ilustran perfectamente los principios de la probabilidad
clsica. Por ejemplo, si un dado normal es lanzado, la probabilidad de que caiga un
1 es igual a 1/6, y es lo mismo para los otros cinco lados. Si una carta es sacada al
azar de un mazo bien barajado, la probabilidad de sacar un corazn es de 13/52. Las
probabilidades como stas se calculan a travs del razonamiento abstracto. No es
necesario lanzar un dado o sacar una carta para calcular esas probabilidades. Al
lanzar un dado, se dice que cada uno de los seis lados tiene igual probabilidad, de
aparecer, si no hay razn que favorezca a alguno de los seis lados. Anlogamente,
si no hay razn que favorezca el sacar alguna carta en particular, se puede decir que
cada una de las 52 cartas tiene la misma probabilidad de salir. La probabilidad se
define en el sentido clsico como sigue:
DEFINICIN
Si un evento puede ocurrir de N formas, las cuales se excluyen mutuamente y son
igualmente probables, y si m de estos eventos poseen una caracterstica E, la
probabilidad de ocurrencia de E es igual a m/N.
P( E )

m
N

Ejemplo 2.1.3. Cul es la probabilidad de que un nio nacido de una pareja, cada
uno de cuyos miembros posee genes para ojos castaos y para ojos azules, tenga
los ojos castaos?
Para resolver esta cuestin, observemos que, dado que el nio recibe un gen de
cada uno de sus padres, las posibilidades para l son (castao, azul) (azul, castao)
(azul, azul) y (castao, castao), donde el gen que aparece representado en primer
lugar en cada uno de los pares es el gen que procede del padre. Puesto que cada
uno de los padres tiene exactamente la misma probabilidad de aportar un gen para
ojos azules que uno para ojos castaos, las cuatro alternativas son equiprobables.
Al ser dominante el gen para ojos castaos, tres de los cuatro pares dan como
resultado un nio de ojos castaos. En consecuencia, la probabilidad de que el nio
tenga los ojos castaos es:
P(ojos castaos )

3
0.75 .
4

Este mtodo tiene ventajas e inconvenientes. Su principal inconveniente es que no


siempre es aplicable; se necesita que los resultados posibles sean equiprobables.
Su mayor ventaja es que, si es aplicable, la probabilidad obtenida es exacta. Por otra

DEPARTAMENTO DE CIENCIAS BIOLGICAS

62

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

parte, no exige la realizacin de experiencias ni la recogida de datos y es de fcil


uso.
2) Probabilidad de frecuencia relativa o "a posteriori".
El enfoque de frecuencia relativa de la probabilidad depende de la repetibilidad de
algunos procesos y la capacidad de contar el nmero de repeticiones, as como el
nmero de veces que algn evento de inters ocurre. En este contexto, se puede
definir la probabilidad de observar alguna caracterstica, E, de un evento como sigue:
DEFINICIN
Si algn proceso es repetido un gran nmero de veces, n, y si algn evento
resultante, con la caracterstica E, ocurre m veces, la frecuencia relativa de la
ocurrencia de E, m/n, es aproximadamente igual a la probabilidad de E.
P( E )

m
n

Sin embargo, se debe tener en mente que, estrictamente hablando, m/n es slo una
estimacin de P(E).
Ejemplo 2.1.2. Un investigador trabaja en un nuevo frmaco para insensibilizar a los
pacientes frente a picaduras de abejas. De 200 sujetos sometidos a prueba, 180
presentaron una disminucin en la gravedad de los sntomas tras sufrir una picadura,
despus de ser sometidos al tratamiento. Es natural suponer, entonces, que la
probabilidad de que ocurra lo mismo en otro paciente que reciba el mismo tratamiento
es por lo menos de aproximadamente
180
0.90
200

Basndose en este estudio, se informa de que el frmaco es eficaz en un 90 % de


los casos para disminuir la reaccin de pacientes sensibles a las picaduras de abejas.
Tal probabilidad no es simplemente una opinin personal. Es una asignacin
numrica basada en la repeticin de una experiencia y en la observacin de los
resultados. Se trata, de hecho, de una frecuencia relativa.
4.1.2 Probabilidad subjetiva
En los primeros aos de la dcada de 1950, L. J. Savage (4) dio un gran impulso a lo que
se conoce como probabilidad personalstica o subjetiva. Este enfoque sostiene que la
probabilidad mide la confianza que un individuo tiene en la certeza de una proposicin
determinada. Este concepto no depende de la repetibilidad de ningn proceso. De hecho, al
aplicar este concepto de probabilidad, se puede calcular la probabilidad de un evento que
slo puede ocurrir una vez, por ejemplo, la probabilidad de descubrir una cura para el cncer
en los prximos diez aos.
Aunque el punto de vista subjetivo de la probabilidad ha gozado de gran popularidad, los
estadsticos que tienen orientacin tradicional an no la aceptan del todo.
Ejemplo 2.1.1. Un paciente sufre de clculos renales, y no se ha conseguido mejora alguna
a partir de los mtodos ordinarios. Su mdico est plantendose llevar a cabo una
intervencin quirrgica y debe responder a la siguiente pregunta. Cul es la probabilidad
de que la operacin sea un xito? Varios factores, como son la edad del paciente, su estado
general de salud y su actitud frente a la operacin, intervienen en este caso. Esta particular
DEPARTAMENTO DE CIENCIAS BIOLGICAS

63

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

combinacin de factores es una peculiaridad de este paciente. El mdico no se ha enfrentado


antes con un caso exactamente igual a ste, ni espera enfrentarse a otro igual en el futuro.
Es una situacin peculiar y es preciso establecer un juicio de valores para resolverla. En este
caso, cualquier probabilidad que se asigne al suceso la operacin ser un xito es una
apreciacin personal.
Este ejemplo ilustra las ventajas e inconvenientes de una estimacin personal. Su mayor
ventaja consiste en que siempre es aplicable. Cualquiera puede establecer una apreciacin
personal sobre lo que sea. Su mayor inconveniente es obvio: su acierto depende de lo
correcta que sea la informacin de que dispone y de la capacidad del cientfico para evaluarla
adecuadamente.
4.1.3 La interpretacin de probabilidades
La interpretacin de probabilidades puede sintetizarse de la siguiente forma:
1. Las probabilidades son nmeros comprendidos entre 0 y 1, ambos inclusive, que reflejan
las expectativas con respecto a que un suceso fsico determinado ocurra.
2. Probabilidades prximas a 1 indican que cabe esperar que ocurran los sucesos de que
se trate. No indican que el suceso vaya a producirse, slo que es un tipo de suceso que
generalmente se produce.
3. Probabilidades prximas a 0 indican que no cabe esperar que ocurran los sucesos de
que se trate. No indican que el suceso no vaya a producirse, slo que este tipo de sucesos
se considera raro.
4. Probabilidades prximas a 1/2 indican que es tan verosmil que el suceso se produzca
como que no.
4.2.
Permutaciones y combinaciones.
4.2.1 Permutaciones
Cualquier secuencia ordenada de n objetos tomados de un conjunto de N objetos distintos
se llama permutacin de tamao n de los objetos. El nmero de permutaciones de tamao
n que puede construirse con los N objetos (donde s importa el orden) se obtiene por la regla
del producto de la siguiente manera:

PnN N ( N 1)( N 2)...( N n 2)( N n 1)


Utilizando factoriales se obtiene: PnN

N!
N n !

Definicin. Una permutacin es una distribucin de objetos en un orden determinado.


Ejemplo Los bilogos estn interesados en el orden en que los cuatro ribonucletidos
adenina (A), uracilo (U), guanina (G) y citosina (C) se combinan para formar cadenas
pequeas. Estos nucletidos constituyen las subunidades principales de RNA, molcula
intermediaria portadora de la informacin que acta en la traduccin del cdigo gentico del
DNA. Cuntas cadenas formadas por dos nucletidos diferentes pueden formarse?
La cuestin puede resolverse muy fcilmente por medio del diagrama de rbol de la Figura
4.2.1. La solucin es evidentemente 12. Obsrvese que estamos considerando que la
cadena AC es distinta de la CA. Es decir, que el orden en que se disponen los nucletidos
es importante.
DEPARTAMENTO DE CIENCIAS BIOLGICAS

64

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Figura 4.2.1. Cadenas de dos nucletidos.


Hemos demostrado, por tanto, que hay 12 permutaciones de cuatro elementos distintos
tomados de dos en dos. Este resultado puede predecirse sin necesidad de recurrir al
diagrama, .aplicando la siguiente ecuacin:
PnN

N!
4!
4! 4 3 2!
P24

12
2!
N n !
4 2 ! 2!

Ejemplo En un campeonato de ftbol participan 12 equipos De cuntas maneras se


pueden ocupar los tres primeros puestos?
Sea el evento A = {Nmero de maneras que puede ocupar los 3 primeros puestos}
Total de equipos: N = 12
Seleccionar 3 equipos: n= 3
P312

12!
12! 12 11 10 9!

1320
9!
12 3! 9!

Casos especiales:
a) Permutaciones de N en N
PNN N ! N ( N 1)( N 2)...1
Ejemplo Se tiene un grupo de 5 caballos para alquiler. Si llegan 5 personas para
alquilar caballo cada una de ellas De cuntas maneras se puede hacer el alquiler?
imaneras.
b) Permutaciones con repeticin. El nmero de permutaciones de N elementos, de
los cuales son iguales entre si N1, N2, N3,..., Nk y donde N = N1+ N2 + N3 +...+ Nk, est
N!
dado por: PNN1 , N2 ,... Nk
N1 ! N2 !...Nk !
Ejemplo Se utilizan 15 pacientes en un experimento para comparar un frmaco
estndar, un frmaco experimental y un placebo. Se asigna aleatoriamente a cada
paciente un tratamiento.
De cuntas formas distintas pueden asignarse los tres tratamientos a los 15
pacientes?
DEPARTAMENTO DE CIENCIAS BIOLGICAS

65

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Cul es la probabilidad de que, asignando aleatoriamente los tratamientos a los


pacientes, salga la alternativa de que 10 pacientes reciben el placebo, 3 el frmaco
experimental y 2 el frmaco estndar?
La primera pregunta no es nueva. Hay
3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 315 14348907 formas alternativas de
asignar el tratamiento a los pacientes.

La segunda pregunta s. Para hallar la probabilidad que se pide aqu, debemos


determinar cuntas de las alternativas posibles incluyen 10 veces el placebo, tres
veces el frmaco experimental y dos veces el frmaco estndar. Por medio de la
frmula obtenemos inmediatamente
15
P10,3,.2

15!
15 14 13 12 11 10!

30030
10!3!.2!
10! (3 2 1 2 1)

La probabilidad buscada es, por lo tanto:


30030
0.0021
14348907

Ejemplo En la casa comercial "El Palco" hay 4 sinfonas N 9 de Beethoven, 5


Sinfonas N 100 de Haydn y 6 Sinfonas N 36 de Mozart. Suponga que se
seleccionan con restitucin y considerando el orden de extraccin 8 de estas obras
maestras.
a. De cuntas maneras sern seleccionadas 5 sinfonas de Beethoven y 3 de
Haydn?
Sinfonas N 9 de Beethoven: 4
Sinfonas N 100 de Haydn: 5
Sinfonas N 36 de Mozart: 6
8
n( A) 45 53 P5,3
45 53

8!
7168000 maneras.
5! 3!

b. De cuntas maneras sern seleccionadas 2 sinfonas de Beethoven, 2 de Haydn


y 4 de Mozart?
8
n( A) 42 52 64 P2,2,4
4 2 52 6 4

8!
217728000 maneras.
2! 2! 4!

4.2.2 Combinaciones
Dado un conjunto de N objetos distintos, cualquier subconjunto no ordenado de tamao n
de los objetos se llama combinacin y se denota de la siguiente manera:
N

N
N!
Cn
n n! N n !

Cuando haya N objetos distintos, cualquier permutacin de tamao n se obtiene al ordenar


los n objetos no ordenados de una combinacin en una de n! formas (donde no importa el
orden), as:

N
N PN
N!
PnN n! n
n
n n! n! N n !
DEPARTAMENTO DE CIENCIAS BIOLGICAS

66

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Definicin Una combinacin es una seleccin de objetos con independencia de su


ordenamiento.
Ejemplo Cinco personas se ofrecen voluntarias para participar en un programa
experimental. Se necesitan solamente dos para llevar a cabo el estudio. De cuntas formas
pueden seleccionarse dos personas de entre las cinco?
En este caso el orden no importa. Lo que interesa nicamente es el hecho de que sean dos
los seleccionados, no el orden en que lo son. Estamos, pues, preguntando, cuntas
combinaciones de cinco elementos tomados dos a dos existen? La cuestin puede
resolverse adjudicando una de las letras A, B, C, D, E a cada uno de los voluntarios y
formando una lista con todos los subconjuntos posibles de tamao dos, del siguiente modo:
{A,B} {A,E} (B,E} {D,E}
{A,C} {B,C} {C,D}
{A,D} {B,D} {C,E}
Obviamente, existen 10 combinaciones. Escribiremos

5
5!
5!
5 4 3!

10
5 C2
2! 5 2 ! 2! 3! 2! 3!
2
5C2

=10, donde el 5 indica el nmero disponible de objetos, el 2 el nmero de objetos que


hay que seleccionar, y C las combinaciones en cuestin.
Ejemplo Un banco de sangre dispone de 10 unidades de sangre tipo A*. De ellas, cuatro
estn contaminadas con suero de hepatitis. Se seleccionan aleatoriamente tres unidades de
entre las 10 para utilizarlas con tres pacientes diferentes. Cul es la probabilidad de que un
solo paciente est expuesto a contraer la hepatitis por esta causa?
Esta pregunta se refiere a las combinaciones, ya que slo estamos interesados en las
unidades seleccionadas, no en el orden en que se seleccionan. Consideremos el diagrama
de la Figura 2.7. El nmero total de formas de seleccionar tres unidades de entre las 10
disponibles es

10
10!
10! 10 9 8 7!

120

3! 7 !
3 3!10 3! 3! 7 !
Para que un solo paciente est expuesto a contraer la hepatitis por esta causa, la unidad
seleccionada lo ha de ser de entre las cuatro contaminadas. La unidad contaminada puede
seleccionarse de

4
4!
4!

4 formas

1 1! 4 1! 1! 3!
Las unidades no contaminadas pueden ser seleccionadas de

6
6!
6!

15 formas

2 2! 6 2 ! 2! 4 !
En total hay (4)(15) 60 formas de seleccionar, en las que un solo paciente est expuesto a
la hepatitis por esta causa. Dando por supuesto que las 120 formas posibles de seleccionar
tres unidades de entre 10 son equiprobables, podemos hacer uso del mtodo clsico para
concluir que
DEPARTAMENTO DE CIENCIAS BIOLGICAS

67

UNSCH

Bioestadstica I

P(un solo paciente est expuesto al riesgo) =

Prof. Reynn Cndor A.

60
0.5
120

REFERENCIA BIBLIOGRFICA
Gua del curso de estadstica general. 2016. Departamento estadstica e
informtica. UNALM.
Blair R. Clifford y Richard A. Taylor. 2008. Bioestadstica. Pearson Educacin,
Mxico, 2008
Daniel W. Bioestadstica. Cuarta edicin. Limusa Wiley. 2006.
Milton, J. 2007. Estadstica para biologa y ciencias de la salud. McGRAWHILL/INTERAMERICANA DE ESPAA, S. A. U.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

68

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

4.3.
Clculo de probabilidades de evento.
EJEMPLO En un artculo de la revista American Journal of Drugs and Alcohol Abuse,
Erickson y Murray (A-I) afirman que las mujeres estn consideradas como un grupo con
riesgo especial de adiccin a la cocana, y que se ha sugerido que sus problemas con la
cocana son mayores que en los hombres. Con base en la revisin de textos especializados
y en el anlisis de los resultados de un estudio original, estos investigadores argumentan
que no hay evidencia de que el uso de cocana en las mujeres exceda al de los hombres, o
que el ndice de uso crezca ms rpido en comparacin con el de los hombres, o que
experimenten ms problemas. Los sujetos de estudio de Erickson y Murray comprenden una
muestra de 75 hombres y 36 mujeres. Los autores afirman que los individuos son una
muestra bastante representativa de adictos tpicos adultos sin tratamiento ni encarcelados.
Base de datos: Consumo de cocana por gnero entre adultos adictos.

Sexo

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

M
M
M
M
M
F
M
M
M
M
M
M
M
M
M
M
F
M
M
M
M
F
F
M
F
F
M
F
F
F

Nmero de
veces de uso
de cocana en
el perodo de
vida
19
134
59
134
6
53
147
22
9
4
16
98
4
6
139
42
107
11
12
9
115
96
63
117
113
17
61
109
32
88

Categoras

Sexo

1-19
100-+
20-99
100-+
1-19
20-99
100-+
20-99
1-19
1-19
1-19
20-99
1-19
1-19
100-+
20-99
100-+
1-19
1-19
1-19
100-+
20-99
20-99
100-+
100-+
1-19
20-99
100-+
20-99
20-99

31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60

M
M
F
M
M
M
M
M
M
F
M
F
F
F
M
M
M
M
F
M
F
M
M
M
M
M
F
M
M
F

Nmero de
veces de uso
de cocana en
el perodo de
vida
3
18
143
98
3
130
146
146
129
42
8
52
136
16
48
2
16
30
57
8
34
8
26
22
105
8
1
122
10
59

Categoras

Sexo

1-19
1-19
100-+
20-99
1-19
100-+
100-+
100-+
100-+
20-99
1-19
20-99
100-+
1-19
20-99
1-19
1-19
20-99
20-99
1-19
20-99
1-19
20-99
20-99
100-+
1-19
1-19
100-+
1-19
20-99

61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90

F
M
F
F
M
M
F
F
M
F
F
F
F
F
M
M
M
F
M
M
M
M
M
F
M
M
F
M
M
M

Nmero de
veces de uso
de cocana en
el perodo de
vida
70
140
67
4
66
104
17
111
11
3
119
30
74
16
25
122
50
99
1
135
146
16
15
23
114
14
102
123
139
10

Categoras

Sexo

20-99
100-+
20-99
1-19
20-99
100-+
1-19
100-+
1-19
1-19
100-+
20-99
20-99
1-19
20-99
100-+
20-99
20-99
1-19
100-+
100-+
1-19
1-19
20-99
100-+
1-19
100-+
100-+
100-+
1-19

91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111

F
M
F
M
M
F
M
F
M
M
M
M
M
M
M
M
M
F
M
M
M

Nmero de
veces de uso
de cocana en
el perodo de
vida
45
2
125
13
15
24
131
73
137
31
130
44
2
25
95
99
18
48
5
129
130

Categoras

20-99
1-19
100-+
1-19
1-19
20-99
100-+
20-99
100-+
20-99
100-+
20-99
1-19
20-99
20-99
20-99
1-19
20-99
1-19
100-+
100-+

La tabla 3.4.1 muestra la frecuencia de uso de la cocana en el tiempo de vida y el sexo de


los individuos.
TABLA 3.4.1 Frecuencia de consumo de cocana por gnero entre adultos adictos

DEPARTAMENTO DE CIENCIAS BIOLGICAS

69

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Ejemplo. Suponga que se escoge a uno de ellos aleatoriamente de entre la muestra. Qu


probabilidad existe de que sea hombre?
Solucin:
Se supone que hombres y mujeres son categoras mutuamente excluyentes,
y que la probabilidad de seleccionar a cualquier persona es igual a la probabilidad de
seleccionar a cualquier otra persona.
Se define la probabilidad deseada como el nmero de individuos con la caracterstica de
inters (hombre) dividida entre el total de individuos. Se puede escribir en notacin
probabilstica como sigue:

total de hombres
total de individuos
75
P( M )
0.6757
111
P( M )

La probabilidad de que se elija a un hombre es 0.6757.

4.4 Probabilidad condicional.


Cuando se calculan las probabilidades con un subconjunto del conjunto universal como
denominador, el resultado es una probabilidad condicional.
Ejemplo. Suponga que se escoge aleatoriamente a un individuo de entre los 111 y se
encuentra que es un individuo del sexo masculino (M). Cul es la probabilidad de que este
individuo haya consumido cocana 100 veces o ms durante su vida (C)?
Solucin:
Ya no es importante saber el nmero total de individuos, porque, al seleccionar a un individuo
del sexo masculino, los individuos del sexo femenino son eliminados.
Entonces, se puede definir la probabilidad deseada como: Que probabilidad existe de
que un individuo haya consumido cocana 100 veces o ms (C) durante su tiempo
de vida, dado que el individuo seleccionado es del sexo masculino (M)? Esta es una
probabilidad condicional y se escribe como P(C\M), donde la lnea vertical se lee como
"dado".
P(C\ M )

25
0.3333
75

Probabilidad conjunta
Algunas veces se quiere encontrar la probabilidad de que un individuo seleccionado
aleatoriamente a partir de un grupo de individuos posea dos caractersticas al mismo tiempo.
A esta probabilidad se le conoce como probabilidad conjunta.
Ejemplo. En referencia a la tabla 3.4.1, cul es la probabilidad de que una persona
seleccionada aleatoriamente de entre los 111 individuos sea del sexo masculino (M) y que
sea una persona que consumi cocana 100 veces o ms durante su tiempo de vida (C)?
Solucin: La probabilidad buscada se puede escribir en notacin simblica como P ( M C )
, donde el smbolo se lee como "interseccin" o "y". La expresin M C indica que la
condiciones M y C son una ocurrencia conjunta.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

70

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

El nmero de individuos que satisfacen ambas condiciones deseadas es 25, y


encuentran en la tabla en la interseccin etiquetada como columna M y rengln C.
P( M C )

se

25
0.2252
111

Regla de la multiplicacin
La probabilidad se puede calcular a partir de otras probabilidades. Por ejemplo, la
probabilidad conjunta se puede calcular como el producto de una probabilidad marginal y
una probabilidad condicional adecuadas.
Ejemplo. Se pretende calcular la probabilidad conjunta de seleccionar un individuo del sexo
masculino (M) con una frecuencia de consumo de cocana de 100 veces o ms (C) durante
toda su vida, a partir del conocimiento de dos probabilidades convenientes, una marginal y
otra condicional.
Solucin: La probabilidad buscada es P ( M C ) .

La probabilidad marginal:
75
P( M )
0.6757
111

Probabilidad condicional:
25
P(C\ M )
0.3333
75

P( M C ) P( M ) P(C \ M )

75 25

(0.6757)(0.3333) 0.2252
111 75

Observe que esto es lo que se esperaba: el mismo resultado obtenido anteriormente para
P(M C ) .
Se puede afirmar que la regla de la multiplicacin en trminos generales es como sigue:
Para cualesquiera dos eventos A y B,
P ( A B) P( B) P( A \ B), si P( B) 0

Para los mismos dos eventos A y B, la regla de multiplicacin tambin se escribe como
P ( A B ) P ( A) P ( B \ A), si P ( A) 0

DEPARTAMENTO DE CIENCIAS BIOLGICAS

71

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Definicin de la probabilidad condicional


La probabilidad condicional de A dado B es igual a la probabilidad de A B dividida entre
la probabilidad de B, siempre que la probabilidad de B sea diferente de cero.
Esto es: P( A \ B)

P( A B)
, si P( B) 0
P( B)

Ejemplo. Qu probabilidad existe de que


un individuo haya consumido cocana 100
veces o ms (C) durante su tiempo de
vida, dado que el individuo seleccionado
es del sexo masculino (M)?
Solucin: para encontrar la probabilidad
condicional P(C\M).

25
P(C M ) 111 25 111 25
P(C \ M )

0.3333
75 75 111 75
P( M )
111
Regla de la adicin
La probabilidad de la ocurrencia de uno de los dos eventos mutuamente excluyentes es
igual a la suma de sus probabilidades individuales.
Ejemplo. Suponga que se escoge
aleatoriamente a una persona de entre las
111 representadas en la tabla. Cul es
la probabilidad de que esta persona sea
del sexo masculino (M) o del sexo
femenino (F)? Se expresa esta
probabilidad con los smbolos P(M F), donde el smbolo
Puesto que los dos gneros son mutuamente excluyentes,

se lee como "unin" u "0".

P( M F ) P( M ) P( F ) (75 / 111) (36 / 111) 0.6757 3243 1 .

Y si los dos eventos no fueran mutuamente excluyentes? En este caso se utiliza la regla
de la adicin, la cual se enuncia como sigue:
Definicin
Dados dos eventos A y B, la probabilidad de que ocurra el evento A, el evento B o ambos
es igual a la probabilidad del evento A ms la probabilidad del evento B, menos la
probabilidad de que ocurran simultneamente.
La regla de la adicin se puede escribir como sigue:
P( A B) P( A) P( B) P( A B )

DEPARTAMENTO DE CIENCIAS BIOLGICAS

72

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Ejemplo. Si se escoge aleatoriamente a


una persona de los
111 individuos
representados en la tabla, cul es la
probabilidad de que esa persona sea del
sexo masculino (M) o de que haya
consumido cocana 100 veces o ms
durante su tiempo de vida (C) o ambas?
Solucin: La probabilidad que se busca es P ( M C ) .
P( M C ) P( M ) P(C ) P( M C )
75 34 25 75 34 25 84
P( M C )

0.7568
111 111 111
111
111

Observe que 25 individuos que cumplen ambas condiciones: ser del sexo masculino y haber
consumido cocana 100 veces o ms, estn incluidos entre los 75 individuos que son del
sexo masculino, as como en los 34 individuos que consumieron cocana 100 veces o ms.
Dado que, en el clculo de la probabilidad, estos 25 se agregaron en el numerador dos
veces, tienen que restarse una vez para superar los efectos de duplicacin o traslape.
Eventos independientes
Suponga que en la ecuacin se dice que el evento B ya ocurri, sin que este hecho afecte
la probabilidad de A. Es decir, suponga que la probabilidad del evento A es el mismo a
pesar de que ocurra o no el evento B. En esta situacin, P(A\B) = P(A). En tal caso se dice
que los eventos A y B son eventos independientes. Por lo tanto, la regla de la multiplicacin
para dos eventos independientes se puede escribir como sigue:
P( A B ) P ( B ) P ( A); P( A) 0, P( B) 0

As, se observa que si dos eventos son independientes, la probabilidad de que ocurran
conjuntamente es igual al producto de las probabilidades de sus ocurrencias individuales.
Advierta que cuando dos eventos con probabilidades diferentes de cero son independientes,
cada una de las siguientes sentencias es verdadera:
P( A \ B) P( A), P( B \ A) P( B), P( A B) P( A) P( B)

Dos eventos no son independientes a menos que todas estas afirmaciones sean ciertas.
Es importante estar conscientes de que los trminos independiente y mutuamente
excluyente no significan la misma cosa.
Con el siguiente ejemplo se ilustra el concepto de independencia.
Ejemplo. En un grupo de preparatoria, que consta de 60 mujeres y 40 varones, se observa
que 24 chicas y 16 muchachos usan lentes. Si un estudiante es elegido aleatoriamente, la
probabilidad de que el estudiante use lentes, P(L), es 40/100, o 0.4.
mujeres
24
Usan lentes
No usan lentes 36
60
Total

varones
16
24
40

Total
40
60
100

a) Cul es la probabilidad de que un estudiante elegido aleatoriamente use lentes dado


que es un estudiante varn?
DEPARTAMENTO DE CIENCIAS BIOLGICAS

73

UNSCH

Bioestadstica I

Solucin:
resultado:
P( L \ V )

Prof. Reynn Cndor A.

Con la frmula para calcular la probabilidad condicional se obtiene como


P( L V ) 16 / 100

0.4
P(V )
40 / 100

De esta forma, la informacin adicional de que el estudiante es un varn no altera la


probabilidad de que el estudiante use lentes, y P(L) = P(L \ V). Se puede decir que los
eventos "ser varn" y "usar lentes" en ese grupo, son independientes. Se puede mostrar
que los eventos "usar lentes", E, y "no ser varn", V , tambin son independientes:

P( L \ V )

P( L V )
P(V )

24 / 100 24
0.4 Se debe notar que la probabilidad de no ser varn
60 / 100 60
es igual a la probabilidad de ser mujer:

P(V ) P(M ) 60 / 100 0.6


b) Cul es la probabilidad de que ambos eventos, que el estudiante use lentes y sea un
varn, ocurran simultneamente?
Solucin:
P ( L V ) P (V ) P ( L \ V )

pero, tal como ya se mostr, los eventos L y V son independientes, entonces, se sustituye
P(L\V) por P(L) para obtener mediante la ecuacin:
40 40
P( L V ) P(V) P( L)

0.16
100 100

Eventos complementarios
La probabilidad del evento A es igual a 1 menos la probabilidad de su complemento, que
se escribe como A , y

P( A) 1 P( A)
Ejemplo. Suponga que de 1200 admisiones al hospital general durante cierto periodo, 750
son admisiones privadas. Si se designa a este como conjunto A, entonces A es igual a
1200 -750 = 450. Se puede calcular que:
Probabilidad de que las admisiones sean privadas: P( A) 750 / 1200 0.625
Probabilidad de que las admisiones no sean privadas:
Y que

P( A) 450 /1200 0.375

P( A) 1 P( A) 0.375 1 0.625 0.375 0.375

Probabilidad marginal
Dada alguna variable que puede desglosarse en m categoras designadas por A1, A2,,
Ai,, Am y otra variable de ocurrencia conjunta que pueda desglosarse en n categoras
designadas por B1,B2, ,Bj,,Bn, la probabilidad marginal de Ai, P(Ai) es igual a la suma de
las probabilidades conjuntas de Ai con todas las categoras de B. Es decir,

P( Ai ) P( Ai Bi ) , para todos los valores de j.


DEPARTAMENTO DE CIENCIAS BIOLGICAS

74

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Ejemplo. Se pretende utilizar la ecuacin 3.4.6 y los datos de la tabla 3.4.1 para calcular la
probabilidad marginal P(M).
Solucin: La variable genero se divide en dos categoras, individuos del sexo masculino
(M) y del sexo femenino (E). La variable consumo de cocana se divide en tres categoras:
de 1 a 19 veces (A), de 20 a 99 veces (B) y de 1000 ms veces (C). La categora ser del
sexo masculino ocurre conjuntamente con las tres categoras de la variable frecuencia de
consumo de cocana. Las tres probabilidades conjuntas que pueden calcularse son
P ( M A) 32 / 111 0.2883
P( M B) 18 / 111 0.1662
P( M C ) 25 / 111 0.2252

Ahora,
se calcula la probabilidad
marginal P(M) sumando las tres probabilidades conjuntas como sigue:
P( M ) P ( M A) P ( M B ) P ( M C )

Se debe recordar que la P( M )

0.2883 0.1622 0.2252 0.6757

75
0.6757
111

La sumatoria de las probabilidades marginales de filas es 1:

P( A) P( B) P(C )

39
38
34

0.3514 0.3423 0.3063 1


111 111 111

La sumatoria de las probabilidades marginales de columnas es 1:

P( M ) P( F )

75
36

0.6757 0.3243 1
111 111

REFERENCIA BIBLIOGRFICA
Daniel W. Bioestadstica. Cuarta edicin. Limusa Wiley. 2006.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

75

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

V. Variables aleatorias
5.1 Definicin
Una variable aleatoria es cualquier funcin que tiene como dominio a los elementos que
constituyen el espacio muestral de un experimento aleatorio y como rango a un subconjunto
de los reales.

Las variables aleatorias pueden ser:


Variables aleatorias discretas
Variables aleatorias continuas

5.2 Variable aleatoria discreta


Si su rango es un conjunto finito o infinito numerable.
Ejemplo. Sea el experimento aleatorio registrar los sexos de los prximos tres nios que
van a nacer. Si se define la v.a.d. Y como el nmero de nios de sexo femenino que
nacern. Halle el dominio y el rango de Y.
Solucin:
={ MMM, MMF, MFM, FMM, MFF, FMF, FFM, FFF }
Y(MMM)

Y(MMF) = Y(MFM)

Y(FMM)

Y(MFF) = Y(FMF)

Y(FFM)

Y(FFF)
Entonces Ry = {0, 1, 2, 3}

DEPARTAMENTO DE CIENCIAS BIOLGICAS

76

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

5.2.1 Funcin de probabilidad de una variable aleatoria discreta


Sea X una variable aleatoria discreta. Se denomina funcin (ley, modelo o distribucin) de
probabilidad de X a la funcin f(x) definida por f(x)=P(X = x) para todo nmero real x, que
satisface las siguientes condiciones:

i ) f ( x) 0 para x R x
ii) f ( x) 0 para x R x
iii )

x i R x

f ( xi ) 1

Ejemplo. Con relacin al Ejemplo 1, halle la funcin de probabilidad de la v.a.d Y definida


como el nmero de nios de sexo femenino que nacern, asumiendo que los eventos
simples son igualmente probables (o que P(M)=P(F)=l/2 y que M y F son eventos
Independientes).
Solucin:
f (0) = P(Y = 0) = P({MMM}) = 1/8
f (1) = P(Y = l) = P({MMF, MFM, FMM}) = 3/8
f (2) = P{Y = 2) = P({MFF, FMF, FFM }) =3/8
f (3) = P{Y = 3) = P({FFF})=1/8
La funcin de probabilidad tambin se puede representar de la siguiente manera:
Y
f(y) = P(Y = y)

DEPARTAMENTO DE CIENCIAS BIOLGICAS

1/8

3/8

3/8

1/8

77

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

EJEMPLO. En un artculo de la revista American Journal of Obstetrics and Gynecology, Buitendijk y


Bracken (A-1) aseguran que durante 25 aos se ha tomado mayor conciencia de los efectos
potencialmente dainos de los medicamentos y qumicos en el desarrollo de los fetos. En una
poblacin de mujeres dadas de alta en maternidad, en un hospital del este de EUA, entre 1980 y
1982, los autores valoraron y estudiaron la asociacin del uso de medicamentos con varias
caractersticas de la madre, por ejemplo uso de alcohol, tabaco y adiccin a frmacos. Sus hallazgos
sugieren que la mujer que muestra un comportamiento ms propenso a correr riesgos durante el
embarazo, tambin est ms propensa a utilizar medicamentos durante el mismo. La tabla muestra
la prevalencia del consumo de medicamentos prescritos y no prescritos durante el embarazo entre
las mujeres estudiadas.

Nmero de
medicamentos
( x)

0
1
2
3
4
5
6
7
8
9
10
12

Frecuencia P( X x) P( X x)
1425
0.3405
0.3405
1351
0.3228
0.6633
793
0.1895
0.8528
348
0.0832
0.9360
156
0.0373
0.9732
58
0.0139
0.9871
28
0.0067
0.9938
15
0.0036
0.9974
6
0.0014
0.9988
3
0.0007
0.9995
1
0.0002
0.9998
1
0.0002
1.0000
4185
1.0000

0.35
0.34
0.33
0.32
0.31
0.30
0.29
0.28
0.27
0.26
0.25
0.24
0.23
0.22
0.21
0.20
0.19
0.18
0.17
0.16
0.15
0.14
0.13
0.12
0.11
0.10
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0.00

F(x)

Probabilidades

Total

Frecuencia Frecuencia
relativa
acumulada

1.00
0.95
0.90
0.85
0.80
0.75
0.70
0.65
0.60
0.55
0.50
0.45
0.40
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00

0 1 2 3 4 5 6 7 8 9 10 12

1 2 3 4 5 6 7 8 9 10 11 12

x (nmero de mediamentos)

x (nmero de medicamentos)

DEPARTAMENTO DE CIENCIAS BIOLGICAS

78

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Propiedades de una distribucin de probabilidad para una variable discreta:

1) 0 P( X 0) 1
2)

P( X

x) 1

a. Cul es la probabilidad de que una mujer seleccionada aleatoriamente sea una de las que
consumieron tres medicamentos con o sin prescripcin?
Solucin: Se puede escribir la probabilidad deseada como P(X = 3). En la tabla se puede ver que la
respuesta es 0.0832.
b. Cul es la probabilidad de que una mujer seleccionada aleatoriamente haya consumido uno o
dos medicamentos?
Solucin: Para responder a la pregunta, se utiliza la regla de adicin para eventos mutuamente
excluyentes. Mediante el uso de la notacin de probabilidad y los resultados de la tabla 4.2.2 la
respuesta se escribe como
P( 1 2) = P(1) + P(2) = 0.3228 + 0.1895 = 0.5123.
c. Cul es la probabilidad de que una mujer seleccionada aleatoriamente sea una de las que
consumieron dos o menos medicamentos?
Solucin: La probabilidad buscada se puede localizar directamente en la tabla 4.2.3, en el lado
opuesto a x = 2, donde se observa que es 0.8528. Es decir, P(x 2) = 0.8528. Tambin se puede
localizar la respuesta examinando la figura 4.2.2 y determinando la altura de la grfica (medida
sobre el eje vertical) arriba del valor de x = 2.
d. Cul es la probabilidad de que una mujer seleccionada aleatoriamente sea una de las que
consumieron menos de dos medicamentos?
Solucin: Puesto que una mujer que consumi menos de dos medicamentos indica que consumi
uno o ninguno, la respuesta es la probabilidad acumulada para 1, es decir,
P(x < 2) = P(x 1) = 0.6633.
e. Cul es la probabilidad de que una mujer seleccionada aleatoriamente haya consumido cinco o
ms medicamentos?
Solucin: Para encontrar la respuesta se utiliza el concepto de probabilidad complementaria. El
conjunto de mujeres que consumen cinco o ms medicamentos es el complemento del conjunto de
mujeres que consumen menos de cinco (es decir, cuatro o menos). La suma de las probabilidades
asociadas con este conjunto es igual a 1. Esta relacin escrita en notacin de probabilidad es
P(x 5) + P(x 4) = 1. Por lo tanto,
P(x 5) = 1 - P(x 4)= 1- 0.9733 = 0.0267.
f. Cul es la probabilidad de que una mujer seleccionada aleatoriamente sea una de las que
consumieron entre tres y cinco medicamentos, inclusive?
Solucin: P(x 5) = 0.9872 es la probabilidad de que una mujer haya consumido entre cero y 5
medicamentos, inclusive. Para obtener la probabilidad de entre 3 y 5, se resta de 0.9872 la
probabilidad de 2 o menos. La respuesta escrita en notacin de probabilidad queda como:
P(3 x 5) = P(x 5) - P(x 2) = 0.9872 -0.8528 = 0. 1344.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

79

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

5.3 Variable aleatoria continua


Si su rango es un conjunto infinito no numerable.
Ejemplo. Se desea determinar el pH de un compuesto qumico seleccionado al azar, entonces la
variable aleatoria X definida como el pH del compuesto es una variable aleatoria continua con rango
[0,14]

5.3.1 Funcin de densidad de una v.a continua X


La funcin f ( x) de la v.a. continua X es su funcin de densidad si cumple con lo siguiente:
1. f ( x) 0, x

, f (x) no es una probabilidad por ejemplo f ( x) 3.9 es posible.

2.

f ( x)dx 1

3. Si

A x / a x b P( A) P(a X b) f ( x)dx
a

4. P(a

X b) P(a X b) P(a X b) P(a X b) f ( x)dx


a

X n 1
b n 1 a n 1
X
dx

a
n 1 a
n 1
b

Ejemplo. Una variable aleatoria continua X con valores entre 0 y 4 tiene una funcin
densidad dada por p( X ) 1 aX , donde a es una constante.
2

(a) Calcular a.
(b) Hallar P(1 < X < 2}.

Solucin
(a) El grfico de p( X ) 1 aX es una recta, como muestra la Figura 6.5. Para hallar a,
2

debemos constatar primero que el rea total bajo la recta entre X=0 y X=4, y sobre el eje X,
ha de ser 1:

DEPARTAMENTO DE CIENCIAS BIOLGICAS

80

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

en X 0
1
p(0) a 0
2
1
p(0)
2
en X 4
1
p(4) 4a
2
Entonces debemos elegir a de modo que el rea del trapecio =1.
rea del trapecio=

1
(altura)(suma de bases)
2

1
1 1
4 4a 1
2
2 2

1 1

2 4a 1
2 2

2 1 4a 1
(1 4a)

1
2

1
1
2
1 2
4a
2
1
4a
2
1
a
8
Tambin se puede calcular a integrando de la siguiente manera:
4a

f ( x)dx 1

2 axdx 2 8a
0

2 axdx 1
0

2 8a 1
1
a
8
(b) La requerida probabilidad es el rea entre X=1 y X=2. Sombreada en la figura 6.6. De la parte
parte (a), p(X) 1 1 X ; as que
2 8

DEPARTAMENTO DE CIENCIAS BIOLGICAS

81

UNSCH

p(1)
p(2)

Bioestadstica I

Prof. Reynn Cndor A.

1 1
3
1
2 8
8
1 1
1 1 1
2
2 8
2 4 4

El rea del trapecio pedida es:

1 3 1 15 5
1 , que es la probabilidad deseada.
2 8 4 2 8 16

Integrando se obtiene el mismo resultado:


2

1 1
5
A x / 1 x 2 P( A) (1 x 2) f ( x)dx xdx
2 8
16
1
1

5.4 ESPERANZA MATEMTICA


Si pj es la probabilidad de que una persona reciba una cantidad S de dinero, la esperanza
matemtica (o simplemente esperanza) se define como pS.
EJEMPLO. Si la probabilidad de que un hombre gane un premio de $10 es 1/5, su esperanza
matemtica es 1 ($10) $2 .
5

El concepto de esperanza matemtica se extiende fcilmente. Si X denota una variable


aleatoria discreta que puede tomar los valores X1, X2,,XK con probabilidades p1,p2,,pk,
donde p1 + p2 ++ pk = 1, la esperanza matemtica de X (o simplemente esperanza de X),
denotada E[X] y se define como
k

E ( X ) p1 X1 p2 X 2 ... pk X k p j X j pK
j i

Si las probabilidades pj en esa expresin se sustituyen por las frecuencias relativas f j / N ,


donde N

, la esperanza matemtica se reduce a (

fX ) / N , que es la media

aritmtica X de una muestra de tamao N en la que X1, X2,,XK aparecen con estas
frecuencias relativas. Al crecer N ms y ms, las frecuencias relativas se acercan a las
probabilidades pj. As que nos vemos abocados a interpretar E(X) como la media de la
poblacin cuyo muestreo se consideraba. Si llamamos m a la media muestral, podemos
denotar la media poblacional por la correspondiente letra griega (mu).
Puede definirse, asimismo, la esperanza matemtica para variables aleatorias continuas.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

82

UNSCH

Bioestadstica I

VI.

Prof. Reynn Cndor A.

Distribuciones Discretas

6.1 Distribucin Binomial


Cuando en un proceso aleatorio o experimento, llamado ensayo, puede ocurrir slo uno de dos
resultados mutuamente excluyentes, como vida o muerte, enfermo o sano, masculino o femenino,
el ensayo se llama ensayo de Bernoulli.
6.1.1 La funcin de probabilidad Binomial
n
x
n x

x 0,1, 2,..., n
x (1 )
f ( x) P( X x)
de otro modo

Notacin : x

Binomial (n, )

6.1.2 La media y la varianza de X


Si x

Binomial (n, ) entonces:

E ( X ) n
2 Var ( X ) n (1 )
Ejemplo: Un examen consta de n=25 preguntas, cada una de las cuales tiene 5 alternativas de las
cuales slo una es correcta, si una persona est adivinando al responder y se desea saber el nmero
de respuestas correctamente respondidas.
Entonces, este es un experimento Binomial con xito: E={la respuesta es correcta} y
fracaso: F={la respuesta no es correcta} y siendo:
P( E )

1
5

Sea la v.a. X=EI nmero de respuestas correctas en las 25 preguntas,


x

Binomial (25, 0.2)

La distribucin de probabilidad Binomial ser:

f ( x) nx x (1 )n x
x
25 x
f ( x) 25
x 0.2 (1 0.2)

x 0,1, 2,3, 4,..., 25

DEPARTAMENTO DE CIENCIAS BIOLGICAS

83

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

x
25 x
f ( x) 25
x 0.2 (1 0.2)

x
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

0.0038
0.0236
0.0708
0.1358
0.1867
0.1960
0.1633
0.1108
0.0623
0.0294
0.0118
0.0040
0.0012
0.0003
0.0001
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000

La probabilidad de que la persona acierte por lo menos 3, pero menos de 5 preguntas es:
P(3 X 5) P( X 3) P( X 4) 0.1358 0.1867 0.3225

Uso de una tabla binomial (Libro de Bioestadistica Daniels)


Ejemplo.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

84

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Utilizar la tabla B cuando p>0.5 (libro de Bioestadstica Daniels)


Ejemplo.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

85

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

6.2 Distribucin Hipergeomtrica


Cuando una poblacin finita contiene dos tipos de unidades, que pueden ser denominados como
xitos y fracasos, y se extrae una muestra aleatoria simple de la poblacin, cada unidad representa
un ensayo de Bernoulli. A medida que se selecciona cada unidad, la proporcin de xitos en la
poblacin restante disminuye o aumenta, dependiendo si la unidad extrada es un xito o fracaso.
Por esta razn, los ensayos no son independientes, de ah que el nmero de xitos en la muestra no
siga una distribucin binomial. En su lugar, la distribucin que describe adecuadamente el nmero
de xitos en esta situacin se llama distribucin hipergeomtrica.
6.2.1 La funcin de probabilidad hipergeomtrica
Notacin : x

Si X

Hiper (N, n, A)

Hiper ( N , n, A) entonces su distribucin de probabilidad es:


f ( x) P( X x)

A
x

NA
n x

N
n

para x entero t.q mx(0, n A - N ) x min(n, A)

6.2.2 La media y la variancia de x


Si X

Hiper(N,n,A) entonces:

=E(X)=n

A
N

2 var(X) n

A
A N n
1

N N N 1

Ejemplo. Un determinado antibitico es empacado en cajas de 20 botellas. Suponga que en una


caja, la cual es enviada a una farmacia hay 5 botellas mal envasadas. El dueo de la farmacia
sospecha que la cantidad de antibitico en algunos de los frascos es insuficiente por lo que
selecciona al azar y sin reemplazo una muestra de tres frascos y decide que si encuentra la mitad o
ms de frascos mal envasados en esa muestra cambiar de distribuidor. Cul es la probabilidad de
que el dueo de la farmacia no cambie de distribuidor?
Respuesta:

N 20
n3
A5
N A 15
x 0,1, 2,3

0.859
P( x 2) P( x 0) P( x 1)

5
0

15
3

5
1

15
2

20
3

DEPARTAMENTO DE CIENCIAS BIOLGICAS

86

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

6.3 La distribucin de Poisson.


La distribucin de Poisson se utiliza con frecuencia en el trabajo cientfico. Una manera de
considerarla es como una aproximacin de la distribucin binomial cuando n es grande y p es
pequea.

e x
x!

f ( x) P( X x)

x 0,1, 2,...

6.3.1 Funcin de probabilidad para un Proceso de Poisson

f ( x) P( X x)

e vt vt x
x!

x 0,1, 2,...

Donde:
v= promedio de sucesos por unidad de intervalo.
t = tamao de intervalos (ejemplo: t=2.3, t=5.8 etc.).
vt = promedio d sucesos por intervalo de tamao t
Notacin : X

Pois(vt )

Tambin se puede expresar:

e x
f ( x) P( X x)
x!
Donde vt , X

x 0,1, 2,...

Pois( )

6.3.2 La media y la variancia de X


X

Pois( ) entonces:

E( X )

2 Var( X ) con vt
Ejemplo.

Se cree que el nmero promedio de individuos por cada 2 km2 de cierta especie de
mamfero que habita en las alturas de cierta regin es de 1.2.
a. En una zona de 2.8 km2, cuntos individuos esperaramos en promedio encontrar?
Sea la v.a. X=Nmero de individuos en 2 km2
El nmero de individuos que habitan en promedio ser:
2.8(1.2) / 2 1.68

b. Si se observa un rea de 3 km2 en dicha regin, cul es la probabilidad que se


encuentren ms de 3 individuos de esta especie?
Sea la v.a. X: Nmero de individuos en 3km2

DEPARTAMENTO DE CIENCIAS BIOLGICAS

87

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

3(1.2) / 2 1.8

Por lo tanto 1.8

e1.8 (1.8) x
p( x 3) 1 p( x 3) 1
1 0.8912 0.1087
x!
x 0
3

Recordar que: e=2.71828183

x
0
1
2
3
4
5
6
7
8
9
10
.
.
.
xi

0.1653

0.1653
0.4628
0.7306
0.8913
0.9636
0.9896
0.9974
0.9994
0.9999
1.0000
1.0000

0.2975
0.2678
0.1607
0.0723
0.0260
0.0078
0.0020
0.0005
0.0001
0.0000
.
.
.

.
.
.
0.0000

1.0000

Ejemplo
En Escherichia coli, una bacteria que aparece con frecuencia en el tracto digestivo humano, una
clula de cada 109 muta de ser sensible a la estreptomicina a ser resistente a ella. Esta mutacin
puede dar lugar a que el individuo implicado se vuelva resistente a la estreptomicina. Observando
2x109 de tales clulas,
a. cul es la probabilidad de que ninguna mute?
b. Cul es la probabilidad de que al menos una mute?
Este problema es efectivamente binomial, con n = 2 x 109 y p = 1/109. Como 1/109 es
extremadamente pequeo, la mutacin de una clula es un suceso muy raro. De modo que X,
nmero de clulas que mutan, puede considerarse como aproximadamente de Poisson con
=np=(2 x 109)(1/109) = 2.
a. cul es la probabilidad de que ninguna mute?

e2 (2)0
P( X 0)
0.1353
0!
b. Cul es la probabilidad de que al menos una mute?
DEPARTAMENTO DE CIENCIAS BIOLGICAS

88

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

La probabilidad de que se produzca al menos una mutacin es P(X1). Esta probabilidad se halla por
sustraccin. Es decir,

P( X 1) 1 P( X 0) 1

e2 (2)0
1 0.1353 0.8647
0!

A continuacin se muestra la probabilidad cuando X=x y el acumulado.

e x
P( X x)
x!

x
0
1
2
3
4
5
6
7
8
9
10
.
.
.
10

0.1353
0.2707
0.2707
0.1804
0.0902
0.0361
0.0120
0.0034
0.0009
0.0002
0.0000
.
.
.
0.0000

e x

x!
x 0
x

0.1353
0.4060
0.6767
0.8571
0.9473
0.9834
0.9955
0.9989
0.9998
1.0000
1.0000
.
.
.
1.0000

Para facilitar estos clculos las probabilidades acumuladas se encuentran tabuladas en los
diferentes libros de estadstica.

REFERENCIA BIBLIOGRFICA
Gua del curso de estadstica general. 2016. Departamento estadstica e
informtica. UNALM.
Daniel W. Bioestadstica. Cuarta edicin. Limusa Wiley. 2006
Spiegel, M. Estadstica. 2da ed. Mc GRAW HILL. Espaa 1991. 556 pag

DEPARTAMENTO DE CIENCIAS BIOLGICAS

89

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

VII. Distribuciones continuas


Recuerde que una variable aleatoria continua es una variable aleatoria que, de por s, puede tomar
cualquier valor en cierto intervalo o secuencia de nmeros reales y no exclusivamente en puntos
aislados.

7.1 Distribucin Exponencial


Esta ley de distribucin describe procesos en los que:
Nos interesa saber el tiempo hasta que ocurre determinado evento, sabiendo que, el tiempo que
pueda ocurrir desde cualquier instante dado t, hasta que ello ocurra en un instante tf, no depende
del tiempo transcurrido anteriormente en el que no ha pasado nada.

La variable aleatoria continua X tiene distribucin exponencial con parmetro con media igual a
E ( X ) y variancia

V ( X ) 2 , si su funcin de densidad es:

DEPARTAMENTO DE CIENCIAS BIOLGICAS

90

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Ejemplo
Una masa radiactiva emite partculas de acuerdo con un proceso de Poisson a una media de razn
de 15 partculas por minuto. En algn punto inicia un reloj.
a. Cul es la probabilidad de que transcurran cinco segundos antes de la siguiente emisin?
b. Cul es la media del tiempo de espera hasta que se emite la siguiente partcula?
Solucin
El tiempo se medir en segundos. T denota el tiempo en segundos que transcurre antes de que se
emita la siguiente partcula. La media de la razn de las emisiones es de 0.25 por segundo, por lo
que el parmetro de razn es = 0.25 y T~ Exp(0.25). La probabilidad de que transcurran ms de
cinco segundos antes de la siguiente emisin es igual a
Debes recordar que:

0.25

1
4
0.25

P(T 5) 1 P(T 5)
1 (1 e0.25(5) ) 1 (1 e5/4 )
e125
0.2865
La media del tiempo de espera es

1
4
0.25

7.2 Distribucin Normal


La Distribucin Normal fue hallada por primera vez en 1733, por A. De Moivre. Pero el
descubrimiento de De Moivre al parecer pas inadvertido y fue "redescubierta" por C.F Gauss en
1809 y P.S Laplace en 1780 hizo trabajos preliminares que profundiz en 1812.
En Estadstica una buena cantidad de variables continuas (peso, longitud, ingresos, temperatura
etc.) se consideran que tienen Distribucin Normal (se dice que es lo normal que tenga esa
distribucin).

DEPARTAMENTO DE CIENCIAS BIOLGICAS

91

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

La variable aleatoria continua X tiene distribucin normal con media y variancia 2 si su funcin
de probabilidad es:

f ( x)

2
x

0
Notacin:

1 x

x N ( , 2 )

Caractersticas de la distribucin normal


1.

Tiene forma acampanada.

2.

Es simtrica respecto a la recta X

3.

Es asinttica respecto al eje X

En el grfico anterior se aprecia dos distribuciones normales con igual promedio pero diferente
desviacin estndar (a menor desviacin estndar los datos estn ms cerca de la media)

7.3 Distribucin Normal Estndar


Si

N (, 2 ) , entonces la v.a.c. Z

se dice tiene distribucin normal estndar; su

media es 0, su variancia 1 y su funcin de probabilidad es:

f ( z)

2
z

1
z2
2

Esta prueba es incompleta porque slo demuestra que la media y la variancia de Z son 0 y 1
respectivamente pero no demuestra que Z tiene distribucin normal (esto es tema de un libro de
Estadstica Matemtica).

DEPARTAMENTO DE CIENCIAS BIOLGICAS

92

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Uso de tabla de la distribucin Normal Estndar


P( Z a )

P(Z a) 1 P(Z a)

P(a Z b) P(Z b) P(Z a)

DEPARTAMENTO DE CIENCIAS BIOLGICAS

93

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

7.5 Distribucin Ji-Cuadrado


La distribucin Ji-cuadrado fue encontrada por primera vez por F.R Helmert en 1876. Esta
distribucin toma el nombre de la letra griega elevada al cuadrado. Esta letra en castellano se
llama Ji y en ingls Chi.
Una v.a X tiene distribucin Ji-cuadrado con m grados de libertad si su funcin de probabilidad est
dada por:

DEPARTAMENTO DE CIENCIAS BIOLGICAS

94

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Caractersticas de una distribucin Ji-cuadrado tpica


Como se aprecia en el grfico anterior:
1.
2.
3.
4.

Presenta un sesgo o asimetra positiva.


Es asinttica con respecto al eje horizontal en el lado positivo.
El rango de la variable considera slo los valores positivos.
La distribucin tiene menor sesgo conforme los grados de libertad son mayores (m > 30)

5. Si

2( m) ,

entonces

Teorema Si Z ~ N(0,1) entonces

X m y X2 2m .
Z2

(1)2

Ejemplo

7.6 Distribucin t de Student.


La distribucin t fue empleada por primera vez en un problema de Estadstica importante por W.S
Gosset en 1908 (l escriba bajo el seudnimo de Student).
Una v.a X tiene distribucin t con m grados de libertad si su funcin de probabilidad es:

Caractersticas de la distribucin t
1. Cada curva t(m) tiene forma acampanada con centro en 0.
2. Cada curva t(m) es ms dispersa que la curva normal estndar.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

95

UNSCH

Bioestadstica I

3. Si X ~ t(m), entonces

0 0 y

2
X

Prof. Reynn Cndor A.

m .
m2

4. Conforme aumenta m, la dispersin de la curva t(m) disminuye.


5.
A medida que m , la curva t(m) se aproxima a la curva normal estndar.
Teorema
Si las v.as Z

N (0,1) y

(2m )

son independientes, entonces la v.a X

Z
V
m

t( m ) .

7.7 Distribucin F
Ronald A. Fisher (naci en Inglaterra el 17 de Febrero de 1890 y falleci el 29 de Julio de 1962) fue
un gran cientfico, matemtico, estadstico, bilogo evolutivo y genetista. Fisher aport mucho a la
estadstica, siendo una de sus ms importantes contribuciones, la Inferencia Estadstica creada por
l en 1920 (que se estudiar de manera introductoria en el captulo XI de este libro). A la
distribucin F tambin se le llama distribucin F de Snedecor o distribucin F de Fisher-Snedecor.
Una v.a. X tiene una distribucin F con n y m grados de libertad si su funcin de probabilidad es:

Caractersticas de la distribucin F
a.
b.
c.
d.

Est definida solamente para valores positivos de la variable.


Tiene asimetra positiva.
Es asinttica respecto al eje horizontal en su parte positiva.
Las distribuciones F(n,m) tienden a ser simtricas cuando n y m suficientemente grandes
(mayores que 30)
Teorema
Si U

(2n ) y V

(2m ) , son v.a. independientes, entonces la variable aleatoria

DEPARTAMENTO DE CIENCIAS BIOLGICAS

96

UNSCH

Bioestadstica I

U
U m
X n
V V n
m

Prof. Reynn Cndor A.

F ( n, m )

Notacin
Si X

F(n, m) y

P( X k ) k F( ,n,m)

Propiedad recproca

F( ,n,m)

1
F(1 ,m,n )

REFERENCIA BIBLIOGRFICA
- Gua del curso de estadstica general. 2016. Departamento estadstica e
informtica. UNALM.
- Daniel W. Bioestadstica. Cuarta edicin. Limusa Wiley. 2006
- Spiegel, M. Estadstica. 2da ed. Mc GRAW HILL. Espaa 1991. 556 pag
- Balzarini Mnica; Di Rienzo Julio; Tablada Margot; Gonzlez, Laura; Bruno
Cecilia; Crdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadstica
y Biometra. Editorial Brujas. Argentina.
- Gua del curso de estadstica general. 2016. Departamento estadstica e
informtica. UNALM
-

Blair R. Clifford y Richard A. Taylor. 2008. Bioestadstica. Pearson Educacin,


Mxico, 2008

DEPARTAMENTO DE CIENCIAS BIOLGICAS

97

UNSCH

DEPARTAMENTO DE CIENCIAS BIOLGICAS

Bioestadstica I

Prof. Reynn Cndor A.

98

UNSCH

DEPARTAMENTO DE CIENCIAS BIOLGICAS

Bioestadstica I

Prof. Reynn Cndor A.

99

UNSCH

DEPARTAMENTO DE CIENCIAS BIOLGICAS

Bioestadstica I

Prof. Reynn Cndor A.

100

UNSCH

DEPARTAMENTO DE CIENCIAS BIOLGICAS

Bioestadstica I

Prof. Reynn Cndor A.

101

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

VII. Muestreo
7.1 Muestreo
Proceso de seleccin de muestras, se utiliza cuando no es posible contar o medir todos los
elementos de la poblacin objeto de estudio.

7.2 Muestra
Una muestra es una parte de la poblacin. (En algunos casos, una muestra puede incluir la
poblacin entera). Por lo general, se trata de usar la informacin de muestra para hacer inferencia
acerca de una poblacin. Por esta razn es particularmente importante definir la poblacin que se
estudia y obtener una muestra representativa de la poblacin definida.

7.3 Seleccin de la muestra.


Ha sido ampliamente demostrado que no se puede tomar una muestra aleatoria sin emplear un
proceso mecnico. En el proceso usado para obtener una muestra aleatoria o para introducir la
aleatoriedad en un experimento o encuesta, por lo general interviene una tabla de nmeros
aleatorios.

Cmo seleccionar una muestra:


Tamao reducido.
Ausencia de sesgos.
o Conclusiones obtenidas de la muestra son vlidas para la poblacin.
Facilidad en la definicin de la muestra.
Mejor alternativa: Muestras aleatorias simples
o Cada miembro de la poblacin tiene la misma probabilidad de pertenecer a la muestra.
o La seleccin se realiza de manera independiente.
La seleccin de un individuo concreto no afecta a la probabilidad de seleccionar
cualquiera de los otros.

7.4 Caractersticas de la muestra


Una muestra debe ser representativa de la poblacin si tiene como fin obtener inferencias vlidas.
Para obtener una muestra representativa, el principio de aleatoriedad se incorpora a las reglas para
obtener la muestra. La aleatoriedad es el resultado de un proceso mecnico para asegurar que los
sesgos individuales, conocidos o desconocidos en su naturaleza, no influyan en la seleccin de las
observaciones de la muestra. En consecuencia, se aplican las leyes de la probabilidad y se usan
para extraer inferencias.
En resumen, para que una muestra sea representativa debe cumplir con las siguientes condiciones:
a) Debe haber sido obtenida al azar.
b) Su tamao y sus elementos deben haber sido seleccionados aplicando un mtodo de
muestreo.

7.5 Tipos de muestreo.


Existen dos mtodos para seleccionar muestras de poblaciones:
a) Muestreo no aleatorio o de juicio: Se emplea el conocimiento y la opinin personal para
identificar aquellos elementos de la poblacin que deben incluirse en la muestra.
b) Muestreo aleatorio o de probabilidad: En el cual todos los elementos de la poblacin
tienen la oportunidad de ser escogidos para la muestra. Dentro de este tipo de muestreo se
encuentran:
DEPARTAMENTO DE CIENCIAS BIOLGICAS

102

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

b.1) Muestreo aleatorio simple: el cual es un mtodo de seleccin de muestras que


permite que cada muestra posible pueda ser elegida con la misma probabilidad. Por su
parte cada elemento de la poblacin tiene la misma oportunidad igual de ser incluido en la
muestra.
b.2) Muestreo sistemtico: mtodo en el cual los elementos que se muestrearn se
seleccionan de la poblacin en un intervalo uniforme que se mide con respecto al tiempo,
al orden o al espacio.
b.3) Muestreo estratificado: mtodo en el que la poblacin se divide en grupos
homogneos, o estratos, y despus se toma una muestra aleatoria simple de cada estrato.
Aqu la variabilidad dentro de cada grupo es pequea y entre los grupos es grande.
b.4) Muestreo de racimo: mtodo en el que la poblacin se divide en grupos o racimos de
elementos, y luego se selecciona una muestra aleatoria de estos racimos. La variabilidad
dentro de cada grupo es grande y entre los grupos es pequea; es como si cada racimo
fuese un pequea representacin de la poblacin en si mima.
REFERENCIA BIBLIOGRFICA
- Gua del curso de estadstica general. 2016. Departamento estadstica e
informtica. UNALM.
- Daniel W. Bioestadstica. Cuarta edicin. Limusa Wiley. 2006
- Spiegel, M. Estadstica. 2da ed. Mc GRAW HILL. Espaa 1991. 556 pag
- Balzarini Mnica; Di Rienzo Julio; Tablada Margot; Gonzlez, Laura; Bruno
Cecilia; Crdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadstica
y Biometra. Editorial Brujas. Argentina.
- Gua del curso de estadstica general. 2016. Departamento estadstica e
informtica. UNALM
-

Blair R. Clifford y Richard A. Taylor. 2008. Bioestadstica. Pearson Educacin,


Mxico, 2008

DEPARTAMENTO DE CIENCIAS BIOLGICAS

103

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

VIII. Distribucin de muestreo


Consideremos todas las posibles muestras de tamao N en una poblacin dada (con o sin
reposicin). Para cada muestra, podemos calcular un estadstico (tal como la media o la
desviacin tpica) que variar de muestra a muestra. De esta manera obtenemos una
distribucin del estadstico que se llama su distribucin de muestreo.

8.1 Distribucin de muestreo de medias


Supongamos que se toman todas las posibles muestras de tamao N, sin reposicin, de
una poblacin finita de tamao Np > N. Si denotamos la media y la desviacin tpica de la
distribucin de muestreo de medias por X y X y las de la poblacin por y .
respectivamente, entonces

Np N

N p 1

Si la poblacin es infinita o si el muestreo es con reposicin, los resultados anteriores se


reducen a

8.2 Distribucin de muestreo de proporciones


Supongamos que una poblacin es infinita y que la probabilidad de ocurrencia de un
suceso (su xito) es p, mientras la probabilidad de que no ocurra es q = 1 p. Se obtiene
una distribucin de muestreo de proporciones cuya media P y cuya desviacin tpica P
vienen dadas por

P p

pq

p(1 p)
N

Estas ecuaciones son vlidas tambin para una poblacin finita en la que se hace
muestreo con reposicin. Para poblaciones finitas en que se haga muestreo sin reposicin,
las ecuaciones quedan sustituidas por las ecuaciones
p y pq

8.3 Errores tpicos


La desviacin tpica de una distribucin de muestreo de un estadstico se suele llamar su
error tpico.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

104

UNSCH

DEPARTAMENTO DE CIENCIAS BIOLGICAS

Bioestadstica I

Prof. Reynn Cndor A.

105

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

8.4 Ejemplo de distribucin de muestreo de promedios


Ejemplo: Una poblacin consta de los nmeros 2, 3, 6, 8 y 11. Consideremos todas las
posibles muestras de tamao 2 que pueden tomarse con reposicin de esa poblacin.
Hallar (a) la media de la poblacin, (b) la desviacin tpica de la poblacin, (c) la media de
la distribucin de muestreo de medias y (d) la desviacin tpica de la distribucin de
muestreo de medias (o sea, el error tpico de medias).
Solucin
(a) la media de la poblacin,

(b) la desviacin tpica de la poblacin,

(c) la media de la distribucin de muestreo de medias


2
2
3
6
8
11

(2,2)
(3,2)
(6,2)
(8,2)
(11,2)

3
(2,3)
(3,3)
(6,3)
(8,3)
(11,3)

6
(2,6)
(3,6)
(6,6)
(8,6)
(11,6)

8
(2,8)
(3,8)
(6,8)
(8,8)
(11,8)

11
(2,11)
(3,11)
(6,11)
(8,11)
(11,11)

Las correspondientes medias muestrales son


2.0
2.5
4.0
5.0
6.5

2.5
3.0
4.5
5.5
7.0

4.0
4.5
6.0
7.0
8.5

5.0 6.5
5.5 7.0
7.0 8.5
8.0 9.5
9.5 11.0

DEPARTAMENTO DE CIENCIAS BIOLGICAS

106

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

suma de todas las medias muestrales 150

6.0
25
25

(d) la desviacin tpica de la distribucin de muestreo de medias (o sea, el error tpico de


medias).

N
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Suma

Xi

( X i X )2

2.0
2.5
4.0
5.0
6.5
2.5
3.0
4.5
5.5
7.0
4.0
4.5
6.0
7.0
8.5
5.0
5.5
7.0
8.0
9.5
6.5
7.0
8.5
9.5
11.0
150.0

16.0
12.3
4.0
1.0
0.3
12.3
9.0
2.3
0.3
1.0
4.0
2.3
0.0
1.0
6.3
1.0
0.3
1.0
4.0
12.3
0.3
1.0
6.3
12.3
25.0
135.0

Histograma de Medias muestrales


Normal
9

Media
6
Desv.Est. 2.372
N
25

8
7
6

Frecuencia

Medias
muestrales

5
4
3
2
1
0

10

12

Medias muestrales

N=25

(X

X )2

135
5.40
25

X 2 5.40 2.32
X

DEPARTAMENTO DE CIENCIAS BIOLGICAS

107

UNSCH

2
X

Bioestadstica I

2
N

Prof. Reynn Cndor A.

10.8
5.40
2

2
10.8

2.32
N
2

Problema. Resolver el problema anterior para el caso sin reposicin.


(a) la media de la poblacin,

(b) la desviacin tpica de la poblacin,

(c) la media de la distribucin de muestreo de medias


2
2
3
6
8
11

(2,2)
(3,2)
(6,2)
(8,2)
(11,2)

3
(2,3)
(3,3)
(6,3)
(8,3)
(11,3)

6
(2,6)
(3,6)
(6,6)
(8,6)
(11,6)

8
(2,8)
(3,8)
(6,8)
(8,8)
(11,8)

11
(2,11)
(3,11)
(6,11)
(8,11)
(11,11)

Las correspondientes medias muestrales son:


2.0
2.5
4.0
5.0
6.5

2.5
3.0
4.5
5.5
7.0

4.0
4.5
6.0
7.0
8.5

5.0 6.5
5.5 7.0
7.0 8.5
8.0 9.5
9.5 11.0

DEPARTAMENTO DE CIENCIAS BIOLGICAS

108

UNSCH

Bioestadstica I

Xi

2.5
4
5
6.5
4.5
5.5
7
7
8.5
9.5

1
2
3
4
5
6
7
8
9
10
Suma

( X i X )2
12.3
4
1
0.25
2.25
0.25
1
1
6.25
12.3
40.5

60

Histograma de Medias muestrales


Normal
4

Media
6
Desv.Est. 2.121
N
10

Frecuencia

Medias
muestrales

Prof. Reynn Cndor A.

10

Medias muestrales

60
6.0
10

(d) la desviacin tpica de la distribucin de muestreo de medias (o sea, el error tpico de


medias).

(X

X )2

2 Np N

N N p 1

(X

X )2

40.5
4.05
10

3.292 5 2

4.05
2 5 1

40.5
4.05 2.01
10

8.5 Ejemplo de distribucin de muestreo de proporciones


Hallar la probabilidad de que en 120 lanzamientos de una moneda
(a) entre el 40% y 60% sean caras y
(b) 5/8 o ms sean caras.
Solucin

1
2

1
2

(a) entre el 40% y 60% sean caras


El 40% de 120 es = 48
El 60% de 120 es = 72
Usaremos la aproximacin normal.
DEPARTAMENTO DE CIENCIAS BIOLGICAS

109

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Puesto que el nmero de caras es una variable discreta, nos preguntamos por la
probabilidad de que el nmero de caras est entre 47.5 y 72.5.

Nmero esperado de caras Np 120 60


2

1 1
Npq (120) 5.48
2 2
Grfica de distribucin
Normal, Media=60, Desv.Est.=5.48
0.08

0.9775
0.07

Densidad

0.06
0.05
0.04
0.03
0.02
0.01
0.00

47.5

60

72.5

Recordar:
El 40% de 120 es = 48 48 0.5 = 47.5
El 60% de 120 es = 72 72 + 0.5 = 72.5
Puesto que nuestras tablas slo presentan Z, es decir con
estandarizar, como sigue: Z

P(47.5 X 72.5) P(

2 1 , debemos

47.5

72.5

) P(

47.5 60 X 72.5 60

)
5.48

5.48

P(2.28 Z 2.28)

P(2.28 Z 2.28) P(Z 2.28) P(Z 2.28) 0.9887 0.0113 0.9774

DEPARTAMENTO DE CIENCIAS BIOLGICAS

110

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Grfica de distribucin
Normal, Media=0, Desv.Est.=1
0.9774

0.4

Densidad

0.3

0.2

0.1

0.0

-2.28

2.28

Grfica de distribucin
Normal, Media=0, Desv.Est.=1
0.4

0.6250-0.00417=0.62083

0.3

0.62083 0.5
2.65
0.0456

P(Z 2.65) 1 (Z 2.65) 1 0.9960 0.004

Densidad

(b) 5/8 o ms sean caras.


5/8=0.6250

0.2

0.1

0.0

0.004025
0

2.65

DEPARTAMENTO DE CIENCIAS BIOLGICAS

111

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

IX. Inferencia Estadstica.


La inferencia estadstica es el procedimiento por medio del cual se llega a conclusiones
acerca de una poblacin con base en la informacin que se obtiene a partir de una muestra
seleccionada de esa poblacin.

9.1 Estimacin de parmetros:


Estimacin puntual
Una estimacin puntual es un solo valor numrico utilizado para estimar el parmetro
correspondiente de la poblacin.

Estimacin por intervalos


Una estimacin por intervalos consta de dos valores numricos que definen un intervalo
que, con un grado especfico de confianza, se considera que incluye al parmetro por
estimar.

Estimador
Se dice que un estimador, por ejemplo T, para el parmetro es un estimador insesgado
de si E(T)=

Poblacin muestreada
La poblacin muestreada es la poblacin de la cual se extrae una muestra.

Poblacin objetivo
La poblacin objetivo es la poblacin de la que pretende hacer una inferencia.
Dado que se desconoce el valor de , la expresin 2 X no dice mucho. Sin
embargo, se tiene una estimacin puntual de , que es

X.

Resultara til obtener un intervalo en torno a esta estimacin puntual de ?


La respuesta es s. Suponga que se forman intervalos a partir de todos los valores posibles
de x calculados a partir de todas las muestras posibles de tamao n de la poblacin de
inters. De esa forma se tendra un gran nmero de intervalos de la forma X 2 X , con
amplitudes todas iguales a la del intervalo en torno a la desconocida. Aproximadamente
95 por ciento de estos intervalos tendra centros que caen dentro del intervalo 2 X en
torno a . Cada uno de estos intervalos que caen dentro de 2 X en torno a pueden
contener a la misma . Estas ideas se muestran en la figura 6.2.1. En dicha figura se
observa que X 1 , X 3 y X 4 caen dentro del intervalo 2 X en torno a y, en

consecuencia, los intervalos, 2 X alrededor de las medias de la muestra incluyen el valor


de . Las medias mustrales X 2 y X 5 no caen dentro del intervalo 2 X en torno a , y
los intervalos de 2 X en torno a ellas no incluyen a .

DEPARTAMENTO DE CIENCIAS BIOLGICAS

112

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

EJEMPLO. Suponga que un investigador, interesado en obtener una estimacin del nivel
promedio de alguna enzima en cierta poblacin de seres humano, toma una muestra de 10
individuos, determina el nivel de la enzima en cada uno de ellos, y calcula la media de la
= 22. Adems, que la variable de inters sigue una distribucin
muestra
aproximadamente normal, con una variancia de 45. Se desea estimar el valor de .
Solucin: Un intervalo de confianza de aproximadamente 95 por ciento para est dado
por:

X 2 X
45
10
22 2(2.1213)
17.76, 26.24
22 2

estimador (coeficiente de confiabilidad) (error estndar)


X z1 /2 X
donde z 1 / 2 es el valor de z a la izquierda de donde est 1 / 2 y a la derecha en que
se encuentra / 2 del rea bajo la curva.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

113

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Si :
0.05 1 1 0.05 0.95

0.05
1 / 2 1 1
1 0.025 0.975
2
2
0.05
/2
0.025
2
2

Grfica de distribucin

Grfica de distribucin

Normal, Media=22, Desv.Est.=2.12132

Normal, Media=22, Desv.Est.=2.12132


0.20

0.20

0.975
0.15

Densidad

Densidad

0.15

0.10

0.10

0.05

0.05

0.025
0.00

22

26.16

0.00

17.84

22

0.975 0.025 0.95

Grfica de distribucin
Normal, Media=22, Desv.Est.=2.1213
0.20

0.95

Densidad

0.15

0.10

0.05

0.00

17.84

22

26.16

Ahora, debemos observar que los valores no son lo que se muestra en la figura dada por
Minitab, esto se debe a que el valor del coeficiente de confiabilidad no es 2 si no debe ser
1.96, luego podemos resolverlo de la siguiente manera:

X 1.96 X
45
10
22 1.96(2.1213)
17.84, 26.16
22 1.96

DEPARTAMENTO DE CIENCIAS BIOLGICAS

114

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

9.2 Interpretacin del intervalo de confianza


Interpretacin probabilstica
En el muestreo repetido, de una poblacin con distribucin normal y desviacin estndar
conocida 100(1 - ) por ciento de todos los intervalos de la forma X z 1 /2 X
incluyen a la larga la media de la poblacin .

Interpretacin prctica
Cuando se hace un muestreo a partir de poblaciones que siguen una distribucin normal
y con desviacin estndar conocida, existe un 100( 1 - ) por ciento de confianza de que
el intervalo calculado X z 1 /2 X , contiene la media de la poblacin .

Precisin
A la cantidad que se obtiene al multiplicar el factor de confiabilidad por el error estndar de
la media se le llama precisin de la estimacin. Tambin, se le llama margen de error.
Coeficiente de confianza Factores de confiabilidad
1.645
0.90
1.96
0.95
2.58
0.99
EJEMPLO. Un fisioterapeuta desea estimar, con 99 por ciento de confianza, la media de
fuerza mxima de un msculo particular en cierto grupo de individuos. Se inclina a suponer
que los valores de dicha fuerza muestran una distribucin aproximadamente normal con
una variancia de 144. Una muestra de 15 individuos que participaron en el experimento
present una media de 84.3.
Solucin:
Coeficiente de confianza: 0.99
Coeficiente de confiabilidad: 2.58
Muestra: N=15
Media:

X = 84.3

Variancia:

2 144

Desviacin estndar: 2 144 12


Grfica de distribucin

Error estndar

12
15

0.14

3.0984

X 2.58 X
84.3 2.58(3.0984)
84.3 8.0
76.3, 92.3

DEPARTAMENTO DE CIENCIAS BIOLGICAS

0.99

0.12
0.10

Densidad

Normal, Media=84.3, Desv.Est.=3.0984

0.08
0.06
0.04
0.02
0.00

76.3

84.3

92.3

115

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Se dice que se tiene 99 por ciento de confianza de que la media de la poblacin est entre
76.3 y 92.3, porque al repetir el muestreo, 99 por ciento de todos los intervalos que pueden
construirse en la forma descrita, incluyen a la media de la poblacin.

9.3 Muestreo a partir de poblaciones que no presentan una distribucin normal


EJEMPLO. Un equipo de investigadores est interesado en la puntualidad de los pacientes
en las citas concertadas. En un estudio de flujo de pacientes en los consultorios de
mdicos generales se encontr que una muestra de 35 pacientes llegaba 17.2 minutos
tarde a las citas, en promedio. Una investigacin previa haba demostrado que la
desviacin estndar era de 8 minutos aproximadamente. Se tuvo la sensacin de que la
distribucin de la poblacin no era normal. Cul es el intervalo de confianza de 90 por
ciento para , que es el promedio real de impuntualidad en las citas?
Solucin: Dado que el tamao de la muestra es bastante grande (mayor que 30) y se conoce
la desviacin estndar de la poblacin, la situacin se aproxima al teorema del lmite
central y se supone que la distribucin muestral de X presenta una distribucin
aproximadamente normal. Al consultar la tabla de la distribucin Normal se encuentra
que el coeficiente de confiabilidad que corresponde a un coeficiente de confianza de 0.90
se aproxima a 1.645 si se interpola. El error estndar es de

8
35

1.3522 ,

de modo que el intervalo de confianza de 90 por ciento para es


Grfica de distribucin
Normal, Media=17.2, Desv.Est.=1.3522
0.90

0.30

17.2 1.645(1.3522)
17.2 2.2
15.0, 19.4.

0.25

0.20

Densidad

X z1 /2 X

0.15

0.10

0.05

0.00

15

17.2

19.4

Con frecuencia, cuando la muestra es lo suficientemente grande para aplicar el teorema


del lmite central, la variancia de la poblacin se desconoce. En ese caso, se sustituye esta
variancia con la de la muestra en la frmula para construir el intervalo de confianza para la
media de la poblacin.
Nota: para interpolar se realiza lo siguiente:
Z 1.65 0.9505
Z
0.95
Z 1.64 0.9495
1.65 1.64 0.9505 0.9495

1.65 Z
0.9505 0.95
0.01
2
1.65 Z
0.01
1.65 Z
2
0.01
Z
1.65
2
Z 1.645
DEPARTAMENTO DE CIENCIAS BIOLGICAS

116

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Nota:
Si se requiere conocer el valor de z cuando el nivel de confianza es 90%, por qu
usamos un valor de z0.95, cuando hacemos uso de la tabla de Daniel?
Es porque la tabla de Daniel muestra el rea bajo la curva normal P(z z0).

Por lo tanto

Grfica de distribucin
0.90 0.05 0.95 Normal, Media=0, Desv.Est.=1
0.9

0.4

Densidad

0.3

0.2

0.10

0.05
2
2

0.10

0.05
2
2

0.1

0.0

-1.645

1.645

Es por esa razn, para interpolar usamos el valor de 0.95.


Esto explicacin ser diferente dependiendo dela tabla que se emplee.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

117

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

9.4 Intervalos de confianza que utilizan la distribucin t


X
t

s
n

Para ser ms especficos, cuando se obtienen muestras a partir de una distribucin normal
cuya desviacin estndar, , se desconoce, el 100(1 ) por ciento del intervalo de
confianza para la media de la poblacin, , est dado por:

estimador (coeficiente de confiabilidad) (error estndar)


X t 1

2
n

EJEMPLO. Maureen McCauley (A-l) realiz un estudio para evaluar los efectos de un
conjunto de instrucciones de mecnica en el lugar de labores sobre el desempeo laboral
de obreros jvenes recientemente contratados. Se utilizaron dos grupos de individuos
elegidos aleatoriamente; uno de los grupos para aplicar el experimento y el otro como
grupo de control. El grupo con el que se experiment recibi una hora de capacitacin
impartida por un terapeuta ocupacional. El grupo de control no recibi esta capacitacin.
Para evaluar el esfuerzo de cada obrero para levantar, bajar, jalar y transportar objetos
dentro del entorno laboral, se utiliz una lista de cotejo para la evaluacin de trabajo
mecnico que inclua criterios de referencia. Una tarea bien hecha recibi una calificacin
de 1. El grupo de control, formado por 15 individuos, alcanz una calificacin media de
11.53 en la evaluacin, con una desviacin estndar de 3.681. Se supone que el grupo de
control se comport como una muestra aleatoria extrada de una poblacin similar de
individuos. Se pretende utilizar los datos de la muestra para estimar la calificacin media
para la poblacin.

X t 1

Grfica de distribucin
T, df=14
0.95

0.4

X =11.53
0.3

Error estndar=

s
n

3.681
15

0.9504

Coeficiente de confiabilidad
Si t 1 = t 10.05 = t 0.975
2
2

Densidad

Intervalo de confianza: 95%

0.2

0.1

0.0

-2.145

2.145

Grados de libertad = n-1 = 15-1 = 14


Luego de buscar en la tabla t, tenemos que el Coeficiente de confiabilidad es = 2.1448

X t 1

2
n

11.53 2.1448 0.9504


11.53 2.04
9.49, 13.57
DEPARTAMENTO DE CIENCIAS BIOLGICAS

118

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Este intervalo puede interpretarse con ambos puntos de vista: probabilstico y prctico.
Puede asegurarse, en un 95 por ciento, que la media, , correcta de la poblacin se
encuentra entre 9.49 y 13.57, porque al repetir el muestreo, 95 por ciento de los intervalos
construidos de igual manera incluyen a .

9.5 Intervalo de confianza para la proporcin de una poblacin


Para estimar la proporcin de una poblacin se procede en la misma forma que cuando
se estima la media de una poblacin. Se extrae una muestra de la poblacin de inters y
se calcula su proporcin p . Esta se utiliza como el estimador puntual para la proporcin
de la poblacin. Un intervalo de confianza se obtiene mediante la siguiente frmula
general:

estimador (coeficiente de confiabilidad) (error estndar)

Cuando np y n(1 - p) son mayores que 5, se puede considerar que la distribucin


muestral de p se aproxima bastante a una distribucin normal. Cuando se cumple con
esta condicin, el coeficiente de confiabilidad es algn valor de z de la distribucin normal
estndar.
El error estndar es igual p p(1 p) / n .Puesto que p , que es el parmetro que se
trata de calcular, se desconoce, se debe utilizar p como una estimacin. As, se estima
por medio de p(1 p) / n , y el intervalo de confianza de
est dado por:

100(1 ) por ciento para p

p z1 2 p(1 p) / n

EJEMPLO 6.5.1
Mathers el al. (A-12) encontraron que en una muestra de 591 pacientes internados en un
hospital psiquitrico, 204 admitieron que consumieron marihuana al menos una vez
durante su vida. Se pretende construir un intervalo de confianza de 95 por ciento para la
proporcin de individuos que consumieron marihuana durante su vida en la poblacin
muestreada de los internos del hospital psiquitrico.
Solucin:
La mejor estimacin puntual para la proporcin de la poblacin es

204
0.3452
591

El tamao de la muestra y la estimacin de p tienen una magnitud suficiente para justificar


el empleo de la distribucin normal estndar para elaborar un intervalo de confianza.
El coeficiente de confiabilidad que corresponde al nivel de confianza de 0.95 es 1.96 y la
estimacin del error estndar p , es

p p(1 p) / n

0.3452 0.6548
591

0.01956

El intervalo de confianza para p, de acuerdo con estos datos, es:


DEPARTAMENTO DE CIENCIAS BIOLGICAS

119

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

p z1 2 p(1 p) / n
p z1 /2 p
0.3452 1.96(0.01956)
0.3452 0.0383
0.3069, 0.3835
Se puede decir que se tiene 95 por ciento de confianza de que la proporcin p est entre
0.3069 y 0.3835 ya que, al repetir el muestreo, casi 95 por ciento de los intervalos
construidos en la forma de este intervalo incluyen a la proporcin p real. Con base en estos
resultados se espera, con una confianza de 95 por ciento, encontrar que entre 30.69 y
38.35 por ciento de los internados en el hospital psiquitrico tiene antecedentes de
consumo de marihuana.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

120

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

X. Determinacin del tamao de muestra.


10.1 Determinacin del tamao de la muestra para la estimacin del promedio
10.1.1 Variancia conocida

d (coeficiente de confiabilidad) (error estndar)


Error mximo tolerable = d = e
Tamao de la poblacin desconocido,
tamao de la poblacin muy grande

Tamao de la poblacin conocido

dz

dz

z 2 2
d2

N n
N 1

Nz 2 2
d 2 ( N 1) z 2 2

10.1.2 Variancia desconocida


Estimacin de

Las frmulas para el tamao de la muestra requieren del conocimiento de pero, como
ya se ha sealado, la variancia de la poblacin casi siempre se desconoce. Como
2

resultado, es necesario estimar . Las fuentes de estimacin de


ms frecuencia son las siguientes:
2

que se utilizan con

1. Se extrae una muestra piloto o preliminar de la poblacin y se puede utilizar la variancia


calculada a partir de esta muestra como una estimacin de . Las observaciones
utilizadas en la muestra piloto se toman como parte de la muestra final, de modo que n (el
tamao calculado de la muestra) n1, (el tamao de la muestra piloto) = n2 (el nmero de
observaciones necesarias para satisfacer el requerimiento total del tamao de la muestra).
2

2. A partir de estudios anteriores o similares es posible obtener estimaciones de .


2

3. Si se cree que la poblacin de la cual se extrae la muestra posee una distribucin


aproximadamente normal, se puede aprovechar el hecho de que la amplitud es
aproximadamente igual a 6 desviaciones estndar y calcular R 6 . Este mtodo
requiere algn conocimiento acerca de los valores mnimo y mximo de la variable en la
poblacin.

EJEMPLO. Un nutrilogo del departamento de salud, al efectuar una encuesta entre una
poblacin de muchachas adolescentes con el fin de determinar su ingestin diaria
promedio de protenas (medidas en gramos), busc el consejo de un bioestadstico con
respecto al tamao de la muestra que debera tomar.
Qu procedimiento debe seguir el bioestadstico para asesorar al nutrilogo? Antes de
que el estadstico pueda ayudar el nutrilogo, ste debe proporcionar tres elementos de
informacin: la dimensin deseada del intervalo de confianza, el nivel de confianza
deseado y la magnitud de la variancia de la poblacin.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

121

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Solucin: Suponga que el nutrilogo requiere un intervalo con una dimensin de


aproximadamente 10 gramos, es decir, la estimacin se debera encontrar alrededor de 5
gramos de la media de la poblacin en ambas direcciones. En otras palabras, se desea un
margen de error de 5 gramos. Suponga que se decide por un coeficiente de confianza de
0.95 y que con base en su experiencia previa, el nutrilogo percibe que la desviacin
estndar de la poblacin es probablemente de alrededor de 20 gramos.
El estadstico dispone ya de la informacin necesaria para calcular el tamao de la
muestra: z = 1.96, = 20 y d = 5. Suponga que el tamao de la poblacin es grande, as
que el estadstico puede ignorar la correccin por poblacin finita y utilizar la ecuacin
6.7.3. Con las sustituciones adecuadas, el valor de n se calcula como

z 2 2 1.962 202
n 2
61.47
d
52
Se recomienda que el nutrilogo tome una muestra de tamao 62. Al calcular el tamao de
una muestra, el resultado se redondea al siguiente nmero entero mayor si los clculos
dan un nmero con decimales.
EJEMPLO. Considerando los datos del ejemplo anterior, calcule el tamao de la muestra,
suponiendo que el tamao de la poblacin es conocida, es decir N=5000.

Nz 2 2
5000 1.962 202

54.8344091
d 2 ( N 1) z 2 2 52 (5000 1) 1.962 202

Se recomienda que el nutrilogo tome una muestra de tamao 55.


Observe que cuando se conoce N, la muestra es menor al anterior, cuando N era
desconocido.

10.2 Determinacin del tamao de la muestra para la estimacin de las proporciones


Tamao de la poblacin desconocido,
tamao de la poblacin muy grande

z 2 pq
d2

Tamao de la poblacin conocido

Nz 2 pq
d 2 ( N 1) z 2 pq

Estimacin de p
Como puede observarse, ambas frmulas requieren que se conozca p, que es la
proporcin de poblacin que posee la caracterstica de inters. Obviamente, dado que ste
es el parmetro que se desea estimar, ser desconocido. Una solucin para este problema
consiste en tomar una muestra piloto y calcular una estimacin para utilizarla en lugar de p
dentro de la frmula para n. Algunas veces el investigador tendr nocin de algn lmite
superior para p que podr utilizar en la frmula. Por ejemplo, si se desea estimar la
proporcin de alguna poblacin que presenta cierta discapacidad, es posible que se crea
que la proporcin real no puede ser mayor que, digamos, 0.30. Se sustituye entonces p por
0.30 en la frmula para n. Si es imposible obtener una mejor estimacin, se puede igualar p
a 0.5 y resolver para n. Dado que p = 0.5 en la frmula proporciona el mximo valor de n,
DEPARTAMENTO DE CIENCIAS BIOLGICAS

122

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

este procedimiento dar una muestra lo suficientemente grande para alcanzar la


confiabilidad y la dimensin del intervalo deseadas. Sin embargo puede ser ms grande de
lo necesario y resultar ms costosa que si se dispusiera de una mejor estimacin de p.
Este procedimiento se debe utilizar solamente si no se puede llegar a una mejor estimacin
de p.

EJEMPLO. Se planea realizar una encuesta para determinar qu proporcin de familias en cierta
rea carece de servicios mdicos. Se cree que la proporcin no puede ser mayor que 0.35. Se
desea un intervalo de Confianza de 95 por ciento con d = 0.05. De qu tamao se debe
seleccionar la muestra de familias?
Solucin: Si se omite la correccin por poblacin finita, se tiene

z 2 pq 1.962 0.35 0.65

349.6
d2
0.052

Por lo tanto, el tamao de la muestra es de 350.

EJEMPLO. Considerando los datos del ejemplo anterior, calcule el tamao de la muestra,
suponiendo que el tamao de la poblacin es conocida, es decir N=8000.

Nz 2 pq
8000 1.962 0.35 0.65

334.989055
d 2 ( N 1) z 2 pq 0.052 (8000 1) 1.962 0.35 0.65

Por lo tanto, el tamao de la muestra es de 335.

Observe que cuando se conoce N, la muestra es menor al anterior, cuando N era


desconocido.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

123

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

XI. Prueba de hiptesis.


Una hiptesis se define simplemente como una proposicin acerca de una o ms
poblaciones.

11.1 Tipos de hiptesis


Los investigadores se interesan en dos tipos de hiptesis: de investigacin y estadsticas.
La hiptesis de investigacin es la conjetura o suposicin que motiva la
investigacin.
Las hiptesis estadsticas se establecen de tal forma que pueden ser evaluadas por
medio de tcnicas estadsticas adecuadas.

11.2 El nivel de significacin.


El nivel de significacin es una probabilidad y, de hecho, es la probabilidad de rechazar
una hiptesis nula verdadera.

11.3 Tipos de errores.


El error que se comete cuando se rechaza una hiptesis nula verdadera se conoce como
error del tipo I. El error del tipo II se comete cuando no se rechaza una hiptesis nula falsa.
La probabilidad de cometer un error del tipo II se designa por .

Accin posible

No rechazar H0
Rechazar H0

Condicin de la hiptesis nula


Verdadera
Falsa
Accin correcta Error tipo II
Error Tipo I
Accin correcta

11.4 Prueba de hiptesis para la media de una sola poblacin


Cuando el muestreo se realiza a partir de una poblacin que sigue una distribucin normal y se
conoce la variancia de la poblacin, la estadstica de prueba para H o : o es

X o

/ n

DEPARTAMENTO DE CIENCIAS BIOLGICAS

124

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

A. Muestreo a partir de poblaciones con distribucin normal y variancia conocidas


Ejemplo. Un grupo de investigadores est interesado en conocer la edad media de cierta
poblacin. Por decirlo as, se preguntan lo siguiente: Se puede concluir que la edad media
de la poblacin es diferente de 30 aos?
Solucin:
1. Datos
n = 10

X 27
2. Supuestos
Se supone que la muestra de valores proviene de una poblacin cuyas edades siguen una
distribucin aproximadamente normal. Suponga tambin que la poblacin tiene una
variancia conocida de
3. Hiptesis

2 20 .

Hiptesis nula
H 0 la edad media de la poblacin es igual a 30
Hiptesis alterna
H A = la edad media de la poblacin es diferente de 30
H 0 : 30
H A : 30
4. Estadsticos

X o

/ n

5. Distribucin de la estadstica de prueba


Con base en el conocimiento acerca de las distribuciones mustrales y de la distribucin
normal, se sabe que la estadstica de prueba tiene una distribucin normal, con una media
de 0 y una variancia de 1, si H0 es verdadera.
6. Regla de decisin
Suponga que se quiere que la probabilidad de rechazar una hiptesis nula verdadera sea
0.05 .

DEPARTAMENTO DE CIENCIAS BIOLGICAS

125

UNSCH

Bioestadstica I

Regin de rechazo

Prof. Reynn Cndor A.

Regin de no rechazo

Regin de rechazo

Nota: La regin de no rechazo se compone de todos los valores intermedios. Se puede


establecer la regla de decisin para esta prueba como sigue: rechazar H0 si el valor
calculado de la estadstica de prueba es 1.96 o - 1.96. De otra forma, no se rechaza H0.
Por lo tanto es una prueba de hiptesis bilateral.
7. Clculo de la estadstica de prueba

27 30
20 / 10

3
2.12
1.4142

8. Decisin estadstica
Con base en la regla de decisin, se puede rechazar la hiptesis nula porque -2.12 est en la
regin de rechazo. Se puede decir que el valor calculado de la prueba estadstica tiene un
nivel de significacin de 0.05.
9. Conclusin
Se concluye que no es igual que 30 y que las acciones del administrador o mdico
debern estar de acuerdo con esta conclusin.
10. Valor de p
Grfica de distribucin
Normal, Media=0, Desv.Est.=1
0.4

Densidad

0.3

0.2

0.1

0.01700
0.0

0.01700
-2.12

2.12

p p 2 p 2 0.0170 0.0170 0.0340


Puesto que p<0.05, se tiene suficiente evidencia estadstica para rechazar la H0.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

126

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

p 0.05 : Se rechaza la H 0
p 0.05 : No se rechaza la H 0
Prueba de H0 por medio de un intervalo de confianza

27 1.96 20 / 10
27 1.96(1.4142)
27 2.7718
24.2282, 29.7718
Dado que este intervalo no incluye a 30, se dice que 30 no es un candidato para la media
que se est estimando y, por lo tanto, no es igual a 30 y se rechaza a H0. sta es la
misma conclusin a la que se lleg mediante el procedimiento de prueba de hiptesis.
Prueba de hiptesis unilateral
Con base en el ejercicio 7.2.1, en lugar de preguntarse la posibilidad de concluir que 30,
suponga que los investigadores se hubieran preguntado: Es posible concluir que < 30? La
respuesta a esta pregunta es que puede llegarse a esta conclusin si es posible rechazar la hiptesis
nula 30.
Solucin: Mediante el uso del procedimiento de los diez pasos y con base en una prueba unilateral
se llega a una decisin.
1. Datos. Ver el ejemplo anterior.
2. Suposiciones. Ver el ejemplo anterior.
3. Hiptesis.

H 0 : 30
H A : 30
La desigualdad en la hiptesis nula implica que sta comprende un nmero infinito de hiptesis. La
prueba se hace slo para el punto de igualdad, porque puede mostrase que si H 0 se rechaza
cuando la prueba se hace en el punto de igualdad, sta sera rechazada si la prueba se hiciera para
cualquier otro valor de indicado en la hiptesis nula.
4. Estadstica de prueba.

X o

/ n

5. Distribucin de la estadstica de prueba. Ver el ejemplo anterior.


6. Regla de decisin
La regla de decisin seala que se rechaza H 0 si el valor calculado de la estadstica de prueba es
menor o igual que -1.645.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

127

UNSCH

Bioestadstica I

Regin de rechazo

Prof. Reynn Cndor A.

Regin de no rechazo

7. Clculo de la estadstica de prueba. A partir de los datos, se calcula que

27 30
20 / 10

3
2.12
1.4142

8. Decisin estadstica. Se puede rechazar la hiptesis nula debido a que -2.12 < -1.645.
9. Conclusin. Se concluye que la media de la poblacin es menor a 30 y se deber actuar en
consecuencia.
10. El valor de p. El valor de p para esta prueba es 0.0170, porque P(z -2.12), cuando H 0 es
verdadera, es de 0.0170, valor que se presenta en la tabla D cuando se determina la magnitud del
rea a la izquierda de -2.12 bajo la curva normal estndar. Puede probarse una hiptesis nula
unilateral por medio de un intervalo de confianza unilateral.
Grfica de distribucin
Normal, Media=0, Desv.Est.=1
0.4

Densidad

0.3

0.2

0.1

0.01700
0.0

-2.12

B. Muestreo a partir de una poblacin con distribucin normal y variancia desconocida


Como ya se ha sealado, en general, se desconoce la variancia de la poblacin en situaciones reales
que tienen que ver con la inferencia estadstica en torno a la media de una poblacin. Cuando el
muestreo se realiza a partir de una poblacin que sigue una distribucin normal con una variancia
desconocida la estadstica de prueba H0: = 0 es

X 0
s/ n

la cual, cuando H0 es verdadera, sigue una distribucin t de Student con n -1 grados de libertad. El
siguiente ejemplo ilustra el procedimiento de prueba de hiptesis cuando se supone que la
DEPARTAMENTO DE CIENCIAS BIOLGICAS

128

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

poblacin sigue una distribucin normal y se desconoce la variancia. Esta situacin es muy comn
en la vida real.
Ejemplo. Los investigadores Castillo y Lillioja (A-l) describieron una tcnica, desarrollada por ellos,
para la canulacin linftica perifrica en seres humanos. Los autores afirman que su tcnica
simplifica el procedimiento y permite la recoleccin de volmenes convenientes de linfa para
estudios metablicos y cinticos. Los individuos estudiados fueron 14 adultos varones sanos
representativos de un rango amplio de pesos corporales. Una de las variables de medicin fue el
ndice de masa corporal (IMC) = peso (kg)/estatura2(m2). Los resultados se muestran en la tabla
7.2.1. Se pretende saber si es posible concluir que la media del IMC para la poblacin de la que se
extrajo la muestra no es 35.

1.
Datos. Los datos consisten en las mediciones del IMC de los 14 individuos, tal como se
describi previamente.
2.
Supuestos. Los 14 individuos constituyen una muestra aleatoria de una poblacin de
individuos con las mismas caractersticas.
3.

Hiptesis.

H 0 : 35
H A : 35
4.

Estadstica de prueba.

X 0
s/ n

5.
Distribucin de la estadstica de prueba. La estadstica de prueba sigue una distribucin t
de Student, con n-1 = 14-1 = 13 grados de libertad, si H0 es verdadera.
6.
Regla de decisin. Sea = 0.05. Dado que se tiene una prueba bilateral, se pone /2 =
0.025 en cada cola de la distribucin de la estadstica de prueba. Los valores de t a la derecha e
izquierda de los cuales est 0.025 del rea son 2.1604, y -2.1604.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

129

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Grfica de distribucin
T, df=13
0.4

Densidad

0.3

0.2

0.1

0.025
0.0

0.025
-2.160

2.160

La regla de decisin indica que es necesario calcular un valor para la estadstica de prueba y que se
debe rechazar H0 si el valor de t calculado es mayor o igual que 2.1604 o menor o igual que -2.1604.
7. Clculo de la estadstica de prueba. A partir de los datos de la muestra se calcula una media
igual a 30.5 y una desviacin estndar de 10.6392.

X 0
s/ n

30.5 35
10.6392 / 14

4.5
1.58
2.2834

8. Decisin estadstica. No se rechaza H0, ya que -1.58 cae en la regin de no rechazo.


9. Conclusin. La conclusin, con base en estos datos, es que la media de la poblacin de la cual se
extrajo la muestra puede ser 35.
10. El valor de p. El valor exacto de p para esta prueba no se puede obtener de la tabla E debido a
que slo presenta valores de t para percentiles seleccionados. Sin embargo, el valor p puede
enunciarse como un intervalo. En este ejemplo, -1.58 es menor que -1.350, el valor de t a la
izquierda del cual est 0. 10 del rea bajo t con 13 grados de libertad, pero mayor que -1.7709, a la
izquierda del cual est 0.05 del rea. En consecuencia, cuando H0 es verdadera, la probabilidad de
obtener un valor de t menor o igual que -1.58 es menor que 0.10, pero mayor que 0.05. Es
decir, 0.05 < p(t-1.58) < 0.10. Dado que la prueba es bilateral, debe permitirse la posibilidad de
un valor calculado de la estadstica de prueba tan grande en la direccin opuesta como el
observado. La tabla E revela que 0.05 < p(t1.58) < 0.10. EI valor de p, entonces, es de 0.10 < P<
0.20. La figura 7.2.4 muestra el valor p para este ejemplo.

En MINITAB se puede calcular el valor exacto de p

DEPARTAMENTO DE CIENCIAS BIOLGICAS

130

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Grfica de distribucin
T, df=13
0.4

Densidad

0.3

0.2

0.1

0.06906

0.06906
0.0

-1.58

1.58

p p 2 p 2 0.06906 0.06906 0.13812


C. Muestreo a partir de una poblacin que no presenta una distribucin normal
Si, como ocurre con frecuencia, la muestra en la cual se basa la prueba de la hiptesis acerca de la
media de una poblacin proviene de una poblacin que no presenta una distribucin normal, y si la
muestra es grande (mayor o igual que 30), es posible utilizar el teorema del lmite central y usar

X 0

/ n

como la estadstica de prueba. Si no se conoce la desviacin estndar de la poblacin, la prctica


comn es utilizar la desviacin estndar de la muestra como una estimacin. La estadstica de
prueba para la prueba de la hiptesis nula H0: p = p0, entonces, es

X 0
s/ n

la cual, cuando H0 es verdadera, sigue una distribucin semejante a la distribucin normal estndar
si n es grande. El razonamiento para sustituir con s a es que la muestra grande, necesaria para
que el teorema del lmite central sea aplicable, proporcionar una desviacin estndar de la
muestra que se acerca lo suficiente a .
EJEMPLO
Los objetivos de un estudio de los investigadores Wilbur et al. (A-2) eran descubrir los estados
menopusicos, los sntomas, la energa utilizada y la condicin fsica aerbica en mujeres de edad
madura y, adems, determinar las relaciones entre estos factores. Entre las variables medidas
estaba el consumo mximo de oxgeno (Vo2mx). La calificacin media de (Vo2mx) para una muestra
de 242 mujeres fue de 33.3 con una desviacin estndar de 12.14 (Fuente: Family and Community
Health, Vol. 13:3, p. 73, Aspen Publishers, Inc., ). Se pretende saber si, con base en estos datos, es
posible concluir que la calificacin media para una poblacin de mujeres con estas caractersticas es
mayor que 30.
Solucin: Se dice que los datos proporcionan suficiente evidencia para concluir que la media de la
poblacin es mayor que 30 si puede rechazarse la hiptesis nula que dice que la media es menor o
igual que 30. Para tal fin, puede llevarse a cabo la siguiente prueba:
DEPARTAMENTO DE CIENCIAS BIOLGICAS

131

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

1.
Datos. Los datos son las puntuaciones de Vo2mx para las 242 mujeres con
12.14.

X = 33.3 y s =

2.
Supuestos. Los datos constituyen una muestra aleatoria simple de una poblacin de
mujeres de edad madura con las caractersticas similares a las que se presentan en la muestra. Se
considera que las mediciones de Vo2mx siguen una distribucin normal en tal poblacin.
3.

Hiptesis.

H 0 : 30
H A : 30
4.

Estadstica de prueba. La estadstica de prueba est dada por la ecuacin 7-2.3, dado que
se desconoce.

X 0
s/ n

5.
Distribucin de la estadstica de prueba. En virtud del teorema del lmite central, la
estadstica de prueba sigue, en el peor de los casos, una distribucin aproximadamente normal con
= 0 si H0 es verdadera.
6.
Regla de decisin. Sea 0.05 . El valor crtico de la estadstica de prueba es de 1.645. Las
regiones de rechazo y de no rechazo se ilustran en la figura 7.2.5. Se rechaza H0 si se calcula z
1.645.

7.

z
8.

Clculo de la estadstica de prueba.

X 0
s/ n

33.3 30
12.14 / 242

3.3
4.23
0.7804

Decisin estadstica. Se rechaza H0 porque 4.23 > 1.645.

9.
Conclusin. Se concluye que el valor medio Vo2mx para la poblacin muestreada es mayor
que 30.
10.

El valor de p. El valor de p para esta prueba es < .001, porque 4.23 es mayor que 1.645.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

132

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Grfica de distribucin
Normal, Media=0, Desv.Est.=1
0.4

Densidad

0.3

0.2

0.1

0.0

0.00001168
4.23

11.5 PRUEBA DE HIPTESIS PARA LA PROPORCIN DE UNA SOLA POBLACIN


La prueba de hiptesis de proporciones poblacionales se realiza casi en la misma forma
utilizada para las medias cuando son satisfechas las condiciones necesarias para emplear
la curva normal. Pueden efectuarse pruebas unilaterales o bilaterales, dependiendo de la
cuestin que se plantee. Cuando se dispone de una muestra lo suficientemente grande para
la aplicacin del teorema del lmite central, la estadstica de prueba es

p p0
p0 q0
n

la cual, cuando H0 es verdadera, sigue aproximadamente una distribucin normal estndar.


EJEMPLO. En una investigacin de consumidores de drogas intravenosas en una ciudad
grande, Coates et al. (A-17) encontraron a 18 de 423 individuos con VIH positivo. Se
pretende saber si es posible concluir que menos de 5 por ciento de los consumidores de
drogas intravenosas en la poblacin muestreada tienen VIH positivo.
Solucin:
1. Datos. Los datos se obtienen a partir de la respuesta de 423 individuos de los cuales 18
tenan la caracterstica de inters (VIH positivo), es decir, p = 18/423 = .0426.
2. Supuestos. La distribucin muestral de p sigue una distribucin aproximadamente normal
de acuerdo con el teorema del lmite central.
3. Hiptesis.

H 0 : p 0.05
H A : p 0.05
Se realiza esta prueba en el punto de igualdad. La conclusin a la que se puede llegar sera
igual a la que se llegara de llevarse a cabo la prueba utilizando un valor supuesto de p mayor
que 0.05. Si H0 es verdadero, p = 0.05 y el error estndar

0.05 0.95 / 423 .

DEPARTAMENTO DE CIENCIAS BIOLGICAS

133

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Ntese que se utiliza el valor supuesto de p para calcular p . Esto se hace porque la prueba
entera se basa en la suposicin de que la hiptesis nula es verdadera. Utilizar la proporcin
muestral, p , para calcular p no sera compatible con este concepto.
4. Estadstica de prueba. La estadstica de prueba se obtiene mediante la ecuacin 7.5.1.

p p0
p0 q0
n

5. Distribucin de la estadstica de prueba. Si la hiptesis nula es verdadera, la estadstica


de prueba sigue una distribucin aproximadamente normal con una media de cero.
6. Regla de decisin. Sea = 0.05. El valor crtico de z es -1.645. Se rechaza H0 si el valor
calculado de z es -1.645.
7. Clculo de la estadstica de prueba.

0.0426 0.05

0.05 0.95

0.70

423
8. Decisin estadstica. No se rechaza H0 porque -0.70 > -1.645.
9. Conclusin. Se concluye que la proporcin de la poblacin que tiene VIH positivo
probablemente sea 0.05 o ms.
10. Valor de p. p = 0.2420.

REFERENCIA BIBLIOGRFICA
Daniel W. Bioestadstica. Cuarta edicin. Limusa Wiley. 2006.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

134

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

XII Anlisis de Asociacin


12.1 Distribucin Ji cuadrada: Prueba de independencia
Otro uso, quiz el ms frecuente, de la distribucin ji-cuadrada es el de probar la hiptesis nula que
indica que dos criterios de clasificacin son independientes cuando se aplican al mismo conjunto de
entidades. Se dice que dos criterios de clasificacin son independientes si la distribucin de un criterio
es la misma, sin importar cul sea la distribucin del otro. Por ejemplo, si el estado socioeconmico y
el rea de residencia de los habitantes de cierta ciudad son independientes, se esperara encontrar
la misma proporcin de familias en los grupos socioeconmicos bajo, medio y alto en todas las reas
de la ciudad.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

135

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Solucin:
1. Datos. Vase la tabla 12.4.3.
2. Supuestos. Se considera que la muestra disponible para el anlisis es equivalente
a una muestra aleatoria extrada de la poblacin de inters.
3. Hiptesis.
H0: el estadio del PVH y la etapa de infeccin por VIH son independientes.
HA: las dos variables no son independientes.
Sea = 0.05.
4. Prueba estadstica. La prueba estadstica es

Grfica de distribucin
Chi-cuadrada, df=2
0.5

Densidad

0.4

0.3

0.2

0.1

0.0

0.05
0

DEPARTAMENTO DE CIENCIAS BIOLGICAS

5.991

136

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Nota: los esperados se calculan de la siguiente manera.


Esperado
VIH
Seropositivo,
Seropositivo,
Seronegativo
sintomtico
asintomtico
(33x37)/96=12.72 (33x37)/96=6.94
(33x37)/96=17.34
Positivo
(33x59)/96=20.28 (33x59)/96=11.06 (33x59)/96=27.66
Negativo
33
18
45
Total

Total
37
59
96

REFERENCIA BIBLIOGRFICA
Daniel W. Bioestadstica. Cuarta edicin. Limusa Wiley. 2006.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

137

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

XIII. Regresin simple


13.1 Regresin
El anlisis de regresin es til para averiguar la forma probable de las relaciones entre las variables,
y el objetivo final, cuando se emplea este mtodo de anlisis, es predecir o estimar el valor de una
variable que corresponde al valor dado de otra variable.

Y (das de
x (horas de
la estacin
luz por da)
de cra)
12.8
110
13.9
54
14.1
98
14.7
50
15
67
15.1
58
16
52
16.5
50
16.6
43
17.2
15
17.9
28

DEPARTAMENTO DE CIENCIAS BIOLGICAS

138

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Diagramas de dispersin

DEPARTAMENTO DE CIENCIAS BIOLGICAS

139

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

a: representa el valor medio de la variable Y|X = 0, que en muchas ocasiones carece de


sentido.
b: representa la variacin de la variable Y, cuando X aumenta o disminuye una unidad.
Interpretacin de b: El coeficiente de 15.11, negativo, indica que, un incremento de 1 una hora de
luz por da genera una disminucin de 15.11 das de la estacin de cra.

Otros tipos de regresin.


Regresiones mltiples, Regresin logstica, etc.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

140

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

XIV. El modelo de correlacin.


14.1 Correlacin
Por otra parte, ei anlisis de correlacin se refiere a la medicin de la intensidad de la relacin entre
variables. Cuando se calculan mediciones de correlacin a partir de un conjunto de datos, el inters
recae en el grado de correlacin entre las variables.

14.2 El coeficiente de correlacin.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

141

UNSCH

DEPARTAMENTO DE CIENCIAS BIOLGICAS

Bioestadstica I

Prof. Reynn Cndor A.

142

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

La Figura 11.14 proporciona una escala sugerida para interpretar r. De acuerdo con la
escala, la correlacin -0.33 se describe como la correlacin negativa dbil.
Conclusin: las variables X e Y presentan una ligera correlacin negativa, donde r = -0.33.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

143

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

14.3 El coeficiente de determinacin.

El coeficiente de determinacin puede utilizarse para justificar la escala de correlacin de la Figura


11.14. Cualquier correlacin que se site estrictamente entre -0.5 y 0.5 se considera dbil, porque el
r2 de estos valores es inferior a 0.25. Para estos valores, menos del 25 % de la variacin en Y se
atribuye a una asociacin lineal con X; ms del 75 % de la variacin en Y no est explicada. Los
coeficientes de correlacin moderados tienen valores r2 que, como mnimo, son 0.25, pero inferiores
a 0.81. Para decir que una correlacin es fuerte, deseamos que su valor absoluto sea al menos 0.9.
En este caso, el porcentaje de variacin en Y explicado por su asociacin lineal con X es sustancial
en el sentido de que es del 8 1 % o ms.

REFERENCIA BIBLIOGRFICA

Blair R. Clifford y Richard A. Taylor. 2008. Bioestadstica. Pearson Educacin,


Mxico, 2008
Daniel W. Bioestadstica. Cuarta edicin. Limusa Wiley. 2006.
Milton, J. 2007. Estadstica para biologa y ciencias de la salud. McGRAWHILL/INTERAMERICANA DE ESPAA, S. A. U.

DEPARTAMENTO DE CIENCIAS BIOLGICAS

144

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

REGRESIN LINEAL Y CORRELACIN


Problema 1. Peso promedio X y consumo de alimento Y de 50 gallinas provenientes de 10 razas
White Leghorn.
Peso del
cuerpo

Consumo de
alimentos

Xi

Yi

a.
b.
c.
d.

4.6
87.1
5.1
93.1
4.8
89.8
4.4
91.4
5.9
99.5
4.7
92.1
5.1
95.5
5.2
99.3
4.9
93.4
5.1
94.4
Elaborar el diagrama de dispersin de peso promedio X y consumo de alimento Y
Calcular la recta de regresin del consumo de alimentos en funcin del peso del cuerpo.
Realizar el ajuste de la recta.
Cunto es la media de la poblacin de Y para X=5.5 lbs del peso de cuerpo?
Solucin:

a. Elaborar el diagrama de dispersin de peso promedio X y consumo de alimento Y


102
100

5.2, 99.3

98

96
94
92

4.4, 91.4

90

5.9, 99.5

5.1, 95.5
4.9, 93.4 5.1, 94.4
5.1, 93.1
4.7, 92.1
4.8, 89.8

88

4.6, 87.1

86
4

4.5

5.5

X
Figura: Diagrama de dispersin de peso promedio X y consumo de alimento Y

b. Calcular la recta de regresin del consumo de alimentos en funcin del peso del cuerpo.
DEPARTAMENTO DE CIENCIAS BIOLGICAS

145

UNSCH

Bioestadstica I

Peso del cuerpo

Consumo de
alimentos

Xi

Yi

X i2

4.6
5.1
4.8
4.4
5.9
4.7
5.1
5.2
4.9
5.1

49.8

49.8
4.98
10

935.6
93.56
10

X i Yi

87.1
93.1
89.8
91.4
99.5
92.1
95.5
99.3
93.4
94.4

935.6

Prof. Reynn Cndor A.

21.16
26.01
23.04
19.36
34.81
22.09
26.01
27.04
24.01
26.01

2
i

249.54

400.66
474.81
431.04
402.16
587.05
432.87
487.05
516.36
457.66
481.44

X Y

i i

4671.1

Coeficiente de regresin b:

n X i Yi X i Yi
n X X i
2
i

10 4671.1 49.8 935.6


7.69 lbs de alimento por libra de
10 249.54 49.82

gallina.
Interpretacin de b: Para un aumento de una libra en el peso del cuerpo, el consumo de alimento
es de 7.69 libras.
Intercepto a: nos indica cunto es Y cuando X = 0, generalmente no tiene interpretacin.

a Y bX
a 93.56 7.69 4.98 55.26
Ecuacin de la recta:

Y a bX
Y 55.26 7.69 X

c. Realizar el ajuste de la recta.


DEPARTAMENTO DE CIENCIAS BIOLGICAS

146

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Y a bX
Y i 55.26 7.69 X i

Xi
4.6

Y 4.6 55.26 7.69 4.6 90.634

5.1

Y 5.1 55.26 7.69 5.1 94.479

4.8

Y 4.8 55.26 7.69 4.8 92.172

4.4

Y 4.4 55.26 7.69 4.4 89.096

5.9 Y 5.9 55.26 7.69 5.9 100.631


4.7

Y 4.7 55.26 7.69 4.7 91.403

5.1

Y 5.1 55.26 7.69 5.1 94.479

5.2

Y 5.2 55.26 7.69 5.2 95.248

4.9

Y 4.9 55.26 7.69 4.9 92.941

5.1

Y 5.1 55.26 7.69 5.1 94.479

102
y = 7.6901x + 55.263
R = 0.6699
5.2, 99.3

100
98

96
4.9, 93.4

94

5.9, 99.5

5.1, 95.5
5.1, 94.4
5.1, 93.1

92

4.7, 92.1

4.4, 91.4

90

4.8, 89.8

88
4.6, 87.1
86
4

4.2

4.4

4.6

4.8

5.2

5.4

5.6

5.8

Figura: Peso promedio X y consumo de alimento Y


d. Cunto es la media de la poblacin de Y para X=5.5 lbs del peso de cuerpo?

Y 5.5 55.26 7.69 5.5 97.6 lb de alimentos

DEPARTAMENTO DE CIENCIAS BIOLGICAS

147

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

Problema 2. En un grupo de 8 pacientes se miden las cantidades antropomtricas peso y edad,


obtenindose los siguientes resultados:
Edad
X
12
8
10
11
7
7
10
14
a.
b.

Peso

Y
58
42
51
54
40
39
49
56
Existe una relacin lineal importante entre ambas variables?
Calcular la bondad del ajuste (coeficiente de determinacin)

a. Existe una relacin lineal importante entre ambas variables?


Para saber si existe una relacin lineal entre ambas variables se calcula el coeficiente de
correlacin lineal, que vale:
Edad
X

Peso

X2

Y
12
8
10
11
7
7
10
14

58
42
51
54
40
39
49
56

X 79 Y 389 X
r

Y2

XY

144
64
100
121
49
49
100
196
2

823

3364
1764
2601
2916
1600
1521
2401
3136

696
336
510
594
280
273
490
784

19303

XY 3963

n XY X Y
n X 2 ( X ) 2 n Y 2 ( Y ) 2

8 3963 79 389
8 823 (79) 2 8 19303 (389)2

DEPARTAMENTO DE CIENCIAS BIOLGICAS

973
1031.66322

148

UNSCH

Bioestadstica I

Prof. Reynn Cndor A.

r 0.9431
El coeficiente de correlacin lineal es 0.9431, por lo tanto el ajuste lineal es muy bueno.
b. Calcular la bondad del ajuste
Para determinar la bondad de ajuste se calcula el coeficiente de determinacin ( r 2 ).

r 2 0.94312
r 2 0.8894
La bondad de ajuste es r 0.8894 , por tanto podemos decir que el 88,94% de la variabilidad del
peso en funcin de la edad es explicado mediante la recta de regresin correspondiente. Lo mismo
podemos decir en cuanto a la variabilidad de la edad en funcin del peso. Del mismo modo puede
decirse que hay un 100 88, 94 % = 11, 06 % de varianza que no es explicada por las rectas de
regresin.
2

DEPARTAMENTO DE CIENCIAS BIOLGICAS

149

Das könnte Ihnen auch gefallen