Libro de Estadistica Inferencial

1
La presentacin y disposicin en conjunto de

ESTADISTICA INFERENCIAL PARA PROFESIONALES DE LA SALUD
Son propiedad de la UNIVERSIDAD DE GUADALAJARA
Ninguna parte de esta obra puede ser reproducida o transmitida, mediante ningn sistema o
mtodo, electrnico o mecnico (INCLUYENDO EL FOTOCOPIADO, la grabacin o
cualquier sistema de recuperacin y almacenamiento de informacin), sin consentimiento por
escrito de la Institucin.
Derechos Reservados:
D.R.
UNIVERSIDAD DE GUADALAJARA
Centro Universitario de Ciencias de la Salud
Departamento de Salud Pblica
Av. Sierra Nevada 950 Edificio N, Colonia Independencia.
C.P. 44340 Guadalajara, Jalisco Mxico.
ISBN13:
Impreso en Mxico
Fecha: 12 de enero de 2013
Tamao de la Muestra
Cuando se analizan a todos los sujetos de una poblacin se tiene un censo

y si slo se analizan una parte de la poblacin y cumple con la condicin de ser
representativa de toda la poblacin, se tiene una muestra a travs de un muestreo
probabilstico. La muestra corresponde a una parte de una poblacin la cual
rene caractersticas que se pretenden estudiar. Cuando se conoce el nmero de
individuos que la componen, se habla de poblacin finita y, cuando no se
conoce su nmero, de poblacin infinita.
Para determinar el tamao de la muestra debe tomarse en consideracin los siguientes puntos:
El a) margen de certeza, b) variabilidad, c) error de muestreo, d) recursos
econmicos, f) el tiempo y, g)la informacin que se disponga del fenmeno a
investigar.
a)Margen de certeza.
El nivel de confianza (MC) corresponde a la probabilidad de que la
estimacin efectuada se ajuste a la realidad.
b)Variabilidad.
Corresponde a la cantidad de variacin del fenmeno, conocida como
puntuacin Z; para su medicin se recurre a la distribucin de la campana de
Gauss y la variabilidad se elige de acuerdo al margen de certeza.
c)Error de muestreo.
Este error equivale al hecho que se obtienen conclusiones sobre cierta
realidad a partir de la observacin de slo una parte de ella. Para un 99% de
3
margen de certeza, debe existir un 1% de error, es decir la probabilidad de 0.01 y

para el 95% equivale a un 5% o 0.05. Lo contrario del error corresponde a la
precisin (d), lo cual asegura un error estndar menor de 0.01.
En este punto existe una interrogante De donde ser obtenida la
variabilidad y el margen de certeza?.
A partir de la consideracin de la distribucin de la campana de Gauss.
Una proporcin constante del rea total, bajo la curva normal, se situar entre la
media y cualquier distancia dada de x (que corresponde a la observacin),
medida en unidades de la desviacin estndar s, la cual posee tres
puntuaciones
tanto
positivas
como
negativas.
Este
principio
se
aplica
universalmente a todos los datos normales distribuidos. De tal forma que el rea
bajo la curva normal entre 1
3
siempre ser 68%, 2s corresponde a 95% y
equivale a 99%.
Distribucin segn la ley de probabilidad de la campana de Gauss

Margen de
Error de
Desviacin
Variabilidad
Certeza
muestreo
Estndar
Valor Z
MC
(d)
99 %
1% o sea * 0.01
2.57
95%
5% o sea * 0.05
1.96
68%
---------------
1.64
*El porcentaje se convierte a decimales (1 entre 100 = 0.01) porque se considera

una probabilidad y sta no debe pasar de la unidad.
d)Recursos Econmicos
En este apartado se decide el nivel de confianza, variabilidad y precisin
del tamao de la muestra, dependiendo del presupuesto disponible para la
realizacin del estudio.
f)Tiempo.
El tiempo es fundamental para la consideracin del tamao de la muestra,
lo que a su vez determina que margen de certeza tenga que utilizarse.
g)La informacin que se disponga del fenmeno a investigar.
Es difcil emplear una muestra probabilstica en fenmenos poco
investigados, por ejemplo, en patologas inusuales, tales como: Sndrome de
Capgras o Sndrome de Kabuki, la primera corresponde a un trastorno
psiquitrico, mientras que la segunda a un trastorno gentico con alteraciones en
el neurodesarrollo.
De lo anterior se generan las siguientes tres reglas:

A mayor variabilidad
Mayor tamao de la muestra
A mayor precisin
A mayor margen de certeza
CLCULO DE TAMAO DE LA MUESTRA PARA ESTUDIO DESCRIPTIVOS

Para calcular el tamao de la muestra en estudios descriptivos y/o muestras
aleatorias existen dos frmulas:
Para la poblacin infinita no existe lmite en el nmero de individuos
(Cuando se desconoce el universo de la poblacin).
n=
Z 2 (p * q)
d2
Z 2 (p * q)
n=
d2
n= muestra
z= variabilidad (se elige de acuerdo a la campana de Gauss)
p= porcentaje a favor del fenmeno (se debe convertir a unidad: %/100), porque
se considera una probabilidad
y sta no debe pasar de la unidad. Cuando se
desconoce p, se utiliza el 50%

q= (1-p)
d= precisin y/o error de muestreo
1. La Poblacin finita tiene un nmero definido de individuos (cuando se
conoce el universo de la poblacin).
n=
Z 2 ( p*q ) N
( d)
N + Z 2 ( p*q )
n= muestra
z= variabilidad (se elige de acuerdo a la campana de Gauss)
p= porcentaje a favor del fenmeno (se debe convertir a unidad: %/100) cundo
no se conoce se utiliza el 50%.
q= (1-p)
N= universo poblacin total
d= precisin y/o error de muestreo.
Ejemplo para poblacin finita:

Se investiga en la ciudad de Guadalajara la diabetes mellitus, de acuerdo
al Sistema nico de vigilancia epidemiolgica, 2010 (SUIVE) hay 9,826
enfermos y el porcentaje es de 1.14. Se decidi el 5% de error, con un margen
de certeza de 95%.
Procedimiento:
1. Despejar la frmula:
n=
Z 2 ( p*q ) N
( d)
N + Z 2 ( p*q )
* (Indica multiplicacin)
Z= 1.96 (porque se eligi el 95% de margen de certeza)
p= 1.14, se tiene que convertir en fraccin (57/100) = 0.011
q= 1-.0.011= 0.989 (1-p)
d= 5% se convierte a fraccin (5%100 = 0.05) porque se considera una
probabilidad y sta no debe pasar de la unidad.
N= 9,826 enfermos de diabetes en la ciudad de Guadalajara, Jalisco
Procedimiento del clculo de la frmula

N= 9,826
p= 0.011
1.96 2 (0.011*0.989)(9,826)
z= 1.96
(.05) 2 9,826 + 1.96 2 (0.011)(0.989)
q= 0.989
d 2 = 0.0025
3.8416 (0.011) (9,826)
z 2 = 3.8416
(0.0025) 2 9,826+3.8416 (0.011)

410.6
24.61
Z 2 *p*q*N= 410.6
p*q= 0.011
d 2 *N= 24.57
n=17 enfermos que estudiar
Z 2 *p*q= 0.042
d 2 *N+ 24.61
Z 2 *p*q=
n= 17
Ejercicio 9
Se pretende obtener una muestra de la poblacin de Jalisco de acuerdo al

censo del 2000 correspondiente a 6 652 232 habitantes, en relacin a una
enfermedad que representa
en el 2% de la poblacin general, tambin
quiere obtenerse datos de la muestra con la probabilidad de ser errnea,

una vez cada 100 ocasiones que se repita.
Determine el tamao de la muestra
N=
p=
q=
d=
Repuesta:
n=
Muestreo
Muestreo es el procedimiento para recolectar muestras, es una herramienta de la

investigacin cientfica, la funcin general es que parte de la poblacin
(muestra) debe examinarse y que cumpla la condicin de ser representativa para
realizar inferencias.
Hay dos tipos de muestreos:
1. Muestreo probabilstico.
2. Muestreo no probabilstico.
Muestreo probabilstico.
Se fundamenta en que todos los individuos tienen la misma probabilidad de ser
elegidos para formar parte de una muestra y, por lo tanto, todas las posibles
muestras (n) tienen la misma probabilidad de ser elegidas. Solo estos mtodos de
muestreo probabilstico aseguran la representatividad de la muestra, por tanto,
los ms recomendables.
Tipos de muestreos probabilsticos:
Muestreo simple
Muestreo sistemtico
Muestreo estratificado
Muestreo por conglomerados
10
ESQUEMA DE MUESTREO PROBABILISTICO
Aleatorio Simple
Sistemtico
Estratificado
Conglomerados
11
Muestreo simple: Es aquel donde cada individuo tiene la misma probabilidad de

ser seleccionado como parte de la muestra y esto determina su confiabilidad,
generalmente se utilizan en tamao de muestra pequea.
Procedimiento:
1. Tener la muestra
2. Listar todos los miembros de la poblacin
3. Cada miembro del marco de muestreo se le asigna un nmero exclusivo
4. Aplicar un procedimientos de seleccin (Nmeros aleatorios, tablas
aleatorios, y/o sorteo)
EJEMPLO:
Se investiga en la ciudad de Guadalajara la diabetes mellitus, de acuerdo
al Sistema nico de vigilancia epidemiolgica, 2010 (SUIVE) hay 9,826
enfermos y el porcentaje es de 1.14. Se decidi el 5% de error, con un margen
de certeza de 95%.
Procedimiento del Muestreo Simple
Procedimiento
Resultados
Tener la muestra
17 enfermos de diabetes mellitus (se

calcula con anterioridad, en el capitulo
de muestra de este libro plantea como
realizar el clculo del tamao de la
muestra).
Listar todos los miembros de la Se tiene que listar los 9,826 enfermos de
poblacin
Cada
diabetes de la ciudad de Guadalajara
miembro
del
marco
de En este caso es del uno al 9,826
muestreo se le asigna un nmero

exclusivo
Aplicar
seleccin
un
procedimiento
(Nmeros
de
aleatorios,
tablas aleatorios y/o sorteo)
12
Muestreo sistemtico:
Este procedimientos se utiliza en poblaciones amplias y que estn numeradas,
con este muestreo se asegura una distribucin espacial.
Procedimiento:
1. Tener la muestra (n)
2. Conseguir un listado de los N elementos de la poblacin
3. Seleccionar los elementos de la lista.
Ejemplo:
El resultado del tamao de la muestra de enfermos de diabetes mellitus en
Guadalajara fue 17.
Procedimiento
Resultados
Tener la muestra (n)
17 enfermos de diabetes mellitus (se calcula con

anterioridad, en el capitulo de muestra de este libro
plantea como realizar el clculo del tamao de la
muestra).
Conseguir un listado de los N
Se tiene que listar los 9,826 enfermos de
elementos de la poblacin
diabetes de la ciudad de Guadalajara

docentes
9826/17=578, este resultado significa que se
estudiar un enfermo de 578 en 578 de la lista
general hasta completar los 17 personas enfermas
a investigar.
Muestreo estratificado:
Se utiliza cuando se tiene una poblacin variable (heterognea), se agrupan en
estratos de acuerdo a un marco referencial.
Ejemplo:
El resultado del tamao de la muestra de enfermos de diabetes mellitus en
Guadalajara fue 17. La variable de inters es sexo.
13
Procedimiento:
1. Elegir la variable de inters
2. Una vez calculado el tamao muestral, ste se reparte de manera
proporcional entre los distintos estratos definidos en la poblacin usando
una simple regla de tres.
Procedimiento
Resultados
Elegir la variable de inters
Se eligi la variable sexo
Una vez calculado el tamao muestral, (se n=17

calcula con anterioridad, en el captulo de
Regla de tres
muestra se plantea como realizar el clculo
17- 100
del tamao de la muestra). La muestra se
X - 50%
reparte de manera proporcional entre los 17*50/100=9

distintos estratos definidos en la poblacin 9 Hombres
usando una simple regla de tres.
9 Mujeres
Este es el mtodo de afijacin
proporcional.
*indica multiplicacin
Muestreo por conglomerados:

En este muestreo las unidades de anlisis (quien sern medidos, en este caso los
sujetos que se aplicar un instrumento) se encuentran cerradas en lugares fsicos,
o geogrficos, por ejemplo en el pas de Mxico se encuentran los estados,
municipios y localidades. En el Centro Universitario los departamentos
acadmicos, academias, programas acadmicos.
Procedimiento:
Se realizan varias fases de muestreo sucesivas (polietpico).
La necesidad de listados de las unidades de una etapa se limita a aquellas
unidades de muestreo seleccionadas en la etapa anterior.
Ejemplo:
14
El resultado del tamao de la muestra de personas enfermas de diabetes mellitas

fue de 17. Los conglomerados o reas, tambin conocidos por racimos en el caso
de este ejemplo son las colonias del municipio de Guadalajara.
Procedimiento:
1. Identificar cuntos enfermos se encuentran en cada colonia.
2. Calcular la fraccin constante.
3. Multiplicar la poblacin de cada conglomerado (Nh) con la fraccin
constante (fh) y dar como resultado la muestra de cada conglomerado.
Fraccin constante n/N
fh= 0.0017
Poblacin Total
Muestra
N= 9826
n= 17
Total de
Poblacin del
conglomerado
(Nh)
3000
1500
800
589
2334
1603
9826
Colonia
Colonia A
Colonia B
Colonia C
Colonia D
Colonia F
Colonia G
Total
15
Muestra del
conglomerado
(nh)
Nh*fh
5
3
1
1
4
3
17
MUESTREO NO PROBABILSTICO
La tendencia de este procedimiento se basa en la generacin de muestras menos
precisas y representativas que el muestreo probabilstico.
Tipos de muestreo no probabilstico
Accidental o de Conveniencia:
En una esquina de la calle o cualquier lugar, se establece un tiempo.
Por Cuota:
Fijar una cantidad de sujetos a estudiar.
Intencionado o de criterio:
El investigador
conoce la poblacin y sus elementos que se puedan utilizarse
para escoger los casos que se incluirn en la muestra.
16
PROCEDIMIENTOS DE SELECCIN
Para asegurar que las unidades de anlisis o elementos muestrales se eligieron
aleatoriamente, es decir que cada elemento tenga la misma probabilidad de ser
elegido. Se utilizan tres procedimientos de seleccin:
1. Sorteo o Rifa
En el cual se enumeran todos elementos de la muestra del 1 a n. escribir el
nmero consecutivo en papeletas, una papeleta por cada elemento, colocarlas en
una caja y mezclarlas para obtener de la caja el nmero de papeletas hasta
obtener el total de la muestra.
2. "Volado"
Este procedimiento es poco comn, el cual corresponde a lanzar al aire una
moneda para la eleccin del total de la muestra, segn el resultado, ya sea cara o
cruz de la moneda.
3. Nmeros aleatorios o nmeros random
Son mecanismos de probabilidad para los cuales se utilizan tablas aleatorias
como las generadas por la corporacin Rand en 1955. La tabla contiene un milln
de nmeros aleatorios y 100,000 abscisas aleatorias de la distribucin normal
tipificada [RAN55], o con programas de cmputo.
17
Hiptesis
PASOS
PARA
EL
USO
DE
PRUEBAS
ESTADSTICAS
EN
9
LA
INVESTIGACIN
I.
Formulacin de la hiptesis de nulidad (Ho).
II.
Eleccin del modelo estadstico
III.
Especificacin del nivel de significancia (a) y de la muestra (n).
IV.
Definicin de la regin de rechazo.
I.
Formulacin de la hiptesis de nulidad (Ho).

La hiptesis de nulidad (Ho) es una suposicin de diferencias nulas. Es
planteada por lo comn con la intencin de ser rechazada. Si se rechaza, puede

aceptarse la hiptesis alterna (H 1 ) La Hiptesis alterna es la prediccin que se
deriva de la teora que se est probando.
Al hacer una decisin acerca de diferencias sucede lo siguiente:
Si se rechaza la Hiptesis nula (Ho) se acepta la alterna (H 1 )
Si se rechaza la hiptesis alterna (H 1 ) se acepta la nula (Ho)
18
Cada prueba estadstica tiene su propio planteamiento de hiptesis nula

por ejemplo la prueba t de student plantea lo siguiente :
Ho: 1 = 2
La media de la primera poblacin es igual a la media de la
segunda poblacin.
H1: 1 2
Lo media de la primera poblacin No es igual a la media
de la segunda poblacin.
EJEMPLOS DE HIPOTESIS DE INVESTIGACION :
El fumar cigarros ocasiona cncer de pulmn.
Los protestantes no tienen la misma taza de suicidio que los catlicos.
II. Eleccin del modelo estadstico

Se debe de tomar en cuenta el tamao de la poblacin, el tipo de escala y la
hiptesis a comprobar
III. Especificacin del nivel de significancia () y de la muestra (n).
Cuando las hiptesis de nulidad y alternas han sido enunciadas y
seleccionada la prueba estadstica, el paso a seguir es especificar el nivel de
significacin (), los valores comunes son 0.05 y 0.01.
El investigador debe escoger el nivel de significancia tomando en cuenta
lo que esta estudiando, Por ejemplo si se estudia los efectos teraputicos de la
ciruga del cerebro y en la investigacin tecnolgica, el investigador debe
escoger el nivel ms severo (0.01)
Al informar el investigador de sus resultados debe mencionar el nivel con el que
ha trabajado.
Por lo general el nivel de significancia ms comn es el de 0.05, porque se
considera que la salud tiene que ver con variables de carcter social. Una nota
importante es que antes de aplicar la prueba estadstica elegida se debe de elegir
el nivel de significancia.
19
Se debe de recordar que la probabilidad no debe de pasar de 1, por ello se

puede elegir; 0.01, 0.02, 0.03, 0.04, 0.05.
IV Definicin de la regin de rechazo .
Aceptacin de Hiptesis Alterna:

.04
.03
.02
.01
.001
.002
.003
.004
.005
.006
.007
.008
.009
.0001
HO
H1
0.05
20
Chi Cuadrado
10
La prueba de chi cuadrado (X 2 ) se usa para hacer comparaciones entre dos

o ms muestras.
La prueba X 2 requiere que las frecuencias esperadas (E) en cada celdilla no sean
demasiado pequeas. Cuando rebasan el mnimo, la prueba no puede usarse
adecuada ni significativamente.
Se utiliza cuando son datos de escala nominal: slo se requieren las frecuencias.
El resultado de X 2 se decide si existen diferencias significativas entre los
dos grupos.
En el caso de 2 por 2.
Si las frecuencias estn en una tabla de contingencia 2 por 2, la decisin
concerniente al uso de X 2 debe guiarse por estas consideraciones:
1. Cuando N es mayor de 40, se usa X corregida por la continuidad.
2. Cuando N est entre 20 y 40, la prueba X , puede usarse en el caso de que
todas las frecuencias esperadas sean de 5 o ms (Correccin de Yates). Si
la frecuencia esperada ms pequea es menor de 5, se usa la prueba de la
probabilidad exacta de Fisher. Cuando la N es menor de 20, se usa la
prueba Fisher en todos los casos.
FORMULA:
O= Observados
E= Esperados
21
Se calculan las frecuencias observadas en una tabla de contingencia (K)

(r), usando las columnas (K) para los grupos y las filas (r) para las condiciones.
Se determina la frecuencia esperada para cada una de las celdillas para obtener el
producto de los totales marginales comunes a ella y dividirlo por N.
OBSERVADOS
ESPERADOS
Tr1 Tr1= A+B
TK1*Tr1/N TK2*Tr1/N
Tr2 Tr2= C+D
TK1*Tr2/N TK2*Tr2/N
TK1=A+C
TK2=B+D
Ejemplo:
Con una muestra aleatoria de 36 personas, un investigador recolect datos sobre
el hbito de fumar y el cncer de pulmn. Se desea asociar con un alfa de 0.05.
Supngase que resultarn los datos de la tabla 1.1.
TABLA 1.1.
Cncer
Cncer
Hbito de fumar
SI
NO
TOTAL Hbito de fumar
Si
15
20 Tr1
11.667
8.333
20
No
10
16 Tr2
9.333
6.667
16
TOTAL
21
15
36
21
15
36
Tk1
Tk2
22
PROCEDIMIENTO:
Sacar las frecuencias esperadas:
De la celda A se multiplica el total de la columna uno (TK1) por el total del
rengln uno (Tr1) y se divide con el total de la muestra (N) 21*20/36=11.667
De la celda B se multiplica el total de la columna dos (TK2) por el total del
rengln uno (Tr1) y se divide con el total de la muestra (N) 15*20/36=8.333
De la celda C se multiplica el total de la columna uno (TK1) por el total del
rengln dos (Tr2) y se divide con el total de la muestra (N) 21*16/36=9.333
De la celda D se multiplica el total de la columna dos (TK2) por el total del
rengln dos (Tr2) y se divide con el total de la muestra (N) 15*16/36=6.667
Despejar la frmula:
PASOS:
1. Se resta los observados y esperados de cada celda
2. Se eleva al cuadrado el resultado de la resta de observados y esperados de
cada celda
3. El resultado de la resta de observados y esperados elevados al cuadrado se
divide entre los esperados de cada celda
4. Se suman los resultados de paso nmero tres y se obtiene la X 2 .
Paso 1
Paso 2
Paso3
(O-E)
(O-E)
(O-E)/E
Celda A
15
11.66667 3.3333333
11.11
0.95
Celda B
8.333333 -3.3333333
11.11
1.33
Celda C
9.333333 -3.3333333
11.11
1.19
Celda D
10
6.666667 3.3333333
11.11
1.67
Paso 4
x=
5.14
23
III. Buscar en la tabla de chi cuadrada con un nivel de significancia (a= alfa)
de 0.05.
IV. Clculo de los grados de libertad (se multiplican las columnas (K) menos
1 por renglones (r) menos1).
gl= (K-1) (r-1).
2-1=
2-1=1
1*1=1
Se localiza en la tabla gl=1 y con la a=0.05 (fijada con anterioridad) siendo el
valor X2 (tabaluda) de 3.84.
V. LA DECISIN:
Si p es igual o menor que a se rechaza la hiptesis nula (Ho) y se acepta la
hiptesis alterna (Hi).
Ho: El hbito de fumar y el cncer de pulmn son independientes.
H1: El hbito de fumar y el cncer de pulmn no son independientes.
VI. CONCLUSIN:
Aceptamos H1: El hbito de fumar y el cncer de pulmn no son
independientes.
Si hay diferencia significativa entre el hbito de fumar y el cncer de
pulmn.
24
Correccin de Yates
10
Se utiliza cuando N est entre 29 y 40, la prueba y las frecuencias observadas o

esperadas sean de 5 o menores de 10. En datos de escala nominal.
FRMULA:
O= Observados
E= Esperados
Se calculan las frecuencias observadas en una tabla de contingencia (k) (r),
usando las columnas (k) para los grupos y las filas (r) para las condiciones.
Se determina la frecuencia esperada para cada una de las celdillas para obtener el
producto de los totales marginales comunes a ella y dividirlo por N.
Ejemplo se aplica los datos de la tabla 1.1
I. Para sacar las frecuencias esperadas (utilizando el procedimiento de
X
II. Despejar la frmula.
PASOS:
25
1.
Se resta los observados y esperados de cada celda menos 0.5 (sin tomar en
cuenta los signos).
2.
Se eleva al cuadrado el resultado de la resta de observados y esperados

menos 0.5 de cada celda.
3.
El resultado de la resta de observados y esperados menos 0.5 elevados al

cuadrado se divide entre los esperados de cada celda.
4.
Se suman los resultados de paso nmero tres y se obtiene la X.
Paso 1
Celda
Celda
Celda
Celda
A
B
C
D
O
15
5
6
10
Paso 2
Paso3
E
(O-E)-0.5 ((O-E)-0.5)) ((O-E)-0.5))/E
11.6667
2.83
8.03
0.69
8.33333
2.83
8.03
0.96
9.33333
2.83
8.03
0.86
6.66667
2.83
8.03
1.20
Paso 4
x=
3.72
III. Buscar en la tabla con nivel de significancia de 0.05

IV. Clculo de los grados de libertad (se multiplican las columnas (K) menos
1 por renglones (r) menos1).
gl= (K-1) (r-1).
2-1=
2-1=1
1*1=1
Se localiza en la tabla gl=1 y con la =0.05 (fijada con anterioridad) siendo el
valor X 2 = 3.72 (tabaluda).
V. La decisin
Si p es igual o menor que se rechaza Ho.
Por lo tanto, si 3.84 es mayor que 3.72 se acepta la Ho.y se rechaza la H 1 .
Ho: El hbito de fumar y el cncer de pulmn son independientes
H 1 : El hbito de fumar y el cncer de pulmn no son independientes.
26
VI. Conclusin
Aceptamos Ho: El hbito de fumar y el cncer de pulmn son independientes.
No hay diferencia significativa entre el hbito de fumar y el cncer de pulmn.
Como se muestra arriba, la correccin de Yates produce un valor de chi cuadrada
menor (X 2 =3.72) que el que se obtenia mediante la frmula no corregida (X 2
=5.13). Con la frmula corregida aceptamos la hiptesis nula, sin ella, la
rechazamos.
En este ejemplo uno puede decidir si utiliza X 2 corregida o no, puesto que tiene
una celda con valor de 5. Pero lo ms recomendable es utilizar la Correccin de
Yates.
27
Prueba de la Probabilidad Exacta de

Fisher
11
Se utiliza para anlisis de datos nominales u ordinales y cuando las dos muestras
independientes son pequeas (20 casos) en tablas de contingencia de 2x2. Los
grupos pueden ser experimentales y controles, hombres o mujeres, nuos y
adultos, abuelos y abuelas, tratamiento A y tratamiento B.
FRMULA:
p=
(A+B )! (C+D) ! (A+ C) ! (B+D) !

N ! A ! B ! C ! D
p= Prueba de la probabilidad de Fisher

! Factorizacin Ejem. Factor de 4 es 4*3*2*1=24
N= Total de sujetos
DISTRIBUCIN EN LA TABLA DE
2X2
A
C
A+C
Grupo I
Grupo II
Total
+
B
D
B+D
A+B
C+D
N
Ejemplo:
Se realizo una investigacin para evaluar la efectividad de un nuevo tratamiento
para la gripe que se administr a 15 sujetos. Se desea saber si es efectivo el
tratamiento para la gripe?
Gripa
Tratamiento
Si
No
Totales
Si
1
6
7
No
8
0
8
Paso 1
28
Totales
9
6
15
Paso 1
PROCEDIMIENTO:
PASOS:
I. Sumar las celdas por columnas y renglones.
N= 15
A+B= 9
C+D= 6
A+C 7
B+D= 8
II. Sacar los factoriales de cada una de las celdas indicadas en la
frmula.
Factorial N
Factorial A+B
Factorial C+D
Factorial A+C
Factorial B+D
Factoral A
Factorial B
Factorial C
Factorial D
1.30767E+12
362880
720
5040
40320
1
40320
720
1
III. Se aplica la frmula.

(A+B )! (C+D) ! (A+ C) !
(B+D) !
N!A!B!C!D
=
5.30941E+16
=
3.79623E+19
p= 0.001398601
IV. La decisin.
Con un de 0.05 prefijada.
En este caso la probabilidad (p=0.001) es menor que el nivel seleccionado
al principio (=0.05) se rechaza Ho. Y se acepta H1, (hiptesis alterna).
V. Conclusin.
Concluimos que hay una diferencia estadstica entre haber usado el
tratamiento y curarse de gripa.
29
Regresin Lineal Simple
13
El anlisis de regresin simple es una tcnica estadstica de anlisis

bivariado, que estudia la relacin de una variable cuantitativa continua, en
funcin de una variable cuantitativas continuas.
La variable cuya variabilidad queremos estudiar es la variable dependiente
o respuesta (Y), y las variables en funcin de las cuales vara son las variables
independientes (X), tambin llamadas variables predictoras.
El objetivo de anlisis de regresin es predecir los valores de la variable
dependiente, en funcin de los valores de las variables independientes.
La regresin lineal simple una sola variable independiente, la regresin es
simple. Por ejemplo, si queremos estudiar la dependencia de los valores de la
presin arterial sistlica (variable independiente), en relacin la presin arterial
diastlica (variable dependiente), al hacer una sola variable independiente, la
regresin es simple.
Atendiendo al nmero de variables independientes, la regresin puede ser
simple (cuando se tiene una sola variable independiente) o mltiple (cuando hay
ms de dos variables independiente por ejemplo; edad, peso y talla).
Otra caracterstica que debe tenerse en cuenta en la clasificacin de la
regresin es la funcin. Si la dependencia funcional de la variable respuesta
(dependiente) respecto a las variables independientes es lineal, la regresin es
lineal.
30
En este tipo de anlisis de regresin hay una sola variable independiente y la

dependencia de la variable respuesta respecto a la predictora sigue una funcin
lineal.
Y es la variable dependiente la cual se coloca en lnea horizontal de la grfica
y, X es la variable independiente la cual se representa en la lnea vertical de la
grfica.
Y
X
Frmula:
x i =Observacin (de la variable independiente)

y i = Observacin (de la variable dependiente)
x= Media (de la variable independiente)
= Media (de la variable dependiente)
Hiptesis de la Regresin Lineal Simple
La hiptesis en regresin simple es que existe asociacin lineal entre la
variable dependiente y la variable independiente. Si existe asociacin lineal, el
coeficiente de regresin lineal debe ser significativamente distinto de cero.
Las hiptesis en este caso son las siguientes:
H o = b=0
H i = b0
31
Una manera de resolver el contraste de hiptesis anterior, es teniendo en

cuenta que si b es igual a cero, sigue una distribucin t de Student con n-2
grados de libertad, y la siguiente frmula es la que se utiliza para comprobar la
hiptesis.
Frmula para comprobar hiptesis :
t=
r n2
1 r 2
t= t de student
n= nmero de datos
r= correlacin de Pearson
r 2 =coeficiente de determinacin indica la fuerza de asociacin lineal entre dos
variables 0 y 1 ,0 =ausencia , 1= relacin lineal perfecta.
Frmula para correlacin de Pearson:
r =
bS
x
Sy
b= regresin lineal
S x = desviacin estndar de x
S y = desviacin estndar de y
32
Ejemplo:
Se desea saber la relacin que se tiene entre la edad y la glucosa de pacientes
diabticos hospitalizados en urgencias.
I. Pasos para obtener la regresin lineal simple:

1. Obtener la media de la x
2. Obtener la media de la y
3. Obtener la diferencia de cada observacin de x con su media
4. Elevar al cuadrado el paso tres.
5. Obtener la diferencia de cada observacin de y con su media
6. Elevar al cuadrado el paso cinco
7. Multiplicar el paso tres y cinco
8. Sumar los resultados de paso seis
9. Sumar el resultado de paso cuatro
10. Sumar los resultados de paso siete
11. Dividir el paso siete con el paso diez
Resultados
Edad
Glucosa
55
64
62
63
63
57
26
75
67
63
350
290
369
300
291
465
312
296
306
380
(xi- x) (xi- x)
-5
5
3
4
4
-3
-34
16
8
4
Paso 3
20
20
6
12
12
6
1122
240
56
12
Paso 4
(yi)
14.1
-45.9
33.1
-35.9
-44.9
129.1
-23.9
-39.9
-29.9
44.1
Paso 5
33
(yi)2
199
2107
1096
1289
2016
16667
571
1592
894
1945
Paso 6
(xi- x)(yi-)
-63
-207
83
-126
-157
-323
801
-618
-224
154
Paso 7
Paso 1
Paso 2
Paso 8
Paso 9
Paso 10
Paso 11
x=
59.5
= 335.90
(yi)2= 28374.90
(xi- x)2
1509
(xi- x)(yi-)=
-681
b= -0.451
El valor del coeficiente de regresin (b) indica que por cada ao que aumenta la
edad la glucosa disminuye en -0.45 mg/dl en pacientes con diabetes mellitus que
estn hospitalizados en urgencias.
II Comprobar la hiptesis
t=
r n2
1 r 2
Lo primero es obtener r la Frmula para correlacin de Pearson:
bS
r = x
Sy
Pasos para obtener r:
1. Obtener la desviacin estndar de la x
2. Obtener la desviacin estndar de la y
3. Multiplicar el resultado de regresin (b) por la desviacin estndar de x
4. Dividir el paso tres con el paso dos
5. Nmero de casos menos dos
6. Raz cuadrada del resultado de paso cinco
7. Multiplicar paso cuatro y seis
8. Elevar al cuadrado la r (es multiplicar r por r.
9. Restar uno menos paso ocho
10. Raz cuadrada del resultado del paso nueve
11. Dividir el resultado del paso siete entre paso diez
Resultados:
Paso 1
Paso 2
Paso 3
Paso 4
Paso 5
Paso 6
Paso 7
Paso 8
Paso 9
Paso 10
Paso 11
Sy=
Sx=
bSx
r=
n-2=
n-2=
r n-2=
r=
1-r=
1-r=
56.15
12.95
-5.8
-0.10
8
2.83
-0.29
0.01 coeficiente de determinacin
0.99
0.99
t= -0.30
34
r 2 = El coeficiente de determinacin indica la fuerza de asociacin lineal entre

dos variables 0 y 1 ,0 =ausencia , 1= relacin lineal perfecta.
El coeficiente de determinacin se multiplica por cien , indica el porcentaje de
las variaciones de la variable dependiente que explica el modelo
35
Correlacin
14
La asociacin entre dos variables cuantitativas, aun siendo significativa,

puede ser fuerte o dbil. El coeficiente de determinacin (r) nos indica la fuerza
de la asociacin lineal entre dos variables. Esta prueba estadstica, puede tomar
valores entre 0 y 1. Un valor cero indica ausencia de asociacin entre las dos
variables y un valor de uno indica una asociacin perfecta. Este estadstico,
multiplicado por cien, indica el porcentaje de las variaciones de la variable
dependiente que explica el modelo.
Frmula:
r=
(x x )(y y )
(x x ) (y y )
i
x i =Observacin (de la variable independiente)

y i = Observacin (de la variable dependiente)
x= Media (de la variable independiente)
= Media (de la variable dependiente)
Interpretacin de de la correlacin
36
El coeficiente de correlacin se encuentran generalmente entre -1,00 y +

1,00 como sigue:
- 1.00
correlacin negativa perfecta
- 0.95
correlacin negativa fuerte
-0.50
correlacin negativa moderada
- 0.10
correlacin negativa dbil
0.00
ninguna correlacin
+ 0.10
correlacin positiva dbil
+ 0.50
correlacin positiva moderada
+ 0.95
correlacin positiva fuerte
+ 1.00
correlacin positiva perfecta
Con respecto al grado de asociacin, mientras ms cerca est de 1,00, en

una u otra direccin, mayor es la fuerza de correlacin.
Ejemplo
Se desea saber la fuerza de asociacin que se tiene entre la edad y la glucosa de
pacientes diabticos hospitalizados en urgencias.
Pasos:
1. Obtener la media de la x
2. Obtener la media de la y
3. Obtener la diferencia de cada observacin de x con su media
4. Elevar al cuadrado el paso tres.
5. Obtener la diferencia de cada observacin de y con su media
6. Elevar al cuadrado el paso cinco
7. Multiplicar el paso tres y cinco
8. Sumar los resultados de paso siete
37
9. Sumar el resultado de paso tres

10. Sumar los resultados de paso cuatro
11. Raz cuadrada del resultado del paso nueve
12. Raz cuadrada del resultado del paso diez
13. Multiplicar el resultado del paso nueve con resultado del paso once
14. Dividir el paso ocho con el paso trece
Resultados:
Paso 1
Paso 2
Paso 8
Paso 9
Paso 10
Paso 11
Paso 12
Paso 13
Paso 14
Edad
Glucosa
(xi- x)
(xi- x)
55
64
62
63
63
57
26
75
67
63
350
290
369
300
291
465
312
296
306
380
-5
5
3
4
4
-3
-34
16
8
4
Paso 3
20
20
6
12
12
6
1122
240
56
12
Paso 4
(yi-)
14.1
-45.9
33.1
-35.9
-44.9
129.1
-23.9
-39.9
-29.9
44.1
Paso 5
(yi-)
199
2107
1096
1289
2016
16667
571
1592
894
1945
Paso 6
(xi- x)(yi-)
-63
-207
83
-126
-157
-323
801
-618
-224
154
Paso 7
x= 59.5
= 335.9
(xi- x)(yi-)= -681 Numerador
(xi- x)2 1509
(yi)2= 28375
(xix)2=
39
2
(yi) =
168
2
2
(xi- x) (xi- x) = 6542.4 Denominador
r=
-0.10
La variable dependiente es la glucosa de un paciente y la variable

independiente la edad, un coeficiente de determinacin de -0.10, significa que el
-10% de las variaciones observadas de la glucosa son explicables por las
variaciones de la edad. Es una fuerza de asociacin negativa dbil.
38
Un mtodo simplificado para comprobar la significancia de r

Afortunadamente, el proceso que se ilustr anteriormente para comprobar la
significancia de la r de Pearson ha sido simplificado, de manera que es
innecesario calcular realmente una razn t. En lugar de esto vamos a la Tabla C
de la parte final del texto, donde encontramos un lista de valores significativos
de la r de Pearson para los niveles de confianza de 0,05 y 0,01 con el nmero de
grados de libertad de 1 a 90.
Si el coeficiente de correlacin de Pearson calculado es menor que el valor
correspondiente en la tabla, debemos aceptar la hiptesis nula de que r = 0;
Los grados de libertad de coeficiente de correlacin de Perarson es n-2.
Observando la tabla C, al final del texto, encontramos al nivel de confianza de
0,05 con 8 grados de libertad el valor de r de .6664. Por lo tanto, el coeficiente
de correlacin de -0,10 es menor que el valor de la tabla, lo cual se acepta la
hiptesis nula, no hay asociacin entre la edad y la glucosa.
39
REFERENCIAS BIBLIOGRAFICAS
Garca de Alba, E. (1995). Estadstica para el equipo del rea de la salud. Guadalajara:
Universidad de Guadalajara.
Hernndez, R., Fernndez, C., & Baptista, P. (1998). Metodologa de la Investigacin.
Mxico, D.F: Mc Graw Hill.
Organizacin Panamericana de la Salud. (1986). Manual sobre el enfoque de riesgo en la
atencin materno infantil. Washington: Organizacin Panamericana de la Salud.
Pando, M., Aranda, C., Rodrguez, G., Salinas, E., & Pozos, E. (2006). Factores psicosociales
y burnout en docentes del Centro Universitario de Ciencias de la Salud. Recuperado el 1 de
02 de 2008, de http://www.medigraphic.com/pdfs/invsal/isg-2006/isg063f.pdf
Pea, D., & Romo, J. (1997). Introduccin a la Estadstica para la Ciencias Sociales. Madrid:
Mc Graw Hill.
Polit, D., & Hungler, B. (2000). Investigacin Cientfica en Ciencias de la Salud. Mxico,D.F:
Mc Graw Hill.
Rebagliato, M. (1996). Poblacin del estudio. Tcnicas de muestreo y tamao de la muestra.
En M. Rebagliato, I. Ruiz, & M. Arranz, Metodologa de Investigacin en Epidemiologa
(pgs. 73-94). Madrid: Daz de Santos.
Salkind, N. (1998). Mtodos de Investigacin. Mxico, D.F: Prentice Hall.
40
TABLA A
DISTRIBUCION CHI CUDRADA
Gl
0.995
0.990
0.975
0.950
0.75
0
0.10
0.58
1.21
0.500
0.250
0.100
0.050
0.025
0.10
0.35
0.90
0
0.02
0.21
0.58
1
2
3
0.01
0.07
0.02
0.11
0.05
0.22
0.45
1.39
2.37
1.32
2.77
4.11
2.71
4.61
6.25
3.84
5.99
7.81
5.02
7.38
9.35
0.21
0.30
0.48
0.71
1.06
1.92
3.36
5.39
7.78
9.49
11.14
0.41
0.55
0.83
1.15
1.61
2.67
4.35
6.63
9.24
11.07
12.83
0.68
0.87
1.24
1.64
2.20
3.45
5.35
7.84
10.64
12.59
14.45
0.99
1.24
1.69
2.17
2.83
4.25
6.35
9.04
12.02
14.07
16.01
1.34
1.65
2.18
2.73
3.49
5.07
7.34
10.22
13.36
15.51
17.53
1.73
2.09
2.70
3.33
4.17
5.90
8.34
11.39
14.68
16.92
19.02
10
2.16
2.56
3.25
3.94
4.87
6.74
9.34
12.55
15.99
18.31
20.48
11
2.60
3.05
3.82
4.57
5.58
7.58
10.34
13.70
17.28
19.68
21.92
12
3.07
3.57
4.40
5.23
6.30
8.44
11.64
14.85
18.55
21.03
23.34
13
3.57
4.11
5.01
5.89
7.04
9.30
12.34
15.98
19.81
22.36
24.74
14
4.07
4.66
5.63
6.57
7.79
13.34
17.12
21.06
23.68
26.12
15
4.60
5.23
6.27
7.26
8.55
14.34
18.25
22.31
25.00
27.49
16
5.14
5.81
6.91
7.96
9.31
15.34
19.37
23.54
26.30
28.85
17
5.70
6.41
7.56
8.67
16.34
20.49
24.77
27.59
30.19
18
6.26
7.01
8.23
9.39
17.34
21.60
25.99
28.87
31.53
19
6.84
7.63
8.91
10.12
18.34
22.72
27.20
30.14
32.85
20
7.43
8.26
9.59
10.85
10.0
9
10.8
6
11.6
5
12.4
4
10.1
7
11.0
4
11.9
1
12.7
9
13.6
8
14.5
6
15.4
5
19.34
23.83
28.41
31.41
34.17
41
0.01
0
6.63
9.21
11.3
4
13.2
8
15.0
9
16.8
1
18.4
8
20.0
9
21.6
7
23.2
1
24.7
2
26.2
2
27.6
9
29.1
4
30.5
8
32.0
0
33.4
1
34.8
1
36.1
9
37.5
7
TABLA B
DE LA DISTRIBUCION t-Student
1 - a
gl
0.75
0.80
0.85
0.90
0.95
0.975
0.99
0.995
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
120
1.000
0.816
0.765
0.741
0.727
0.718
0.711
0.706
0.703
0.700
0.697
0.695
0.694
0.692
0.691
0.690
0.689
0.688
0.688
0.687
0.686
0.686
0.685
0.685
0.684
0.684
0.684
0.683
0.683
0.683
0.681
0.679
0.677
0.674
1.376
1.061
0.978
0.941
0.920
0.906
0.896
0.889
0.883
0.879
0.876
0.873
0.870
0.868
0.866
0.865
0.863
0.862
0.861
0.860
0.859
0.858
0.858
0.857
0.856
0.856
0.855
0.855
0.854
0.854
0.851
0.848
0.845
0.842
1.963
1.386
1.250
1.190
1.156
1.134
1.119
1.108
1.100
1.093
1.088
1.083
1.079
1.076
1.074
1.071
1.069
1.067
1.066
1.064
1.063
1.061
1.060
1.059
1.058
1.058
1.057
1.056
1.055
1.055
1.050
1.046
1.041
1.036
3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
1.372
1.363
1.356
1.350
1.345
1.341
1.337
1.333
1.330
1.328
1.325
1.323
1.321
1.319
1.318
1.316
1.315
1.314
1.313
1.311
1.310
1.303
1.296
1.289
1.282
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729
1.725
1.721
1.717
1.714
1.711
1.708
1.706
1.703
1.701
1.699
1.697
1.684
1.671
1.658
1.645
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
2.021
2.000
1.980
1.960
31.821
6.965
4.541
3.747
3.365
3.143
2.998
2.896
2.821
2.764
2.718
2.681
2.650
2.624
2.602
2.583
2.567
2.552
2.539
2.528
2.518
2.508
2.500
2.492
2.485
2.479
2.473
2.467
2.462
2.457
2.423
2.390
2.358
2.326
63.657
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250
3.169
3.106
3.055
3.012
2.977
2.947
2.921
2.898
2.878
2.861
2.845
2.831
2.819
2.807
2.797
2.787
2.779
2.771
2.763
2.756
2.750
2.704
2.660
2.617
2.576
42
GLOSARIO
Datos:
Son los valores cualitativos o cuantitativos mediante los cuales se miden las
caractersticas de individuos los objetos, sucesos a estudiar.
Nmero de veces en que se repite un dato.
Poblacin: Es el conjunto de individuos u objetos que tienen la caracterstica de
inters
Parmetro:
Variable que en una familia de elementos, sirve para identificar cada uno de ellos
mediante su valor numrico
Frecuencia: Nmero de veces de los datos
43

Libro de Estadistica Inferencial

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Libro de Estadistica Inferencial

Hochgeladen von

Copyright:

Verfügbare Formate

1

La presentacin y disposicin en conjunto de

Cuando se analizan a todos los sujetos de una poblacin se tiene un censo

margen de certeza, debe existir un 1% de error, es decir la probabilidad de 0.01 y

siempre ser 68%, 2s corresponde a 95% y

Distribucin segn la ley de probabilidad de la campana de Gauss

*El porcentaje se convierte a decimales (1 entre 100 = 0.01) porque se considera

De lo anterior se generan las siguientes tres reglas:

Mayor tamao de la muestra

Mayor tamao de la muestra

A mayor margen de certeza

Mayor tamao de la muestra

CLCULO DE TAMAO DE LA MUESTRA PARA ESTUDIO DESCRIPTIVOS

y sta no debe pasar de la unidad. Cuando se

desconoce p, se utiliza el 50%

Ejemplo para poblacin finita:

Procedimiento del clculo de la frmula

(.05) 2 9,826 + 1.96 2 (0.011)(0.989)

3.8416 (0.011) (9,826)

(0.0025) 2 9,826+3.8416 (0.011)

n=17 enfermos que estudiar

Se pretende obtener una muestra de la poblacin de Jalisco de acuerdo al

en el 2% de la poblacin general, tambin

quiere obtenerse datos de la muestra con la probabilidad de ser errnea,

Determine el tamao de la muestra

Muestreo es el procedimiento para recolectar muestras, es una herramienta de la

Muestreo por conglomerados

ESQUEMA DE MUESTREO PROBABILISTICO

Muestreo simple: Es aquel donde cada individuo tiene la misma probabilidad de

17 enfermos de diabetes mellitus (se

diabetes de la ciudad de Guadalajara

de En este caso es del uno al 9,826

muestreo se le asigna un nmero

tablas aleatorios y/o sorteo)

Tener la muestra (n)

17 enfermos de diabetes mellitus (se calcula con

Conseguir un listado de los N

Se tiene que listar los 9,826 enfermos de

diabetes de la ciudad de Guadalajara

Elegir la variable de inters

Se eligi la variable sexo

Una vez calculado el tamao muestral, (se n=17

muestra se plantea como realizar el clculo

del tamao de la muestra). La muestra se

reparte de manera proporcional entre los 17*50/100=9

Muestreo por conglomerados:

El resultado del tamao de la muestra de personas enfermas de diabetes mellitas

Fraccin constante n/N

conoce la poblacin y sus elementos que se puedan utilizarse

para escoger los casos que se incluirn en la muestra.

Formulacin de la hiptesis de nulidad (Ho).

Eleccin del modelo estadstico

Especificacin del nivel de significancia (a) y de la muestra (n).

Definicin de la regin de rechazo.

Formulacin de la hiptesis de nulidad (Ho).

planteada por lo comn con la intencin de ser rechazada. Si se rechaza, puede

Cada prueba estadstica tiene su propio planteamiento de hiptesis nula

La media de la primera poblacin es igual a la media de la

Lo media de la primera poblacin No es igual a la media

El fumar cigarros ocasiona cncer de pulmn.

Los protestantes no tienen la misma taza de suicidio que los catlicos.

II. Eleccin del modelo estadstico

Se debe de recordar que la probabilidad no debe de pasar de 1, por ello se