Beruflich Dokumente
Kultur Dokumente
Una prueba de hiptesis consiste en contrastar dos hiptesis estadsticas. Tal contraste
involucra la toma de decisin acerca de las hiptesis. La decisin consiste en rechazar o
no una hiptesis en favor de la otra. Una hiptesis estadstica se denota por H y son
dos: - Ho: hiptesis nula - H1: hiptesis alternativa Partes de una hiptesis 1-La hiptesis
nula Ho 2-La hiptesis alternativa H1 3-El estadstico de prueba 4-Errores tipo I y II 5-
La regin de rechazo (crtica) 6-La toma de decisin 1. Concepto: Una prueba de
hiptesis estadstica es una conjetura de una o ms poblaciones. Nunca se sabe con
absoluta certeza la verdad o falsedad de una hiptesis estadstica, a no ser que se
examine la poblacin entera. Esto por su puesto sera imprctico en la mayora de las
situaciones. En su lugar, se toma una muestra aleatoria de la poblacin de inters y se
utilizan los datos que contiene tal muestra para proporcionar evidencia que confirme o no
la hiptesis. La evidencia de la muestra que es un constante con la hiptesis planteada
conduce a un rechazo de la misma mientras que la evidencia que apoya la hiptesis
conduce a su aceptacin.
Por cada tipo de prueba de hiptesis se puede calcular una prueba estadstica apropiada.
Esta prueba estadstica mide el acercamiento del calor de la muestra (como un promedio)
a la hiptesis nula. La prueba estadstica, sigue una distribucin estadstica bien conocida
(normal, etc.) o se puede desarrollar una distribucin para la prueba estadstica particular.
Al tomar la decisin con respecto a la hiptesis nula, se debe determinar el valor crtico en
la distribucin estadstica que divide la regin del rechazo (en la cual la hiptesis nula no
se puede rechazar) de la regin de rechazo. A hora bien el valor crtico depende del
tamao de la regin de rechazo.
Donde
Z tiene una distribucin normal de media nula y varianza 1
Prueba de
Levene
para
la igualdad Prueba T para la igualdad de medias
de
varianzas
Error
Sig. Diferenci tpico de Intervalo de
F Sig. t gl bilater a de la confianza para
al medias diferenci la diferencia
a
Superio
Inferior
r
Asumiend 0.80 0,37 8,66 49,370 79,181
Tiempo 50 0.000 64,2759 7,4209
o 8 3 1 4 3
varianzas
diario
iguales
para la No 8,92 49,96 0.000 64,2759 7,1983 49,817 78,734
Asumiend 9 1 3 5
o
docencia varianzas
iguales
En muchos estudios, incluidos la mayora de los ensayos clnicos, es necesario comparar
ciertas caractersticas en dos o ms grupos de sujetos. Tal sera el caso, por ejemplo, si
pensamos que un tratamiento nuevo puede tener un porcentaje de mejora mayor que
otro estndar, o cuando nos planteamos si los nios de las distintas comunidades
autnomas tienen o no la misma altura. En este artculo se analizar nicamente el
problema de la comparacin de dos grupos con respecto a una variable continua. La
eleccin de un mtodo de anlisis apropiado en este caso depender de la naturaleza de
los datos y la forma en la que estos hayan sido obtenidos. Fundamentalmente, cuando se
comparan dos o ms grupos de observaciones pueden darse dos tipos de diseo: aquel
en el que las observaciones se refieren a dos grupos independientes de individuos, o el
caso en el que cada serie de datos se recoge en los mismos sujetos bajo condiciones
diferentes. El tipo de metodologa ser distinto segn el caso en el que nos encontremos.
Otro aspecto a tener en consideracin ser el tipo y distribucin de los datos. Para grupos
independientes, los mtodos paramtricos requieren que las observaciones en cada
grupo provengan de una distribucin aproximadamente normal con una variabilidad
semejante, de modo que si los datos disponibles no verifican tales condiciones, puede
resultar til una transformacin1,2,3 de los mismos (aplicacin del logaritmo, raz cuadrada,
etc.) o, en todo caso, se debera recurrir a la utilizacin de procedimientos no
paramtricos4.
Normalmente en este tipo de anlisis podremos establecer una hiptesis de partida
(hiptesis nula), que generalmente asume que el efecto de inters es nulo, por ejemplo
que la tensin arterial es la misma en hombres y mujeres o que dos tratamientos para la
hipocolesterolemia son igualmente efectivos. Posteriormente se puede evaluar la
probabilidad de haber obtenido los datos observados si esa hiptesis es correcta. El valor
de esta probabilidad coincide con el valor-p que nos proporciona cada test estadstico, de
modo que cuanto menor sea ste ms improbable resulta que la hiptesis inicial se
verifique.
En un primer apartado, se presentar el test t de Student para dos muestras
independientes, introduciendo las modificaciones necesarias en el caso de que la
variabilidad de ambos grupos sea distinta. A continuacin se introducir el test t de
Student para el caso de dos muestras dependientes.
t de Student para dos muestras independientes
Uno de los anlisis estadsticos ms comunes en la prctica es probablemente el utilizado
para comparar dos grupos independientes de observaciones con respecto a una variable
numrica. Como ejemplo, consideremos los datos que se muestran en la Tabla 1,
correspondientes a 75 individuos con sobrepeso sometidos a dos dietas alimenticias
distintas, de modo que se desea comparar el peso de los individuos que iniciaron cada
una de las dietas.
Como ya se ha adelantado, la aplicacin de un contraste paramtrico requiere la
normalidad de las observaciones para cada uno de los grupos. La comprobacin de esta
hiptesis puede realizarse tanto por mtodos grficos (por medio de histogramas,
diagramas de cajas o grficos de normalidad) como mediante tests estadsticos5 (test de
Kolmogorov-Smirnov, test de Shapiro-Wilks). Un nmero suficiente de observaciones
(digamos mayor de 30) como ocurre en el ejemplo planteado justifica, no obstante, la
utilizacin del mismo test. As mismo, este tipo de metodologa exigir que la varianza en
ambos grupos de observaciones sea la misma. En primer lugar se desarrollar el test t de
Student para el caso en el que se verifiquen ambas condiciones, discutiendo
posteriormente el modo de abordar formalmente el caso en el que las varianzas no sean
similares.
Bajo las hiptesis de normalidad e igual varianza la comparacin de ambos grupos puede
realizarse en trminos de un nico parmetro como el valor medio (Figura 1a), de modo
que en el ejemplo planteado la hiptesis de partida ser, por lo tanto:
H0: La media de peso inicial es igual en ambos grupos
Se denotar por {X1, X2,...,Xn} e {Y1,Y2,...,Ym} al peso observado en cada uno de los
sujetos sometidos a la dieta A y a la dieta B respectivamente. En general no se exigir
que coincida el nmero de observaciones en cada uno de los grupos que se comparan,
de modo que en el ejemplo n=40 y m=35.
El t test para dos muestras independientes se basa en el estadstico:
(1)
Con lo cual, en este caso particular, el valor utilizado para el contraste ser:
Donde denota el valor que segn la distribucin t de Student con n+m-2 grados de
libertad deja a su derecha el 2.5% de los datos. En el ejemplo, el intervalo de confianza
con una seguridad del 95% para la diferencia de peso viene dado por:
Que expresa en definitiva un rango de valores entre los que se puede encontrar el valor
real de la diferencia entre los pesos de ambos grupos. Proporciona adems la misma
informacin que obtenamos del contraste estadstico. El hecho de que el valor cero
pertenezca al intervalo indica que no se dispone de evidencia para concluir que el peso
sea distinto en ambos grupos.
A medida que el tamao muestral aumenta, la distribucin del estadstico (1) se hace ms
prxima a la de una variable Normal estndar. De este modo, en algunos textos se opta
por utilizar esta distribucin para realizar la comparacin de medias. Aunque esta
aproximacin es correcta para muestras suficientemente grandes, ambos mtodos
proporcionan en este caso resultados prcticamente idnticos, por lo que resulta ms
simple utilizar, independientemente del tamao de la muestra, la misma metodologa a
partir de la distribucin t. El mismo planteamiento podra utilizarse en el caso de varianzas
distintas o de muestras apareadas.
Dos muestras dependientes
Ya se ha comentado que cuando se trata de comparar dos grupos de observaciones, es
importante distinguir el caso en el que son independientes de aquel en el que los datos
estn apareados. Las series dependientes surgen normalmente cuando se evala un
mismo dato ms de una vez en cada sujeto de la muestra. Tambin se puede encontrar
este tipo de observaciones en estudios de casos y controles donde cada caso se aparea
individualmente con un control.
Supongamos que queremos comprobar, en los datos de la Tabla 1 si realmente se
produce una prdida de peso significativa en esos individuos, para lo que se recoge en
cada sujeto su peso antes y despus de someterse a la dieta. En este tipo de anlisis el
inters no se centra en la variabilidad que puede haber entre los individuos, sino en las
diferencias que se observan en un mismo sujeto entre un momento y otro. Por este
motivo, resulta intuitivo trabajar con la diferencia de ambas observaciones (en el ejemplo
ser la prdida de peso), de modo que se quiere contrastar la hiptesis:
H0: La prdida de peso es nula frente a la alternativa de que la prdida de peso sea
importante (es decir, distinta de cero).
La veracidad de dicha hiptesis puede ser contrastada igualmente mediante el test t de
Student. Como se ha dicho, este tipo de mtodos tienen como hiptesis fundamental la
normalidad de los datos. En este caso, sin embargo, no ser necesario que las
observaciones en ambos grupos provengan de poblaciones normales, sino que
frente a la alternativa
A partir de las observaciones mustrales {Y1,Y2,..., Yn} e {Y1,Y2,...,Yn} en cada uno de los
grupos se calcula la diferencia de peso para cada sujeto {d1,d2,...,dn} con dj=Xj-Yj
j=1,2,...,n. Ntese que en este caso un requisito fundamental es que se tenga un nmero
igual de observaciones en ambos grupos. A partir de estos datos, el contraste se basa en
el estadstico:
Dieta Peso inicial Peso final Dieta Peso inicial Peso final
A 89,72 83,56
A 95,57 89,58
A 97,71 91,35
A 98,73 97,82
poca evidencia para indicar que y no son iguales. Por otra parte, un valor muy
grande o muy pequeo para s21/s22 , proporcionar evidencia de una diferencia en las
varianzas de las poblaciones.
La variable aleatoria F se define como el cociente de dos variables aleatorias ji-cuadrada
independientes, cada una dividida entre sus respectivos grados de libertad. Esto es,
y
respectivamente.
Sean U y V dos variables aleatorias independientes que tienen distribucin ji cuadradas
para
para
Para manejar las tablas de Fisher del libro de Introduccin a la Inferencia Estadstica del
autor Genther, se tendr que buscar primero los grados de libertad dos para luego
localizar el rea correspondiente, relacionndola con los grados de libertad uno, para
calcular el valor de F.
Las tablas tienen la siguiente estructura:
P
1 2 3 . .. 500
6 0.0005
0.001
0.005
0.9995 30.4
El valor de 30.4 es el correspondiente a una Fisher que tiene 3 grados de libertad uno y 6
grados de libertad dos con un rea de cero a Fisher de 0.995. Si lo vemos grficamente:
Como nos podemos imaginar existen varias curvas Fisher, ya que ahora su forma
depende de dos variables que son los grados de libertad.
Ejemplos:
1. Encontrar el valor de F, en cada uno de los siguientes casos:
En este caso se puede buscar el rea de 0.95 directamente en la tabla con sus
respectivos grados de libertad.
Se tiene que buscar en la tabla un rea de 0.05, puesto que nos piden un rea a la
derecha de F de 0.95.
Solucin:
Primero se establecen los grados de libertad. Como en el numerador est la poblacin
uno y en el denominador la poblacin dos, entonces los grados de libertad uno equivalen
a 10-1=9 y los grados de libertad dos a 20-1=19.
Se procede a ir a la tabla a buscar los grados de libertad dos que son 19 y se observa que
no estn, por lo tanto se tiene que interpolar entre 15 y 20 grados de libertad, buscando el
valor de fisher que quedara:
Este valor de 2.42 se busca en la columna de 9 grados de libertad uno, con 15 grados de
libertad dos, y se encuentra el siguiente:
Area
0.90 2.09
0.95 2.59
Area
0.95 2.39
0.975 2.84
Al interpolar entre estos dos valores nos queda un rea de 0.9516.
Ahora ya se tienen las dos reas referentes a los grados de libertad dos, por lo que se
interpolar para ver cunto le corresponde a los grados libertad dos con un valor de 19.
Al interpolar
libertad nos un
dos con queda que
valor depara 9 grados
Fisher deellibertad
de 2.42 rea auno y 19 grados
la izquierda de
es de
Area 0.9478.
15 0.933
20 0.9516
2
tamao n1= 25 y n2 = 31, tomadas de poblaciones normales con varianzas 1 =10 y
2 2 2
= 15, respectivamente, encuentre P(s /s > 1.26).
2 1 2
Solucin:
Calcular el valor de Fisher:
disponibles dos muestras aleatorias de tamaos n1 y n2, respectivamente, sean s12 y s22
las dos varianzas muestrales. Se desea conocer un intervalo de confianza del 100(
2 2
) por ciento para el cociente de las dos varianzas, 1 / 2 .
Para construir el intervalo de confianza para el cociente de dos varianzas poblacionales,
se coloca la varianza muestral mayor en el numerador del estadstico F.
Ejemplos:
Un fabricante de automviles pone a prueba dos nuevos mtodos de ensamblaje de
motores respecto al tiempo en minutos. Los resultados se muestran el la tabla:
Mtodo 1 Mtodo 2
n1 = 31 n2 = 25
s12 = 50 s22 = 24
2 2
Construya un intervalo de confianza del 90% para 1 / 2 .
Solucin:
Por la recomendacin de que la varianza muestral mayor va en el numerador se tiene la
siguiente frmula:
al despejar: .
F toma dos valores dependiendo del nivel de confianza y de los grados de libertad. En
este caso los grados de libertad uno valen 30 y los grados de libertad dos 24.
1.
2. y
4.6 COMPARACIONES DE DOS MUESTRAS PAREADAS
Una de las hiptesis sobre las que habitualmente se fundamentan las pruebas
estadsticas de comparacin es que las observaciones pertenecientes a cada una de las
muestras son independientes entre s, no guardan relacin; siendo precisamente ese uno
de los objetivos de la aleatorizacin (eleccin aleatoria de los sujetos o unidades de
observacin). Sin embargo, la falta de independencia entre las observaciones de los
grupos puede ser una caracterstica del diseo del estudio para buscar fundamentalmente
una mayor eficiencia del contraste estadstico al disminuir la variabilidad. En otras
ocasiones con este tipo de diseo pareado lo que se busca es dar una mayor validez a las
inferencias obtenidas, controlando o eliminando la influencia de variables extraas cuyo
efecto ya es conocido o sospechado, y no se desea que intervenga en el estudio actual
pudiendo enmascarar el efecto del tratamiento o de la variable de inters.
Las muestras apareadas se obtienen usualmente como distintas observaciones realizadas
sobre los mismos individuos. Un ejemplo de observaciones pareadas consiste en
considerar a un conjunto de n personas a las que se le aplica un tratamiento mdico y se
mide por ejemplo el nivel de insulina en la sangre antes (X) y despus del mismo (Y). En
este ejemplo no es posible considerar aX eY como variables independientes ya que va a
existir una dependencia clara entre las dos variables.
4.7 MODELO TOTALMENTE ALEATORIO: ANLISIS DE VARIANZA DE UN FACTOR.
Hay varias formas en las cuales puede disearse un experimento ANOVA. Quizs el ms
comn es el diseo completamente aleatorizado a una va. El trmino proviene del hecho
que varios sujetos o unidades experimentales se asignan aleatoriamente a diferentes
niveles de un solo factor. Por ejemplo: varios empleados (unidades experimentales)
pueden seleccionarse aleatoriamente para participar en diversos tipos (niveles diferentes)
de un programa de capacitacin (el factor).
El anlisis de varianza se basa en una comparacin de la cantidad de variacin en cada
uno de los tratamientos. Si de un tratamiento al otro la variacin es significativamente alta,
puede concluirse que los tratamientos tienen efectos diferentes en las poblaciones.
a. Esta variacin entre el nmero total de las 14 observaciones. Esto se llama variacin
total.
b. Existe variacin entre los diferentes tratamientos (muestras). Esto se llama variacin
entre muestras.
c. Existe variacin dentro de un tratamiento dado (muestra). Esto se denomina
variacin dentro de la muestra.
4.8 SELECCIN DEL TAMAO DE MUESTRA PARA ESTIMAR LA DIFERENCIA DE
DOS MEDIAS
En Estadstica el tamao de la muestra es el nmero de sujetos que componen la muestra
extrada de una poblacin, necesarios para que los datos obtenidos sean representativos
de la poblacin.
1. Estimar un parmetro determinado con el nivel de confianza deseado.
2. Detectar una determinada diferencia, si realmente existe, entre los grupos de
estudio con un mnimo de garanta.
3. Reducir costes o aumentar la rapidez del estudio.
Por ejemplo, en un estudio de investigacin epidemiolgico la determinacin de un
tamao adecuado de la muestra tendra como objetivo su factibilidad. As:
Si el nmero de sujetos es insuficiente habra que modificar los criterios de seleccin,
solicitar la colaboracin de otros centros o ampliar el periodo de reclutamiento. Los
estudios con tamaos muestrales insuficientes, no son capaces de detectar diferencias
entre grupos, llegando a la conclusin errnea de que no existe tal diferencia.
Si el nmero de sujetos es excesivo, el estudio se encarece desde el punto de vista
econmico y humano. Adems es poco tico al someter a ms individuos a una
intervencin que puede ser menos eficaz o incluso perjudicial.
El tamao de una muestra es el nmero de individuos que contiene.
Una frmula muy extendida que orienta sobre el clculo del tamao de la muestra para
datos globales es la siguiente:
n = ( (k^2) * N*p*q) / ( (e^2 * (N-1) )+( (k^2) * p*q))
N: es el tamao de la poblacin o universo (nmero total de posibles encuestados).
k: es una constante que depende del nivel de confianza que asignemos. El nivel de
confianza indica la probabilidad de que los resultados de nuestra investigacin sean
ciertos: un 95,5 % de confianza es lo mismo que decir que nos podemos equivocar con
una probabilidad del 4,5%.
Los valores k ms utilizados y sus niveles de confianza son:
K 1,15 1,28 1,44 1,65 1,96 2 2,58
Nivel de confianza 75% 80% 85% 90% 95% 95,5% 99%
(Por tanto si pretendemos obtener un nivel de confianza del 95% necesitamos poner en la
frmula k=1,96)
e: es el error muestral deseado. El error muestral es la diferencia que puede haber entre
el resultado que obtenemos preguntando a una muestra de la poblacin y el que
obtendramos si preguntramos al total de ella.
Ejemplos:
Ejemplo 1: si los resultados de una encuesta dicen que 100 personas compraran un
producto y tenemos un error muestral del 5% comprarn entre 95 y 105 personas.
Ejemplo 2: si hacemos una encuesta de satisfaccin a los empleados con un error
muestral del 3% y el 60% de los encuestados se muestran satisfechos significa que entre
el 57% y el 63% (60% +/- 3%) del total de los empleados de la empresa lo estarn.
Ejemplo 3: si los resultados de una encuesta electoral indicaran que un partido iba a
obtener el 55% de los votos y el error estimado fuera del 3%, se estima que el porcentaje
real de votos estar en el intervalo 52-58% (55% +/- 3%).
p: proporcin de individuos que poseen en la poblacin la caracterstica de estudio. Este
dato es generalmente desconocido y se suele suponer que p=q=0.5 que es la opcin ms
segura.
q: proporcin de individuos que no poseen esa caracterstica, es decir, es 1-p.
n: tamao de la muestra (nmero de encuestas que vamos a hacer).
Altos niveles de confianza y bajo margen de error no significan que la encuesta sea de
mayor confianza o est ms libre de error necesariamente; antes es preciso minimizar la
principal fuente de error que tiene lugar en la recogida de datos. Para calcular el tamao
de la muestra suele utilizarse la siguiente frmula:
Otra frmula para calcular el tamao de la muestra es:
n=(N^2 Z^2)/((N-1) e^2+^2 Z^2 ) Donde: n = el tamao de la muestra.
N = tamao de la poblacin.
= Desviacin estndar de la poblacin que, generalmente cuando no se tiene su valor,
suele utilizarse un valor constante de 0,5. Z = Valor obtenido mediante niveles de
confianza. Es un valor constante que, si no se tiene su valor, se lo toma en relacin al
95% de confianza equivale a 1,96 (como ms usual) o en relacin al 99% de confianza
equivale 2,58, valor que queda a criterio del encuestador. e = Lmite aceptable de error
muestral que, generalmente cuando no se tiene su valor, suele utilizarse un valor que
vara entre el 1% (0,01) y 9% (0,09), valor que queda a criterio del encuestador.
Suponga que se tienen dos poblaciones distintas, la primera con media 1 y desviacin
3.43< B - A <8.57
La interpretacin de este ejemplo sera que con un nivel de confianza del 96% la
diferencia del rendimiento promedio esta entre 3.43 y 8.57 millas por galn a favor del
motor B. Esto quiere decir que el motor B da mas rendimiento promedio que el motor A,
ya que los dos valores del intervalo son positivos.
Una compaa de taxis trata de decidir si comprar neumticos de la marca A o de la B
para su flotilla de taxis. Para estimar la diferencia de las dos marcas, se lleva a cabo un
experimento utilizando 12 de cada marca. Los neumticos se utilizan hasta que se
desgastan, dando como resultado promedio para la marca A 36,300 kilmetros y para la
marca B 38,100 kilmetros. Calcule un intervalo de confianza de 95% para la diferencia
promedio de las dos marcas, si se sabe que las poblaciones se distribuyen de forma
aproximadamente normal con desviacin estndar de 5000 kilmetros para la marca A y
6100 kilmetros para la marca B.
Solucin:
-2662.68< B - A <6262.67
Grficamente:
Como el intervalo contiene el valor "cero", no hay razn para creer que el promedio de
duracin del neumtico de la marca B es mayor al de la marca A, pues el cero nos est
indicando que pueden tener la misma duracin promedio.
4.9 APLICACIONES
El concepto de prueba de hiptesis se puede utilizar para probar hiptesis en relacin con
datos cualitativos. Por ejemplo, en el problema anterior el gerente de la fbrica de llantas
quera determinar la proporcin de llantas que se reventaban antes de 10,000 millas. Este
es un ejemplo de una variable cualitativa, dado que se desea llegar a conclusiones en
cuanto a la proporcin de los valores que tienen una caracterstica particular.
En donde
= .05
Y entonces,
= 1.107
Ho: p = p0
H1: p p0
Ho: p1 = p2 p1 - p2 = 0
H1: p1 p2
H1: p1 p2
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMRICOS
Ho: Lo que pagan las mujeres en el fondo de pensin es igual o mayor a lo que pagan
los hombres (algunos autores solo le colocan igual).
Ha: _______________________________________
(El estudi ant e debe descri bir l a Ha)
La hi pt esis alt er nati va es l o que l as muj er es del gr upo acti vista desean demostr ar.
Paso 2.
Determi nar el ni vel de signifi canci a. Defi ni da por el anali sta, en est e casi se desea usar
= 0.01
Grficamente el ni vel de signifi cancia se di stri buye en l a cur va de di stri bucin nor l
r
ma como se muest al enfi a r gu
: a
Paso 3.
Calcular los intervalos que implican ese nivel de significancia
Para dicho nivel de significancia el valor de Z es: Z=-2.326
Grficamente queda de la siguiente manera:
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMRICOS
Paso 4
TRABAJO EN EQUIPO
MUESTRAS DE DATOS NUMRICOS
92% de los 100 tratados con fosfomicina/ trometamol mostraron curacin bacteriolgica
mientras que el 61% de los 100 manejados con trimetoprim / sulfametoxazol se cur la
infeccin.
La notacin que usamos para el anlisis de dos proporciones es el mismo que para una
proporcin. Los nmeros inferiores son para distinguir los dos grupos.
Proporcin 1 2 p1 p2
Desviacin 1(1-2) 2(1- p1(1-p1) p2(1-
estndar 2) p2)
n1 n2
El error estndar de la diferencia entre dos proporciones es dado por la raz cuadrada de
la varianza.
ES (p1-p2)= [p1(1-p1)/n1 + p2(1-p2)/n2]
Estimado 1.96 x ES
Hiptesis nula:
Ho: 1 - 2 = 0
Hiptesis alternativa:
Es usualmente que las dos proporciones no son iguales.
H1: 1 2
H1: 1 2 0
Rechazamos la hiptesis nula de que las dos proporciones son iguales y aceptamos la
hiptesis alternativa de que son diferentes.
5.2 PRUEBA PARA LA DIFERENCIA ENTRE DOS PROPORCIONES.
Las pruebas de hiptesis a partir de proporciones se realizan casi en la misma forma
utilizada cuando nos referimos a las medias, cuando se cumplen las suposiciones
necesarias para cada caso. Pueden utilizarse pruebas unilaterales o bilaterales
dependiendo de la situacin particular.
Ho: p = p0
H1: p p0
En caso de que la muestra sea grande n>30, el estadgrafo de prueba es: se distribuye
normal estndar.
H1: p1 p2
Aqu se tiene el mismo caso que en la estimacin de una proporcin, ya que al hacer el
despeje nos queda las dos proporciones poblacionales y es precisamente lo que
queremos estimar, por lo que se utilizarn las proporciones de la muestra como
estimadores puntuales:
-0.0017<P1-P2<0.0217
Como el intervalo contiene el valor de cero, no hay razn para creer que el nuevo
procedimiento producir una disminucin significativa en la proporcin de artculos
defectuosos comparado con el mtodo existente.
Un artculo relacionado con la salud, reporta los siguientes datos sobre la incidencia de
disfunciones importantes entre recin nacidos con madres fumadoras de marihuana y de
madres que no la fumaban:
Usuaria No Usuaria
Nmero de
42 294
disfunciones
De una muestr a de 159 ni os del gr upo 1 78 califi can con ms de 100 punt os, de una
muestra de 250 ni os del gr upo 2 123 califi can con ms de 100 punt os.
Construya un interval o de confi anza par a l a dif er encia entr e l as dos proporciones del
grupo 1 y 2 de los ni os con califican con ms de 100.
nH 45 nM 7 1
PH .58 .4 2
PM
PH .5 8 .4 2 .1 6
PM
1 1
s ph m P(1 P)
nH nM
donde:
n H PH n M PM
P
nH nM
PH = proporcin muestra de hombres (H)
PM = proporcin muestra de mujeres (M)
NH = tamao de muestra hombres
NM = tamao de muestra mujeres
Por lo tanto:
1 1
s ph .48(1 .48) 0.10
m 45 71
(d i f e r e n c i a e n t r e p r o p o b s e r v a d a)s (d i f e r e n c i a e n t r e p r H o)
Z
o p o r c i oens
o r c i oens
sp h m
( .5 8 .4 2) (0) 1.60
Z
.10
0.0237<P<0.0376
Se sabe con un nivel de confianza del 90% que la proporcin de discos
defectuosos que no pasan la prueba en esa poblacin est entre 0.0237 y 0.0376.
Ejemplo: En una muestra de 400 pilas tipo B fabricadas por la Everlast Company, se
encontraron 20 defectuosas. Si la proporcin p de pilas defectuosas en esa muestra se
usa para estimar P, que vendr a ser la proporcin verdadera de todas las pilas
defectuosas tipo B fabricadas por la Everlast Company, encuentre el mximo error de
estimacin tal que se pueda tener un 95% de confianza en que P dista menos de
de p.
Solucin:
p=x/n = 20/400=0.05
z(0.95)=1.96
Esto da por resultado dos valores, (0.029, 0.071). Con un nivel de confianza del 95% se
sabe que la proporcin de pulas defectuosas de esta compaa est entre 0.029 y 0.071.
Si se requiere un menor error con un mismo nivel de confianza slo se necesita aumentar
el tamao de la muestra.
5.4 PRUEBA DE INDEPENDENCIA (ji-CUADRADA).
Cuando comparamos dos situaciones podemos esperar que sean ya bien dependientes o
independientes esto quiere decir que pueden o no estar relacionados sus datos debido a
muchos factores que pueden influir en ellos o bien, un problema no tenga relacin con
otro.
La prueba de independencia trata sobre esto, ya que su objetivo es determinar si alguna
situacin es afectada por otra, basndose en datos estadsticos y valores probabilstico
obtenidos de la fabulacin de datos o de pronsticos por medio de frmulas y tablas, para
esto se basa en un nivel de significancia en un caso y en el otro a comparar, valindonos
de tablas de contingencia para obtener frecuencias esperadas y poder aplicarlas, para as
obtener datos comparativos que son determinantes en la decisin de independencia.
La estadstica de prueba que ser utilizada en la toma de una decisin acerca de la
hiptesis nula es ji cuadrado, X2 (X es la letra griega ji minscula. Los valores de ji
cuadrado se obtienen con las siguientes formula:
X2 = (Oi ei)2
i ei
Grados de libertad
V = (r-1)*(c-1)
Frecuencia Esperada = Total de la columna * Total del rengln
Gran total
Caractersticas
X2 toma valores no negativos; es decir, puede ser cero o positiva.
X2 no es simtrica; es asimtrica hacia la derecha.
Existen muchas distribuciones X2 como en el caso de la distribucin t, hay una
2
distribucin, X diferente para cada valor de los grados de libertad.
Nos dan una tabla de contingencia.
Una tabla de contingencia es una disposicin de datos en una clasificacin de doble
entrada. Los datos se ordenan en celdas y se reporta l nmero de datos en cada una. En
la tabla de contingencia estn implicados dos factores (o variables), y la pregunta comn
en relacin con tales tablas es si los datos indican que las dos variables son
independientes o dependientes.
Para ilustrar la utilizacin y anlisis de una tabla de contingencia, considrese la
clasificacin por sexo de los estudiantes de una escuela y su rea acadmica favorita.
Ejemplo: Cada persona de un grupo de 300 estudiantes fue identificada como hombre o
mujer, preguntndosele si prefera recibir cursos en el rea de matemticas, ciencias
sociales o humanidades. La siguiente tabla es una de contingencia que indica las
frecuencias encontradas para esas categoras. Presenta esta tabla la evidencia
suficiente para rechazar la hiptesis nula la preferencia por las matemticas, ciencias
sociales o humanidades es independiente del sexo de un alumno, al nivel de significancia
del 0.05?
Solucin:
Paso 1
Ho: La preferencia por matemticas, ciencias sociales o humanidades es independiente
del sexo de los estudiantes de la escuela.
Ha: La preferencia por las reas es no independiente del sexo de los estudiantes.
Pas 2
Para determinar el valor crtico de la ji cuadrada debe conocerse los grados de libertad,
implicado. En el caso de tablas de contingencia, este nmero es exactamente el nmero
de celdas en la tabla que puede ser llenadas libremente cuando se conocen los totales.
Estos ltimos se indican en la tabla siguiente.
122
178
72 113 115 300
Dados estos totales, solo pueden llenarse dos celdas antes que las restantes queden
determinadas. (por supuesto, los totales deben ser los mismos.) Por ejemplo, una vez que
se seleccionen dos valores arbitrarios (por ejemplo, 50 y 60) para las dos primeras
celdas de la primera fila (vase la tabla siguiente), quedan fijos los otros cuatro valores.
50 60 C 122
D E F 178
72 113 115 300
Dichos valores deben ser C=12, D=22, E=53 y F=103. De otra manera los totales no
sern correctos. En consecuencia, para este problema existen dos selecciones libres.
Cada una de estas corresponde a un grado de libertad. As, el nmero de grados de
libertada en este ejemplo es 2 (v=2). Por esta razn, si se utiliza =0.05, el valor critico
es X2 (2, 0.05) = 6. Vase la siguiente figura.
Pas 3
Antes de poder hallar el valor calculado de ji cuadrada, es necesario examinar los valores
esperados E para cada celda. Para tal fin debe recordarse la hiptesis nula, la cual
asevera que estos factores son independientes. En consecuencia, se espera que los
valores estn distribuidos en proporcin a los totales marginales. Hay 122 hombres; se
espera que estn distribuidos entre M, CS y H proporcionalmente a los totales 72, 113 y
115. As, para los hombres las cuentas esperadas de celda son:
72/300 x 122 113/300 x 122 115/300 x 122
Similarmente, se esperan:
72/300 x 178 113/300 x 178 115/300 x 178
Para las mujeres. Entonces los valores esperados son como se indica en la tabla
siguiente (siempre verifquense los totales nuevos contra los antiguos.)
M CS H Total
29.28 45.95 46.77 122
42.72 67.05 68.23 178
Total 72.00 113.00 115.00 300.00
Nota
El clculo de los valores esperados puede verse de manera alternativa. Recurdese que
la hiptesis nula se supone cierta en tanto no haya evidencia para rechazarla. Habiendo
hecho este supuesto en el ejemplo, de hecho s est afirmando que son independientes
los eventos un estudiante seleccionado aleatoriamente es hombre, y un estudiante
elegido al azar prefiere cursos de matemticas. El estimador puntual para la probabilidad
de que un estudiante sea hombre es 122/300, y para la probabilidad de que un estudiante
prefiera los cursos de matemtica es 72/300. En consecuencia, la probabilidad de que
ocurran ambos eventos es el producto de las probabilidades.
Para estudiar la dependencia entre la prctica de algn deporte y la depresin, se
seleccion una muestra aleatoria simple de 100 jvenes, con los siguientes resultados:
Deportista 38 9 47
No deportista 31 22 53
69 31 100
Podemos usar una tabla como la 1 para describir el caso que se estudia. Despus de
identificar a la poblacin, consumidores hombres y mujeres, se puede tomar una muestra
y preguntar a cada persona que diga su preferencia entre las cervezas modelo.
Cada persona de la muestra se clasificar en una de las seis celdas de la tabla. Por
ejemplo una persona puede ser hombre y prefiera la cerveza clara [celda (1,2)], una mujer
que prefiere la cerveza ligera [celda (2,1)], una mujer que prefiere la cerveza oscura
[celda (2,3)] y as sucesivamente. Como en la lista aparecen todas las combinaciones
posibles de predileccin de cerveza y gnero, en otras palabras aparecen todas las
contingencias posibles, a la tabla se le llama tabla de contingencia.
Cerveza preferida
Los datos de la tabla 2 constituyen las frecuencias observadas para las seis clases o
categoras.
Cerveza preferida
Ligera Clara Oscura Total Si podemos determinar las
frecuencias esperadas bajo la
Gnero Hombre 20 40 20 80 hiptesis de independencia entre la
preferencia de cerveza y el gnero
Mujer 30 30 10 70 del consumidor, podemos usar la
distribucin ji cuadrada para
Total 50 70 30 150 determinar si existe una diferencia
significativa entre la frecuencia
observada y la esperada.
e1, 2
podemos demostrar que
e1, 2
= (7/15) 80 = 37.33
e1, 2
= (7/15) 80 = (70/150) 80 = 37.33
Observe que 80 es la cantidad total de hombres (total del rengln 1), 70 es la cantidad
total de individuos (hombres y mujeres) que prefieren la cerveza clara (total de la columna
2) y 150 es el tamao de la muestra total. En consecuencia vemos
2
k f oi f ei
2
i 1 f ei
K = Categoras o celdas.
6.12710104
diferencias.
Por tanto, todo lo que necesitamos sern unas estimas de las funciones de probabilidad
de ambas variables por separado (f(x) y f(y)) y de la funcin de probabilidad conjunta
(f(x,y))
Empezaremos la prueba tomando una muestra de parejas de valores sobre la que
contaremos la frecuencia absoluta con la que aparece cada combinacin de valores (xi,yj)
o de grupos de valores (i,j) (Oij) La tabla siguiente, en la que se recogen estos datos, es
en realidad nuestra estimacin de la funcin de probabilidad conjunta multiplicada por el
nmero total de datos (T).
Para obtener las estimas de las funciones de probabilidad marginales debemos sumar por
filas y por columnas los valores de las frecuencias conjuntas. Las sumas de filas (Fi) son,
en cada caso, el nmero de veces que hemos obtenido un valor de X (xi) en cualquier
combinacin con distintos valores de Y, es decir, son nuestra estima de la funcin de
probabilidad de X multiplicada por el nmero total de observaciones; anlogamente, las
sumas de columnas (Cj) son nuestra estima de la funcin de probabilidad de Y
multiplicada por el nmero total de observaciones.
El nmero total de observaciones lo podemos obtener como la suma de todas las
frecuencias observadas o, tambin, como la suma de las sumas de filas o de las sumas
de columnas:
As pues, si las variables fueran independientes debera cumplirse que
Naturalmente, nadie espera que esta condicin se cumpla exactamente debido al efecto
de los errores de muestreo aleatorio. Por tanto, nuestro problema consiste en distinguir
entre las diferencias producidas por efecto del muestreo y diferencias que revelen falta de
independencia.
Podemos convertir la ecuacin anterior a frecuencias absolutas multiplicando por T:
Por otra parte, si las variables no son independientes, las diferencias entre las series de
frecuencias observadas y esperadas sern mayores que las atribuibles al efecto del azar
y, al estar elevadas al cuadrado en el numerador de la expresin anterior, sta tender a
ser mayor que lo que suele ser el valor de una variable chi-cuadrado.
Estadstico de contraste
Se analizarn dos pruebas bsicas que pueden aplicarse: La prueba Chi - Cuadrado y la
prueba de Smirnov-Kolmogorov. Ambas pruebas caen en la categora de lo que en
estadstica se denominan pruebas de Bondad de Ajuste y miden, como el nombre lo
indica, el grado de ajuste que existe entre la distribucin obtenida a partir de la muestra y
la distribucin terica que se supone debe seguir esa muestra. Ambas pruebas estn
basadas en la hiptesis nula de que no hay diferencias significativas entre la distribucin
muestral y la terica. Ambas pruebas estn basadas en las siguientes hiptesis:
Para formular la hiptesis nula debern tenerse en cuenta los siguientes aspectos o
criterios:
5.7 APLICACIONES.
Para la ocurrencia de dos eventos, en la cual se desea observar si son dependientes o
independientes.
La distribucin ji cuadrada sirve para todas las inferencias sobre la variancia de una
poblacin.
Existen muchos problemas para los cuales los datos son categorizados y los resultados
expuestos en forma de conteos o cuentas.
Se pueden aplicar en: un conjunto de calificaciones de un examen final puede ser
representado como una distribucin de frecuencias. Estos valores son cuentas: l numera
de datos que caen en cada celda.
En una encuesta determinada se podra preguntar a unas personas si votaran por los
candidatos A, B o C, por lo general, los resultados se indican en una grfica que informa
acerca del nmero de votantes para cada categora posible