Sie sind auf Seite 1von 50

4.

1 INTRODUCCIN PRUEBAS DE HIPTESIS

Introduccin: Prueba de hiptesis En esta unidad nos concentraremos en la prueba de


hiptesis, otro aspecto de la inferencia estadstica que al igual que la estimacin del
intervalo de confianza, se basa en la informacin de la muestra. Se desarrolla una
metodologa paso a paso que le permita hacer inferencias sobre un parmetro poblacional
mediante el anlisis diferencial entre los resultados observados (estadstico de la muestra)
y los resultados de la muestra esperados si la hiptesis subyacente es realmente cierta.
En el problema de estimacin se trata de elegir el valor de un parmetro de la poblacin,
mientras que en las pruebas de hiptesis se trata de decidir entre aceptar o rechazar un
valor especificado (por ejemplo, si el nivel de centramiento de un proceso es o no lo es).
Prueba de hiptesis: Estadsticamente una prueba de hiptesis es cualquier afirmacin
acerca de una poblacin y/o sus parmetros.

Una prueba de hiptesis consiste en contrastar dos hiptesis estadsticas. Tal contraste
involucra la toma de decisin acerca de las hiptesis. La decisin consiste en rechazar o
no una hiptesis en favor de la otra. Una hiptesis estadstica se denota por H y son
dos: - Ho: hiptesis nula - H1: hiptesis alternativa Partes de una hiptesis 1-La hiptesis
nula Ho 2-La hiptesis alternativa H1 3-El estadstico de prueba 4-Errores tipo I y II 5-
La regin de rechazo (crtica) 6-La toma de decisin 1. Concepto: Una prueba de
hiptesis estadstica es una conjetura de una o ms poblaciones. Nunca se sabe con
absoluta certeza la verdad o falsedad de una hiptesis estadstica, a no ser que se
examine la poblacin entera. Esto por su puesto sera imprctico en la mayora de las
situaciones. En su lugar, se toma una muestra aleatoria de la poblacin de inters y se
utilizan los datos que contiene tal muestra para proporcionar evidencia que confirme o no
la hiptesis. La evidencia de la muestra que es un constante con la hiptesis planteada
conduce a un rechazo de la misma mientras que la evidencia que apoya la hiptesis
conduce a su aceptacin.

Definicin de prueba de hiptesis estadstica es que cuantifica el proceso de toma de


decisiones.

Por cada tipo de prueba de hiptesis se puede calcular una prueba estadstica apropiada.
Esta prueba estadstica mide el acercamiento del calor de la muestra (como un promedio)
a la hiptesis nula. La prueba estadstica, sigue una distribucin estadstica bien conocida
(normal, etc.) o se puede desarrollar una distribucin para la prueba estadstica particular.

La distribucin apropiada de la prueba estadstica se divide en dos regiones: una regin


de rechazo y una de no rechazo. Si la prueba estadstica cae en esta ltima regin no se
puede rechazar la hiptesis nula y se llega a la conclusin de que el proceso funciona
correctamente.

Al tomar la decisin con respecto a la hiptesis nula, se debe determinar el valor crtico en
la distribucin estadstica que divide la regin del rechazo (en la cual la hiptesis nula no
se puede rechazar) de la regin de rechazo. A hora bien el valor crtico depende del
tamao de la regin de rechazo.

4.2 DISTRIBUCIN NORMAL Y DISTRIBUCIN T DE STUDENT


En estadstica y probabilidad se llama distribucin normal, distribucin de Gauss o
distribucin gaussiana, a una de las distribuciones de probabilidad de variable continua
que con ms frecuencia aparece en fenmenos reales.
La grfica de su funcin de densidad tiene una forma acampanada y es simtrica respecto
de un determinado parmetro. Esta curva se conoce como campana de Gauss.
La importancia de esta distribucin radica en que permite modelar numerosos fenmenos
naturales, sociales y psicolgicos. Mientras que los mecanismos que subyacen a gran
parte de este tipo de fenmenos son desconocidos, por la enorme cantidad de variables
incontrolables que en ellos intervienen, el uso del modelo normal puede justificarse
asumiendo que cada observacin se obtiene como la suma de unas pocas causas
independientes.
De hecho, la estadstica es un modelo matemtico que slo permite describir un
fenmeno, sin explicacin alguna. Para la explicacin causal es preciso el diseo
experimental, de ah que al uso de la estadstica en psicologa y sociologa sea conocido
como mtodo correlacional.
La distribucin normal tambin es importante por su relacin con la estimacin por
mnimos cuadrados, uno de los mtodos de estimacin ms simples y antiguos.
La distribucin normal tambin aparece en muchas reas de la propia estadstica. Por
ejemplo, la distribucin muestral de las medias mustrales es aproximadamente normal,
cuando la distribucin de la poblacin de la cual se extrae la muestra no es normal.[1]
Adems, la distribucin normal maximiza la entropa entre todas las distribuciones con
media y varianza conocidas, lo cual la convierte en la eleccin natural de la distribucin
subyacente a una lista de datos resumidos en trminos de media muestral y varianza. La
distribucin normal es la ms extendida en estadstica y muchos tests estadsticos estn
basados en una supuesta "normalidad".
En probabilidad y estadstica, la distribucin t (de Student) es una distribucin de
probabilidad que surge del problema de estimar la media de una poblacin normalmente
distribuida cuando el tamao de la muestra es pequeo.
Aparece de manera natural al realizar la prueba t de Student para la determinacin de las
diferencias entre dos medias muestrales y para la construccin del intervalo de confianza
para la diferencia entre las medias de dos poblaciones cuando se desconoce la
desviacin tpica de una poblacin y sta debe ser estimada a partir de los datos de una
muestra.
La distribucin t de Student es la distribucin de probabilidad del cociente

Donde
Z tiene una distribucin normal de media nula y varianza 1

V tiene una distribucin chi-cuadrado con grados de libertad


Z y V son independientes
Si es una constante no nula, el cociente es una variable aleatoria que sigue la
distribucin t de Student no central con parmetro de no-centralidad .
4.3 PRUEBAS DE SIGNIFICANCIA
Las pruebas de significancia estadstica son un procedimiento que brinda un criterio
objetivo para calificar las diferencias que se presentan al comparar los resultados de dos
muestras, con el objetivo de explicar si dichas diferencias se mantienen dentro de los
lmites previstos por el diseo estadstico (un error y una confianza esperados) o si, por el
contrario, la diferencia entre ellas resulta lo suficientemente grande como para inferir que
ha ocurrido un cambio real en el indicador
4.4 COMPARACIN DE DOS MUESTRAS INDEPENDIENTES: PRUEBAS T PARA LAS
DIFERENCIAS ENTRE NORMALES.
Para comparar las medias de dos muestras aleatorias procedentes de dos poblaciones
normales e independientes, se utiliza el procedimiento Prueba T para muestras
independientes, y para ello, se selecciona:

A continuacin se abre una ventana con los siguientes campos:


Contrastar variables: donde se han de introducir las variables que se van a analizar, es
decir, aquellas variables sobre las que se va a contrastar si hay o no, diferencias de
grupos.
Variable de agrupacin: aqu se debe introducir la variable que se utiliza para definir los
grupos de sujetos sobre los que se estudian las diferencias. Entonces el sistema activa el
botn definir grupos y al presionarlo aparece una ventana donde se introducen los valores
de la variable que definen los dos grupos de sujetos a comparar, o el valor de la variable
que har de corte para definir dichos grupos. Si el valor de la variable para un individuo es
menor o igual que el valor especificado, el individuo pertenecer al primer grupo, y en
caso contrario, al segundo.
Opciones: presionando este botn se obtiene una ventana donde se especifica igual que
en la seccin anterior el nivel de confianza para el intervalo y la forma de tratar los valores
missing.

Ejemplo: Vamos a comprobar si existen diferencias significativas entre los tiempos


medios de dedicacin a la docencia, para los profesores asociados y los titulares de
universidad de Profesores2.sav. Para ello, seleccionamos el procedimiento Prueba T para
muestras independientes, y elegimos la variable Tiemdoc para llevarla al campo
contrastar variables. Seguidamente seleccionamos como variable agrupacin la variable
categora, presionamos el botn definir grupos, y tecleamos un 1 en el primer grupo y un 3
en el segundo. Por ltimo pulsamos continuar y aceptar para ejecutar el procedimiento.
El resultado que muestra la Tabla contiene dos tablas. La primera recoge para ambos
grupos, profesores asociados y titulares de universidad, el nmero de casos en cada
muestra, los tiempos medios dedicados a la docencia, las desviaciones tpicas y los
errores tpicos de la media. La segunda tabla muestra el valor del estadstico para la
prueba de Levene sobre la igualdad de varianzas, junto con su p-valor. Este se distribuye
como una F de Snedecor y vale 0.808, mientras que su p-valor 0.373, lo que nos conduce
a aceptar que las varianzas sean iguales, ya que el p-valor es mayor que 0.05. Tambin
aparece en la tabla el valor del estadstico para resolver el contraste de igualdad de
medias, supuesto varianzas iguales y distintas, (en ambos casos se distribuye como una t
de Student), junto con los correspondientes grados de libertad y sus p-valores. Puesto
que hemos concluido que las varianzas coinciden, fijmonos en el que se han asumido
varianzas iguales, el cual vale 8.661, y cuyo p-valor es 0, luego se rechaza que las
medias coincidan. Razonamiento que tambin se puede deducir del intervalo de
confianza, que no contiene el cero.

Tabla : Contraste sobre las Medias de dos Poblaciones Independientes


Prueba T Estadsticos de Grupo
Desviacin Error tp. de
Categora N Media tp. la media
Tiempo diario 1 29 251,3759 29,36731 5,4534
para la docencia 3 23 187,1000 22,5337 4,6986
Prueba de muestras independientes

Prueba de
Levene
para
la igualdad Prueba T para la igualdad de medias
de
varianzas
Error
Sig. Diferenci tpico de Intervalo de
F Sig. t gl bilater a de la confianza para
al medias diferenci la diferencia
a
Superio
Inferior
r
Asumiend 0.80 0,37 8,66 49,370 79,181
Tiempo 50 0.000 64,2759 7,4209
o 8 3 1 4 3
varianzas
diario
iguales
para la No 8,92 49,96 0.000 64,2759 7,1983 49,817 78,734
Asumiend 9 1 3 5
o
docencia varianzas
iguales
En muchos estudios, incluidos la mayora de los ensayos clnicos, es necesario comparar
ciertas caractersticas en dos o ms grupos de sujetos. Tal sera el caso, por ejemplo, si
pensamos que un tratamiento nuevo puede tener un porcentaje de mejora mayor que
otro estndar, o cuando nos planteamos si los nios de las distintas comunidades
autnomas tienen o no la misma altura. En este artculo se analizar nicamente el
problema de la comparacin de dos grupos con respecto a una variable continua. La
eleccin de un mtodo de anlisis apropiado en este caso depender de la naturaleza de
los datos y la forma en la que estos hayan sido obtenidos. Fundamentalmente, cuando se
comparan dos o ms grupos de observaciones pueden darse dos tipos de diseo: aquel
en el que las observaciones se refieren a dos grupos independientes de individuos, o el
caso en el que cada serie de datos se recoge en los mismos sujetos bajo condiciones
diferentes. El tipo de metodologa ser distinto segn el caso en el que nos encontremos.
Otro aspecto a tener en consideracin ser el tipo y distribucin de los datos. Para grupos
independientes, los mtodos paramtricos requieren que las observaciones en cada
grupo provengan de una distribucin aproximadamente normal con una variabilidad
semejante, de modo que si los datos disponibles no verifican tales condiciones, puede
resultar til una transformacin1,2,3 de los mismos (aplicacin del logaritmo, raz cuadrada,
etc.) o, en todo caso, se debera recurrir a la utilizacin de procedimientos no
paramtricos4.
Normalmente en este tipo de anlisis podremos establecer una hiptesis de partida
(hiptesis nula), que generalmente asume que el efecto de inters es nulo, por ejemplo
que la tensin arterial es la misma en hombres y mujeres o que dos tratamientos para la
hipocolesterolemia son igualmente efectivos. Posteriormente se puede evaluar la
probabilidad de haber obtenido los datos observados si esa hiptesis es correcta. El valor
de esta probabilidad coincide con el valor-p que nos proporciona cada test estadstico, de
modo que cuanto menor sea ste ms improbable resulta que la hiptesis inicial se
verifique.
En un primer apartado, se presentar el test t de Student para dos muestras
independientes, introduciendo las modificaciones necesarias en el caso de que la
variabilidad de ambos grupos sea distinta. A continuacin se introducir el test t de
Student para el caso de dos muestras dependientes.
t de Student para dos muestras independientes
Uno de los anlisis estadsticos ms comunes en la prctica es probablemente el utilizado
para comparar dos grupos independientes de observaciones con respecto a una variable
numrica. Como ejemplo, consideremos los datos que se muestran en la Tabla 1,
correspondientes a 75 individuos con sobrepeso sometidos a dos dietas alimenticias
distintas, de modo que se desea comparar el peso de los individuos que iniciaron cada
una de las dietas.
Como ya se ha adelantado, la aplicacin de un contraste paramtrico requiere la
normalidad de las observaciones para cada uno de los grupos. La comprobacin de esta
hiptesis puede realizarse tanto por mtodos grficos (por medio de histogramas,
diagramas de cajas o grficos de normalidad) como mediante tests estadsticos5 (test de
Kolmogorov-Smirnov, test de Shapiro-Wilks). Un nmero suficiente de observaciones
(digamos mayor de 30) como ocurre en el ejemplo planteado justifica, no obstante, la
utilizacin del mismo test. As mismo, este tipo de metodologa exigir que la varianza en
ambos grupos de observaciones sea la misma. En primer lugar se desarrollar el test t de
Student para el caso en el que se verifiquen ambas condiciones, discutiendo
posteriormente el modo de abordar formalmente el caso en el que las varianzas no sean
similares.
Bajo las hiptesis de normalidad e igual varianza la comparacin de ambos grupos puede
realizarse en trminos de un nico parmetro como el valor medio (Figura 1a), de modo
que en el ejemplo planteado la hiptesis de partida ser, por lo tanto:
H0: La media de peso inicial es igual en ambos grupos
Se denotar por {X1, X2,...,Xn} e {Y1,Y2,...,Ym} al peso observado en cada uno de los
sujetos sometidos a la dieta A y a la dieta B respectivamente. En general no se exigir
que coincida el nmero de observaciones en cada uno de los grupos que se comparan,
de modo que en el ejemplo n=40 y m=35.
El t test para dos muestras independientes se basa en el estadstico:

(1)

Donde e denotan el peso medio en cada uno de los grupos:

y , las cuasi varianzas mustrales correspondientes:

Con lo cual, en este caso particular, el valor utilizado para el contraste ser:

Si la hiptesis de partida es cierta el estadstico (1) seguir una distribucin t de Student


con n+m-2 grados de libertad. De ser as, el valor obtenido debera estar dentro del rango
de mayor probabilidad segn esta distribucin. Usualmente se toma como referencia el
rango de datos en el que se concentra el 95% de la probabilidad. El valor-p que
usualmente reportan la mayora de paquetes estadsticos no es ms que la probabilidad
de obtener, segn esa distribucin, un dato ms extremo que el que proporciona el test.
Como ya se dijo, refleja tambin la probabilidad de obtener los datos observados si fuese
cierta la hiptesis inicial. Si el valor-p es muy pequeo (usualmente se considera p<0.05)
es poco probable que se cumpla la hiptesis de partida y se debera de rechazar. La
regin de aceptacin corresponde por lo tanto a los valores centrales de la distribucin
para los que p>0.05. En el ejemplo planteado el valor-p correspondiente es de 0.425, de
modo que no existe evidencia estadstica de que el peso medio en ambos grupos sea
diferente. En la Tabla 2, se determina los grados de libertad (en la primera columna) y el
valor de (en la primera fila). El nmero que determina su interseccin es el valor crtico
correspondiente. De este modo, si el estadstico que se obtiene toma un valor mayor se
dir que la diferencia es significativa.
Otro modo de obtener esta misma informacin es mediante el clculo de intervalos de
confianza para la diferencia de la respuesta media en ambos grupos. A mayores, el
intervalo de confianza constituye una medida de la incertidumbre con la que se estima esa
diferencia a partir de la muestra, permitiendo valorar tanto la significacin estadstica
como la magnitud clnica de esa diferencia6. En el caso que nos ocupa, el intervalo de
confianza vendr dado como:

Donde denota el valor que segn la distribucin t de Student con n+m-2 grados de
libertad deja a su derecha el 2.5% de los datos. En el ejemplo, el intervalo de confianza
con una seguridad del 95% para la diferencia de peso viene dado por:

Que expresa en definitiva un rango de valores entre los que se puede encontrar el valor
real de la diferencia entre los pesos de ambos grupos. Proporciona adems la misma
informacin que obtenamos del contraste estadstico. El hecho de que el valor cero
pertenezca al intervalo indica que no se dispone de evidencia para concluir que el peso
sea distinto en ambos grupos.
A medida que el tamao muestral aumenta, la distribucin del estadstico (1) se hace ms
prxima a la de una variable Normal estndar. De este modo, en algunos textos se opta
por utilizar esta distribucin para realizar la comparacin de medias. Aunque esta
aproximacin es correcta para muestras suficientemente grandes, ambos mtodos
proporcionan en este caso resultados prcticamente idnticos, por lo que resulta ms
simple utilizar, independientemente del tamao de la muestra, la misma metodologa a
partir de la distribucin t. El mismo planteamiento podra utilizarse en el caso de varianzas
distintas o de muestras apareadas.
Dos muestras dependientes
Ya se ha comentado que cuando se trata de comparar dos grupos de observaciones, es
importante distinguir el caso en el que son independientes de aquel en el que los datos
estn apareados. Las series dependientes surgen normalmente cuando se evala un
mismo dato ms de una vez en cada sujeto de la muestra. Tambin se puede encontrar
este tipo de observaciones en estudios de casos y controles donde cada caso se aparea
individualmente con un control.
Supongamos que queremos comprobar, en los datos de la Tabla 1 si realmente se
produce una prdida de peso significativa en esos individuos, para lo que se recoge en
cada sujeto su peso antes y despus de someterse a la dieta. En este tipo de anlisis el
inters no se centra en la variabilidad que puede haber entre los individuos, sino en las
diferencias que se observan en un mismo sujeto entre un momento y otro. Por este
motivo, resulta intuitivo trabajar con la diferencia de ambas observaciones (en el ejemplo
ser la prdida de peso), de modo que se quiere contrastar la hiptesis:
H0: La prdida de peso es nula frente a la alternativa de que la prdida de peso sea
importante (es decir, distinta de cero).
La veracidad de dicha hiptesis puede ser contrastada igualmente mediante el test t de
Student. Como se ha dicho, este tipo de mtodos tienen como hiptesis fundamental la
normalidad de los datos. En este caso, sin embargo, no ser necesario que las
observaciones en ambos grupos provengan de poblaciones normales, sino que

nicamente se requiere verificar la normalidad de su diferencia. Denotando por la


prdida media de peso la hiptesis de la que se parte es que:

frente a la alternativa

A partir de las observaciones mustrales {Y1,Y2,..., Yn} e {Y1,Y2,...,Yn} en cada uno de los
grupos se calcula la diferencia de peso para cada sujeto {d1,d2,...,dn} con dj=Xj-Yj
j=1,2,...,n. Ntese que en este caso un requisito fundamental es que se tenga un nmero
igual de observaciones en ambos grupos. A partir de estos datos, el contraste se basa en
el estadstico:

o en el clculo del 95% intervalo de confianza:

Donde denota la media de la prdida de peso estimada a partir de la muestra:

y denota la cuasi varianza muestral de la diferencia dada por:

En nuestro ejemplo el valor del estadstico vendra dado por:


a comparar del modo habitual con la distribucin t de Student con n-1=74 grados de
libertad. El intervalo de confianza para la prdida media de peso correspondiente a una
seguridad del 95% es de (3.56;4.41), lo cual se traduce en una prdida de peso
significativamente distinta de cero, tal y como indica el valor-p correspondiente de
p<0.001.

Figura 1. Comparacin de dos poblaciones normales

a) Poblaciones normales con igual varianza y medias distintas

b) Poblaciones normales con igual y diferentes varianzas.

Figura 2. Regiones de aceptacin y rechazo en el contraste de


hiptesis
Tabla 1. Datos de 75 pacientes con sobrepeso sometidos a
dos dietas alimenticias.

Dieta Peso inicial Peso final Dieta Peso inicial Peso final

A 94,07 86,59 B 88,02 84,12

A 96,79 93,08 B 88,22 86,13

A 92,15 87,85 B 103,45 101,21

A 92,30 86,83 B 82,94 79,08

A 96,50 92,70 B 89,71 86,19

A 83,11 76,80 B 94,83 91,93

A 91,16 83,40 B 81,93 78,97

A 90,81 86,74 B 83,41 78,89

A 81,37 77,67 B 73,59 69,76

A 89,81 85,70 B 108,47 104,20

A 84,92 79,96 B 72,67 70,01


A 84,43 79,80 B 96,84 93,66

A 86,33 81,15 B 88,48 87,00

A 87,60 81,92 B 89,57 87,24

A 81,08 76,32 B 85,22 82,09

A 92,07 90,20 B 103,76 102,24

A 81,14 73,34 B 87,84 84,66

A 96,87 93,58 B 91,50 88,95

A 99,59 92,36 B 93,04 88,73

A 83,90 77,23 B 92,14 88,07

A 89,41 85,45 B 85,26 81,36

A 85,31 84,59 B 89,42 86,64

A 89,25 84,89 B 92,42 88,99

A 93,20 93,10 B 93,13 89,73

A 89,17 86,87 B 80,86 77,81

A 93,51 86,36 B 88,75 85,93

A 88,85 83,24 B 95,02 91,90

A 88,40 81,20 B 92,29 91,28

A 82,45 77,18 B 89,43 87,22

A 96,47 88,61 B 93,32 89,77

A 99,48 94,67 B 92,88 89,38

A 99,95 93,87 B 89,88 88,00

A 100,05 94,15 B 82,25 80,81

A 87,33 82,17 B 88,99 86,87

A 87,61 86,01 B 82,07 79,74


A 89,28 83,78

A 89,72 83,56

A 95,57 89,58

A 97,71 91,35

A 98,73 97,82

4.5 PRUEBA DE FISHER PARA VARIANZAS Y DE IGUALDAD DE LAS VARIANZAS


DE DOS POBLACIONES NORMALES.
La necesidad de disponer de mtodos estadsticos para comparar las varianzas de dos
poblaciones es evidente a partir del anlisis de una sola poblacin. Frecuentemente se
desea comparar la precisin de un instrumento de medicin con la de otro, la estabilidad
de un proceso de manufactura con la de otro o hasta la forma en que vara el
procedimiento para calificar de un profesor universitario con la de otro.

Intuitivamente, podramos comparar las varianzas de dos poblaciones, y ,


utilizando la razn de las varianzas muestrales s21/s2 . Si s2 /s22 es casi igual a 1, se tendr
2 1

poca evidencia para indicar que y no son iguales. Por otra parte, un valor muy
grande o muy pequeo para s21/s22 , proporcionar evidencia de una diferencia en las
varianzas de las poblaciones.
La variable aleatoria F se define como el cociente de dos variables aleatorias ji-cuadrada
independientes, cada una dividida entre sus respectivos grados de libertad. Esto es,

Donde U y V son variables aleatorias ji-cuadrada independientes con grados de libertad

y
respectivamente.
Sean U y V dos variables aleatorias independientes que tienen distribucin ji cuadradas

con grados de libertad, respectivamente. Entonces la distribucin de la variable

aleatoria est dada por:


y se dice que sigue la distribucin F con grados de libertad en el numerador y
grados de libertad en el denominador.
La media y la varianza de la distribucin F son:

para

para

La variable aleatoria F es no negativa, y la distribucin tiene un sesgo hacia la derecha.


La distribucin F tiene una apariencia muy similar a la distribucin ji-cuadrada; sin

embargo, se encuentra centrada respecto a 1, y los dos parmetros proporcionan


una flexibilidad adicional con respecto a la forma de la distribucin.
2
Si s12 y s2 son las varianzas mustrales independientes de tamao n1 y n2 tomadas de


poblaciones normales con varianzas y , respectivamente, entonces:

Para manejar las tablas de Fisher del libro de Introduccin a la Inferencia Estadstica del
autor Genther, se tendr que buscar primero los grados de libertad dos para luego
localizar el rea correspondiente, relacionndola con los grados de libertad uno, para
calcular el valor de F.
Las tablas tienen la siguiente estructura:
P
1 2 3 . .. 500

6 0.0005

0.001

0.005

0.9995 30.4

El valor de 30.4 es el correspondiente a una Fisher que tiene 3 grados de libertad uno y 6
grados de libertad dos con un rea de cero a Fisher de 0.995. Si lo vemos grficamente:

Como nos podemos imaginar existen varias curvas Fisher, ya que ahora su forma
depende de dos variables que son los grados de libertad.
Ejemplos:
1. Encontrar el valor de F, en cada uno de los siguientes casos:

a. El rea a la derecha de F, es de 0.25 con =4 y =9.

b. El rea a la izquierda de F, es de 0.95 con =15 y =10.

c. El rea a la derecha de F es de 0.95 con con =6 y =8.

d. El rea a la izquierda de F, es de 0.10 con con =24 y


=24
Solucin:
Como el rea que da la tabla es de cero a Fisher, se tiene que localizar primero los
grados de libertad dos que son 9, luego un rea de 0.75 con 4 grados de libertad uno.

En este caso se puede buscar el rea de 0.95 directamente en la tabla con sus
respectivos grados de libertad.

Se tiene que buscar en la tabla un rea de 0.05, puesto que nos piden un rea a la
derecha de F de 0.95.

Se busca directamente el rea de 0.10, con sus respectivos grados de libertad.


Si s12 y s22 son las varianzas mustrales de muestras aleatorias independientes de
tamaos n1=10 y n2 =20, tomadas de poblaciones normales que tienen las mismas
2
varianzas, encuentre P(s
1 2/s 2.42).
2

Solucin:
Primero se establecen los grados de libertad. Como en el numerador est la poblacin
uno y en el denominador la poblacin dos, entonces los grados de libertad uno equivalen
a 10-1=9 y los grados de libertad dos a 20-1=19.
Se procede a ir a la tabla a buscar los grados de libertad dos que son 19 y se observa que
no estn, por lo tanto se tiene que interpolar entre 15 y 20 grados de libertad, buscando el
valor de fisher que quedara:

Este valor de 2.42 se busca en la columna de 9 grados de libertad uno, con 15 grados de
libertad dos, y se encuentra el siguiente:

Area

0.90 2.09

0.95 2.59

Al interpolar entre estos dos valores nos queda un rea de 0.933.


Se procede a hacer lo mismo pero con 20 grados de libertad dos:

Area

0.95 2.39

0.975 2.84
Al interpolar entre estos dos valores nos queda un rea de 0.9516.
Ahora ya se tienen las dos reas referentes a los grados de libertad dos, por lo que se
interpolar para ver cunto le corresponde a los grados libertad dos con un valor de 19.

Al interpolar
libertad nos un
dos con queda que
valor depara 9 grados
Fisher deellibertad
de 2.42 rea auno y 19 grados
la izquierda de
es de
Area 0.9478.

15 0.933

20 0.9516

Si s12 y s22 representan las varianzas de las muestras aleatorias independientes de

2
tamao n1= 25 y n2 = 31, tomadas de poblaciones normales con varianzas 1 =10 y
2 2 2
= 15, respectivamente, encuentre P(s /s > 1.26).
2 1 2

Solucin:
Calcular el valor de Fisher:

Luego se va a la tabla de Fisher a buscar 30 grados de libertad 2 con 24 grados de


libertad uno. Cuando se este en esta posicin se busca adentro de la tabla el valor de
Fisher de 1.89. Al localizarlo y ver a la izquierda de este valor se obtiene un rea de 0.95,
pero esta rea correspondera a la probabilidad de que las relaciones de varianzas
mustrales fueran menor a 1.26, por lo que se calcula su complemento que sera 0.05,
siendo esta la probabilidad de que s1 2/s2 2 > 1.26.

Intervalo de Confianza para el Cociente de Varianzas de Dos Distribuciones Normales


Supngase que se tienen dos poblaciones normales e independientes con varianzas
2
desconocidas y 2, respectivamente. De este par de poblaciones, se tienen
2

disponibles dos muestras aleatorias de tamaos n1 y n2, respectivamente, sean s12 y s22
las dos varianzas muestrales. Se desea conocer un intervalo de confianza del 100(

2 2
) por ciento para el cociente de las dos varianzas, 1 / 2 .
Para construir el intervalo de confianza para el cociente de dos varianzas poblacionales,
se coloca la varianza muestral mayor en el numerador del estadstico F.
Ejemplos:
Un fabricante de automviles pone a prueba dos nuevos mtodos de ensamblaje de
motores respecto al tiempo en minutos. Los resultados se muestran el la tabla:

Mtodo 1 Mtodo 2

n1 = 31 n2 = 25

s12 = 50 s22 = 24

2 2
Construya un intervalo de confianza del 90% para 1 / 2 .
Solucin:
Por la recomendacin de que la varianza muestral mayor va en el numerador se tiene la
siguiente frmula:

al despejar: .
F toma dos valores dependiendo del nivel de confianza y de los grados de libertad. En
este caso los grados de libertad uno valen 30 y los grados de libertad dos 24.

1.

2. y
4.6 COMPARACIONES DE DOS MUESTRAS PAREADAS
Una de las hiptesis sobre las que habitualmente se fundamentan las pruebas
estadsticas de comparacin es que las observaciones pertenecientes a cada una de las
muestras son independientes entre s, no guardan relacin; siendo precisamente ese uno
de los objetivos de la aleatorizacin (eleccin aleatoria de los sujetos o unidades de
observacin). Sin embargo, la falta de independencia entre las observaciones de los
grupos puede ser una caracterstica del diseo del estudio para buscar fundamentalmente
una mayor eficiencia del contraste estadstico al disminuir la variabilidad. En otras
ocasiones con este tipo de diseo pareado lo que se busca es dar una mayor validez a las
inferencias obtenidas, controlando o eliminando la influencia de variables extraas cuyo
efecto ya es conocido o sospechado, y no se desea que intervenga en el estudio actual
pudiendo enmascarar el efecto del tratamiento o de la variable de inters.
Las muestras apareadas se obtienen usualmente como distintas observaciones realizadas
sobre los mismos individuos. Un ejemplo de observaciones pareadas consiste en
considerar a un conjunto de n personas a las que se le aplica un tratamiento mdico y se
mide por ejemplo el nivel de insulina en la sangre antes (X) y despus del mismo (Y). En
este ejemplo no es posible considerar aX eY como variables independientes ya que va a
existir una dependencia clara entre las dos variables.
4.7 MODELO TOTALMENTE ALEATORIO: ANLISIS DE VARIANZA DE UN FACTOR.
Hay varias formas en las cuales puede disearse un experimento ANOVA. Quizs el ms
comn es el diseo completamente aleatorizado a una va. El trmino proviene del hecho
que varios sujetos o unidades experimentales se asignan aleatoriamente a diferentes
niveles de un solo factor. Por ejemplo: varios empleados (unidades experimentales)
pueden seleccionarse aleatoriamente para participar en diversos tipos (niveles diferentes)
de un programa de capacitacin (el factor).
El anlisis de varianza se basa en una comparacin de la cantidad de variacin en cada
uno de los tratamientos. Si de un tratamiento al otro la variacin es significativamente alta,
puede concluirse que los tratamientos tienen efectos diferentes en las poblaciones.
a. Esta variacin entre el nmero total de las 14 observaciones. Esto se llama variacin
total.
b. Existe variacin entre los diferentes tratamientos (muestras). Esto se llama variacin
entre muestras.
c. Existe variacin dentro de un tratamiento dado (muestra). Esto se denomina
variacin dentro de la muestra.
4.8 SELECCIN DEL TAMAO DE MUESTRA PARA ESTIMAR LA DIFERENCIA DE
DOS MEDIAS
En Estadstica el tamao de la muestra es el nmero de sujetos que componen la muestra
extrada de una poblacin, necesarios para que los datos obtenidos sean representativos
de la poblacin.
1. Estimar un parmetro determinado con el nivel de confianza deseado.
2. Detectar una determinada diferencia, si realmente existe, entre los grupos de
estudio con un mnimo de garanta.
3. Reducir costes o aumentar la rapidez del estudio.
Por ejemplo, en un estudio de investigacin epidemiolgico la determinacin de un
tamao adecuado de la muestra tendra como objetivo su factibilidad. As:
Si el nmero de sujetos es insuficiente habra que modificar los criterios de seleccin,
solicitar la colaboracin de otros centros o ampliar el periodo de reclutamiento. Los
estudios con tamaos muestrales insuficientes, no son capaces de detectar diferencias
entre grupos, llegando a la conclusin errnea de que no existe tal diferencia.
Si el nmero de sujetos es excesivo, el estudio se encarece desde el punto de vista
econmico y humano. Adems es poco tico al someter a ms individuos a una
intervencin que puede ser menos eficaz o incluso perjudicial.
El tamao de una muestra es el nmero de individuos que contiene.

Una frmula muy extendida que orienta sobre el clculo del tamao de la muestra para
datos globales es la siguiente:
n = ( (k^2) * N*p*q) / ( (e^2 * (N-1) )+( (k^2) * p*q))
N: es el tamao de la poblacin o universo (nmero total de posibles encuestados).
k: es una constante que depende del nivel de confianza que asignemos. El nivel de
confianza indica la probabilidad de que los resultados de nuestra investigacin sean
ciertos: un 95,5 % de confianza es lo mismo que decir que nos podemos equivocar con
una probabilidad del 4,5%.
Los valores k ms utilizados y sus niveles de confianza son:
K 1,15 1,28 1,44 1,65 1,96 2 2,58
Nivel de confianza 75% 80% 85% 90% 95% 95,5% 99%
(Por tanto si pretendemos obtener un nivel de confianza del 95% necesitamos poner en la
frmula k=1,96)
e: es el error muestral deseado. El error muestral es la diferencia que puede haber entre
el resultado que obtenemos preguntando a una muestra de la poblacin y el que
obtendramos si preguntramos al total de ella.
Ejemplos:
Ejemplo 1: si los resultados de una encuesta dicen que 100 personas compraran un
producto y tenemos un error muestral del 5% comprarn entre 95 y 105 personas.
Ejemplo 2: si hacemos una encuesta de satisfaccin a los empleados con un error
muestral del 3% y el 60% de los encuestados se muestran satisfechos significa que entre
el 57% y el 63% (60% +/- 3%) del total de los empleados de la empresa lo estarn.
Ejemplo 3: si los resultados de una encuesta electoral indicaran que un partido iba a
obtener el 55% de los votos y el error estimado fuera del 3%, se estima que el porcentaje
real de votos estar en el intervalo 52-58% (55% +/- 3%).
p: proporcin de individuos que poseen en la poblacin la caracterstica de estudio. Este
dato es generalmente desconocido y se suele suponer que p=q=0.5 que es la opcin ms
segura.
q: proporcin de individuos que no poseen esa caracterstica, es decir, es 1-p.
n: tamao de la muestra (nmero de encuestas que vamos a hacer).
Altos niveles de confianza y bajo margen de error no significan que la encuesta sea de
mayor confianza o est ms libre de error necesariamente; antes es preciso minimizar la
principal fuente de error que tiene lugar en la recogida de datos. Para calcular el tamao
de la muestra suele utilizarse la siguiente frmula:
Otra frmula para calcular el tamao de la muestra es:
n=(N^2 Z^2)/((N-1) e^2+^2 Z^2 ) Donde: n = el tamao de la muestra.
N = tamao de la poblacin.
= Desviacin estndar de la poblacin que, generalmente cuando no se tiene su valor,
suele utilizarse un valor constante de 0,5. Z = Valor obtenido mediante niveles de
confianza. Es un valor constante que, si no se tiene su valor, se lo toma en relacin al
95% de confianza equivale a 1,96 (como ms usual) o en relacin al 99% de confianza
equivale 2,58, valor que queda a criterio del encuestador. e = Lmite aceptable de error
muestral que, generalmente cuando no se tiene su valor, suele utilizarse un valor que
vara entre el 1% (0,01) y 9% (0,09), valor que queda a criterio del encuestador.

La frmula anterior se obtiene de la frmula para calcular la estimacin del intervalo de


confianza para la media:
X -Z /n ((N-n)/(N-1))X +Z /n ((N-n)/(N-1))

En donde el error es:


e=Z /n ((N-n)/(N-1))
Elevando al cuadrado el error se tiene: (e) ^2=(Z /n ((N-n)/(N-1)))^2
e^2=Z^2 ^2/n (N-n)/(N-1)
Multiplicando fracciones: e^2= (Z^2 ^2 (N-n))/n(N-1)
Eliminando denominadores: e^2 n(N-1)=Z^2 ^2 (N-n)
Eliminando parntesis: e^2 nN-e^2 n=Z^2 ^2 N-Z^2 ^2 n
Transponiendo n a la izquierda: e^2 nN-e^2 n+Z^2 ^2 n=Z^2 ^2 N
Factor comn de n:
n(e^2 N-e^2+Z^2 ^2 )=Z^2 ^2 N
Despejando n:
n=(Z^2 ^2 N)/(e^2 N-e^2+Z^2 ^2 )
Ordenando se obtiene la frmula para calcular el tamao de la muestra:
n=(N^2 Z^2)/((N-1) e^2+^2 Z^2 )
Ejemplo ilustrativo: Calcular el tamao de la muestra de una poblacin de 500 elementos
con un nivel de confianza del 99%
Solucin: Se tiene N=500, para el 99% de confianza Z = 2,58, y como no se tiene los
dems valores se tomar =0,5, y e = 0,05.
Reemplazando valores en la frmula se obtiene:
n=(N^2 Z^2)/((N-1) e^2+^2 Z^2 )
n=(500 0,5 ^2 2,58 ^2)/((500-1) (0,05) ^2+ 0,5 ^2 2,58
^2 )
=832,05/2,9116=285,77=286

Suponga que se tienen dos poblaciones distintas, la primera con media 1 y desviacin

estndar 1, y la segunda con media 2 y desviacin estndar 2. Ms an, se elige


una muestra aleatoria de tamao n1 de la primera poblacin y una muestra independiente
aleatoria de tamao n2 de la segunda poblacin; se calcula la media muestral para cada
muestra y la diferencia entre dichas medias. La coleccin de todas esas diferencias se
llama distribucin muestral de las
2 2
Ejemplo: Si se tienen dos poblaciones con medias 1 y 2 y varianzas 1 y 2 ,

respectivamente, un estimador puntual de la diferencia entre 1 y 2 est dado por la

estadstica . Por tanto. Para obtener una estimacin puntual de

1 - 2, se seleccionan dos muestras aleatorias independientes, una de cada poblacin,

de tamao n1 y n2, se calcula la diferencia , de las medias muestrales.


Recordando a la distribucin muestral de diferencia de medias:

Al despejar de esta ecuacin 1 - 2 se tiene:

En el caso en que se desconozcan las varianzas de la poblacin y los tamaos de


muestra sean mayores a 30 se podr utilizar la varianza de la muestra como una
estimacin puntual.
Ejemplo: Se lleva a cabo un experimento en que se comparan dos tipos de motores, A y
B. Se mide el rendimiento en millas por galn de gasolina. Se realizan 50 experimentos
con el motor tipo A y 75 con el motor tipo B. La gasolina que se utiliza y las dems
condiciones se mantienen constantes. El rendimiento promedio de gasolina para el motor
A es de 36 millas por galn y el promedio para el motor B es 24 millas por galn.
Encuentre un intervalo de confianza de 96% sobre la diferencia promedio real para los
motores A y B. Suponga que las desviaciones estndar poblacionales son 6 y 8 para los
motores A y B respectivamente.
Solucin:
Es deseable que la diferencia de medias sea positiva por lo que se recomienda restar la
media mayor menos la media menor. En este caso ser la media del motor B menos la
media del motor A.
El valor de z para un nivel de confianza del 96% es de 2.05.

3.43< B - A <8.57
La interpretacin de este ejemplo sera que con un nivel de confianza del 96% la
diferencia del rendimiento promedio esta entre 3.43 y 8.57 millas por galn a favor del
motor B. Esto quiere decir que el motor B da mas rendimiento promedio que el motor A,
ya que los dos valores del intervalo son positivos.
Una compaa de taxis trata de decidir si comprar neumticos de la marca A o de la B
para su flotilla de taxis. Para estimar la diferencia de las dos marcas, se lleva a cabo un
experimento utilizando 12 de cada marca. Los neumticos se utilizan hasta que se
desgastan, dando como resultado promedio para la marca A 36,300 kilmetros y para la
marca B 38,100 kilmetros. Calcule un intervalo de confianza de 95% para la diferencia
promedio de las dos marcas, si se sabe que las poblaciones se distribuyen de forma
aproximadamente normal con desviacin estndar de 5000 kilmetros para la marca A y
6100 kilmetros para la marca B.
Solucin:

-2662.68< B - A <6262.67
Grficamente:

Como el intervalo contiene el valor "cero", no hay razn para creer que el promedio de
duracin del neumtico de la marca B es mayor al de la marca A, pues el cero nos est
indicando que pueden tener la misma duracin promedio.
4.9 APLICACIONES

UNIDAD 5 PRUEBAS DE HIPOTESIS CON DOS MUESTRAS DATOS CATEGORICOS


Y VARIAS MUESTRAS CON DATOS CATEGORICOS.
Prueba De Hiptesis Para Proporciones

El concepto de prueba de hiptesis se puede utilizar para probar hiptesis en relacin con
datos cualitativos. Por ejemplo, en el problema anterior el gerente de la fbrica de llantas
quera determinar la proporcin de llantas que se reventaban antes de 10,000 millas. Este
es un ejemplo de una variable cualitativa, dado que se desea llegar a conclusiones en
cuanto a la proporcin de los valores que tienen una caracterstica particular.

El gerente de la fbrica de llantas quiere que la calidad de llantas producidas, sea lo


bastante alta para que muy pocas se revienten antes de las 10,000 millas. Si ms de un
8% de las llantas se revientan antes de las 10,000 millas, se llegara a concluir que el
proceso no funciona correctamente. La hiptesis nula y alternativa se pueden expresar
como sigue:

Ho: p .08 (funciona correctamente)

H1: p > .08 (no funciona correctamente)

La prueba estadstica se puede expresar en trminos de la proporcin de xitos como


sigue:

En donde

p = proporcin de xitos de la hiptesis nula

Ahora se determinar si el proceso funciona correctamente para las llantas producidas


para el turno de da. Los resultados del turno de da indican que cinco llantas en una
muestra de 100 se reventaron antes de 10,000 millas para este problema, si se selecciona
un nivel de significancia de .05, las regiones de rechazo y no rechazo se estableceran
como a continuacin se muestra:

Y la regla de decisin sera:

Rechazar Ho si > + 1.645; de lo contrario no rechazar Ho.

Con los datos que se tienen,

= .05

Y entonces,

= 1.107

Z 1.107 < + 1.645; por tanto no rechazar Ho.

La hiptesis nula no se rechazara por que la prueba estadstica no ha cado en la regin


de rechazo. Se llegara a la conclusin de que no hay pruebas de que ms del 8% de las
llantas producidas en el turno de da se revienten antes de 10,000 millas. El gerente no ha
encontrado ninguna prueba de que ocurra un nmero excesivo de reventones en las
llantas producidas en el turno de da.

Pruebas de hiptesis a partir de proporciones.


Las pruebas de hiptesis a partir de proporciones se realizan casi en la misma forma
utilizada cuando nos referimos a las medias, cuando se cumplen las suposiciones
necesarias para cada caso. Pueden utilizarse pruebas unilaterales o bilaterales
dependiendo de la situacin particular.

La proporcin de una poblacin

Las hiptesis se enuncian de manera similar al caso de la media.

Ho: p = p0

H1: p p0

En caso de que la muestra sea grande n>30, el estadgrafo de prueba es:

Se distribuye normal estndar.

Regla de decisin: se determina de acuerdo a la hiptesis alternativa (si es bilateral o


unilateral), lo cual puedes fcilmente hacerlo auxilindote de la tabla 4.4.1.

En el caso de muestras pequeas se utiliza la distribucin Binomial. No lo abordaremos


por ser complicado y poco frecuente su uso. Diferencia entre las proporciones de dos
poblaciones

La situacin ms frecuente es suponer que existen diferencias entre las proporciones de


dos poblaciones, para ello suelen enunciarse las hiptesis de forma similar al caso de las
medias:

Ho: p1 = p2 p1 - p2 = 0

H1: p1 p2

Puede la hiptesis alternativa enunciarse unilateralmente.

El estadgrafo de prueba para el caso de muestras independientes:

Siendo a1 y a2, el nmero de sujetos con la caracterstica objeto de estudio en las


muestras 1 y 2 respectivamente, es decir, en vez de calcular la varianza para cada
muestra, se calcula una p conjunta para ambas muestras bajo el supuesto que no hay
diferencias entre ambas proporciones y as se obtiene la varianza conjunta. Recuerda que
q = 1-p.

Est de ms que te diga que este estadgrafo se distribuye normal estndar.

La regla de decisin se determina de manera similar a los casos ya vistos anteriormente.

El objetivo de la prueba es comparar estas dos proporciones, como estimadores


ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMRICOS

H1: p1 p2

Recuer da que l a H1 t ambi n puede pl an


t ea
r se def ro ma un
il t arel.
a
5.1 PRUEBA Z PARA LA DIFERENCIA ENTRE DOS PROPORCIONES.
l i i i , l l r lr i r l r r
En
i a gunos i td seosl de l r nvest
l rgacin
r e p an muest r l a equ er el se ifeccionar dosl muest
asr ndepend
r en es,
r cai cura ras pr opo ciones if r muesttr al es yi usa a d e encia de as
dos p opo ciones pa a est ma o p oba una d e encia en e as m smas.
li il r l if r i r j l r
Las ap lt rcaciones
fr son tsim a es r a r a d e enciar de med as, po e emp t r o rsi ldos I empl
esas rconsu o asi o ecen if r dat os del p opo r ciones
lt de
li pe
r sonas t ifque
r vant a vo ra po et PR t
y ifa rhace dosr estud i r os dr e en es sa en esu
ti ados t ge amen
ifi ti e d e en es per o qu
an a d ei encia se if r equ e e par a que r sea estad s camen e sign ca vo? De eso se p
uebas estad st cas de d e encias de p opo ciones.
l t i r t l l l i t r :
E es ad st co Z pa a es os casos se ca cu a de a sigu en e mane
a

Ejemplo: Una muestra de 87 mujeres trabajadoras profesionales mostr que la cantidad


promedio que pagan a un fondo de pensin privado el 5% de su sueldo. Una muestra de
76 hombres trabajadores profesionales muestra que la cantidad que paga un fondo de
pensin privado es 6.1% de su sueldo. Un grupo activista de mujeres desea demostrar
que las mujeres no pagan tanto como los hombres en fondos de pensin privados. Si se
usa alfa = 0.01 Se confirma lo que el grupo activista de mujeres desea demostrar o no?
Paso 1. Determinar la hiptesis Nula Ho y Alternativa Ha

Ntese que este problema es de una cola.

TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMRICOS

Ho: Lo que pagan las mujeres en el fondo de pensin es igual o mayor a lo que pagan
los hombres (algunos autores solo le colocan igual).

Ha: _______________________________________
(El estudi ant e debe descri bir l a Ha)

La hi pt esis alt er nati va es l o que l as muj er es del gr upo acti vista desean demostr ar.
Paso 2.
Determi nar el ni vel de signifi canci a. Defi ni da por el anali sta, en est e casi se desea usar
= 0.01

Grficamente el ni vel de signifi cancia se di stri buye en l a cur va de di stri bucin nor l
r
ma como se muest al enfi a r gu
: a

Paso 3.
Calcular los intervalos que implican ese nivel de significancia
Para dicho nivel de significancia el valor de Z es: Z=-2.326
Grficamente queda de la siguiente manera:
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMRICOS

Paso 4

TRABAJO EN EQUIPO
MUESTRAS DE DATOS NUMRICOS

Ejemplo: En un estudio de infeccin de vas urinarias no complicadas, los pacientes


fueron asignados para ser tratados con trimetoprim / sulfametoxazol o fosfomicina /
trometamol.

92% de los 100 tratados con fosfomicina/ trometamol mostraron curacin bacteriolgica
mientras que el 61% de los 100 manejados con trimetoprim / sulfametoxazol se cur la
infeccin.

Cuando comparamos proporciones de muestras independientes, debemos primero


calcular la diferencia en proporciones. El anlisis para comparar dos proporciones
independientes es similar al usado para dos medias independientes. Calculamos un
intervalo de confianza y una prueba de hiptesis para la diferencia en proporciones.

La notacin que usamos para el anlisis de dos proporciones es el mismo que para una
proporcin. Los nmeros inferiores son para distinguir los dos grupos.

Parmetros Poblacin Muestra


1 2 1 2

Proporcin 1 2 p1 p2
Desviacin 1(1-2) 2(1- p1(1-p1) p2(1-
estndar 2) p2)

El cuadrado del error estndar de una proporcin es conocido como la varianza de la


proporcin La varianza de la diferencia entre las dos proporciones independientes es igual
a la suma de las varianzas de las dos proporciones de las muestras. Las varianzas son
sumadas debido a que cada muestra contribuye al error de muestreo en la distribucin de
las diferencias.
ES = p(1-p)/n Varianza = p(1-p)/n
p1(1- p1) p2(1- p2)

Varianza (p1-p2)= varianza de p1 + varianza de p2 = --------- + ----------

n1 n2

El error estndar de la diferencia entre dos proporciones es dado por la raz cuadrada de
la varianza.
ES (p1-p2)= [p1(1-p1)/n1 + p2(1-p2)/n2]

Para calcular el intervalo de confianza necesitamos conocer el error estndar de la


diferencia entre dos proporciones.

El error estndar de la diferencia entre dos proporciones es la combinacin del error


estndar de las dos distribuciones independientes, ES (p1) y ES (p2).

Hemos estimado la magnitud de la diferencia de dos proporciones de las muestras; ahora


calcularemos el intervalo de confianza para esa estimacin.
La frmula general para el intervalo de confianza al 95% es:

Estimado 1.96 x ES

La frmula para 95% IC de dos proporciones sera:

(p1-p2) 1.96 ES(p1-p2)

En el estudio de infeccin de vas urinarias, la proporcin en el grupo de fosfomicina/


trometamol fue 0.92 y para trimetoprim/ sulfametoxazol fue 0.61
Diferencia en proporciones = 0.92-0.61=0.31
ES = [(0.92(1-0.92)/100 + 0.61(1-0.61)/100] = 0.056
El intervalo de confianza al 95% sera:
0.31 1.96 (0.056) = 0.310.11 = 0.2 a 0.42
El intervalo de confianza al 95% sera:
1.96 (0.056) = 0.310.11 = 0.2 a 0.42
Tengo 95% de confianza de que la diferencia en las proporciones en la poblacin estara
entre 0.2 y 0.42. Como la diferencia no incluye 0, estamos confiados que en la poblacin
la proporcin de curados con fosfomicina/trometamol es diferente que con trimetoprim
sulfametoxazol.
Una prueba de hiptesis usa la diferencia observada y el error estndar de la diferencia.
Sin embargo, usamos un error estndar ligeramente diferente para calcular la prueba de
hiptesis. Esto se debe a que estamos evaluando la probabilidad de que los datos
observados asumen que la hiptesis nula es verdad. La hiptesis nula es que no hay
diferencia en las proporciones de las dos poblaciones y ambas grupos tienen una
proporcin comn, .
El mejor estimado que podemos obtener de es la proporcin comn, p, de las dos
proporciones de la muestra.
P=r1+r2/n1+n2
Donde:
r1 y r2 son los nmeros de respuestas positivas en cada muestra

n1 y n2 son los tamaos de muestra en cada muestra.

La proporcin comn siempre estar entre las dos proporciones individuales.


El error estndar puede ser calculado sustituyendo p, por p1 y p2. ES(p1-p2)=p(1-p)(1/n1
+1/n2) Esto se conoce como error estndar agrupado.

En el estudio de infeccin de vas urinarias, la proporcin en el grupo de fosfomicina/


trometamol fue 0.92 y para trimetoprim/ sulfametoxazol fue 0.61 Fueron 100 intregrantes
en cada grupo.
Proporcin comn, p= 92 + 61/100+100 = 153/200 = 0.765
ES(p1-p2)=0.77(1-0.77)(1/100 +1/100)= 0.1771 x 0.002 = 0.019

Si asumimos una aproximacin a la Normalidad para la distribucin Binomial, calculamos


la prueba de z , como antes. Para calcular la prueba de hiptesis, debemos:
1.- Sealar la hiptesis nula Ho
2.- Sealar la hiptesis alternativa H1
3.- Calcular la prueba de hiptesis z.

Hiptesis nula:

Cuando comparamos dos proporciones de poblaciones independientes es usualmente


que las dos proporciones son iguales.
Ho: 1 = 2
Es lo mismo que si la diferencia en las proporciones de las dos poblaciones es igual a 0.

Ho: 1 - 2 = 0
Hiptesis alternativa:
Es usualmente que las dos proporciones no son iguales.

H1: 1 2

Es lo mismo que la diferencia en proporciones no es igual a cero.

H1: 1 2 0

0.92 de xito para fosfomicina / trometamol y 0.61 para trimetoprim / sulfametoxazol


ES = 0.019
(p1-p2) 0 0.31 - 0
z= -------------- = -----------= 16.3
ES(p1-p2) 0.019
P<0.05

Rechazamos la hiptesis nula de que las dos proporciones son iguales y aceptamos la
hiptesis alternativa de que son diferentes.
5.2 PRUEBA PARA LA DIFERENCIA ENTRE DOS PROPORCIONES.
Las pruebas de hiptesis a partir de proporciones se realizan casi en la misma forma
utilizada cuando nos referimos a las medias, cuando se cumplen las suposiciones
necesarias para cada caso. Pueden utilizarse pruebas unilaterales o bilaterales
dependiendo de la situacin particular.

La proporcin de una poblacin

Las hiptesis se enuncian de manera similar al caso de la media.

Ho: p = p0

H1: p p0

En caso de que la muestra sea grande n>30, el estadgrafo de prueba es: se distribuye
normal estndar.

Regla de decisin: se determina de acuerdo a la hiptesis alternativa (si es bilateral o


unilateral. En el caso de muestras pequeas se utiliza la distribucin Binomial. No lo
abordaremos por ser complicado y poco frecuente su uso.

Diferencia entre las proporciones de dos poblaciones

La situacin ms frecuente es suponer que existen diferencias entre las proporciones de


dos poblaciones, para ello suelen enunciarse las hiptesis de forma similar al caso de las
medias:
Ho: p1 = p2 p1 - p2 = 0
H1: p1 p2

Puede la hiptesis alternativa enunciarse unilateralmente.

El estadgrafo de prueba para el caso de muestras independientes: donde

Siendo a1 y a2, el nmero de sujetos con la caracterstica objeto de estudio en las


muestras 1 y 2 respectivamente, es decir, en vez de calcular la varianza para cada
muestra, se calcula una p conjunta para ambas muestras bajo el supuesto que no hay
diferencias entre ambas proporciones y as se obtiene la varianza conjunta. Recuerda que
q = 1-p.

Est de ms que te diga que este estadgrafo se distribuye normal estndar.

La regla de decisin se determina de manera similar a los casos ya vistos anteriormente.

El objetivo de la prueba es comparar estas dos proporciones, como estimadores

H1: p1 p2

Recuerda que la H1 tambin puede plantearse de forma unilateral. En algunos diseos de


investigacin, el plan muestral requiere seleccionar dos muestras independientes, calcular
las proporciones mustrales y usar la diferencia de las dos proporciones para estimar
aprobar una diferencia entre las mismas .Las aplicaciones son similares a la diferencia de
medias, por ejemplo si dos empresas consultoras ofrecen datos de proporciones de
personas que van a votar por el PRI y al hacer dos estudios diferentes salen resultados
ligeramente diferentes pero qu tanta diferencia se requiere para que sea
estadsticamente significativo? De eso se tratan las Pruebas estadsticas de diferencias
de proporciones.
Estimacin de la Diferencia de dos Proporciones
En la seccin anterior se vio el tema de la generacin de las distribuciones muestrales, en
donde se tena el valor de los parmetros, se seleccionaban dos muestras y podamos
calcular la probabilidad del comportamiento de los estadsticos. Para este caso en
particular se utilizar la distribucin muestral de diferencia de proporciones para la
estimacin de las mismas. Recordando la formula:

Despejando P1-P2 de esta ecuacin:

Aqu se tiene el mismo caso que en la estimacin de una proporcin, ya que al hacer el
despeje nos queda las dos proporciones poblacionales y es precisamente lo que
queremos estimar, por lo que se utilizarn las proporciones de la muestra como
estimadores puntuales:

Ejemplo: Se considera cierto cambio en un proceso de fabricacin de partes


componentes. Se toman muestras del procedimiento existente y del nuevo para
determinar si ste tiene como resultado una mejora. Si se encuentra que 75 de 1500
artculos del procedimiento actual son defectuosos y 80 de 2000 artculos del
procedimiento nuevo tambin lo son, encuentre un intervalo de confianza de 90% para la
diferencia real en la fraccin de defectuosos entre el proceso actual y el nuevo.
Solucin:
Sean P1 y P2 las proporciones reales de defectuosos para los procesos actual y nuevo,
respectivamente. De aqu, p1=75/1500 = 0.05 y p2 = 80/2000 = 0.04. con el uso de la tabla
encontramos que z para un nivel de confianza del 90% es de 1.645.

-0.0017<P1-P2<0.0217
Como el intervalo contiene el valor de cero, no hay razn para creer que el nuevo
procedimiento producir una disminucin significativa en la proporcin de artculos
defectuosos comparado con el mtodo existente.
Un artculo relacionado con la salud, reporta los siguientes datos sobre la incidencia de
disfunciones importantes entre recin nacidos con madres fumadoras de marihuana y de
madres que no la fumaban:

Usuaria No Usuaria

Tamao Muestral 1246 11178

Nmero de
42 294
disfunciones

Proporcin muestral 0.0337 0.0263

Encuentre el intervalo de confianza del 99% para la diferencia de proporciones.


Solucin:
Representemos P1 la proporcin de nacimientos donde aparecen disfunciones entre todas
las madres que fuman marihuana y definamos P2, de manera similar, para las no
fumadoras. El valor de z para un 99% de confianza es de 2.58.
-0.0064<P1-P2<0.0212
Este intervalo es bastante angosto, lo cual sugiere que P1-P2 ha sido estimado de manera
precisa.
Determinacin de Tamaos de Muestra para Estimaciones
Al iniciar cualquier investigacin, la primer pregunta que surge es: de qu tamao debe
ser la o las muestras?. La respuesta a esta pregunta la veremos en esta seccin, con
conceptos que ya se han visto a travs de este material.
EJEMPLO: Oficial es escol ar es compar an el coefi cient e i nt el ectual entr e ni os de
r g upos.
dos

De una muestr a de 159 ni os del gr upo 1 78 califi can con ms de 100 punt os, de una
muestra de 250 ni os del gr upo 2 123 califi can con ms de 100 punt os.

Construya un interval o de confi anza par a l a dif er encia entr e l as dos proporciones del
grupo 1 y 2 de los ni os con califican con ms de 100.

Ejemplo: Algunas veces estamos interesados en analizar la diferencia entre las


proporciones de poblaciones de grupos con distintas caractersticas. Por ejemplo,
pensemos que la administracin de las tiendas Oxxo cree, sobre la base de una
investigacin, que el porcentaje de hombres que visitan sus tiendas 9 o ms veces al mes
(clientes frecuentes) es mayor que el porcentaje de mujeres que hacen lo mismo. Las
especificaciones requeridas y el procedimiento para probar esta hiptesis es la siguiente:

1. Las hiptesis nula y alternativa son las siguientes:


, la proporcin de hombres que reportan 9 o ms visitas por mes
H o PH 0
PM
es la misma o menor que la proporcin de mujeres que hacen lo mismo.
, la proporcin de hombres que reportan 9 o ms visitas por mes
H a PH 0
PM
es mayor a la proporcin de mujeres que hacen lo mismo.

La informacin proporcionada es:

nH 45 nM 7 1

PH .58 .4 2
PM

PH .5 8 .4 2 .1 6
PM

2. Especifica el nivel de significacin de


.05
. El valor crtico para la prueba de

una sola cola es de 1.64.

3. Estima el error estndar de la diferencia de las dos proporciones:

1 1
s ph m P(1 P)
nH nM

donde:

n H PH n M PM
P
nH nM
PH = proporcin muestra de hombres (H)
PM = proporcin muestra de mujeres (M)
NH = tamao de muestra hombres
NM = tamao de muestra mujeres

Por lo tanto:

45(.58) 71(.4 2) 0.48


P
45 71
y

1 1
s ph .48(1 .48) 0.10
m 45 71

4. Calcula de prueba estadstica:

(d i f e r e n c i a e n t r e p r o p o b s e r v a d a)s (d i f e r e n c i a e n t r e p r H o)
Z
o p o r c i oens
o r c i oens
sp h m

( .5 8 .4 2) (0) 1.60
Z
.10

La hiptesis nula es aceptada porque el valor de la Z calculada es menor que el valor


crtico Z. La administracin no puede concluir con un 95 por ciento de confianza que la
proporcin de hombres que visita 9 o ms veces los Oxxo es mayor que la proporcin de
mujeres.

5.3 PRUEBA PARA LA DIFERENCIA EN n PROPORCIONES Z.


Una distribucin poblacional representa la distribucin de valores de una poblacin y una
distribucin muestral representa la distribucin de los valores de una muestra. En
contraste con las distribuciones de mediciones individuales, una distribucin muestral es
una distribucin de probabilidad que se aplica a los valores posibles de una estadstica
muestral. As, la distribucin muestral de la media es la distribucin de probabilidad de los
valores posibles de la media muestral con base en un determinado tamao de muestra.
Para cualquier tamao de muestra dado n, tomado de una poblacin con media , los
valores de la media muestralvaran de una muestra a otra. Esta variabilidad sirve de base
para la distribucin muestral. La distribucin muestral de la media se describe
determinando el valor esperado E () o media, de la distribucin y la desviacin estndar
de la distribucin de las medias, . Como esta desviacin estndar indica la precisin de la
media muestral como estimador puntual, por lo general se le denomina error estndar de
la media.
Ejemplo: Un fabricante de reproductores de discos compactos utiliza un conjunto de
pruebas amplias para evaluar la funcin elctrica de su producto. Todos los reproductores
de discos compactos deben pasar todas las pruebas antes de venderse. Una muestra
aleatoria de 500 reproductores tiene como resultado 15 que fallan en una o ms pruebas.
Encuentre un intervalo de confianza de 90% para la proporcin de los reproductores de
discos compactos de la poblacin que no pasan todas las pruebas.
Solucin:
n=500
p = 15/500 = 0.03
z(0.90) = 1.645

0.0237<P<0.0376
Se sabe con un nivel de confianza del 90% que la proporcin de discos
defectuosos que no pasan la prueba en esa poblacin est entre 0.0237 y 0.0376.
Ejemplo: En una muestra de 400 pilas tipo B fabricadas por la Everlast Company, se
encontraron 20 defectuosas. Si la proporcin p de pilas defectuosas en esa muestra se
usa para estimar P, que vendr a ser la proporcin verdadera de todas las pilas
defectuosas tipo B fabricadas por la Everlast Company, encuentre el mximo error de

estimacin tal que se pueda tener un 95% de confianza en que P dista menos de
de p.

Solucin:
p=x/n = 20/400=0.05
z(0.95)=1.96

Si p=0.05 se usa para estimar P,

podemos tener un 95% de confianza en que P dista menos de 0.021 de p. En otras


palabras, si p=0.05 se usa para estimar P, el error mximo de estimacin ser
aproximadamente 0.021 con un nivel de confianza del 95%
Para calcular el intervalo de confianza se tendra:

Esto da por resultado dos valores, (0.029, 0.071). Con un nivel de confianza del 95% se
sabe que la proporcin de pulas defectuosas de esta compaa est entre 0.029 y 0.071.
Si se requiere un menor error con un mismo nivel de confianza slo se necesita aumentar
el tamao de la muestra.
5.4 PRUEBA DE INDEPENDENCIA (ji-CUADRADA).
Cuando comparamos dos situaciones podemos esperar que sean ya bien dependientes o
independientes esto quiere decir que pueden o no estar relacionados sus datos debido a
muchos factores que pueden influir en ellos o bien, un problema no tenga relacin con
otro.
La prueba de independencia trata sobre esto, ya que su objetivo es determinar si alguna
situacin es afectada por otra, basndose en datos estadsticos y valores probabilstico
obtenidos de la fabulacin de datos o de pronsticos por medio de frmulas y tablas, para
esto se basa en un nivel de significancia en un caso y en el otro a comparar, valindonos
de tablas de contingencia para obtener frecuencias esperadas y poder aplicarlas, para as
obtener datos comparativos que son determinantes en la decisin de independencia.
La estadstica de prueba que ser utilizada en la toma de una decisin acerca de la
hiptesis nula es ji cuadrado, X2 (X es la letra griega ji minscula. Los valores de ji
cuadrado se obtienen con las siguientes formula:

X2 = (Oi ei)2
i ei
Grados de libertad
V = (r-1)*(c-1)
Frecuencia Esperada = Total de la columna * Total del rengln
Gran total
Caractersticas
X2 toma valores no negativos; es decir, puede ser cero o positiva.
X2 no es simtrica; es asimtrica hacia la derecha.
Existen muchas distribuciones X2 como en el caso de la distribucin t, hay una
2
distribucin, X diferente para cada valor de los grados de libertad.
Nos dan una tabla de contingencia.
Una tabla de contingencia es una disposicin de datos en una clasificacin de doble
entrada. Los datos se ordenan en celdas y se reporta l nmero de datos en cada una. En
la tabla de contingencia estn implicados dos factores (o variables), y la pregunta comn
en relacin con tales tablas es si los datos indican que las dos variables son
independientes o dependientes.
Para ilustrar la utilizacin y anlisis de una tabla de contingencia, considrese la
clasificacin por sexo de los estudiantes de una escuela y su rea acadmica favorita.
Ejemplo: Cada persona de un grupo de 300 estudiantes fue identificada como hombre o
mujer, preguntndosele si prefera recibir cursos en el rea de matemticas, ciencias
sociales o humanidades. La siguiente tabla es una de contingencia que indica las
frecuencias encontradas para esas categoras. Presenta esta tabla la evidencia
suficiente para rechazar la hiptesis nula la preferencia por las matemticas, ciencias
sociales o humanidades es independiente del sexo de un alumno, al nivel de significancia
del 0.05?
Solucin:
Paso 1
Ho: La preferencia por matemticas, ciencias sociales o humanidades es independiente
del sexo de los estudiantes de la escuela.
Ha: La preferencia por las reas es no independiente del sexo de los estudiantes.
Pas 2
Para determinar el valor crtico de la ji cuadrada debe conocerse los grados de libertad,
implicado. En el caso de tablas de contingencia, este nmero es exactamente el nmero
de celdas en la tabla que puede ser llenadas libremente cuando se conocen los totales.
Estos ltimos se indican en la tabla siguiente.
122
178
72 113 115 300
Dados estos totales, solo pueden llenarse dos celdas antes que las restantes queden
determinadas. (por supuesto, los totales deben ser los mismos.) Por ejemplo, una vez que
se seleccionen dos valores arbitrarios (por ejemplo, 50 y 60) para las dos primeras
celdas de la primera fila (vase la tabla siguiente), quedan fijos los otros cuatro valores.
50 60 C 122
D E F 178
72 113 115 300
Dichos valores deben ser C=12, D=22, E=53 y F=103. De otra manera los totales no
sern correctos. En consecuencia, para este problema existen dos selecciones libres.
Cada una de estas corresponde a un grado de libertad. As, el nmero de grados de

libertada en este ejemplo es 2 (v=2). Por esta razn, si se utiliza =0.05, el valor critico
es X2 (2, 0.05) = 6. Vase la siguiente figura.

Pas 3
Antes de poder hallar el valor calculado de ji cuadrada, es necesario examinar los valores
esperados E para cada celda. Para tal fin debe recordarse la hiptesis nula, la cual
asevera que estos factores son independientes. En consecuencia, se espera que los
valores estn distribuidos en proporcin a los totales marginales. Hay 122 hombres; se
espera que estn distribuidos entre M, CS y H proporcionalmente a los totales 72, 113 y
115. As, para los hombres las cuentas esperadas de celda son:
72/300 x 122 113/300 x 122 115/300 x 122
Similarmente, se esperan:
72/300 x 178 113/300 x 178 115/300 x 178
Para las mujeres. Entonces los valores esperados son como se indica en la tabla
siguiente (siempre verifquense los totales nuevos contra los antiguos.)

M CS H Total
29.28 45.95 46.77 122
42.72 67.05 68.23 178
Total 72.00 113.00 115.00 300.00
Nota
El clculo de los valores esperados puede verse de manera alternativa. Recurdese que
la hiptesis nula se supone cierta en tanto no haya evidencia para rechazarla. Habiendo
hecho este supuesto en el ejemplo, de hecho s est afirmando que son independientes
los eventos un estudiante seleccionado aleatoriamente es hombre, y un estudiante
elegido al azar prefiere cursos de matemticas. El estimador puntual para la probabilidad
de que un estudiante sea hombre es 122/300, y para la probabilidad de que un estudiante
prefiera los cursos de matemtica es 72/300. En consecuencia, la probabilidad de que
ocurran ambos eventos es el producto de las probabilidades.
Para estudiar la dependencia entre la prctica de algn deporte y la depresin, se
seleccion una muestra aleatoria simple de 100 jvenes, con los siguientes resultados:

Sin depresin Con depresin

Deportista 38 9 47

No deportista 31 22 53

69 31 100

L = (38 32,43)2/32,43 + (31 36,57)2/36,57 + (9 14,57)2/14,57 + (22 16,43)2/16,43


= 0,9567 + 0,8484 + 2,1293 + 1,8883 = 5,8227
El valor que alcanza el estadstico L es 5,8227. Buscando en la tabla terica de Chi
Cuadrado para 1 grado de libertad se aprecia Lt = 3,84146 < 5,8227 lo que permite
rechazar la hiptesis de independencia de caracteres con un nivel de significacin del 5%,
admitiendo por tanto que la prctica deportiva disminuye el riesgo de depresin.
Ejemplo: Ilustraremos esta tcnica con el estudio que realiz Cervecera Modelo, la cual
fabrica y distribuye tres tipos de cerveza: ligera, clara y oscura. En un anlisis de
segmentacin de mercado para las tres cervezas, el grupo de investigacin encargado ha
planteado la duda de si la preferencia para las tres cervezas es diferente entre los
consumidores hombres y mujeres. Si la preferencia de las cervezas fuera independiente
del gnero del consumidor, se iniciara una campaa de publicidad para todas las
cervezas Modelo. Sin embargo, si la preferencia depende del gnero del consumidor, se
ajustaran las promociones para tener en cuenta los distintos mercados meta.

Una prueba de independencia usa la pregunta de si la preferencia de la cerveza (ligera,


clara y oscura) es independiente del gnero del consumidor (hombre, mujer). Las
hiptesis para esta prueba de independencia son:
Ho: La preferencia de la cerveza es independiente del gnero del consumidor
Ha: La preferencia de la cerveza no es independiente del gnero del consumidor

Podemos usar una tabla como la 1 para describir el caso que se estudia. Despus de
identificar a la poblacin, consumidores hombres y mujeres, se puede tomar una muestra
y preguntar a cada persona que diga su preferencia entre las cervezas modelo.

Cada persona de la muestra se clasificar en una de las seis celdas de la tabla. Por
ejemplo una persona puede ser hombre y prefiera la cerveza clara [celda (1,2)], una mujer
que prefiere la cerveza ligera [celda (2,1)], una mujer que prefiere la cerveza oscura
[celda (2,3)] y as sucesivamente. Como en la lista aparecen todas las combinaciones
posibles de predileccin de cerveza y gnero, en otras palabras aparecen todas las
contingencias posibles, a la tabla se le llama tabla de contingencia.
Cerveza preferida

Ligera Clara Oscura

Gnero Hombre Celda (1,1) Celda (1,2) Celda (1,3)

Mujer Celda (2,1) Celda (2,2) Celda (2,3)

Supongamos que se ha tomado una muestra aleatoria simple de 150 bebedores de


cerveza. Despus de saborear cada una, se les pide expresar su preferencia o primera
alternativa. La tabulacin cruzada de la siguiente tabla 2 resume las respuestas
obtenidas. Observamos que, los datos para la prueba de independencia se agrupan en
trminos de cantidades o frecuencias para cada celda o categora. De las 150 personas
de la muestra, 20 fueron hombres que prefirieron la cerveza ligera, 40 fueron mujeres que
prefirieron la cerveza clara, 20 fueron hombres que prefirieron la cerveza oscura, y as
sucesivamente.

Los datos de la tabla 2 constituyen las frecuencias observadas para las seis clases o
categoras.
Cerveza preferida
Ligera Clara Oscura Total Si podemos determinar las
frecuencias esperadas bajo la
Gnero Hombre 20 40 20 80 hiptesis de independencia entre la
preferencia de cerveza y el gnero
Mujer 30 30 10 70 del consumidor, podemos usar la
distribucin ji cuadrada para
Total 50 70 30 150 determinar si existe una diferencia
significativa entre la frecuencia
observada y la esperada.

Las frecuencias esperadas en las celdas de la tabla de contingencia se basan en el


siguiente razonamiento. Primero suponemos que es verdadera la hiptesis nula, de
independencia entre la cerveza preferida y el gnero del consumidor. A continuacin
observamos que en toda la muestra de 150 consumidores, hay 50 que prefieren la
cerveza ligera, 70 la cerveza clara y 30 la cerveza oscura. Expresada en fraccin, la
conclusin es que de 50/150 = 1/3 de los consumidores de cerveza prefieren la ligera;
70/150 = 7/15 la clara y 30/150 = 1/5 la oscura. Si es vlida la hiptesis de independencia,
decimos que estas fracciones se deben de aplicar por igual a los consumidores hombres y
mujeres. As bajo la hiptesis de independencia, esperaramos que la muestra de 80
consumidores hombres indicara que (1/3) 80 = 26.7 prefieren cerveza ligera, (7/15) 80 =
37.33 la clara y (1/5) 80 = 16 la oscura. La aplicacin de las mismas fracciones a las 70
consumidoras mujeres produce las frecuencias esperadas que aparecen en la tabla.
Cerveza preferida eij
Ligera Clara Oscura Total Sea la frecuencia esperada en
la categora del rengln i y la columna j de la tabla de contingencia. Con esta notacin
reconsideremos
Gnero Hombre el clculo37.33
26.67 de la frecuencia
16.00 esperada para los hombres (rengln i =
80
1) que prefieren la cerveza clara (columna j
Mujer 23.33 32.67 14.00 70 = 2) esto es, la frecuencia esperada

Total 50.00 70.00 30.00 150


. Apegndonos al esquema anterior para el clculo de las frecuencias esperadas,

e1, 2
podemos demostrar que

e1, 2
= (7/15) 80 = 37.33

Esta ecuacin se puede escribir como sigue

e1, 2
= (7/15) 80 = (70/150) 80 = 37.33
Observe que 80 es la cantidad total de hombres (total del rengln 1), 70 es la cantidad
total de individuos (hombres y mujeres) que prefieren la cerveza clara (total de la columna
2) y 150 es el tamao de la muestra total. En consecuencia vemos

(to ta l de l ren gl n1) (to ta l d e la


e1, 2
co lu mn a 2)
tamaode la muestra

Al generalizar la ecuacin vemos que la frmula siguiente determina las frecuencias


esperadas de una tabla de contingencias para la prueba de independencia.

Frecuencias esperadas en la tabla de contingencia suponiendo independencia

(To ta l de l ren gl n i ) (to ta l d e la co lumn a


eij
j)
tamaode la muestra

El procedimiento de prueba para comparar frecuencias observadas con las frecuencias


esperadas, se parece a los clculos de bondad de ajuste. Especficamente, el valor de
2

basados en las frecuencias observadas y esperadas se calcula como sigue:

2
k f oi f ei
2
i 1 f ei

Oi = Valor observado en la i-simo celda.

Ei = Valor esperado en la i-simo celda.

K = Categoras o celdas.

Con n renglones y m columnas en la tabla de contingencia, el estadstico de prueba tiene


una distribucin ji cuadrada con (n 1) (m 1) grados de libertad, siempre y cuando las
frecuencias esperadas sean 5 o ms para todas las categoras. En consecuencia
proseguimos con el clculo de la estadstica de prueba ji cuadrada.

Los clculos necesarios para determinar el estadstica ji cuadrada y ver si la preferencia


de cerveza es independiente del gnero de quien la bebe se ven en la tabla.
La cantidad de grados de libertad para la distribucin ji cuadrada adecuada se determina
multiplicando la cantidad de renglones menos 1 por la cantidad de columnas menos 1.
Como tenemos dos renglones y tres columnas, entonces (2 1) (3 1) = (1) (2) = 2
grados de libertad para la prueba de independencia entre cerveza y gnero del

consumidor. Con = .05 como nivel de significancia de la prueba, buscamos en la tabla


2
.05
de ji cuadrada y nos da un valor = 5.99. Observe que estamos usando el valor de la
cola superior, porque rechazaremos la hiptesis nula slo si las diferencias entre
2 2

frecuencias observadas y esperadas producen un valor grande de . En el ejemplo


2

=6.13 es mayor que = 5.99. Por consiguiente, rechazaremos la hiptesis nula de


independencia y concluimos que la, la preferencia cerveza preferida no es independiente
del gnero del consumidor, es decir para las tres cervezas es diferente entre los
consumidores hombres y mujeres y por lo tanto la Cervecera Modelo deber estratificar a
los consumidores para ajustar las promociones y la publicidad, teniendo en cuenta estas
2
fe ( f o f e ( f o f e ) ( f f e )2 / eij
fo ) o
Gnero Cerveza

Hombre ligera 20 26.67 -6.67 44.4889 1.66812523


Hombre clara 40 37.33 2.67 7.1289 0.19096973
Hombre Oscura 20 16 4 16 1
Mujer ligera 30 23.33 6.67 44.4889 1.90693956
Mujer clara 30 32.67 -2.67 7.1289 0.21820937
Mujer Oscura 10 14 -4 16 1.14285714
2

6.12710104

diferencias.

5.5 PRUEBAS DE CONTINGENCIA (ji-CUDRADA).


La prueba chi-cuadrado de contingencia sirve para comprobar la independencia de
frecuencias entre dos variables aleatorias, X e Y.
Las hiptesis contrastadas en la prueba son:
Hiptesis nula: X e Y son independientes.
Hiptesis alternativa: X e Y no son independientes (No importa cul sea la relacin que
mantengan ni el grado de esta.
La condicin de independencia, tal como fue definida en la pgina anterior era: X e Y son
independientes si y slo si para cualquier pareja de valores x e y la probabilidad de que X
tome el valor x e Y el valor y, simultneamente, es igual al producto de las probabilidades
de que cada una tome el valor correspondiente.

Por tanto, todo lo que necesitamos sern unas estimas de las funciones de probabilidad
de ambas variables por separado (f(x) y f(y)) y de la funcin de probabilidad conjunta
(f(x,y))
Empezaremos la prueba tomando una muestra de parejas de valores sobre la que
contaremos la frecuencia absoluta con la que aparece cada combinacin de valores (xi,yj)
o de grupos de valores (i,j) (Oij) La tabla siguiente, en la que se recogen estos datos, es
en realidad nuestra estimacin de la funcin de probabilidad conjunta multiplicada por el
nmero total de datos (T).

Para obtener las estimas de las funciones de probabilidad marginales debemos sumar por
filas y por columnas los valores de las frecuencias conjuntas. Las sumas de filas (Fi) son,
en cada caso, el nmero de veces que hemos obtenido un valor de X (xi) en cualquier
combinacin con distintos valores de Y, es decir, son nuestra estima de la funcin de
probabilidad de X multiplicada por el nmero total de observaciones; anlogamente, las
sumas de columnas (Cj) son nuestra estima de la funcin de probabilidad de Y
multiplicada por el nmero total de observaciones.
El nmero total de observaciones lo podemos obtener como la suma de todas las
frecuencias observadas o, tambin, como la suma de las sumas de filas o de las sumas
de columnas:
As pues, si las variables fueran independientes debera cumplirse que

Naturalmente, nadie espera que esta condicin se cumpla exactamente debido al efecto
de los errores de muestreo aleatorio. Por tanto, nuestro problema consiste en distinguir
entre las diferencias producidas por efecto del muestreo y diferencias que revelen falta de
independencia.
Podemos convertir la ecuacin anterior a frecuencias absolutas multiplicando por T:

Si X e Y son independientes, Oij debe ser igual a y, por tanto,

Bajo la hiptesis de independencia, es el valor esperado de Oij (Eij)


Tal como pasaba en la prueba anterior, si las variables son independientes, es decir, si las
frecuencias Eij son realmente los valores esperados de las frecuencias Oij, se puede
calcular un parmetro que depende de ambas que tiene distribucin chi-cuadrado,

Por otra parte, si las variables no son independientes, las diferencias entre las series de
frecuencias observadas y esperadas sern mayores que las atribuibles al efecto del azar
y, al estar elevadas al cuadrado en el numerador de la expresin anterior, sta tender a
ser mayor que lo que suele ser el valor de una variable chi-cuadrado.

Por tanto, el parmetro anterior ser el estadstico de la prueba de hiptesis y la regin


crtica se encontrar siempre en la cola derecha de la distribucin chi-cuadrado.
Nuevamente, esta prueba ser siempre de una sola cola.

Estadstico de contraste

Se acepta la hiptesis nula si , el percentil 1 de la distribucin chi-

cuadrado con grados de libertad.


Tal como ocurra en la prueba anterior lo corriente es que queramos demostrar que dos
variables son independientes, es decir, que, habitualmente, nos veremos obligados a
colocar nuestra hiptesis en la hiptesis nula. El nmero de grados de libertad de la chi-
cuadrado que sirve de contraste se calcula de la siguiente forma:
A priori tendremos tantos grados de libertad como combinaciones de valores x i, yj
tengamos (I J)
A este nmero tendremos que restarle I debido a que, para calcular las frecuencias
esperadas, necesitamos calcular las I sumas de filas en la tabla anterior. Conocidas las
sumas de filas obtenemos el nmero total de observaciones sin perder ningn grado de
libertad.
A continuacin, necesitaremos calcular, a partir de las frecuencias observadas J - 1 de las
sumas de columnas; la restante podemos obtenerla restando la suma de las anteriores
del total de observaciones (T).
En resumen, el nmero de grados de libertad de la prueba es el producto del nmero de
filas menos uno por el nmero de columnas menos uno.

En cuanto a la magnitud mnima necesaria de las frecuencias observadas y esperadas,


rigen las mismas normas que en el caso de la prueba de ajuste. En este caso, si nos
viramos obligados a juntar valores para sumar frecuencias, debemos unir columnas o
filas completas (y contiguas). Obviamente, los grados de libertad no deben calcularse
hasta que no se hayan realizado todas las agrupaciones necesarias y quede claro cul es
el nmero de filas y columnas de la tabla definitiva.
Como hemos visto, esta prueba no hace ninguna suposicin acerca del tipo de
distribucin de ninguna de las variables implicadas y utiliza nicamente informacin de la
muestra, es decir, informacin contingente. Esta es la razn por la que, habitualmente, se
le llama chi-cuadrado de contingencia.
5.6 PRUEBAS DE BONDAD DE AJUSTE.
Las pruebas de bondad de ajuste tienen por objetivo determinar si los datos se ajustan a
una determinada distribucin, esta distribucin puede estar completamente especificada
(hiptesis simple) o perteneciente a una clase paramtrica (hiptesis compuesta).

Una hiptesis estadstica se defini como una afirmacin o conjetura acerca de la


distribucin f(x,q) de una o ms variables aleatorias. Igualmente se plante que la
distribucin poda tener uno o ms parmetros desconocidos, que denotamos por q y que
la hiptesis se relaciona con este parmetro o conjunto de parmetros En otros casos, se
desconoce por completo la forma de la distribucin y la hiptesis entonces se relaciona
con una distribucin especfica f(x,q) que podamos asignarle al conjunto de datos de la
muestra. El primer problema, relacionado con los parmetros de una distribucin conocida
o supuesta es el problema que hemos analizado en los prrafos anteriores. Ahora
examinaremos el problema de verificar si el conjunto de datos se puede ajustar o afirmar
que proviene de una determinada distribucin. Las pruebas estadsticas que tratan este
problema reciben el nombre general de Pruebas de Bondad de Ajuste.

Se analizarn dos pruebas bsicas que pueden aplicarse: La prueba Chi - Cuadrado y la
prueba de Smirnov-Kolmogorov. Ambas pruebas caen en la categora de lo que en
estadstica se denominan pruebas de Bondad de Ajuste y miden, como el nombre lo
indica, el grado de ajuste que existe entre la distribucin obtenida a partir de la muestra y
la distribucin terica que se supone debe seguir esa muestra. Ambas pruebas estn
basadas en la hiptesis nula de que no hay diferencias significativas entre la distribucin
muestral y la terica. Ambas pruebas estn basadas en las siguientes hiptesis:

H0: f(x,q) = f0(x,q)

H1: f(x,q) f0(x,q)

Donde f0(x, q) es la distribucin que se supone sigue la muestra aleatoria. La hiptesis


alternativa siempre se enuncia como que los datos no siguen la distribucin supuesta. Si
se desea examinar otra distribucin especfica, deber realizarse de nuevo la otra prueba
suponiendo que la hiptesis nula es esta nueva distribucin. Al especificar la hiptesis
nula, el conjunto de parmetros definidos por q puede ser conocido o desconocido. En
caso de que los parmetros sean desconocidos, es necesario estimarlos mediante alguno
de los mtodos de estimacin analizados con anterioridad.

Para formular la hiptesis nula debern tenerse en cuenta los siguientes aspectos o
criterios:

a) La naturaleza de los datos a analizar. Por ejemplo, si tratamos de investigar la


distribucin que siguen los tiempos de falla de unos componentes, podramos pensar en
una distribucin exponencial, o una distribucin gama o una distribucin Weibull, pero en
principio no consideraramos una distribucin normal. Si estamos analizando los caudales
de un ro en un determinado sitio, podramos pensar en una distribucin logartmica
normal, pero no en una distribucin normal.

b) Histograma. La forma que tome el histograma de frecuencia es quizs la mejor


indicacin del tipo de distribucin a considerar.

5.7 APLICACIONES.
Para la ocurrencia de dos eventos, en la cual se desea observar si son dependientes o
independientes.
La distribucin ji cuadrada sirve para todas las inferencias sobre la variancia de una
poblacin.
Existen muchos problemas para los cuales los datos son categorizados y los resultados
expuestos en forma de conteos o cuentas.
Se pueden aplicar en: un conjunto de calificaciones de un examen final puede ser
representado como una distribucin de frecuencias. Estos valores son cuentas: l numera
de datos que caen en cada celda.
En una encuesta determinada se podra preguntar a unas personas si votaran por los
candidatos A, B o C, por lo general, los resultados se indican en una grfica que informa
acerca del nmero de votantes para cada categora posible

Das könnte Ihnen auch gefallen