Sie sind auf Seite 1von 36

Mdulo 3

Unidad 4 y 5
Lectura 3

Otras pruebas de
hiptesis

Materia: Herramientas Matemticas V Estadstica II


Profesora: Mgter. Vernica Herrero

Unidad 4: Pruebas para


variables categricas
Introduccin
Bibliografa Bsica
Para cumplir con los
objetivos de la Unidad 4
del programa, es necesario
profundizar en los temas
desarrollados en el
Captulo 15 del texto de
Bibliografa Bsica.
(Berenson & Levine,
1996), relacionndolos con
los comentarios, ejemplos y
recomendaciones de las
lecturas del mdulo. Note
que el tema de prueba de
bondad de ajuste no se
encuentra en la bibliografa
bsica pero s en el
programa y en las lectura
del mdulo.
Captulos: 15 (Apartado
15.6)

Hasta ahora, cuando trabajbamos con datos categricos, nos


concentramos en el parmetro proporcin. En muchas ocasiones debemos
abordar algunas de las siguientes situaciones:

a) Considerar toda una distribucin de valores de una variable


categrica (y no slo una variable dicotmica)
b) Tener en cuenta la distribucin bivariada de dos variables
categricas (es decir, analizar las ocurrencias de categoras de
ambas dimensiones al mismo tiempo)

Para el primer tipo de situacin desarrollaremos una prueba denominada


de bondad de ajuste, que sirve para sacar una conclusin acerca de la
distribucin que efectivamente sigue una determinada variable.

El segundo tipo de problema, en el que nos auxiliaremos con tablas de


contingencia, es abordado por las pruebas denominadas de independencia.

Ambas pruebas utilizan estadsticos con distribucin chi cuadrado.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|2

4.1. Prueba de bondad de ajuste


La prueba de bondad de ajuste sirve para determinar si una poblacin
tiene una distribucin terica especfica, ya sea una distribucin conocida o
una distribucin ad hoc.

Tabla Chi-cuadrado
Para las pruebas de esta
unidad Ud. deber utilizar
nuevamente la tabla con
la que trabaj en el
mdulo anterior para
las pruebas sobre la
varianza.

La prueba se basa en qu tan buen ajuste o concordancia se tiene entre las


frecuencias de ocurrencia de las observaciones en una muestra observada y
las frecuencias esperadas que se obtienen a partir de la distribucin
hipottica.

El estadstico de prueba tiene distribucin chi cuadrado con (k-1) grados de


libertad, donde k es la cantidad total de valores que tiene la distribucin
analizada.

( fe fo )2
=
fe
i =1
k

2
k 1

En este caso las hiptesis nula y alternativa que se consideran en la prueba


de hiptesis son:

Hiptesis nula:

Ho: La variable tiene la distribucin supuesta (en este lugar se especifican


los aspectos a probar, ya sea una descripcin de cmo distribuye, o con el
nombre de la distribucin conocida y sus parmetros correspondientes)

Hiptesis alternativa:

H1: La variable no sigue la distribucin supuesta

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|3


En las pruebas chi cuadrado de bondad de ajuste, siempre se coloca el
riesgo de no aceptar la hiptesis nula siendo sta cierta (el nivel de
significacin, ) en el extremo superior de valores de la distribucin chi
cuadrado, como muestra la siguiente figura.

Figura Prueba chi cuadrado de bondad de ajuste-Ubicacin de la zona de


rechazo

Fuente: elaboracin propia, con captura de imagen de distribucin chi


cuadrado de
http://media.photobucket.com/image/distribuci%2525C3%2525B3n%20c
hi%20cuadrado/BlogAqueronte/Estadistica/Tablas/Ji%20Cuadrado/JiCua
drado.gif

Como puede observarse en el estadstico de prueba, el valor que surja a


partir de los datos mustrales ser elevado cuando difieran
sistemticamente las frecuencias observadas de las esperadas (que se
construyen teniendo en cuenta la distribucin hipottica indicada en la
hiptesis nula). Por ello es que valores elevados del estadstico caern en la
zona de rechazo.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|4

Veamos una aplicacin completa de esta prueba.

Se supone que el nmero de defectos en un dispositivo para


pagos electrnicos sigue una distribucin Poisson.

Toma una muestra aleatoria de 43 dispositivos y se observa


el nmero de defectos. Los resultados obtenidos fueron los
siguientes:

Nmero de
defectos

Frecuencia
observada

25

10

3 ms

En primer lugar, explicitaremos las hiptesis de la prueba.

Ho: El nmero de defectos en el dispositivo tiene una


distribucin de Poisson.

H1: El nmero de defectos en el dispositivo no tiene una


distribucin de Poisson.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|5


Si trabajamos con un =0,05, el valor crtico de chi cuadrado
con 3 grados de libertad ser 7,83.

La regla de decisin quedar entonces:

Si el estadstico muestral es inferior a 7,83, no se rechaza Ho.

Si el estadstico muestral es mayor o igual a 7,83, se rechaza


Ho.

A los fines de construir la tabla de distribucin terica, o


frecuencias esperadas, deberemos estimar en primer lugar el
valor de , ya que no nos ha sido proporcionado.
Calcularemos entonces, el valor esperado con los datos de la
muestra:

0.25 + 1.10 + 2.6 + 3.2


43

28
43

= 0,65

Podemos utilizar ahora el parmetro estimado =0,65, para


calcular con la frmula de la distribucin de Poisson o con la
tabla las frecuencias esperadas:

e x
P( x) =
x!
Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|6

Con esta frmula obtuvimos las siguientes probabilidades,


que luego aplicaremos al tamao total de la muestra para
calcular las frecuencias esperadas.

Defectos

Probabilidad

0,52205

0,33933

0,10519

3 ms

0,03343

Frecuencias esperadas:
Defectos

Frecuencia
Esperada

22,44815

14,59119

4,52317

3 o ms

1,43749

Total

43

Ahora aplicaremos la frmula del estadstico de prueba.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|7

Defectos

Total

( fe fo )2
=
fe
i =1
k

2
k 1

Frecuencia Frecuencia fe-fo


esperada
observada

(fe-fo)2

(fe-fo)/fe

22,44815

25

-2,55185

6,51193842

0,29008798

14,59119

10

4,59119

21,0790256

1,44464061

4,52317

-1,47683

2,18102685

0,48218989

3 ms

1,43749

-0,56251

0,3164175

0,22011805

43

43

2,43703653

Teniendo en cuenta la regla de decisin, no se rechaza la


hiptesis nula.

En sntesis, con la evidencia aportada por la muestra, no


podemos descartar, con una significacin de 0,05, que el
nmero de defectos se distribuye Poisson.

Tenga en cuenta que este tema (prueba de bondad de ajuste) no se


encuentra desarrollado en la bibliografa bsica de la materia.

4.2. Prueba de independencia de dos


variables categricas
La prueba de independencia permite establecer si existe o no relacin
entre variables categricas, cuando cada una de las cuales posee dos o ms
categoras.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|8

Veamos un ejemplo.

Bibliografa Bsica
Recuerde revisar este tema
en detalle en el texto de
Berenson & Levine
(1996). El punto 15.6
complementa lo explicado
en este apartado.

Se llev a cabo una encuesta de expectativas econmicas vinculada con la


confianza de los consumidores, y se toma como referencia, la evolucin
previa de la situacin econmica que percibieron los encuestados. En
particular, se distinguen en las respuestas quienes mejoraron su situacin,
quienes la mantuvieron igual y quienes empeoraron en el ltimo ao.

Interesa considerar la posible relacin de la evolucin de la situacin


econmica percibida para diferentes segmentos de edad de la poblacin.

Se distinguieron los encuestados de acuerdo con los siguientes grupos:

De 18 a 29 aos: Jvenes
De 30 a 59 aos: Adultos plenos
De 60 aos y ms: Adultos mayores.

Se consideraron de manera conjunta ambas variables en una tabla de


contingencia, donde en las celdas se indica cuntos individuos renen al
mismo tiempo las caractersticas reflejadas en la fila y columna
correspondientes. Los resultados arrojados por el estudio son los
siguientes:

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|9


Tabla: Encuestados segn cambio en la situacin econmica personal y
grupos de edad

Cambios en la situacin econmica personal en


el ltimo ao
Edades

Mejor

Se mantuvo igual

Empeor

Jvenes

180

150

90

Adultos plenos

120

180

70

Adultos
mayores

70

100

130

Fuente: elaboracin propia

La prueba Chi cuadrado que presentaremos permite establecer si existe


relacin entre escalas como las planteadas en el ejemplo.

La prueba Chi cuadrada es una prueba de carcter general que se utiliza


cuando se desea determinar si las frecuencias absolutas obtenidas en la
observacin (como en la tabla del ejemplo previo), difieren
significativamente o no de las que se esperaran bajo cierta hiptesis
planteada de interrelacin de las categoras de las variables consideradas.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|10


Tabla cruzada: Datos observados, frecuencias absolutas, porcentajes
totales, en filas y en columnas
Tabla cruzada: cambio en la situacin econmica * grupo de edad

Cambios en la situacin
econmica personal en el ltimo
ao
Mejor

Grupo
de
edad

Jvenes

Adultos
plenos

Adultos
mayore
s

Se mantuvo
igual

Total

Empeor

180

150

90

420

% en grupo de
edad

42,9%

35,7%

21,4%

100,0%

% en cambio

48,6%

34,9%

31,0%

38,5%

% del total

16,5%

13,8%

8,3%

38,5%

120

180

70

370

% en grupo de
edad

32,4%

48,6%

18,9%

100,0%

% en cambio

32,4%

41,9%

24,1%

33,9%

% del total

11,0%

16,5%

6,4%

33,9%

70

100

130

300

% en grupo de
edad

23,3%

33,3%

43,3%

100,0%

% en cambio

18,9%

23,3%

44,8%

27,5%

6,4%

9,2%

11,9%

27,5%

Total

Total

Total

% del total

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|11

Total

Total
% en grupo de
edad
% en cambio
% del total

370

430

290

1090

33,9%

39,4%

26,6%

100,0%

100,0%

100,0%

100,0%

100,0%

33,9%

39,4%

26,6%

100,0%

Considerando los datos de la tabla previa, se puede observar que entre los
que mejoraron, es ms elevada la proporcin de jvenes, respecto del total,
en tanto, entre los que se mantuvieron, la proporcin que se destaca es la de
Adultos plenos. Finalmente, entre los individuos que vieron desmejorar su
situacin econmica, presentan proporcionalmente una mayor presencia de
Adultos mayores que el resto.

A los fines de corroborar si tal observacin puede sostenerse, o bien si se


trata slo de una casualidad presente en los datos de la muestra, la prueba
Chi cuadrado permite someter a contraste las siguientes hiptesis:

Ho:

Las variables son independientes entre s (es decir, no tienen relacin)

H1:
Las variables no son independientes.

Observe que si bien estamos interesados en considerar la vinculacin entre


las variables, la hiptesis nula parte del supuesto neutral de no relacin o
independencia. En el caso de rechazar la hiptesis nula, detectaremos la
relacin que suponemos que existe, que motiv el estudio.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|12


El estadstico justamente considerar esta situacin, en la cual, si los
valores observados se distancian significativamente del valor esperado bajo
el supuesto de independencia, el estadstico resultar en un valor elevado
(ubicado en la zona de rechazo), y se rechazar la hiptesis nula. El
estadstico Chi cuadrado est dado por:

2 =

( fo fe )2
fe

Este estadstico se distribuye Chi cuadrado con (c-1).(f-1) grados de


libertad.

Donde

fo: frecuencias observadas


fe: frencuencias esperadas
c= nmero de columnas
f= nmero de filas

Tambin en la prueba chi cuadrado de independencia se localizaa el riesgo


de no aceptar la hiptesis nula siendo sta cierta (el nivel de significacin,
) en el extremo superior de valores de la distribucin chi cuadrado, como
muestra la siguiente figura.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|13


Figura Prueba chi cuadrado de independencia -Ubicacin de la zona de
rechazo

Fuente: elaboracin propia, con captura de imagen de distribucin chi


cuadrado de
http://media.photobucket.com/image/distribuci%2525C3%2525B3n%20c
hi%20cuadrado/BlogAqueronte/Estadistica/Tablas/Ji%20Cuadrado/JiCua
drado.gif

Nuevamente puede observarse que si las frecuencias esperadas (bajo la


hiptesis nul cierta de independencia o no relacin entre variables), difieren
sistemticamente de las observadas, tendremos elementos como para
descartar la independencia, y concluiremos que existe relacin entre las
variables. En tal caso, el valor del estadstico asumir valores elevados. De
lo contrario, si en general, las frecuencias esperadas (bajo la hiptesis de no
relacin) no difieren de las observadas, no tendremos elementos para
descartar la independencia.

Continuemos ahora con el ejemplo, obteniendo las frecuencias esperadas y


completando el test.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|14


Suponiendo una significacin de 0,05, dado que se trabaja con 4 grados de
libertad (tres filas y tres columnas), el valor crtico del estadstico chi
cuadrado es: 9,5.

La regla de decisin ser:

Si el estadstico obtenido con datos muestrales es inferior a 9,5, no se


rechazar la hiptesis nula.

Si el estadstico basado en los datos muestrales es mayor a 9,5, se rechazar


la hiptesis nula de independencia, y se concluir que existe relacin entre
las variables.

Para calcular las frecuencias esperadas de cada celda de la tabla de


contingencia, se debe multiplicar la frecuencia marginal de la fila de la celda
por la frecuencia marginal de la columna de la celda, y luego dividir ese
resultado por el tamao total de la muestra. Por ejemplo, para calcular la
frecuencia esperada de la celda Jvenes que mejoraron su situacin
econmica, realizamos la siguiente operacin:

fe =

420.370
1090

La siguiente tabla sintetiza las frecuencias marginales para poder calcular


las frecuencias esperadas de todas las celdas interiores de la tabla.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|15


Tabla de contingencia: frecuencias marginales

Cambios en la situacin
econmica personal en el
ltimo ao
Edades

Mejor

Empeor Total
Se
mantuvo
igual

Jvenes

420

Adultos plenos

370

Adultos
mayores

300

Total

370

430

290

1090

Con el procedimiento descripto, la tabla de frecuencias esperadas resulta:

Frecuencias esperadas

Cambios en la situacin econmica


personal en el ltimo ao
Edades

Mejor

Jvenes

142,569

165,688

111,743

420

Adultos
plenos

125,596

145,963

98,440

370

Adultos
mayores

101,835

118,349

79,817

300

370

430

290

1090

Total

Se mantuvo
igual

Empeor Total

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|16

La siguiente tabla surge de comparar los valores observados y esperados:

Cambios en la situacin econmica


personal en el ltimo ao
Edades

Mejor

Se mantuvo
igual

Empeor

Jvenes

-37,431

15,688

21,743

Adultos
plenos

5,596

-34,037

28,440

Adultos
mayores

31,835

18,349

-50,183

Finalmente los valores que suman de cada celda para construir el


estadstico muestral. El valor del estadstico basado en datos muestrales es:
76,3, que cae en la zona de rechazo, por lo tanto se concluye las variables
grupo de edad de los encuestados se relaciona con la percepcin de cambio
en su situacin econmica en el ltimo ao.
Tabla con los valores que se suman para obtener el estadsitico muestral,

( fo fe )2
, para la celda ij,
fe

ij

cada celda contiene los valores de


respectivamente.

Cambios en la situacin econmica


personal en el ltimo ao
Edades

Mejor

Se mantuvo igual

Empeor

Jvenes

9,827

1,485

4,231

Adultos
plenos

0,249

7,937

8,217

Adultos
mayores

9,952

2,845

31,552

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|17

Unidad 4: Anlisis de Varianza


(ANOVA)
5.1. Anlisis de varianza de un factor
El anlisis de varianza o como es ms conocido, ANOVA, sus siglas de la
denominacin en ingls: ANalysis Of VAriance, examina dos o ms
conjuntos de datos, en particular sus varianzas, e intenta detectar
diferencias estadsticamente representativas entre las medias de dichos
conjuntos.

El propsito del ANOVA es comprobar si existen diferencias significativas


entre las medias de c grupos (c3).

Bibliografa Bsica
Para cumplir con los
objetivos de la Unidad 5
del programa, es necesario
profundizar en los temas
desarrollados en el
Captulo 14 del texto de
Bibliografa Bsica.
(Berenson & Levine,
1996), relacionndolos
con los comentarios,
ejemplos y
recomendaciones de las
lecturas del mdulo.

Captulos: 14 (Apartados
14.1, 14.2, 14.3, 14.4)

Si slo comparamos dos medias, el ANOVA producir el mismo resultado


que la prueba t para muestras independientes (si estamos comparando dos
grupos diferentes de casos u observaciones) o la prueba t para muestras
dependientes (si estamos comparando dos variables en un conjunto de
casos u observaciones). El problema de aplicar la metodologa de
comparacin de a pares cuando la cantidad de grupos estudiados es
superior a dos, es que, en cada comparacin se est sujeto a la probabilidad
de cometer el error tipo I (con riesgo ), y en consecuencia la significacin
real de la prueba no ser la comprometida.

El mtodo de anlisis de varianza se basa en el hecho de que hay una


diferencia entre los grupos slo si la varianza intergrupos es mayor que la
varianza intra-grupo.

El anlisis se inicia calculando la varianza intra-grupo para cada grupo, y la


media de todas estas varianzas de grupo.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|18

La separacin de la suma de cuadrados

La idea bsica del ANOVA es el hecho de que las varianzas pueden ser
divididas, es decir separadas. Se debe recordar que la varianza se calcula
como la suma de desviaciones al cuadrado respecto de la media general (o
gran media), dividida por n-1 (el tamao de la muestra menos uno). Por
eso, para una muestra de tamao n, la varianza es una funcin de las sumas
de cuadrados (de desvos), a la cual denominaremos SS. La particin de la
varianza funciones como mostraremos a continuacin:

Figura. Descomposicin de la suma de cuadrados

Fuente. Elaboracin propia

La nomenclatura que usaremos en este tema difiere levemente de la


empleada en el texto de la bibliografa bsica. Todos los valores
correspondientes a las sumas de cuadrados entre grupo se identificarn en
este caso con una letra E (mientras que en el texto se utiliza una A, por
among). Todos los valores correspondientes a las sumas de cuadrados
dentro grupo se identificarn en este caso con una letra D (mientras que en
el texto se utiliza una W, por within).

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|19

Lgica bsica del ANOVA

Nomenclatura
Tenga presente que el
texto de Berenson y
Levine (1996) utiliza las
abreviaturas
correspondientes a la
nomenclatura en ingls,
donde :
SSA: Sum of squares
among (Suma de
cuadrados entre grupos)
SSW: Sum of squares
within (suma de
cuadrados dentro de
grupos)
SST: Sum of squares
Total (Suma de cuadrados
Totales)

El propsito del anlisis de varianza es probar si son estadsticamente


significativas las diferentes en las medias para tres ms grupos de casos.

Para ello se analiza la varianza, particionando la varianza total en sus


componentes: el que se debe al error aleatorio (Suma de cuadrados dentro
de los grupos) y el que se debe a las diferencias entre las medias (Suma de
cuadrados entre los grupos).

Estos componentes de la varianza son sometidos a la prueba de


significacin estadstica, y si resulta significativa, se rechaza la hiptesis
nula referida a la no existencia de diferencia entre las medias y se concluye
que hasta nueva evidencia se mantiene como vlida la hiptesis alternativa
referida a que las medias de la poblacin son diferentes entre s (o ms
precisamente, que al menos una de las medias consideradas lo es).

Analizaremos un problema especfico para presentar todos los conceptos y


procedimientos de la prueba.

Una cadena de supermercados posee tres sucursales en una ciudad, cada


una ubicada en zonas con caractersticas diferenciadas, que determinan una
aparente distinta frecuencia mensual de compra por parte de los clientes.
Interesa saber si efectivamente las zonas presentan diferencia en este
aspecto, para lo cual se llev a cabo un seguimiento de tres clientes
seleccionados al azar en cada sucursal durante el ltimo mes, y se registr el
nmero de veces que realizaron compras en la sucursal respectiva. La
siguiente tabla resume lo observado.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|20


Tabla: Frecuencia mensual de concurrencia a la sucursal correspondiente

Zona 1

Zona 2

Zona 3

Observacin 1

Observacin 2

Observacin 3

Media del grupo

7,67

En la prueba ANOVA, las hiptesis se explicitan de la siguiente manera:

Hiptesis nula:

Ho: Las medias de los c grupos son iguales

Hiptesis alternativa:

Al menos una de las medias de los grupos es diferente a las dems.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|21


En el ejemplo planteado, quedaran expresadas de la siguiente manera.

Hiptesis nula:

Ho: Las medias de frecuencia mensual de compra de las 3 zonas son iguales

Hiptesis alternativa:

Al menos una de las medias de las zonas es diferente a las dems.

5.1.1. Dispersin total


La variacin total (SST) est dada por la suma de cuadrados de todos los
valores respecto de la media del total de datos o gran media.
Clculo Gran Media
Tenga en cuenta que la
gran media es el
promedio de todas las
observaciones. No es
correcto realizar el
promedio de las
medias de los grupos,
dado que si la cantidad de
elementos de cada grupo
es diferente, el clculo de
la media quedar
distorsionado. Revise la
frmula de clculo 14.1
que se presenta en el texto
de Berenson & Levine
(1996).

nj

SST = ( xij x ) 2
j =1 i =1

Donde

x es la gran media
xij

es la i-sima observacin del grupo j

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|22

nj indica la cantidad de casos del grupo j

c es la cantidad de grupos

Tabla: Clculo de la gran media y de la SST

Zona 1

Zona 2

Zona 3

Observacin 1

Observacin 2

Observacin 3

Media del grupo

7,67

Gran Media

Suma de cuadrados
totales

5,2

55,56

5.1.2. Dispersin entre grupos


La variacin o dispersin entre grupos se resume a travs de la suma
de cuadrados entre grupos (SSE), que considera las diferencias entre las
medias de cada grupo y la gran media.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|23

SSA = n j ( x j x ) 2
j =1

Donde

xj

es la media del grupo j

5.1.3. Dispersin dentro de grupos


La variacin o dispersin dentro grupos considera la suma de
cuadrados dentro de grupos (SSD), que tiene en cuenta las diferencias
entre cada uno de los valores observados en cada grupo y la media
correspondiente a su grupo.

SSD =
j =1

nj

2
(
x

x
)
ij j
i =1

Donde

xj

es la media del grupo j

Veamos los resultados de las SSE y SSD para los datos del ejemplo:

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|24


Zona 1

Zona 2

Zona 3

Observacin 1

Observacin 2

Observacin 3

Media del grupo

7,67

Suma de cuadrados
(dentro)

0,67

4,67

Suma de cuadrados
entre

Gran Media

Suma de cuadrados
totales

Nomenclatura
Tenga presente que el
texto de Berenson y
Levine (1996) utiliza las
abreviaturas
correspoendientes a la
nomenclatura en ingls,
donde SS corresponde a
Sum of Squares o
Suma de Cuadrados.

50,86

5,2

55,56

Las medias de los tres grupos, parecen ser bastante diferentes. Las sumas
de cuadrados en cada grupo son relativamente reducidas. En total suma
4,56. Por otra parte, si analizamos la SS total, obtenemos 55,56. En
definitiva, calcular la varianza (suma de cuadrados) basados en la
variabilidad en los grupos conduce a una estimacin mucho menor de la
varianza que calcularla basada sobre la variabilidad total. La razn para ello
en este ejemplo es que hay una gran diferencia entre las medias, y esta
diferencia genera la diferencia entre las SS.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|25

Cada una de las sumas de cuadrados descriptas tiene asociados grados de


libertad diferentes:

La SST tiene n-1 grados de libertad, ya que pierde un grado de


libertad respecto del total de datos de la muestra, por el clculo de la
gran media

La SSE tiene c-1 grados de libertad, tambin debido a que si se


conoce la gran media, al menos uno de los valores de las medias de
los grupos quedar automticamente determinado.

La SSD tiene n-c grados de libertad, ya que en cada uno de los c


grupos resultan (nj -1) grados de libertad, ya que en cada grupo se
pierde un grado de libertad por el clculo de la media muestral de
ese grupo.

Suma de cuadrados del Error (Suma de Cuadrados Dentro) y


Suma de cuadrados del Efecto (Suma de Cuadrados Entre)

La variabilidad dentro de los grupos es generalmente denominada Varianza


de Error. Este trmino denota el hecho de que no podemos realmente
explicarlo o tenerlo en cuenta en este diseo que estamos considerando. Sin
embargo, la variabilidad entre grupos (Efecto), puede ser explicada. Como
su nombre lo indica, esta variabilidad se debe a las diferencias en las
medias entre los grupos. Explicado de otra forma, ser miembro de un grupo
explica esta variabilidad ya que conocemos que esto se asocia con las
diferencias en las medias.

Nomenclatura
Tenga presente que el
texto de Berenson y
Levine (1996) utiliza las
abreviaturas
correspondientes a la
nomenclatura en ingls,
donde MS corresponde a
Medium Squares o
Cuadrados Medios.

El ANOVA es otro ejemplo de prueba en la que se desea conocer la


significacin estadstica. En este caso el test o prueba se basa en la
comparacin de la varianza debida a la variabilidad entre grupos
(Cuadrados medios entre, CME) con la variabilidad dentro de los grupos
(Cuadrados medios dentro, CMD, o Cuadrados medios del error). Bajo
hiptesis nula (que se expresa como: no hay diferencias entre las medias de
los grupos de la poblacin), la varianza estimada basada en la variabilidad
dentro de los grupos debera ser aproximadamente la misma que la
varianza debida a variabilidad entre grupos. Podemos entonces comparar
estas dos estimaciones de la varianza a travs de la prueba F, la cual somete
a prueba si el cociente de dos varianzas es significativamente mayor que 1.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|26

En el ejemplo, el test es elevadamente significativo, por lo cual se concluye


que en efecto las medias de los grupos (al menos una de ellas) son
significativamente diferentes entre s.

Considerando las sumas de cuadrados y sus respectivos grados de libertad


podemos obtener las tres varianzas que caracterizan al problema:

Los cuadrados medios totales (o trminos cuadrticos medios


totales) se obtienen de la siguiente manera:

CMT =

Los cuadrados medios entre (o trminos cuadrticos medios entre)


se obtienen de la siguiente manera:

CME =

SST
n 1

SSE
c 1

Los cuadrados medios dentro (o trminos cuadrticos medios


dentro) se obtienen de la siguiente manera:

CMD =

SSD
nc

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|27


El texto de la bibliografa bsica denota con MS a los Cuadrados medios.

Contraste de hiptesis en el ANOVA


El estadstico de prueba tiene distribucin F, y se construye en base a los
datos de la muestra de la siguiente manera:

F=

CME
CMD

La distribucin, que corresponde a un cociente de varianzas, tiene


asociados grados de libertad del numerador iguales a los de los CME,
que son c-1, y grados de libertad en el denominador iguales a los de los
CMD, que son n-c.
La zona de rechazo en las pruebas ANOVA se establece determinando un
valor crtico en la distribucin F, con los grados de libertad mencionados,
de manera que resulte por encima de este valor, una probabilidad igual al
nivel de significacin elegido. En este caso tambin, la zona de rechazo se
ubica en los valores elevados de la distribucin. Este hecho se relaciona con
la relacin mencionada previamente de los cuadrados medios dentro y
entre como estimadores de la varianza. En trminos intuitivos, puede
observarse que un valor elevado del estadstico muestral, proviene de una
situacin en la cual los CME son ms elevados (predominantes en cuanto a
la fuente de variacin de los datos). En tal situacin, la variabilidad de los
datos se asocia principalmente con el grupo al cual pertenece el individuo, y
en consecuencia resulta sospechosa la hiptesis de igualdad de todas las
medias poblacionales de los grupos.

El valor crtico de la prueba en el ejemplo, de una distribucin F, con 2


grados de libertad en el numerador y 6 grados de libertad en el
denominador, con una significacin de 0,05, es 5,14.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|28

La regla de decisin queda determinada de la siguiente manera:


Zona de Rechazo
En virtud de la lgica de
anlisis de ANOVA,
siempre la zona de
rechazo se ubica en el
extremo superior de
la distribucin. Los
valores altos del
estadstico F permiten
rechazar la hiptesis nula.

Si el estadstico muestral F es mayor o igual a 5,14, se rechaza la


hiptesis nula (y en consecuencia no puede afirmarse que las medias
de todos los grupos son iguales).

Si el estadstico muestral F es menor a 5,14, no se rechaza la


hiptesis nula (y en consecuencia no disponemos de evidencia para
descartar que las medias de todos los grupos sean iguales).

El siguiente grfico muestra dnde se ubica la zona de rechazo en las


pruebas ANOVA.

Figura

Fuente: elaboracin propia, con captura de imagen de distribucin tomada


de
http://media.photobucket.com/image/distribuci%2525C3%2525B3n%20f/
BlogAqueronte/Estadistica/Tablas/f.gif

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|29

Toda la informacin requerida para un ANOVA se sintetiza en una tabla


ANOVA. Para el ejemplo, la siguiente tabla ANOVA, nos permite llevar a
cabo la prueba:

Tabla de ANOVA

Fuente de Suma de
variacin
cuadrados
Entre
grupos
(Efecto)

50,89

Grados de
libertad
2

Cuadrados F
medios
25,44

32,71
Dentro de
grupos
(Error)

4,67

0,778

Total

55,56

El valor de estadstico muestral F es 32,71, superior al valor crtico, por lo


tanto, en base a la evidencia obtenida, podemos afirmar que al menos una
de las zonas donde estn implantadas las sucursales del supermercado,
posee una frecuencia promedio de compra de los clientes distinta al resto.

Comparaciones Post hoc


Prueba de TukeyKramer
El procedimiento de
Tukey Kramer para las
comparaciones mltiples
se encuentra desarrollado
en el punto 11.4.5 del
texto de Berenson &
Levine (1996).

El hecho de rechazar la hiptesis nula de un ANOVA no nos dice nada


acerca de las diferencias de las medias entre s, slo nos permite asegurar
que tal diferencia es significativa, en al menos una de las medias
consideradas.

Nos preguntamos en el ejemplo, cul o cules de las sucursales difieren


significativamente en cuanto a sus frecuencias promedio de compra?

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|30

Para poder identificar cul o cules medias difieren se realizan pruebas


como el test de Tuckey, que posibilitan su deteccin.

Dado que estas pruebas se realizan una vez que ha sido rechazada la
hiptesis nula del ANOVA, a posteriori, se denominan post hoc.

Para llevar a cabo esta prueba se sigue el siguiente procedimiento:

1. En primer lugar se calculan las diferencias de a pares de todos los


grupos

x j x j'
Para todo

j j'

Es decir, para todas las medias de diferentes grupos.

En total sern necesarias

c(c 1)
2

Comparaciones de medias de a pares.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|31

2. En segundo lugar, se debe obtener el alcance crtico, con la siguiente


frmula:

ac = QU ( c , n c )

CMD 1
1
.
+
2 n j n j '

Si los tamaos de las muestras de cada grupo son diferentes debe


calcularse el ac para cada par de medias de muestra.

El valor de Q se obtiene de la tabla correspondiente a la tabla de


Tuker Kramer.

Tabla de valores Q
Ud. dispone de una tabla
de valores Q en los anexos
del mdulo, al igual que al
final del texto de
Bibliografa bsica.

3. Finalmente se comparar las diferencias obtenidas en (1) con el ac


que le corresponde.
Si la diferencia obtenida excede al ac, pueden considerarse distintas
las medias respectivas.

Supuestos del ANOVA

Para poder realizar la prueba ANOVA debe verificarse el cumplimiento de


los supuestos, que garantizan la validez.

1. Aleatoriedad o independencia de errores


Es imprescindible garantizar la aleatoriedad en la asignacin de los
casos a los diferentes niveles del tratamiento, ya que de lo contrario, no
ser posible arribar a conclusiones correctas acerca del efecto del nivel

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|32


del tratamiento o grupo al cual est asignado el caso, sobre la variable
dependiente.

Este aspecto debe ser garantizado desde el propio diseo del estudio
experimental del cual provenga la muestra de anlisis.

2. Normalidad
La segunda condicin que debe cumplirse se relaciona con la
distribucin de los datos de cada uno de los grupos. Los datos deben
distribuirse de manera normal en torno de la media de cada grupo.

En general, la prueba ANOVA es robusta (en el sentido de resistir an si


no se cumple de manera estricta esta propiedad), siempre que las
distribuciones no sean demasiado sesgadas.

3. Homogeneidad de varianzas
Las varianzas de todos los grupos deben ser iguales. Este supuesto es
crtico, y puede verificarse su cumplimiento a travs de un test de
Levene de igualdad de varianzas.

Si las muestras tienen igual tamao, no se ver afectado el resultado del


ANOVA por la falta de cumplimiento de este supuesto.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|33


Ejercicios

Resolver los siguientes ejercicios con las tcnicas aprendidas.


1. Supongamos que un frmaco que se administra a 3 grupos de
personas y se les realiza cierta medicin del efecto causado:
Resultado de la medicin
Anexo de Ejercitacin
Adems de estos ejercicios,
Ud. encontrar en el anexo
del mdulo una gua de
ejercicios y sus
respectivas soluciones.
Le recomendamos que
realice toda la ejercitacin
posible para identificar con
claridad las situaciones en
las que se aplica cada
prueba estudiada.

Gripe (nivel 1)

2 5 4

Apendicitis (nivel 2) 8 9 6
Sanos (nivel 3)

7 8 9 10 8 10 5
1

En este caso los factores que influyen en las observaciones son tres: el que
la persona padezca la gripe, apendicitis, o que est sana.
a. Plantee las hiptesis del problema.
b. Utilice una significacin de 0,05.
c. Escriba una conclusin

2. Se aplican 4 tratamientos distintos a 4 grupos de 5 pacientes,


obtenindose los resultados de la tabla que se adjunta. Queremos
saber si se puede concluir que todos los tratamientos tienen el
mismo efecto.
Tratamientos

Tratamiento 1

Observaciones

-1

ni

-1

Tratamiento 2 -2 -4

-5

-4 -7

Tratamiento 3

-1

-2 -4

-1

Tratamiento 4

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|34


a. Plantee las hiptesis del problema.
b. Utilice una significacin de 0,05.
c. Escriba una conclusin

3. La tabla siguiente presenta la distribucin de frecuencia del nmero


de defectos encontrados en el anlisis de los ltimos 200 artculos
producidos en un proceso de produccin. Usando un nivel de
confianza del 5% se desea verificar mediante una prueba chi
cuadrado si dichos valores proceden de una distribucin de Poisson
con una media de3.5 defectos por artculo.

4. Se realiz una encuesta para caracterizar a los lectores de diarios en


ciudades pequeas, en reas rurales y en granjas. La respuesta
acerca de si lean o no algn diario, result en la siguiente tabla:
Comunidad

Lectores?

Total

Si

No

Urbana

529

121

650

Rural

373

137

510

Granja

237

89

326

1139

347

1486

Total

a) Con =0.05 brindan los datos evidencia suficiente para indicar


que las proporciones de lectores difieren entre los distintos
grupos de comunidades?
b) Encuentre el valor p para la prueba.

5.

Se realiz un estudio de las decisiones de tres administradores de


carteras de acciones, para comparar las ganancias obtenidas.
Proporcionan los datos suficiente evidencia para indicar que hay

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|35


diferencias en las compras exitosas entre los administradores
(=0.05)?
Resultado

Administrador

Total

Con ganancia

63

71

55

189

Sin ganancia

37

29

45

111

100

100

100

300

Total

6. Ante la sospecha de que el hbito de fumar de una embarazada


puede influir en el peso de su hijo al nacer, se tomaron dos
muestras, una de fumadoras y otra de no fumadoras, y se clasific a
sus hijos en tres categoras en funcin de su peso en relacin con los
percentiles P10 y P90 de la poblacin. El resultado se expresa en la
tabla siguiente:
Peso del nio
Madre fumadora? Menor de P10 Entre P10 y P90 Mayor de P90
Si

117

529

19

No

124

1147

117

Hay una evidencia significativa a favor de la sospecha teniendo en


cuenta los resultados de la muestra?

Bibliografa Lectura 3
Berenson & Levine (1996). Estadstica para administracin y
economa. Sexta Edicin. Ed. Prentice Hall Hispanoamericana. Mxico.

www.uesiglo21.edu.ar

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|36

Das könnte Ihnen auch gefallen