You are on page 1of 27

Tema 3.

- Relacin entre una variable cualitativa y


una variable cuantitativa: los contrastes de medias
3.1. Introduccin

El inters en muchas investigaciones consiste en relacionar una


variable cualitativa con una variable cuantitativa. En este tema
desarrollaremos los procedimientos estadsticos para estudiar este
tipo de relaciones siendo la variable cualitativa la considerada
independiente o explicativa y la variable cuantitativa la
dependiente. Como hasta ahora denotaremos por X a la variable
independiente cualitativa y por Y a la variable dependiente
cuantitativa. Grficamente, representaremos la relacin a estudiar
de la siguiente manera

X Y
3.1. Introduccin

Ejemplos de investigaciones que relacionan una variable cualitativa y una


cuantitativa:
1. Se desea estudiar si la satisfaccin con el departamento de recursos
humanos de la Universidad es diferente en hombres y en mujeres
2. A una muestra de personas con fobia a volar en avin se les presentan
estmulos sonoros relacionados con su fobia y a otra muestra estmulos
visuales. Medimos la tasa cardiaca y analizamos si hay diferencia en
funcin del tipo de estmulo.
3. Deseamos evaluar la eficacia de un programa de modificacin de la
conducta de fumar. Para ello se ha seleccionado una muestra de
fumadores a los que se les pregunta por el nmero de cigarrillos que
fuman al da y se les vuelve a preguntar despus de asistir al programa.
4. Se desea estudiar si existe relacin entre la estructura familiar
(monoparental, biparental, reconstituida) y los resultados acadmicos.
5. Se desea estudiar si a lo largo de la adolescencia aumenta el consumo
de drogas. Para ello, a una muestra de chicos y chicas de entre 12 aos y
13 aos (adolescencia temprana) se les pregunta por el nmero de veces a
la semana que consumen alcohol, cannabis, cigarrillos u otras drogas. A los
mismos chicos y chicas se les pregunta cuando tienen 15-16 aos
(adolescencia media) y finalmente cuando tienen entre 17 y 19 aos
3.1. Introduccin

En todas estas investigaciones la variable independiente es


cualitativa con la diferencia de que en los tres primeros casos solo
tiene dos condiciones y la denominamos dicotmica o binaria.
Cuando la variable cualitativa tiene ms de dos condiciones o
categoras se denomina politmica. La otra diferencia es la tcnica
de control utilizada para las variables responsables de la
variabilidad aleatoria. En unos casos se seleccionan tantas
muestras como categoras de la VI (ejemplos: 1,2,4), es decir,
cada sujeto proporciona un solo valor de la VD. A este tipo de
diseo de investigacin se le denomina entre-grupos o entre-
sujetos. En otras investigaciones es el mismo sujeto el que nos
proporciona los valores de la VD para cada categora de la VI. A
este tipo de diseos de investigacin se les denomina intra-sujetos
o de medidas repetidas.
3.1. Introduccin

En la siguiente tabla hemos resumido los tipos de investigaciones


que nos podemos encontrar segn los criterios descritos
anteriormente y la prueba estadstica adecuada. Slo hemos
incorporado pruebas paramtricas porque son las que se utilizan
en la mayora de las investigaciones.
Entregrupos Intrasujetos
Variable Dicotmic t de Student anlisis de t de student
cualitativa a la varianza. Son anlisis de la
(X) binaria equivalentes, la nica varianza de
diferencia es que la t slo medidas
es aplicable a variables repetidas
dicotmicas
Politmica Anlisis de la Anlisis de la
varianza+contrastes a varianza de
posteriori medidas
repetidas+contr
astes a
posteriori
3.1. Introduccin
Adems de saber que prueba estadstica debemos utilizar para estudiar relaciones
parecidas a las anteriores debemos escribir los datos de manera distinta segn que
utilicemos una estrategia entregrupos o intrasujetos. As, las siguientes son porciones
de cmo deberamos escribir los datos para los cuatro tipos de investigaciones de la
tabla anterior Tipo de familia Rendimiento
Monoparental 3
Monoparental 4
Gnero Satisfaccin Monoparental 3
mujer 2 Monoparental 2 N=n1+n2+n3
mujer 3 Monoparental 6 = 15
mujer 3 Biparental 8
mujer 4 N=n1+n2 Biparental 2
Biparental 1
hombre 2 = 10 Biparental 3
hombre 4
Biparental 6
hombre 3
Reconstituida 4
hombre 5
Reconstituida 6
hombre 2
Reconstituida 7
hombre 1 Reconstituida 3
Reconstituida 2

Nmero de
Numero de cigarrillos Adolescencia Adolescen Adolescen
cigarrillos antes despus temprana cia media cia tarda
20 10 0 0 5 N= 7
30 0 1 5 6
25 20 1 4 7
10 5 2 7 7
34 20 4 4 8
20 10 5 9 10
15 7 6 10 12
3.2. Comparacin de dos medias: t de
student para muestras independientes
(diseo entre grupos)
Supongamos que queremos estudiar si hay diferencias en el tiempo en
meses que tardan en terminar derecho alumnado de la universidad de
Sevilla y alumnado de la Universidad Pablo de Olavide. En este caso, la
variable cualitativa sera la Universidad de pertenencia y la variable
dependiente el tiempo que tardan en acabar derecho. La VI es cualitativa
dicotmica, la VD cuantitativa y el diseo entregrupos. El inters del
investigador, en este caso, es comparar las medias de los dos grupos para
saber si las diferencias se han obtenido por azar o debido a la VI. La
situacin en este tipo de diseos es la siguiente . Para responder a esta
cuestin el investigador utiliza una prueba t de student para muestras
independientes. Esta prueba tiene dos opciones: una cuando las varianzas
de la poblacin son distintas y otra para cuando las varianzas de la
poblacin son iguales. Es decir, una modalidad de t se aplica cuando se
cumple el supuesto de homogeneidad de varianzas y la otra cuando se
incumple. Vamos en primer lugar a describir las etapas de la prueba t de
student para cada caso y posteriormente describiremos la prueba de
igualdad de varianzas.
3.2. Comparacin de dos medias: t de
student para muestras independientes
(diseo entre grupos)
1. Hiptesis estadsticas
H0: 1= 2 equivalente a H0: 1- 2 = 0
H1: 1 2 equivalente a H1: 1- 2 0
2. Calcular el estadstico de contraste
2.1. Para varianzas iguales:
2 2 1 2

t
X 1 X 2 1 2

X 1 X2
n1 1 S n2 1 S
1
2 2
2 1 1

n1 1 S
1
2
n2 1 S 22 1 1

n1 n2 2 n1 n2 n1 n2 2 n1 n2

Los grados de libertad son n1+n2-2

3. Encontrar el valor de probabilidad del estadstico anterior o el valor crtico de t


para el nivel de significacin fijado. En el caso de varianzas desiguales el valor
crtico ser el correspondiente a:

t n1 n2 2,
3.2. Comparacin de dos medias: t de
Student para muestras independientes
(diseo entre grupos)
4. Decisin

P< P

t(Observada)>t(crti Rechazo
ca) H0

t (Observada) Acepto H0
t(crtica)
3.2. Comparacin de dos medias: t de
student para muestras independientes
(diseo entre grupos)
1. Hiptesis estadsticas
H0: 1= 2 equivalente a H0: 1- 2 = 0
H1: 1 2 equivalente a H1: 1- 2 0
2. Calcular el estadstico de contraste
12 22
2.2. Para varianzas desiguales:

t
X 1 X 2 1 2

X 1 X2
S12 S 22 S12 S 22

n1 n2 n1 n2

Los grados de libertad del estadstico anterior son dos n 1-1 y n2-1, la decisin
que se ha adoptado es considerar ambos grados de libertad segn la expresin
2
S12 S 22

n1 n2
g .l 2 2
S12 S 22

n1 n2
n1 1 n2 1

Propuesta por Welch por lo que muchos autores a la t para varianza desiguales
le denominan test de Welch:
3.2. Comparacin de dos medias: t de
student para muestras independientes
(diseo entre grupos)
Para comprobar la igualdad de varianzas se parte de la hiptesis de que las
varianzas son iguales:
1. Hiptesis estadsticas H 0 : 12 22
H 1 : 12 22

2. Calcular el estadstico de contraste colocando en el numerador la


varianza muestral mayor S12
F
S 22

3. Encontrar el valor de probabilidad del estadstico anterior o el valor


crtico de F para el nivel de significacin fijado y n1-1 grados de libertad en
el numerador y n2-1 grados de libertad en el denominador
4. Decisin
P< P

F(Observada)>F(crt Rechazo
ica) H0

F (Observada) Acepto H0
3.2. Comparacin de dos medias: t de
Student para muestras independientes
(diseo entre grupos)
Con los datos del ejemplo vamos a realizar el contraste de hiptesis para comprobar
si el tiempo que tardan en terminar Derecho el alumnado de la U de Sevilla y el de la
UPO es estadsticamente diferente. Para ello utilizaremos Excel y calcularemos los
estadsticos expuestos anteriormente, utilizaremos tambin el paquete de anlisis de
datos de Excel y SPSS por este orden.
Comparacin de las medias de finalizacin de los estudios de derecho en U. Sevilla y
UPO: clculos con Excel
Comparacin de las medias de finalizacin de los estudios de derecho en U. Sevilla
y UPO con SPSS

Ejercicio: un investigador quiere probar si los salarios de las enfermeras de los


hospitales pblicos son diferentes a los salarios en los hospitales privados.
Selecciona una muestra de 10 enfermeras de hospitales privados y 8 de hospitales
pblicos. Utilizando un nivel de significacin
Privado de 0,01 y los datos de loa siguiente tabla
Pblico
se puede concluir que los hospitales pblicos y privados tienen salarios diferentes?
Media de salario: Media de salario: 26,800
25,400
SD1=600 SD2=450

n1=10 n1=8
3.3. Tamao de efecto Comparacin de dos medias:
t de Student para muestras independientes (diseo
entre grupos)
Para medir el tamao de efecto en contraste de medias de grupos
independientes se utiliza, fundamentalmente, la d de Cohen y se calcula
dividiendo la diferencia de las medias observadas por una estimacin de la
desviacin tipo ponderada de las dos muestras (tambin se suele poner
cualquiera de las dos desviaciones, asumiendo que son iguales, lo que es
bastante cierto para muestras grandes). Un valor de d=0,2 se considera
un tamao de efecto pequeo; d=0,5 se considera medio y d=0,8 grande.

Para muestras del mismo tamao Para muestras de diferente tamao


X1 X 2 X1 X 2
d d
S12 S 22 (n1 1) S12 (n2 1) S 22
2 n1 n2 2

http://www.uccs.edu/~faculty/lbecker/
http://en.wikipedia.org/wiki/Effect_size#Cohen.27s_d
3.4. Comparacin de dos medias: t de student para muestras
dependientes (diseo intra-sujetos)
Como siempre vamos a partir de un ejemplo. Imaginemos que un psiclogo/a del deporte est
interesado en probar la eficacia de un programa de mejora del rendimiento de los atletas. Para ello,
selecciona a 8 atletas y les somete a una serie de pruebas. Despus de dos semanas en el
programa de rendimiento les vuelve a medir y obtiene los resultados de la tabla. La pregunta que se
hace el psiclogo/a es el programa modifica el rendimiento?. Para responder a la pregunta utilizar
una t de student para muestras relacionadas o dependientes. Este test se realiza con la diferencia
de los valores de la VD para cada sujeto.
1. Hiptesis estadsticas
H0: D=0, donde D es la media esperada
H1: D 0Calcular el estadstico de contraste
2. Clculo del estadstico de contraste: El procedimiento general para calcular el estadstico de
contraste incluye el clculo de las diferencias de los valores de los pares de datos para cada sujeto:
2.1. Clculo de las diferencias:
D X1 X 2

2.2. En segundo lugar hemos de calcular la media de las diferencias:


D
D
N
3.4. Comparacin de dos medias: t de student para muestras
dependientes (diseo intra-sujetos)
2.3. En tercer lugar calculamos la desviacin la tipo de la variable diferencia:

D D
2

SD
N 1
2.4. Por ltimo calculamos el estadstico de contraste:

D D
t
SD
N
que se distribuye con N-1 g.l.

3. Encontrar el valor de probabilidad del estadstico anterior o el valor crtico de t para el nivel de
significacin fijado y N-1 grados de libertad
3.4. Comparacin de dos medias: t de student para
muestras dependientes (diseo intra-sujetos)

4. Decisin

P< P

t(Observada)>t(crti Rechazo
ca) H0

t (Observada) Acepto H0
t(crtica)
En los siguientes archivos hemos incorporado procedimientos en Excel y SPSS para realizar este
contraste
3.5. Tamao de efecto Comparacin de dos medias:
t de Student para muestras dependientes (diseo
intrasujetos)
Para medir el tamao de efecto en contraste de medias de grupos
relacionados utilizamos la d de Cohen.

Tamao de
efecto
d de Cohen

Pequeo 0,2
Medio 0,5
Grande 0,8

D
d
SD
http://www.uccs.edu/~faculty/lbecker/
http://en.wikipedia.org/wiki/Effect_size#Cohen.27s_d
3.6. Comparacin medias en muestras
independientes: el anlisis de la varianza
En los apartados que siguen vamos a exponer las pruebas estadsticas que nos
permiten relacionar una variable cualitativa politmica con una variable cuantitativa
cuando tenemos sujetos diferentes para cada nivel de la VI. El test F, utilizado para
comparar dos varianzas en el apartado anterior, se utiliza para comparar dos o ms
medias. Esta tcnica se denomina anlisis de la varianza (ANOVA). Para ms de dos
grupos, el test F nos informa de si hay alguna diferencia entre las medias pero no
puede proporcionarnos informacin sobre qu medias difieren. Si el test F indica que
hay una diferencia entre medias, otros tests estadsticos, denominados contrastes a
posteriori, se utilizan para saber dnde estn las diferencias. Las pruebas a posterior
ms utilizadas son Scheff y Tukey.
El anlisis de la varianza utilizado para relacionar una VI y una VD tambin se
denomina anlisis de la varianza de una va (one-way analysis of variance. Si el
anlisis de la varianza se utiliza para estudiar relaciones entre dos variables
independientes y una dependientes se denomina de dos vas.
El anlisis de la varianza es una prueba denominada paramtrica y lo que significa es
que se supone que los datos proceden de poblaciones que cumplen una serie de
supuestos. En el caso de la F para la comparacin de medias son:
1. Las poblaciones de las que se han extrado las muestras se distribuyen normalmente (el incumplimiento de este
supuesto no tiene incidencia en muestras grandes)
2. Las muestras son independientes
3. Las varianzas de las poblaciones son iguales
3.6. Comparacin medias en muestras
independientes: el anlisis de la varianza
Partamos de un ejemplo, supongamos que queremos estudiar si el testimonio de los
sujetos en un juicio depende de la edad. Para ello seleccionamos a una muestra de 5
nios de 8 aos, otros 5 de 12 aos y por ltimo 5 de 14 aos. Se les pide que miren
un video en el que se comete un crimen y que testifiquen acerca de lo que han visto.
Un grupo de expertos valoran la fiabilidad del testimonio. Los datos obtenidos se
presentan en la siguiente tabla
Como se puede ver claramente en el grfico, nos encontramos con dos tipos de
variabilidad: por una parte observamos que las medias son distintas y a esta
variabilidad la denominamos entregrupos y se la atribuimos a la VI, y por otro, dentro
de cada condicin de la VI, nos encontramos con que no todos los participantes
puntan lo mismo. A este tipo de variabilidad se le denomina intragrupos y se
atribuye al azar. Con el test F, comparamos dos estimaciones de la varianza
poblacional la obtenida de la variabilidad entre las medias (entregrupos) y la
obtenida de la variabilidad de los sujetos dentro de cada grupo (intragrupos). Si no
hay diferencias en las medias, la varianza entregrupos ser aproximadamente igual a
la intragrupos y F se aproximar a 1. En este ltimo caso la hiptesis nula se acepta
y no habra evidencias para afirmar que la fiabilidad del testimonio vara con la edad.
Como en los casos anteriores vamos a plantear el contraste de hiptesis partiendo
de la formulacin de las hiptesis nula y alternativa.
3.6. Comparacin medias en muestras
independientes: el anlisis de la varianza
1. Hiptesis estadsticas
H0: 1= 2=.= k
H1: Al menos una media es diferente del resto
2. Calcular el estadstico de contraste F para lo cual se necesitarn los siguientes estadsticos:
2.1. Se calcula la media y la varianza para cada una de las muestras
2.2. Se calcula la media total de la muestra
2.3. Se calcula la varianza entre-grupos que viene dada por:

n X XT
k
2

5 3,8 7,73 5 7,6 7,73 511,8 7,73


j j 2 2 2
j 1 160,13
2
S entreg 80,07
k 1 3 1 2

Al numerador de la expresin anterior se le denomina suma de cuadrados entregrupos


2.4. Se calcula la varianza intragrupos (tambin denominada de error) que viene dada por:

n 1 S 2j n 1 S 2j
k k

j 1
j
j 1
j
5 1 10,2 5 1 10,3 5 1 5,7 104,80 8,73
rag
2
Sint
5 1 5 1 5 1
n 1
k
N k 12
j
j 1

Al numerador de la expresin anterior se le denomina suma de cuadrados intragrupos o de error


3.6. Comparacin medias en muestras
independientes: el anlisis de la varianza

2.5. Por ltimo, calculamos el estadstico de contraste:

2
S entreg 80,07
F 2
9,17
S int ag 8,73

Este estadstico se distribuye con k-1 gl en el numerador y N-k en el


denominador

3. Encontrar el valor de probabilidad del estadstico anterior (P) o el valor


crtico de F para el nivel de significacin fijado.
3.6. Comparacin medias en muestras
independientes: el anlisis de la varianza

4. Decisin

P< P

F(Observada)>F(crt Rechazo
ica) H0

F (Observada) Acepto H0
F(crtica)
En los siguientes archivos hemos incorporado procedimientos en Excel y SPSS para realizar el
anlisis de la varianza
3.7. Tamao de efecto Comparacin de k medias: F
de Snedecor para muestras independientes (diseo
entre grupos)
Con la F de Snedecor el ndice de tamao de efecto ms utilizado es R 2 o coeficiente de
determinacin tambin denominado, en el contexto de los diseos entregrupos, eta cuadrado.
Este ndice no es otra cosa que el cociente entre la suma de cuadrado entregrupos o debida al
tratamiento y la suma de cuadrados total.
SCentregru pos
2 R2
SCtotal

En nuestro ejemplo y desglosando los clculos en un cuadro de AVAR tal y como lo presentan los
paquetes estadsticos la medida del tamao de efecto sera de 0,60. Este valor se compara con
los de referencia para un tamao de efecto pequeo (R 2=eta2=0,01), medio (R 2=eta2=0,06) y
grande (R2=eta2=0,14)

FV SC gl CM(varianzas) F
Entregrupos 160,13 2 80,07 9,17

Intragrupos 104,80 12 8,73

Total 264,93 14

R2=eta2 0,60
3.8. Contrastes a posteriori: el test de Sheff

Cuando la hiptesis nula es rechazada con el test F, el siguiente paso es conocer entre qu medias hay
diferencias. Son muchos los procedimientos desarrollados para evaluar las diferencias entre las
medias despus de un ANOVA. Entre los ms frecuentes estn el la F de Scheff y la q de Tukey. Las
posibles diferencias de medias a evaluar son k(k-1), en el caso del ejemplo que nos ocupa las
diferencias de medias posibles son:
X1 X 2 , X1 X 3 , X 2 X 3

dado por Fs
Xi X j
El estadstico de Scheff para contrastas la hiptesis 2 de igualdad de medias poblacionales viene

1 1
2
S int rag


i nj
n

En el numerador incorporamos la diferencia de medias que queremos poner a prueba. Los trminos del
denominador corresponden a los tamaos de las muestras de las medias del (k-1)numerador y la
varianza intragrupos obtenida en el ANOVA. En la hoja de clculo hemos incorporado el clculo de F
de Scheff para las diferencias de medias del ejemplo.
Para encontrar el valor crticoc de F de Scheff se multiplica el valor crtico de F global por k-1 y el
contraste ser realiza comparando estosFc kdos
1 F
valores
k 1, N k , de F. As, el valor crtico para la F de Scheff
viene dado por:
3.8. Contrastes a posteriori
Si F de Scheff es mayor que el valora de F crtica anterior se considera que las medias son diferentes. En caso contrario se aceptara la hiptesis nula de igualdad de medias. Para el ejemplo que estamos desarrollando el valor de F crtica vendra dado por:

Como podemos observar en la tabla, la fiabilidad media de los nios a los 14 aos es estadsticamente diferente a la fiabilidad de los
nos de 8 y de 12 aos.

Diferencias de
medias F Fcrtica Decisin
X1-X2 -3,8 4,14 7,77Se acepta la H0

X1-X3 -8 18,33 se rechaza la H0

X2-X3 -4,2 5,05 se rechaza la H0


3.8. Contrastes a posteriori: el test de Tukey

El test de Tukey se puede utilizar tambin despus del ANOVA global. Normalmente el estadstico
de Tukey se denota por q y viene dado por

Xi X j
q
2
S int rag

Este test se utiliza cuando el tamao de las muestras es el mismo. En el denominador n hace referencia a
este tamao.
Para encontrar el valor crtico de q se utiliza la tabla de Tukey con k y n-k grados de libertad. La tabla de
Tukey no es frecuente que se incorpore a las hojas de clculo pero se puede descargar del siguiente
enlace: http://costaricalinda.com/Estadistica/tukey1.htm

Para las medias correspondientes a nuestro ejemplo, los valores de q son:


3.8. Contrastes a posteriori: el test de Tukey

test de Tukey

Diferencia de medias
valor crtico para el estadstico de
Diferencias de medias q Tukey Decisin
-
2,875818
X1-X2 -3,8 52 3,77Se acepta la H0
-
6,054354
X1-X3 -8 79 se rechaza la H0
-
3,178536
X2-X3 -4,2 26 Se acepta la H0