Sie sind auf Seite 1von 82

3

Captulo V
Anlisis de regresin y correlacin
|]
I ntroduccin
En la investigacin estadstica es muy frecuente encontrar va-
riables que estn relacionadas o asociadas entre s de alguna ma-
nera, como se estudi en el captulo anterior.
Existen muchas variables, en especial cuantitativas, que se
relacionan en algn grado de otras, entonces es posible que una
de las variables pueda expresarse matemticamente en funcin
de la otra. Por ejemplo, el peso de las personas est relacionada
con la estatura; el tiempo de servicio de trabajo activo tiene rela-
cin con la edad, un trabajador que ha acumulado por ejemplo
30 aos de servicio tendr mayor edad que otro con slo 14
aos de servicios; el ingreso o salario est relacionado frecuen-
temente con el nivel educativo; el ahorro familiar tiene rela-
cin con los ingresos; la demanda de un producto depender
de los precios, etc.
Estadsticamente interesa analizar la relacin entre dos o
ms variables, siempre que se tenga un indicio que entre ellas
existe por lo menos cierto grado de dependencia o asociacin. Lo
importante es medir y expresar funcionalmente esta relacin
mediante una funcin o modelo matemtico.
En el enfoque del anlisis de regresin se trata de predecir o
explicar el comportamiento de una variable Y a la que se deno-
mina dependiente o variable respuesta, en funcin de otras va-
riables
k
X X ,...,
1
denominadas independientes o variable regre-
4
soras; as como investigar si ellas estn asociadas o correlaciona-
das entre si.
Anlisis de regresin lineal simple
En muchos estudios se necesita identificar y cuantificar alguna
relacin funcional entre una variable Y denominada dependien-
te y otra variable X denominada independiente. Esto se puede
plantear as: ( ) X f Y .
Es importante identificar cul es la variable dependiente y
cul es la variable independiente. Esto depende de la lgica y de
lo que el investigador intente medir. As, si el Decano de una Fa-
cultad desea analizar la relacin entre las notas de los estudian-
tes y el tiempo que los estudiantes dedican al estudio, es lgico
asumir que las notas dependen del tiempo dedicado al estudio.
Por tanto, "notas" es la variable dependiente y "tiempo" es la va-
riable independiente.
A la variable dependiente tambin se le denomina variable
respuesta y a la variable independiente tambin se le denomina
explicativa o regresora.
Di agrama de di spersi n
En el diagrama de dispersin se representan los pares de obser-
vaciones en el plano y es habitual colocar la variable indepen-
diente en el eje horizontal. A continuacin se presenta algunos
tipos de diagramas de dispersin
a) Relacin lineal Positiva o Directa b) Relacin lineal Negativa o
Inversa
Y
X
. .
.. ..
. . .
. . .
Y
X
. . .
. . .
. . .
5
Como se puede ver en el grfico (a), los valores de Y se incre-
mentan linealmente conforme X crece. Por ejemplo, al aumentar
la partida presupuestal asignada por el gobierno a un colegio,
aumenta la posibilidad de atender una mayor demanda escolar,
grfico (a).
Es diferente en el grfico (b), porque cuando los valores de X
crecen, los valores de Y decrecen linealmente. As por ejemplo,
cuando aumenta el nmero de horas semanales que los estudian-
tes dedican al estudio, disminuye el nmero de horas semanales
que dedican a las distracciones.
En el grfico (c) no hay ninguna relacin entre X e Y; mien-
tras que el grfico (d) muestra una relacin curvilnea negativa
entre X e Y. Tomemos como ejemplo, la relacin entre el valor de
reventa de un edificio escolar y sus aos de uso; en el primer ao,
el valor de reventa puede sufrir un fuerte descenso en su precio
original, luego, el valor de reventa disminuye con mucha menos
rapidez en los aos siguientes.
Los grficos propuestos son algunos tipos de grficos que se
podran utilizar para representar la relacin entre dos variables;
sin embargo, los diagramas de dispersin no son suficientes para
determinar la relacin entre ellas. Es necesario que utilicemos
procedimientos estadsticos para determinar la relacin funcio-
nal ms apropiada para un conjunto de datos ( )
i i
y x , a los que se
les denomina pares de observaciones.
Este tipo de grfico se utiliza para la prediccin. Es decir, a
partir de la relacin entre dos variables, conocer en qu medida
Y
X
Y
X
c) No hay Relacin lineal d) Relacin No Lineal
entre X e Y
. . .
. . . . . . . . . .
. . . . . . . . . .
. . .
. .
.. .
.. .
. . . . . . .
(
se mantiene el aumento o crecimiento de una variable a partir del
aumento de otra variable o viceversa.
Ajuste de una funcin de regresin:
mtodo de mnimos cuadrados
Ajustar una funcin de regresin significa buscar o definir la fun-
cin que exprese con mayor precisin la relacin entre las varia-
bles X e Y. Grficamente ser aquella funcin que mejor se ade-
cue a la nube de puntos ( )
i i
y x , . En este sentido, es recomendable
como primer paso construir el "diagrama o nube de puntos", lue-
go analizar su forma y decidir el tipo de funcin matemtica para
la ecuacin de regresin usando el mtodo de mnimos cuadra-
dos ordinarios.
Slo son necesarios dos puntos para dibujar la lnea recta
que representa esta relacin lineal. La ecuacin de una recta puede
expresarse como L: a bx y
i
+ , en donde aes el intercepto y
bes la pendiente de la recta. Esta recta queda determinada me-
diante la estimacin de los parmetros ay b. Un procedimiento
matemtico utilizado para estimar estos valores se denomina el
mtodo de mnimos cuadrados ordinarios (MCO). El mtodo de
MCO producir una recta,
Y

, que se extiende por el centro del


diagrama de dispersin. Los valores de
Y

representan a los va-


lores estimados de la variable dependiente o respuesta. La dife-
rencia entre los valores observados de Y,
i
y
,sus respectivos va-
lores estimados de
Y

,
i
y
, es el error. Debido a que algunos erro-
res son negativos o algunos positivos, el MCO producir una recta
tal que la suma de esos errores sea cero, es decir, ( )


i i
y y = 0.
Obtenemos la estimacin de ay bpor el mtodo MCO de
tal manera que el valor de ( )
2
1


n
i
i i
y y SSE sea mnimo, donde:
Y: es la variable dependiente o respuesta,
b: es la pendiente de la lnea, llamada tambin coeficiente de
regresin para predecir la variable Y
a: es la constante.
7
Se demuestra que los valores ay bque hacen mnimo SSE,
satisfacen el denominado sistema de ecuaciones normales:


+
n
i
n
i
i i
x b an y
1 1


+
n
i
n
i
i
n
i
i i i
x b x a y x
1 1 1
De ese sistema se deducen los siguientes valores para las
constantes ay b:
2
1 1
2
1 1 1 1
2

,
_





n
i
i
n
i
i
n
i
i i
n
i
i
n
i
n
i
i i
x x n
y x x x y
a
,
2
1 1
2
1 1 1

,
_





n
i
i
n
i
i
n
i
i
n
i
i
n
i
i i
x x n
y x y x n
b
a bx y
i i
+ se denomina la recta de regresin de mnimos
cuadrados o recta de regresin ajustada por el mtodo de mni-
mos cuadrados. La lnea de regresin (o recta de prediccin) es la
lnea recta que mejor representa la tendencia de los puntos en un
diagrama de dispersin.
La recta de regresin nos permite, basndonos en los datos
muestrales, estimar el valor
i
y de una variable Y - y denotar con
i
y - correspondiente a un valor dado
i
x para una variable
X
; es
suficiente reemplazar el valor de
i
x en la lnea de regresin y en-
contraremos el correspondiente valor estimado para
i
y .
La ecuacin general de la recta de regresin estimada por el
mtodo de mnimos cuadrados es la siguiente:
bX a Y +

.
8
Ejemplo 5.1
Con los datos de la Tabla N 5.1, se hace el diagrama de disper-
sin y se utiliza el mtodo de mnimos cuadrados para encontrar
el coeficiente de regresin lineal. Cul ser el rendimiento en
educacin superior (Y) para un estudiante con nota promedio 12
de rendimiento en secundaria (X)?.
Solucin
Usando los comando del SPSS hacemos el diagrama de disper-
sin presentado en la Figura N 5.1.
a) Creamos la base de datos con las dos variables y selecciona-
mos los comandos siguientes.
b) GRAPHS/ INTERATIVE/ SCATTER/ colocar en el eje X la
variable NOTAS DE SECUNDARIA y en el eje Y la variable
RENDIMIENTO EN EDUCACIN SUPERIOR/ FIT/ en FIT
LINE escoger TOTAL/ ACEPTAR.
Tabla 5.1: Rendimiento acadmico en secundaria y
en educacin superior de un grupo de alumnos
ESTUDI ANTES Notas en secundaria Rendimiento en
i
x educacin superior
i
y
1 16 15
2 13 11
3 15 17
4 12 14
5 11 11
6 16 14
7 13 15
8 10 12
9
c) Se realizan los clculos necesarios para estimar ay b:
Figura N 5.1: Diagrama de dispersin de rendimiento en
secundaria y rendimiento en superior de un grupo de alumnos
R
e
n
d
i
m
i
e
n
t
o

e
n

s
e
c
u
n
d
a
r
i
a
i
x
i
y
2
i
x
i i
y x
16 15 256 240
13 11 169 143
15 17 225 255
12 14 144 168
11 11 121 121
16 14 256 224
13 15 169 195
10 12 100 120
106 109 1440 1466
( )
51 . 5
106 1440 8
1466 106 1440 109
2 2
8
1
8
1
2
8
1
8
1
8
1
8
1
2

,
_





i
i
i
i
i
i i
i
i
i i
i i
x x n
y x x x y
a
,
( )
61 . 0
106 1440 8
109 106 1466 8
2 2
1 1
2
1 1 1

,
_





n
i
i
n
i
i
n
i
i
n
i
i
n
i
i i
x x n
y x y x n
b ,
Rendimiento en superior
0
y luego la recta de regresin estimada por el mtodo de mni-
mos cuadrados, de Y sobre X es la siguiente:
X Y 61 . 0 51 . 5

+
Si un estudiante obtiene un rendimiento de 12 en secunda-
ria, entonces su rendimiento esperado en educacin secundaria
se obtiene reemplazando el valor dado para X ( =12) en la recta
definida, es decir:
. 83 . 12 32 . 7 51 . 5 12 61 . 0 51 . 5

+ + Y
Entonces, podemos estimar que un estudiante que obtuvo
un rendimiento en secundaria de 12, obtendr aproximadamen-
te 12.83 en educacin superior.
Ej empl o 5.2
Se trata de un estudio sobre el rendimiento escolar. Se desea ajus-
tar la recta de regresin entre los aos de escolaridad de la ma-
dre (X) y las calificaciones de sus hijos en una prueba de mate-
mticas. Los datos son los siguientes:
Estudiantes Aos de escolaridad de Calificaciones de los hijos
la madre en una prueba de
(
i
x ) Matemtica
(
i
y )
1 8 12
2 5 8
3 3 8
4 6 10
5 7 10

Se observa que existe una relacin directa y positiva entre


los aos de escolaridad de la madre y las calificaciones en una
Prueba de matemtica de los hijos.
b) En el siguiente cuadro se presentan los clculos auxiliares
para encontrar los coeficientes de la ecuacin de regresin.
Solucin
a) El diagrama de dispersin nos indica que existe una buena
relacin entre las variables.
Aos de escol ari dad de l a madre y cal i fi caci ones de l os hi j os
en una prueba de matemti ca
Estudiantes
i
x
i
y
i i
y x
2
i
x
2
i
y
1 8 12 96 64 144
2 5 8 40 25 64
3 3 8 24 9 64
4 6 10 60 36 100
5 7 10 70 49 100
Totales 29 48 290 183 472
C
a
l
i
f
i
c
a
c
i
o
n
e
s

e
n

m
a
t
e
m

t
i
c
a
Aos de escolaridad de la madre

,
_





2
8
1
8
1
2
8
1
8
1
8
1
8
1
2
i
i
i
i
i
i i
i
i
i i
i i
x x n
y x x x y
a
2
) 29 ( ) 183 ( 5
) 290 ( 29 ( ) 183 )( 48 (

=5.05

,
_





2
1 1
2
1 1 1
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i i
x x n
y x y x n
b
2
) 29 ( ) 183 ( 5
) 48 )( 29 ( ) 290 )( 5 (

= 0.78.
La ecuacin de regresin que va a servir para predecir el
desempeo de los hijos en funcin de los aos de escolaridad de
la madre es la siguiente:
X Y 78 . 0 05 . 5

+
.
Ej empl o 5.3
Resolveremos el ejemplo 5.2 con el auxilio del SPSS.
Sol uci n
Presentamos la solucin con el auxilio del SPSS, pero previamente
se tiene que crear la base de datos.
a) Para hacer el diagrama de dispersin se ejecutan los siguien-
tes comandos:
GRAPHS/ INTERATIVE/ SCATTER/ colocar en el X la varia-
ble AOS DE ESCOLARIDAD y en el eje Y la variable REN-
DIMIENTO/ FIT/ en FIT LINE escoger TOTAL/ ACEPTAR.
b) Para encontrar la ecuacin de la recta de regresin, los co-
mandos son los siguientes:
ANALYZE / REGRESSION/ LINEAR/ en DEPENDENT es-
coger CALIFICACIONES y en INDEPENDENT escoger
AOS DE ESCOLARIDAD/ STATISTICS/ activar ESTIMA-
TES y MODEL FIT/ OK.
3
La recta de regresin lineal simple ajustada por el mtodo de
mnimos cuadrados es:
Y

= 5.054 + 0.784 X,
El output del SPSS muestra lo siguiente.
y = 5.05 + 0.78 * X
R-Square = 0.81
Y
X
Linear
Regression
a
b
Coefficients
a
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 5.054 1.318 3.834 .031
Aos de escolaridad
de la madre .784 .218 .901 3.597 .037
a. Dependent variable: Calificaciones en una prueba de matemtica
4
donde, manteniendo constante la variable aos de escolaridad
de la madre aun podemos estimar la calificacin promedio de los
hijos en la prueba de matemtica, en 5.054 puntos. Un incremento
en los aos de escolaridad de la madre de un ao, por ejemplo, es
acompaado por un incremento en la calificacin de sus hijos en la
prueba de matemtica en 0.784 puntos.
Pruebas de hi ptesi s
La ecuacin de regresin lineal simple indica que el valor medio
o esperado de y es una funcin lineal de X : ( ) bX a y E + . Si el
valor de bno es igual a cero, llegamos a la conclusin de que las
dos variables se relacionan. As, para probar si hay alguna rela-
cin importante debemos efectuar una prueba de hiptesis para
determinar si el valor de bno es igual a cero. Existen dos prue-
bas que se usan con ms frecuencia. En ambas se requiere una
estimacin de
2
.
Prueba t
La prueba t se utiliza para probar la significancia de los parme-
tros en el modelo de regresin lineal simple.
Usaremos los datos de la muestra para obtener las siguien-
tes hiptesis acerca del parmetro b:
Paso 1:
Se plantea como hiptesis nula que el coeficiente bes igual a cero
y la hiptesis alternativa niega dicho enunciado.
0
H :
0 b
1
H :
0 b
Paso 2: La estadstica de prueba

b
S
b
t

tiene distribucin
( ) 1 n
t
5
donde:
b

: estimador del parmetro b.


( )

X X
S
S
i
b
es la desviacin estndar de
b

.
Con los datos de la muestra se encuentra el valor de la esta-
dstica de prueba,
c
t .
Paso 3:
Para un nivel de significancia ,
( )
[ ]
2
1
1

<
terico n
t t P
. En la ta-
bla - t-Student se obtiene
terico
t .
Paso 4:
Rechazamos
0
H si
2 /
t t
c
< o
2 /
t t
c
> .
Con el valor p - valor: Rechazamos
0
H si el valor p - valor <
, donde
2 /
t se basa en una distribucin t con 2 n grados de
libertad.
Si se Rechaza
0
H la conclusin ser que 0 b y que hay una
relacin estadsticamente significativa entre las dos variables. Sin
embargo, si no se puede rechazar
0
H , no tendremos la evidencia
suficiente para decir que existe una relacin significativa.
Resumen de las hiptesis, estadstica de prueba y regla de
decisin:
Hiptesis Estadstica de prueba Regla de decisin
Rechazar la hiptesis nula, si:
0
H :
0 b
b
S
b
t

) 1 (
> t t
c
1
H :
0 > b
0
H :
0 b
b
S
b
t

) 1 (
< t t
c
1
H :
0 < b
0
H :
0 b
b
S
b
t

2 /
t t
c
< o
2 /
t t
c
>
1
H :
0 b
(
Ejemplo 5.4
Utilizando la informacin del ejemplo 5.3 realizaremos la prue-
bas de hiptesis acerca del parmetro b.
Sol uci n
Paso 1: En la hiptesis nula se postula que el grado de escolari-
dad de la madre no explica el comportamiento de las calificacio-
nes de los estudiantes:
0
H :
0 b
1
H :
0 b
Paso 2: El valor de la estadstica de prueba se calcula con los
resultados del SPSS,
El valor de la estadstica de prueba es:

596 . 3
218 , 0
784 , 0


b
c
S
b
t
a
b

b
S


a
S

Coefficients
a
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 5.054 1.31 8 3.834 .031
ESCOLARI .784 .21 8 .901 3.597 .037
a. Dependent variable: CALIFICA
7
Paso 3: Para = 0,05,
( )
[ ] 975 . 0
5
<
terico
t t P . En la tabla t con 5
grados de libertad se encuentra el valor de
c
t = 3.596.
Paso 4: Como
16 . 3 596 . 3
975 , 0
> t t
c
, rechazamos
0
H y conclui-
mos que es significativo en el modelo, considerando un nivel de
significacin de 0.05.
Anlisis de correlacin lineal
Ti pos de correl aci n l i neal
a) Correlacin positiva b) Correlacin negativa
Y
X
Y
X
. .
. . .
. .
... ..
. . .
. . .
Y
c) Correlacin nula
. . .
. . . . . . .
. . . . . .
. . .
. . . . . .
Correlacin positiva o directa
Se dice que la correlacin entre dos variables X e Y es positiva o
directa, cuando al aumentar la medida de una de las variables,
la otra variable tambin aumenta, esto se puede observar en el
grfico (a).
8
Ejemplo 5.5
En la Tabla N 5.3 nos muestra las puntuaciones en Literatura
(X), y las puntuaciones en Lenguaje (Y ) de un grupo de alumnos
de un Centro Educativo. Haremos el diagrama de dispersin de
estas dos variables.
Tabla N 5.3: Puntuaciones en Literatura vs
Puntuaciones en Lenguaje de un grupo de alumnos
N SUJ ETO
i
x
i
y
1 5 12
2 8 20
3 12 30
4 16 30
5 16 42
6 24 40
7 8 50
Solucin
Diseando el diagrama de dispersin para las variables en estu-
dio tenemos:
Figura N 5.2
Puntuaciones en Literatura y Lenguaje de un grupo de alumnos
P
u
n
t
u
a
c
i
o
n
e
s

e
n

L
i
t
e
r
a
t
u
r
a
Puntuaciones en Lenguaje
9
Como se puede observar, cuando aumenta el valor de la varia-
ble X tambin aumenta el valor de la variable Y, de esto se concluye
que existe correlacin positiva o directa entre las puntuaciones en
Literatura y puntuaciones en Lenguaje.
Correl aci n negati va o i nversa
Se dice que la correlacin entre dos variables X e Y es inversa o
negativa, cuando al aumentar la medida de una de las variables,
los valores de la otra disminuye, esto se puede observar en el gr-
fico (b).
Ej empl o 5.6
La Tabla N 5.4, nos muestra las puntuaciones en Literatura (X)
y las puntuaciones en Matemtica (Y) de un grupo de alumnos
de un determinado Centro Educativo. Haremos el diagrama de
dispersin.
Tabla N 5.4: Puntuaciones en Literatura vs Puntuaciones en
Matemtica de un grupo de alumnos
alumnos
i
x
i
y
1 10 30
2 30 15
3 38 37
4 40 25
5 60 35
6 65 05
7 80 20
8 90 10
30
Solucin
Realizamos el diagrama de dispersin de las puntuaciones en
matemtica y literatura; el output del SPSS nos muestra la si-
guiente figura.
Figura N 5.3
Puntuaciones en Literatura y Matemtica de un grupo de alumnos
P
u
n
t
u
a
c
i
o
n
e
s

e
n

L
i
t
e
r
a
t
u
r
a
Puntuaciones en Matemtica
Como se puede apreciar, frente al aumento de las puntuaciones
en literatura (X ) disminuye las puntuaciones en matemtica (Y ),
entonces la correlacin entre X e Y es negativa o inversa.
Correl aci n nul a
La correlacin es nula, cuando las variables no estn correlacio-
nadas entre s, esto lo podemos observar en el grfico (c).
Ej empl o 5.7
En la Tabla N 5.5 la variable X corresponde a las puntuaciones
en Deporte y la variable Y corresponde a las puntuaciones en
Matemtica de un grupo de alumnos.
3
Sol uci n
Realizando el diagrama de dispersin para las variables X e Y
tenemos:
Tabla N 5.5:
Puntuaciones en deporte vs. puntuaciones en
matemtica de un grupo de alumnos
N sujeto
i
x
i
y
1 02 20
2 04 15
3 04 35
4 08 05
5 08 40
6 14 05
7 14 15
8 14 40
9 18 20
10 18 35
Figura N 5.4:
Puntuaciones en Deporte en Matemtica de un grupo de alumnos
P
u
n
t
u
a
c
i
o
n
e
s

e
n

D
e
p
o
r
t
e
Puntuaciones en Matemtica
Como se puede apreciar no existe una relacin lineal entre las
puntuaciones en deporte (X ) y las puntuaciones en matemtica (Y
).
3
Coeficiente de correlacin de Pearson (r)
Obtenci n del coefi ci ente
El objetivo del anlisis de correlacin de Pearson es medir la in-
tensidad de la asociacin observada entre dos variables cuanti-
tativas. Tambin, representa la magnitud de la relacin lineal
entre dos variables.
Promedio de los valores estandarizados
Algunas preguntas que puede responderse con el coeficiente de
correlacin de Pearson son las siguientes:
Los estudiantes que leen ms rpido que otros, tienden tam-
bin a tener mejor rendimiento en el curso de matemticas?.
Se relaciona directamente el tiempo de servicios en la do-
cencia de los profesores con el salario promedio que reciben?.
Los alumnos que tienen altos coeficientes de inteligencia
tienden a tener notas altas en los cursos de lenguaje y literatura?.
El coeficiente de correlacin de Pearson se utiliza en el an-
lisis de informacin cuantitativa cuando se desea medir la aso-
ciacin lineal entre dos variables cuantitativas.
Sus valores varan entre +1 y -1. El valor de +1, indica una
relacin lineal directa y perfecta; el valor -1, una relacin lineal
inversa y perfecta. El valor 0, indica ausencia de relacin lineal.
Para obtener este coeficiente hay una gran variedad de ex-
presiones matemticas que son equivalentes destacando las si-
guientes:
a) Para puntuaci ones di rectas
Sean {
n
x x,....,
1
}e {
n
y y,...,
1
}conjunto de pares de observacio-
nes de las variables X e Y. A continuacin, en forma general se
presentan los clculos auxiliares que facilitan la obtencin del
coeficiente de correlacin de Pearson y que posteriormente se ilus-
tarar con ejemplos.
33
Luego, la frmula para calcular el coeficiente de correlacin
de Pearson es la siguiente:
( )( )
( ) [ ] ( ) [ ]


2
2
2
2
i i i i
i i i i
y y n x x n
y x y x n
r
b) Para puntuaci ones Z (puntuaci ones t pi cas)
Si los valores observados de la muestra previamente han sido
tipificados segn las siguientes frmulas:
xi
i
xi
s
x x
z

y
yi
i
yi
s
y y
z

donde
x

n
i
i
x
1
,
y

n
i
i
y
1
,
( )
1
1
2

n
x x
s
n
i
i
xi
,
( )
1
1
2

n
y y
s
n
i
i
yi
el coeficiente de correlacin de Pearson toma la siguien-
te forma:
1

1

n
z z
r
n
i
yi xi
I ndividuos
i
x
i
y
2
i
x
2
i
y
i i
y x
1
1
x
1
y
2
1
x
2
1
y
1
x

1
y
2
2
x
2
y
2
2
x
2
2
y
2
x

2
y
3
3
x
3
y
2
3
x
2
3
y
3
x
3
y
... ... ... ... ... ...
n
n
x
n
y
2
n
x
2
n
y
n
x
n
y
Totales

n
i
i
x
1

n
i
i
y
1

n
i
i
x
1
2

n
i
i
y
1
2

n
i
i i
y x
1
34
luego, mediante una prueba de hiptesis, comprobar si es ma-
yor de lo que podra esperarse solamente por casualidad.
Propi edades
El valor de r va de -1 a +1, de donde se deduce que:
a) Si r > 0, existe correlacin directa positiva,
b) Si r < 0, existe correlacin inversa negativa,
c) Si r = +1, existe una correlacin perfecta positiva,
d) Si r = -1, existe una correlacin perfecta negativa,
e) Si r = 0, no existe correlacin o los datos estn incorrelacio-
nados.
Para los valores intermedios entre 0 y 1, se deduce por ejem-
plo que si:
a)
20 , 0 0 < r
, la correlacin es muy baja,
b)
40 , 0 20 , 0 < r
, existe una correlacin baja,
c)
70 , 0 40 , 0 < r
, existe una buena correlacin positiva,
d)
00 , 1 70 , 0 < r
, existe muy buena correlacin positiva,
e)
00 , 1 r
, existe una perfecta correlacin positiva,
f)
70 . 0 0 . 1 < r
, existe muy buena correlacin inversa,
g)
00 , 1 r
, existe una perfecta correlacin inversa.
Prueba de hi ptesi s para el coefi ci entes de correl aci n de
Pearson
Luego de obtener el coeficiente de correlacin de Pearson, el in-
vestigador puede plantearse preguntas como la siguiente: Es
estadsticamente significativa la relacin entre el coeficiente de
inteligencia de un estudiante y su rendimiento acadmico?.
A continuacin se presentan los pasos a seguir para realizar
pruebas de hiptesis relativas al coeficiente de correlacin de
Pearson.
Paso 1: Postular la hiptesis de investigacin como la hiptesis
alternativa, juntamente con otra hiptesis que la niega y a la que
se denomina hiptesis nula.
35
En la hiptesis nula se postula que no existe asociacin entre
las variables, y en la hiptesis alternativa: se postula que existe
asociacin entre las variables. La representacin es la siguiente:
0 :
0 :
1
0

H
H
donde

es el coeficiente de correlacin poblacional entre


las dos variables.
Paso 2: Se sabe que la siguiente estadstica est en funcin del
coeficiente de correlacin muestral y bajo la hiptesis nula tiene
distribucin t-Student con ) 2 ( n grados de libertad.
2
1
2

n
r
r
t ) 2 ( ~ n t ,
por lo que se usa como la estadstica de prueba para con-
trastar la hiptesis nula frente a la hiptesis alternativa. Denote-
mos con
c
t el valor de la estadstica de prueba.
Paso 3: Como la hiptesis alternativa es de la forma " ", la prue-
ba de hiptesis que se est planteando es bilateral y la regin cr-
tica ser el intervalo (-,-
terico
t )U(
terico
t , ) y donde "
terico
t " es la
abcisa de la distribucin t-Student con ) 2 ( n de libertad, de
manera que
( )
2
1
) 2 (

<
terico n
t t P
.
As por ejemplo, si se elige el nivel de significacin = 0.05 y
el tamao de muestra es 23, se cumple
( ) 975 . 0
) 21 (
<
terico
t t P .
Luego, en la tabla t-Student se encuentra que el valor de
terico
t es
2.08, por lo que la regin de rechazo de la hiptesis nula es el
intervalo (-,-2.08)U(2.08, ).
Paso 4: Decisin: Rechazar la hiptesis nula de que no existe
relacin entre las variables cuando
c
t cae en la regin de rechazo
de la hiptesis nula.
3(
Ejemplo 5.8
En la siguiente tabla se tiene la informacin para una muestra
aleatoria de 12 estudiantes que estudiaron el primer ao de se-
cundaria en el colegio Cabrera Tapia el ao 2000. El primer da
de clases a todos ellos se les aplic una prueba para obtener sus
coeficientes de inteligencia (X) en la escala Stanford-Binet y al
trmino del ao se les aplic una prueba de 35 items para eva-
luar su rendimiento en Matemticas. = 0.05.
Dicha tabla se acompaa con los clculos necesarios para
obtener el coeficiente de correlacin de Pearson.
Sol uci n
X: puntajes obtenidos en la prueba Stanford- Binet
Y: rendimiento en matemticas
Tabla N 5.7 Rendimiento de los estudiantes en matemticas y puntajes
obtenidos en la prueba Stanford- Binet
Estudiante CI Puntaje
i
x
i
y
2
i
x
2
i
y
i i
y x
1 120 17 14400 289 2040
2 112 15 12544 225 1680
3 110 15 12100 225 1650
4 120 19 14400 361 2280
5 103 12 10609 144 1236
6 126 20 15876 400 2520
7 113 15 12769 225 1695
8 114 17 12996 289 1938
9 106 14 11236 196 1484
10 108 14 11664 196 1512
11 128 19 16384 361 2432
12 109 14 11881 196 1526
Totales 1369 191 156859 3107 21993
37
Obtenemos el coeficiente de correlacin de Pearson r
( ) ( ) ( ) ( )
953 , 0
191 ) 3107 ( 12 1369 ) 156859 ( 12
) 191 ( 1369 ) 21993 ( 12
2 2

r
En la muestra se observa muy buena correlacin directa y
positiva entre coeficiente de inteligencia y el rendimiento acad-
mico en el curso de matemticas.
Es estadsticamente diferente de cero el valor encontrado?.
Responderemos la pregunta con la metodologa de pruebas de
hiptesis.
Sol uci n
Paso 1: No existe asociacin entre el coeficiente de inteligencia
y el rendimiento acadmico es la hiptesis nula, y la hiptesis
alternativa niega esa afirmacin.
0 :
0 :
1
0

H
H
Paso 2: Para el coeficiente de correlacin muestral r = 0.953 y
tamao de muestra 12, el valor de la estadstica de prueba es:
10
953 . 0 1
953 . 0
2

c
t
= 9.93
Paso 3: Para encontrar la regin crtica, se tiene en cuenta que
= 0.05, n = 12 y
( ) 975 . 0
) 10 (
<
terico
t t P . Por tanto, en la tabla t-
Student se encuentra el valor de
terico
t = 2.228. La regin de re-
chazo de la hiptesis nula es el intervalo (-,-2.228)U(2.228, ).
Paso 4: Como el valor de
c
t = 9.93 cae en la regin de rechazo de
la hiptesis nula, la decisin es rechazar la hiptesis de que no
existe asociacin entre el rendimiento acadmico y los coeficien-
tes de inteligencia, para un nivel de significacin 0.05.
38
Ejemplo 5.9
Obtendremos el valor del coeficiente de correlacin para los da-
tos ejemplo 5.7 usando la frmula de variables estandarizadas.
Previamente los valores de la variable sern estandarizados.
a) La estandarizacin de las variables se realiza con el auxilio
del SPSS, para lo que, previamente, con los datos del ejem-
plo 5, se crea la base de DATOS9-pearson. Los comandos son
los siguientes:
Abrir la base de DATOS9-pearson y ejecutar los comandos/
ANALYZE/ DESCRIPTIVE STATISTICS/ DESCRIPTIVE/ se-
leccionar las variables COEFICIENTE DE INTELIGENCIA
y RENDIMIENTO ACADMICO/ activar SAVE STANDAR-
DIZED VALUES AS VARIABLES/ OK.
En el editor del SPSS junto a los valores de las variables X e Y
se han creado dos columnas con los valores de las variables
originales estandarizadas,
xi
z
yi
z
.
i
x
i
y
xi
z
yi
z
120 17 0.7531 0.4392
112 15 -0.2651 -0.3716
110 15 -0.5197 -0.3716
120 19 0.7532 1.2501
103 12 -1.4107 -1.5879
126 20 1.5168 1.6555
113 15 -0.1379 -0.3716
114 17 -0.0106 0.4392
106 14 -1.0289 0.7771
108 14 -0.7743 -0.7771
128 19 1.7714 1.2501
109 14 -0.6470 -0.7771
b) Para calcular el coeficiente de correlacin, ejecutar los siguien-
tes comandos del SPSS:
ANALYZE/ CORRELATE/ BIVARIATE/ seleccionamos las
variables originales y las variables estandarizadas/ activar
PEARSON/ OK.
39
El valor del coeficiente de correlacin entre las variables estan-
darizadas coinciden con el ya encontrado manualmente en el ejem-
plo anterior con los valores originales y con el tambin muestra el
output del SPSS para las variables originales coeficiente de inteli-
gencia y rendimiento.
En lo que corresponde a pruebas de hiptesis, los pasos y
resultados son similares a los del ejemplo anterior.
Ej empl o 5.10
Se trata de un estudio sobre el rendimiento escolar. Se desea sa-
ber si existe correlacin entre los aos de escolaridad de la ma-
dre y las calificaciones de sus hijos en una prueba de matemti-
cas. Los datos son los siguientes.
En el output del SPSS se lee:
rendimiento Zscore:
rendimiento
(
yi
z )
coeficiente de
inteligencia Pearson Correlation .953 .953
Zscore: coeficiente
de inteligencia (
yi
z ) Pearson Correlation .953 .953
1

1

n
z z
r
n
i
yi xi
=0.953.
Tabla N 5.6 Aos de escolaridad de la madre y
calificaciones en una prueba de matemticas
Estudiantes Aos de escolaridad Calificaciones de los hijos en
de la madre ( X ) una prueba de Matemtica ( Y )
1 8 12
2 5 8
3 3 8
4 6 10
5 7 10
40
Reemplazando los valores obtenidos en la ecuacin de r para
puntuaciones directas obtenemos:
( ) ( )( )
( ) ( ) [ ][ ]( ) ( )
9 , 0
56 74
58
8 472 5 29 183 5
48 29 290 5
2 2

x
r
El valor de +0,9 significa una alta correlacin positiva, es
decir, el nivel de escolaridad de la madre est asociado lineal-
mente al rendimiento acadmico de sus hijos en matemtica.
Ej empl o 5.11
En la Tabla N 5.8 se tiene informacin de una muestra aleatoria
de 15 alumnos del Centro Educativo "Teresa Gonzales de Fan-
ning". La encuesta fue aplicada a 150 estudiantes en Abril de 1998.
Se desea obtener el coeficiente de correlacin entre las variables
puntajes obtenidos en aritmtica y lenguaje.
En el siguiente cuadro se presentan los clculos auxiliares:
Estudiantes
i
x
i
y
i i
y x
2
i
x
2
i
y
1 8 12 96 64 144
2 5 8 40 25 64
3 3 8 24 9 64
4 6 10 60 36 100
5 7 10 70 49 100
n =5 29 48 290 183 472
4
Se ilustra los clculos auxiliares del coeficiente de correla-
cin de Pearson con los valores observados de las variables notas
en aritmtica (X ) y notas en lenguaje (Y ).
Tabla N 5.8: Rendimiento y Edades de una muestra de estudiantes del
Colegio Teresa Gonzales de Fanning, 1998
Estud. Aritmtica Lenguaje Edad Rendimiento
Promedio
1 15 16 14 13
2 14 15 14 14
3 13 12 15 14
4 12 12 16 14
5 11 10 16 12
6 13 15 17 15
7 15 15 17 15
8 15 16 16 14
9 16 17 15 14
10 12 15 15 14
11 11 12 16 9
12 8 9 17 11
13 10 11 17 13
14 15 14 18 15
15 13 15 15 13
Estudiantes
i
x
i
y
2
i
x
i i
y x
2
i
y
1 15 16 225 240 256
2 14 15 196 210 225
3 13 12 169 156 144
4 12 12 144 144 144
5 11 10 121 110 100
6 13 15 169 195 225
7 15 15 225 225 225
8 15 16 225 240 256
9 16 17 256 272 289
10 12 15 144 180 225
Totales 193 204 2553 2691 2856

2856 2691 x 2553 204 193
2
i
2
i i i i i
y y x y x
4
Luego reemplazando en la frmula, el coeficiente de correla-
cin entre las notas de aritmtica y lenguaje vale:
( ) ( )
( ) ( ) ( ) ( )
878 , 0
204 2856 15 193 2553 15
204 193 2691 15
2 2

r
Se observa una correlacin alta y positiva entre los puntajes
obtenidos en los cursos de aritmtica y lenguaje.
Es estadsticamente significativo el coeficiente de correla-
cin encontrado?. Responderemos con la metodologa de prue-
bas de hiptesis.
Paso 1: En la hiptesis nula postulamos que no existe asociacin
entre las notas de matemticas y lenguaje y la hiptesis alterna-
tiva niega esa afirmacin.
0 :
0 :
1
0

H
H
Paso 2: Para el coeficiente de correlacin muestral r = 0.878 y
tamao de muestra 15, el valor de la estadstica de prueba es:
13
878 . 0 1
878 . 0
2

c
t
= 6.61
Paso 3: Para encontrar la regin crtica, se tiene en cuenta que
= 0.05, 15 y
( ) 975 . 0
) 13 (
<
terico
t t P . Por tanto, en la tabla t-Stu-
dent se encuentra el valor de
terico
t = 2.16. La regin de rechazo
de la hiptesis nula es el intervalo (-,-2.16)U(2.16, ).
Paso 4: Como el valor de
c
t = 6.61 cae en la regin de rechazo de
la hiptesis nula, la decisin es rechazar la hiptesis de que no
existe asociacin entre las notas de matemticas y lenguaje, a un
nivel de significacin 0.05.
43
Ej empl o 5.12
Para una muestra aleatoria de 7 docentes universitarios de la
Facultad de Derecho de una universidad prestigiosa se dispone
de la siguiente informacin con respecto a sus sueldos y el tiem-
po de servicio en la docencia. Obtendremos la relacin entre esas
variables y veremos si la correlacin encontrada es estadstica-
mente significativa.
Sol uci n
X: Aos de servicio de los docentes Y: Sueldos de los docentes
a) Obtenemos el coeficiente de correlacin con la frmula origi-
nal, para lo cual realizamos los siguientes clculos auxiliares:
profesor Aos de sueldos
2
i
i
x
2
i
i
y
i i
y x
servicio
i
x
i
y
1 16 1182 256 1397124 18912
2 14 1341 196 1798281 18774
3 14 1561 196 2436721 21854
4 23 1437 529 2064969 33051
5 9 1415 81 2002225 12735
6 19 1462 361 2137444 27778
7 19 1288 361 1658944 24472
Totales

n
i
i
x
1
=

n
i
i
y
1
=

n
i
i
x
1
2
=

n
i
i
y
1
2
=

n
i
i i
y x
1
=
114 9686 1980 13495708 157576
( )( )
( ) [ ] ( ) [ ]


2
2
2
2
i i i i
i i i i
y y n x x n
y x y x n
r
=
=
[ ][ ]
2 2
9686 ) 13495708 ( 7 114 ) 1980 ( 7
) 9686 )( 114 ( ) 157576 ( 7

= -0.05
44
El valor obtenido nos indica una correlacin nula entre las
variables involucradas. Es decir, para la muestra analizada las
variables aos de servicio y sueldos no estn correlacionadas.
Ej empl o 5.13
Usando la base DATOS11-educacin se ajusta la recta de re-
gresin entre las variables rendimiento promedio y rendi-
miento en el curso de lgebra, usando el mtodo de mnimos cua-
drados. Se obtienen el coeficiente de correlacin y el diagrama
de dispersin.
Sol uci n
Para el diagrama de dispersin, ajuste de la recta, el grfico de la
recta de regresin ajustada por el mtodo de mnimos cuadra-
dos, y el coeficiente de correlacin, ejecutamos los siguientes co-
mandos:
a) Abrir el archivo de DATOS11-educacin.
GRAPHS/ INTERATIVE/ SCATTER/ colocar en el X la varia-
ble ALGEBRA y en el eje Y la variable RENDIMIENTO PRO-
MEDIO/ FIT/ en FIT LINE escoger TOTAL / ACEPTAR.
b) Para encontrar la ecuacin de la recta de regresin, los co-
mandos son los siguientes:
ANALYZE / REGRESSION/ LINEAR/ en DEPENDENT es-
coger RENDIMIENTO PROMEDIO y en INDEPENDENT es-
coger LGEBRA/ STATISTICS/ activar ESTIMATES y MO-
DEL FIT/ OK.
c) ANALYZE / CORRELATE / BIVARIATE/ seleccionamos las
variables originales y las variables estandarizadas/ activar
PEARSON/ OK.
El output del SPSS nos muestra lo siguiente:
45
Observamos que las notas de lgebra y las calificaciones pro-
medio de profesores que participaron en el programa de capaci-
tacin, tienen una relacin directa y positiva.
b) El coeficiente de correlacin de Pearson:
a) El diagrama de dispersin y el grfico de la recta de regresin
ajustada por el mtodo de mnimos cuadrados.
Notas de lgebra y calificacin promedio de
profesores de educacin secundaria
N
o
t
a
s

p
r
o
m
e
d
i
o
Notas lgebra
r = 0,925 Coeficiente de correlacin lineal
Model Summary
Adjusted Std. Error of
Model R R Square R Square the Estimate
1 .925 .855 .852 .52
a. Predictors: (Constant), NOTAS de LGEBRA
Se tiene una correlacin alta y positiva entre las notas de lge-
bra y las calificaciones promedio que alcanzaron los profesores que
participaron en el programa de capacitacin.
4(
c) Los coeficientes de la recta de regresin son:
y la recta de regresin ajustada por el mtodo de mnimos cua-
drados es:
Y

= 3.853 + 0.708X,
donde, manteniendo constante la variable notas de lgebra
an podemos estimar la calificacin promedio en 3.853 puntos.
Un incremento en la notas de lgebra de un punto, por ejemplo,
es acompaado por un incremento en la calificacin promedio
de los profesores de educacin secundaria en 0.708 puntos.
Regresin lineal mltiple
I ntroduccin
En un modelo de regresin lineal mltiple, la variable dependien-
te o respuesta (Y ) es una funcin de dos o ms variables inde-
pendientes o regresoras. Un modelo de regresin con k variables
independientes o regresoras se puede expresar as:
( )
k
X X X X f Y ,..., , ,
3 2 1

a b
Coefficients
a
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 3.853 .477 8.071 .000
NOTAS DE LGEBRA .708 .043 .925 16.299 .000
a. Dependent variable: NOTAS PROMEDIO
47
Explicaremos el anlisis de regresin lineal mltiple con los
datos de la siguiente tabla, en la que se muestra los coeficientes
de inteligencia (IQ), los promedios de calificaciones y el tiempo
que 12 estudiantes dedican al estudio. Se desea predecir el pro-
medio de las calificaciones de estos estudiantes en funcin de sus
coeficientes de inteligencia y de los tiempos que dedican al estu-
dio. Se puede observar que se tiene dos variables, coeficiente de
inteligencia y tiempo dedicado al estudio, para explicar el com-
portamiento de las calificaciones promedio de los estudiantes.
Para el problema descrito se postula la forma general del mo-
delo de regresin lineal mltiple:
e X X Y + + +
2 2 1 1 0

donde:
Y: variable aleatoria denominada variable dependiente,
0
,
1
,
2
: parmetros del modelo de regresin lineal mltiple,
1
X ,
2
X : variables independientes,
e: error aleatorio, mide el desajuste entre la realidad y
el modelo,
Esta ecuacin es muy similar a la utilizada en la regresin li-
neal simple, excepto que agregamos otra variable independiente.
Para estimar los parmetros
0
,
1
,
2
se toma una muestra
de los valores (
i
y ,
i
x
1
,
i
x
2
)
n i ,..., 1
, y para cada individuo se
tiene el siguiente sistema de ecuaciones,
i i i i
e x x y + + +
2 2 1 1 0
,
donde
i
y es el i-simo valor de la variable Y,
i
x
1
,
i
x
2
, los i-si-
mos valores de las variables independientes
1
X ,
2
X , por lo que
i i i i
x x y e
2 2 1 1 0
. Luego, se usa el mtodo de mnimos
cuadrados, es decir se buscan los valores de
0
,
1
,
2
que ha-
gan mnima la suma de cuadrados de los errores, es decir, que
minimicen

2
i
e .
La solucin conduce a un sistema de ecuaciones denomina-
das ecuaciones normales, a partir de las cuales, utilizando con-
48
ceptos de lgebra matricial se encuentran los estimadores de los
parmetros
0
,
1
,
2
tema que escapa de los objetivos del cur-
so y que no ser abordado aqu.
Los problemas de regresin mltiple sern resueltos con el
soporte del SPSS, puesto que en la mayora de las investigacio-
nes el nmero de observaciones y el nmero de variables es gran-
de, lo que dificulta el trabajo manual.
As,
2 1 1 0

+ + X Y es las ecuacin de la recta de regre-
sin mltiple ajustada por el mtodo de mnimos cuadrados.
Ej empl o 5.14
Para una muestra de 12 estudiantes se tiene la informacin ad-
junta en la siguiente tabla. Vamos a ajustar la recta de regresin
mltiple usando el mtodo de mnimos cuadrados.
Promedio de calificaciones,
coeficiente intelectual y tiempo dedicado al estudio
Estudiante I Q Tiempo de Promedio de
Nmero ( )
1
X estudio ( )
2
X calificaciones ( ) Y
1 110 8 1.0
2 112 10 1.6
3 118 6 1.2
4 119 13 2.1
5 122 14 2.6
6 125 6 1.8
7 127 13 2.6
8 130 12 2.0
9 132 13 3.2
10 134 11 2.6
11 136 12 3.0
12 138 18 3.6
Solucin
Postulamos el modelo e X X Y + + +
2 2 1 1 0
, para estudiar la
relacin entre las variables.
49
donde:
1
X
: Coeficiente intelectual (IQ).
2
X
: Tiempo de estudio.
Y: Promedio de calificaciones
e
: error
0
,
1
,
2
: parmetros a estimar.
Usamos las opciones del SPSS
Activar el SPSS y crear los datos en un archivo de nombre:
COEFICIENTE.
En VARIABLE VIEW definir las siguientes variables: IQ,
TIEMPO y CALIFICA y en DATA VIEW colocar los datos de la
tabla. Ejecutar ANALYZE/ REGRESSION/ LINEAR/ ingresar en
DEPENDENT la variable CALIFICA y en INDEPENDENT las va-
riables IQ TIEMPO/ OK.
El output del SPSS es el siguiente:
Las estimaciones de los parmetros son:
249 . 5

0.049

0.118

1

Coefficients
a
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) -5.249 1.166 -4.501 .001
IQ ,049 .010 .570 4.717 .001
TIEMPO .118 .028 .509 4.209 .002
a. Dependent variable: CALIFICA
50
donde:
1
X : Coeficiente intelectual (IQ).
2
X
: Tiempo dedicado al estudio.
A partir de los resultados anteriores se encuentra la ecua-
cin de la recta de regresin mltiple ajustada por el mtodo de
mnimos cuadrados:
2 1
118 . 0 049 . 0 249 . 5

X X Y + +
,
donde, manteniendo constante la variable tiempo de estu-
dio, un incremento en el coeficiente intelectual (IQ) de un punto,
por ejemplo, es acompaado por un incremento en el promedio
de calificaciones de 0.049 puntos. En forma similar, mantenien-
do constante la variable coeficiente intelectual, un incremento
de 1 hora en el tiempo de estudio, es acompaado por un incre-
mento en el promedio de calificaciones de 0.118 puntos.
Coeficiente de determinacin
El coeficiente de determinacin,
2
R , multiplicado por 100, indi-
ca el porcentaje de la variacin de la variable dependiente que es
explicado por las variables independientes del modelo.
Se puede demostrar que la suma de cuadrados del total,
( )

y y
i
, se puede dividir en dos componentes: la suma de
cuadrados debido a la regresin,
( )
2

y y
i
, y la suma de cua-
drados debido al error ( )
2


i i
y y . Es decir: SCE SCR SCT + ,
donde:
SCT: suma de cuadrados del total.
SCR: suma de cuadrados debido a la regresin.
SCE: suma de cuadrados debido al error.
5
El trmino coeficiente de determinacin mltiple mide la
bondad de ajuste para la ecuacin de regresin mltiple. Este co-
eficiente se calcula como sigue:
SCT
SCR
R
2
En nuestro ejemplo, la variable dependiente es el promedio
de calificaciones de un alumno y las variables independientes
son el coeficiente de inteligencia y el tiempo dedicado al estudio.
El valor del coeficiente de determinacin es 0.91, valor que signi-
fica que, el 91% de las variaciones observadas en la calificacin
promedio de los alumnos son explicables por las variaciones del
coeficiente de inteligencia y del tiempo dedicado al estudio.
El valor 0.09 = 1 - 0.91, llamado coeficiente de alienacin,
indica que el 9% de las variaciones observadas en la calificacin
promedio de los alumnos no son explicables por el modelo (en
este caso por las variaciones en el IQ y tiempo de estudio).
Pruebas de hiptesis
Las pruebas de hiptesis con respecto a los parmetros de la ecua-
cin de regresin mltiple se basan en las estadsticas t de Stu-
dent y F de Snedecor.
La prueba F se usa para determinar si hay una relacin sig-
nificativa entre la variable dependiente y el conjunto de todas
las variables independientes. En estas condiciones se denomina
prueba de significacin global.
La prueba t de Student se aplica para determinar si cada
una de las variables independientes son significativas. Se hace
una prueba de hiptesis por separado para cada variable inde-
pendiente en el modelo a cada una de esas pruebas de hiptesis
se denomina prueba de significacin individual.
A continuacin explicaremos la prueba F y la prueba t, y
aplicaremos para cada una el ejemplo sobre el coeficiente inteli-
gencia de estudiantes.
5
Prueba F
Antes de describir los pasos de la prueba F necesitamos conocer
el concepto de cuadrado medio. Considerando que el modelo de
regresin mltiple tiene k variables independientes. El cuadra-
do medio (CMR, CME) es una suma de cuadrados dividida entre
sus grados de libertad correspondiente. En el caso de la regresin
mltiple, la suma de cuadrados del total tiene n - 1 grados de
libertad, la suma de cuadrados de regresin (SCR) tiene k gra-
dos de libertad y la suma de cuadrados del error tiene n - k - 1
grados de libertad.
k
SCR
CMR

1
2


k n
SCE
S CME
El cuadrado medio del error es un estimador insesgado de
2
.
Prueba F para l a si gni fi canci a gl obal
Si el modelo general es:
e X X X Y
k k
+ + + + + ...
2 2 1 1 0
, entonces:
:
0
H 0 ...
2 1

k

:
1
H Al menos uno de los parmetros no es igual a cero
Estad sti ca de prueba
CME
CMR
F
Regl a de deci si n
Con el estadstico de prueba: Rechazar H
o
si
c
F >

F .
Con el valor p - value: Rechazar H
o
si el valor p - value < .
donde

F es la abcisa de la distribucin F con k grados de


libertad en el numerador y n - k - 1 grados de libertad en el
denominador.
53
Tabla de anlisis de Varianza (ANOVA)
La tabla de anlisis de varianza, proporciona la descomposicin
de la suma de cuadrados de la regresin, los grados de libertad
asociados a cada suma de cuadrados, los cuadrados medios y los
resultados de la prueba F para el modelo de regresin mltiple.
El valor del estadstico de la prueba F aparece en la ltima
columna y se puede comparar con

F con k grados de libertad en


el numerador y (n - k - 1) en el denominador (valor obtenido de
la tabla F-Snedecor) cuando la hiptesis nula es:
k
H ... :
2 1 0
para el modelo e X X X Y
k k
+ + + + + ...
2 2 1 1 0
.
Ejemplo 5.15
Usando la informacin del ejemplo 5.14 vamos a hacer la prueba
de hiptesis referente a los dos parmetros poblacionales del
modelo e X X Y + + +
2 2 1 1 0
.
Sol uci n
Paso 1:
Las hiptesis se formula como sigue:
0 :
2 1 0
H :
1
H al menos uno de los parmetros es igual a cero.
Tabla ANOVA Regresin mltiple con k variables independientes
Fuente Suma de Grados de Cuadrado
cuadrados libertad Medio
Regresin SCR k
k
SCR
CMR
CME
CMR
F
Error SCE n - k - 1
1

k n
SCE
CME
Total SCT n - 1
54
Paso 2:
El valor de la estadstica de prueba,, lo vamos a obtener utilizan-
do los comandos del SPSS:
Crear el archivo: COEFICIENTE
Definir las variables en VARIABLE VIEW, por ejemplo, IQ,
TIEMPO y CALIFICA.Ejecutar:
ANALYZE/ REGRESSION/ LINEAR/ Seleccionar/ ingresar
en DEPENDENT CALIFICA y
en INDEPENDENT las variables IQ TIEMPO/ OK.
El output del SPSS muestra lo siguiente:
Estadstica de prueba
37 . 45
0704 . 0
194 . 3

CME
CMR
F
c
Paso 3:
Para = 0.05, k =2; n - k - 1 =9,
( )
[ ] 05 . 0
9 , 2
>
terico
F F P en la
tabla - Snedecor se encuentra el valor de 26 . 4
terico
F . La regin
de rechazo de la hiptesis nula es el intervalo (4.26; ).
ANOVA
b
Model Sum of df Mean F Sig.
squares Square
1 Regression 6.389 2 3.194 45.353 .000a
Residual .634 9 7.043E-02
Total 7.022 11
a. Predictors: (Constant), TIEMPO, IQ
b. Dependent Variable: CALIFICA
CMR F
CME
55
Paso 4:
Como 26 . 4 37 . 45 >
terico c
F F entonces rechazamos
0
H y con-
cluimos que al menos uno de los parmetros es diferente de cero.
Prueba t
Si la prueba F ha mostrado que la relacin entre la variable de-
pendiente y los regresores es estadsticamente significativo, se
puede hacer una prueba t para determinar la significancia de
cada uno de los parmetros individuales.
As para cualquier parmetro
i
se plantea lo siguiente:
Paso 1:
Para cualquier parmetro
i

0
H : 0
i

1
H : 0
i

Paso 2:
La distribucin de la estadstica de prueba es:
i
s
t
i

~
( ) 1 n
t
Paso 3:
Para el nivel de significacin ,
( )
[ ]
2
1
1

<
terico n
t t P
, en la ta-
bla
( ) 1 n
t
se obtiene el valor terico de t,
terico
t . La regin de re-
chazo es el intervalo
( )
( )
terico
t ,
U
( )
( ) ,
terico
t
.
Paso 4:
Si
terico
t cae en la regin de rechazo, entonces se rechaza la hip-
tesis nula.
5(
Si retomamos el ejemplo anterior y queremos saber si es estadsti-
camente significativo plantearemos las siguientes hiptesis.
0
H : 0
i

1
H : 0
i

Paso 2:
Usando comandos del SPSS obtenemos la siguiente tabla:
donde
049 , 0

1


010 . 0

s
y el valor de la estadstica de prue-
ba es:
9 . 4
010 . 0
049 . 0

1
1

s
t
c
.
El valor de la t de Student con 9 grados de libertad y
025 . 0 2 / 05 . 0 2 /
es, 69 . 2
9755 . 0
t .
Paso 3:
En la tabla el valor de la de Student con 9 grados de libertad y
025 . 0 2 / 05 . 0 2 /
es, 69 . 2
9755 . 0
t . Para = 0,05 se encuentra
que 69 , 2
975 , 0
t t
terico
.

2

S

1

S
Coefficients
a
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) -5.249 1.166 -4.501 .001
IQ ,049 .010 .570 4.717 .001
TIEMPO .118 .028 .509 4.209 .002
a. Dependent variable: CALIFICA
57
de donde el valor de la estadstica de prueba es:
21 . 4
028 . 0
118 . 0

2
2

s
t
c
y nuevamente se rechaza la hiptesis nula ( ) 0
1
, porque
21 . 4
c
t > 2.69, con un nivel de significacin de 0.05.
Pruebas no paramtri cas
En los temas estudiados a lo largo de este libro hemos podido
notar el importante lugar que le corresponde a la distribucin
Paso 4:
Como 69 . 2 9 . 4
975 . 0
> t t
c
rechazamos la hiptesis nula a un
nivel de significacin de 0.05 y concluimos que la variable Coefi-
ciente Intelectual (IQ) explica el comportamiento de las califica-
ciones de los estudiantes.
Trabajando con la misma metodologa para el parmetro
2
,
se encuentra la siguiente tabla.

2

S

1

S
Coefficients
a
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) -5.249 1.166 -4.501 .001
IQ ,049 .010 .570 4.717 .001
TIEMPO .118 .028 .509 4.209 .002
a. Dependent variable: CALIFICA
58
normal en la teora estadstica. Sin embargo, con frecuencia en mu-
chas situaciones no se conoce si la distribucin desde la cual se ha
seleccionado la muestra es tal que sea aplicable el teorema del lmi-
te central o si la aproximacin a la distribucin normal es lo sufi-
cientemente adecuada como para que los intervalos de confianza
resultantes y las pruebas de hiptesis basadas en la teora normal
tengan validez. En tales situaciones se necesita de mtodos estads-
ticos cuya aplicacin sea independiente de la forma de la densidad.
Estos mtodos se denominan mtodos no paramtricos.
Los mtodos no paramtricos que se desarrollarn en esta sec-
cin se aplican a familias muy extensas de distribuciones en vez
de familias caracterizadas por una forma funcional particular.
La estructura de la mayora de los mtodos no pramtricos
descansa en las estadsticas de orden. Las estadsticas de orden
representadas por: X
(1)
, X
(2)
,,X
(n)
son la consecuencia de haber
ordenado la muestra aleatoria original X
1
, X
2
, ,X
n
en forma as-
cendente. Es decir:
X
(1)
, es la ms pequea en magnitud de todas las X's
X
(2)
, es la segunda ms pequea en magnitud de todas las X's
.
.
.
X
(n)
, es la ms grande en magnitud de todas las X's
Se trabajar bajo el supuesto de que la muestra aleatoria pro-
viene de una distribucin continua. Esto implica que la probabi-
lidad que dos observaciones muestrales sean iguales es cero. Es
decir, con probabilidad una las observaciones maestrales sern
ordenadas desde la ms pequea a la ms grande sin tener en
este ordenamiento dos valores iguales. En la prctica, frecuente-
mente observamos en la muestra dos o ms valores iguales de-
nominados empates (ties); para lo cual dependiendo de la prue-
ba se utilizar un factor de correccin por empates.
Posicin y dispersin
59
La mediana poblacional M, se estima mediante la mediana
muestral m. Para la obtencin de la mediana como es conocido
primero deben organizarse los datos en forma ascendente, la me-
diana ser el valor central si el nmero de datos es impar y ser
la semisuma de los valores centrales si se cuenta con un nmero
par de datos. Es decir,

'

+
+

+
+
k n si
x x
k n si x
m
k k
k
2
2
1 2
) 1 ( ) (
) 1 (
La mediana muestral no es un estimador insesgado de la me-
diana poblacional, pero este sesgo tiende a cero al aumentar el
tamao de la muestra. Como medida de dispersin se emplea
entre otras el rango intercuartil, la diferencia entre el cuartil 3 y
el cuartil 1:
1 3
Q Q R
Ej empl o 5.16
En el caso paramtrico hemos utilizado la media y la desviacin
estndar poblacionales como medidas de posicin y dispersin
respectivamente, pero los mtodos no paramtricos utilizan como
medida de posicin a la mediana M, que es el punto que divi-
de en dos partes iguales el rea limitada por la funcin de densi-
dad f(x), tal como se grafica a continuacin.
En una distribucin continua
2
1
) ( ) ( M X P M X P
.
f(x)
M
50%
del
rea
50%
del
rea
(0
Se cuenta con los siguientes valores:

3
, 98 . 0
2
, 62 . 0
1
x x x
;
53 . 0
5
, 81 . 0
4
, 31 . 0 x x
los cuales corresponden a n = 5 valores
observados de 5 ensayos independientes de un experimento. Se
determinar la mediana muestral.
En primer lugar se ordenan en forma ascendente las obser-
vaciones:
98 . 0
) 5 (
81 . 0
) 4 (
62 . 0
) 3 (
53 . 0
) 2 (
31 . 0
) 1 (
< < < < x x x x x
Como se cuenta con un nmero impar de observaciones la
mediana muestral es
62 . 0
) 3 (
x
.
En esta seccin estudiaremos los siguientes mtodos no pa-
ramtricos:
Para una poblacin: Prueba de Wilcoxon.
Para dos poblaciones independientes: Prueba de Man-
nWhitney
Para tres o ms muestras independientes: Prueba de Krus-
kall Wallis
Prueba de bondad del ajuste: Prueba de Kolmogorov
Prueba de Wilcoxon
En algunas investigaciones se requiere probar una hiptesis nula
con respecto a la media poblacional, pero la distribucin bajo es-
tudio no es la distribucin normal. En tal situacin un procedi-
miento estadstico adecuado es la prueba de Wilcoxon, la cual
utiliza las magnitudes de las diferencias entre las mediciones y
el valor de la mediana poblacional propuesta en la hiptesis nula.
Supuestos
La prueba de Wilcoxon se basa en los siguientes supuestos.
1. La muestra X
1
,X
2
,..,X
n
es una muestra aleatoria
2. La variable en estudio es continua
(
3. La poblacin se distribuye simtricamente
4. La escala de medicin es al menos de intervalo
Hi ptesi s
Se plantea a continuacin la hiptesis nula con su respectiva hi-
ptesis alternativa
0 1
0 0
:
: .
M M H
M M H I


0 1
0 0
:
: .
M M H
M M H II
<


0 1
0 0
:
: .
M M H
M M H III
>

En cada uno de los casos con un nivel de significacin .


Procedi mi ento para l a obtenci n de l a estad sti ca de
prueba
Cuando se utiliza la prueba de Wilcoxon se realizan los siguien-
tes clculos.
1. Se obtienen las diferencias D
i
= X
i
-M
0
, i = 1,2,,n.
Si algn X
i
es igual a M
0
, ste es eliminado y como conse-
cuencia el tamao de la muestra disminuye.
2. Se ordenan las diferencias Di en forma ascendente sin consi-
derar el signo de la diferencia. Es decir, se ordenan las dife-
rencias en valor absoluto, | Di| . Si dos o ms de los | Di| son
iguales, se obtiene el promedio de los rangos que ocupan las
diferencias empatadas y este valor es asignado a cada una
de las observaciones empatadas.
3. Se retoma el signo de la diferencia Di y es asignado al rango
respectivo.
4. Se obtienen y T
+
y T
-
, que representan a la suma de rangos
con signo positivo y negativo respectivamente.
La suma total de los rangos es:
2
) 1 ( + n n
, entonces
+

+
T
n n
T
2
) 1 (
Estadstica de prueba
(
Dependiendo de la hiptesis alternativa planteada se considera
como estadstica de prueba a
{ }
+
T T T , min
,
+
T o

T
.
Si la hiptesis nula H
0
es verdadera, es decir, si la mediana
poblacional, M, es igual a la mediana hipottica, M
0
, y se cum-
plen los supuestos, la probabilidad de observar una diferencia Di
positiva es igual a la probabilidad de observar una diferencia ne-
gativa. Entonces al repetir el muestreo, el valor esperado de T
+
es
igual al valor esperado de. En una muestra especfica no sucede
que T
+
sea exactamente igual a T
-
. Sin embargo, cuando H
0
es
verdadera no esperamos una gran diferencia entre ambos valo-
res. Esto trae como consecuencia que un valor suficientemente
pequeo de T
+
o T
-
causa el rechazo de H
0
.
Val ores cr ti cos
En la Tabla G del Apndice se encuentran los valores crticos d
de la estadstica de prueba de Wilcoxon para muestras de tama-
o 4 hasta 20 y distintos niveles de significacin.
Regi n cr ti ca
La regin crtica depende de la hiptesis alternativa planteada.
En la siguiente tabla se resume los tres casos de la prueba de
hiptesis respecto de la mediana de una poblacin.
Ejemplo 5.17
Hiptesis Estadstica de Prueba Regla de decisin
Rechazar,
0 0
: M M H si
0 1
0 0
:
: .
M M H
M M H I

{ }
+
T T T , min
d T
0 1
0 0
:
: .
M M H
M M H II
<

+
T
d T
+
0 1
0 0
:
: .
M M H
M M H III
>

T d T

En cada caso con un nivel de significacin .


(3
Sol uci n.
Paso 1: Se pl antean l as hi ptesi s
Se trata de un problema de inferencia estadstica acerca de la
mediana poblacional M : "calificacin media de la destreza ma-
nual de una poblacin de estudiantes discapacitados"
Hiptesis nula: La calificacin media es M = 45, donde M
0
= 45
puntos. Es decir,
45 :
0
M H
Hiptesis alternativa: La calificacin media es diferente de 45
puntos. Es decir,
45 :
1
M H
Paso 2:
En base a la muestra aleatoria se realizan los clculos para obte-
ner la estadstica de prueba.
n = 25
Un psiclogo est interesado en tener evidencia suficiente para con-
cluir que las calificaciones de destreza manual promedio en estu-
diantes discapacitados es diferente de 45 puntos. Para llevar a cabo
su estudio selecciona una muestra aleatoria de 25 estudiantes dis-
capacitados y registra sus calificaciones de destreza manual. La
informacin que obtiene es la siguiente:
Los datos son concordantes con la propuesta del psiclogo?.
Utilice = 0.05.
33 53 22 40 24 56 36 28 38 42 35 52 52
36 47 41 32 20 42 34 53 37 35 47 42
(4
Obs xi Di rango sig ran Obs xi Di rango sig ran
(|Di|) (|Di|) (|Di|) (|Di|)
1 33 -12 20 -20 14 36 -9 14,5 14,5
2 53 8 12 12 15 47 2 1,5 1,5
3 22 -23 24 -24 16 41 -4 6 -6
4 40 -5 7 -7 17 32 -13 21 -21
5 24 -21 23 -23 18 20 -25 25 -25
6 56 11 18,5 18,5 19 42 -3 4 -4
7 36 -9 14,5 14,5 20 34 -11 18,5 18,5
8 28 -17 22 -22 21 53 8 12 12
9 38 -7 9 -9 22 37 -8 12 -12
10 42 -3 4 -4 23 35 -10 16,5 16,5
11 35 -10 16,5 16,5 24 47 2 1,5 1,5
12 52 7 9 9 25 42 -3 4 -4
13 52 7 9 9
Suma total de rangos:
325
2
) 26 ( 25
2
) 1 (

+ n n
Suma de rangos positivos: 5 . 63
+
T ,
Suma de rangos negativos:
5 . 261

T
Estad sti ca de prueba:
{ } { } 5 . 63 5 . 261 , 5 . 63 ,
+
mn T T mn T
.
Paso 3. Obtenci n de l a regi n cr ti ca
En la tabla G del Apndice, el valor de d = 101. La regin crtica
est conformada por d T y para nuestro ejemplo la regin cr-
tica es:
101 < T
.
Paso 4. Deci si n
(5
El valor de 5 . 63 T , se encuentra en la regin de rechazo. Es
decir, d T < 101 5 . 63 , lo cual implica el rechazo de la hip-
tesis nula. Es decir, en base a las observaciones muestrales, el psi-
clogo encuentra un soporte a su afirmacin de que el puntaje
medio de las calificaciones de la destreza manual de la pobla-
cin de estudiantes discapacitados bajo estudio, es diferente de
45 puntos.
Anl i si s por computadora usando el SPSS
Debe sealarse que el SPSS no tiene el anlisis para probar la
mediana poblacional en base a una muestra. Cuenta con el an-
lisis para muestras relacionadas. Adaptaremos este procedimien-
to a nuestro caso procediendo de la siguiente forma:
1. Utilizar el artificio de crear una variable que ha sido deno-
minada Median, la cual contiene el valor de la mediana pro-
puesta bajo la hiptesis nula.
2. Crear la variable Destrez, la cual contiene las 25 mediciones
de destreza manual de cada uno de los estudiantes.
3. Proceder a ejecutar los siguientes comandos: Analyze/
Nonparametric Test/ 2 Related Simples / Seleccionar las va-
riables Median y Destrez/ Test Tipe activar Wilcoxon/ click
OK. A continuacin mostramos el editor y el output.
EDITOR OUTPUT
Regin de rechazo
101 T
((
Prueba de MANN-WHITNEY
Cuando el supuesto de que cada una de las poblaciones en estu-
dio se distribuyen normalmente no se cumple, las pruebas de hi-
ptesis para contrastar que las medias poblacionales son iguales
no pueden ejecutarse. Como alternativa se cuenta con un mto-
do no paramtrico, la prueba de Mann-Whitney, que es una prue-
ba apropiada para contrastar la hiptesis de que las medianas
de dos poblaciones independientes son iguales, y donde la forma
funcional de estas poblaciones no est especificada. Este mtodo
se basa en datos generados por dos muestras aleatorias indepen-
dientes, seleccionadas de cada una de las poblaciones de inters.
Estas muestras son independientes en dos aspectos. Uno de ellos
es que existe independencia entre muestras y el otro aspecto es que
Wilcoxon Signed Ranks Test
Ranks
N Mean Sum of
Rank Ranks
destrez - Negative 18(a) 14.53 261.50
mediana Ranks
Positive 7(b) 9.07 63.50
Ranks
Ties 0(c)
Total 25
a destrez <mediana
b destrez >mediana
c destrez =mediana
Test Statistics(b)
destrez -
mediana
Z -2.666(a)
Asymp. Sig. (2-tailed) .008
a Based on positive ranks.
b Wilcoxon Signed Ranks Test
En Test Statistics el p-value = 0.008 < 0.05, entonces se rechaza H
0
.
(7
dentro de cada muestra las observaciones que la conforman tam-
bin son independientes.
Esta prueba fue propuesta por Mann y Whitney (1947), ade-
ms se tiene referencia que Wilcoxon (1945), propuso un proce-
dimiento semejante. Es por ello que tambin es conocida como la
prueba de Wilcoxon-Mann-Whitney.
Supuestos
Las muestras aleatorias, X
11
, ., X
1n1
y X
21
, ., X
2n2
, utiliza-
das para el anlisis son seleccionadas independientemente
de sus respectivas poblaciones.
La variable de inters es continua.
La escala de medicin observada es al menos ordinal.
Las dos poblaciones en estudio difieren slo con respecto a
su posicin.
Hi ptesi s
Se plantea a continuacin la hiptesis nula con su respectiva hi-
ptesis alternativa
2 1 1
2 1 0
:
: .
M M H
M M H I


2 1 1
2 1 0
:
: .
M M H
M M H II
<


2 1 1
2 1 0
:
: .
M M H
M M H III
>

Donde
2 1
M y M representan las medianas de la poblacin
1 y poblacin 2 respectivamente. En cada uno de los casos las
pruebas se realizan con un nivel de significacin .
Procedi mi ento para l a obtenci n de l a estad sti ca de
prueba
Para calcular la estadstica de prueba se procede de la siguiente
forma.
1. Se combinan las dos muestras (de tamaos n1 y n2 ).
2. Las n
1
+ n
2
observaciones son organizadas en forma ascen-
(8
dente (desde la ms pequea a la ms grande).
3. Se asignan los rangos a cada una de las n
1
+ n
2
observaciones
teniendo en cuenta a que muestra pertenecen. Si dos o ms
observaciones son iguales (empatan) se obtiene el promedio
de los rangos que ocupan dichas observaciones en el orde-
namiento y este promedio es asignado a cada una de las ob-
servaciones empatadas.
4. Obtener la suma de los rangos asignados a la muestra 1:

1
1
)
1
(
n
i
i
X R S
.
Estad sti ca de Prueba
La estadstica de prueba es,
2
) 1
1
(
1
+

n n
S T
donde:
n
1
, es nmero de observaciones de la muestra 1, y
S, es la suma de los rangos asignados a la muestra 1 (despus de
haber combinado las muestras).
Val ores cr ti cos
En la tabla H del Apndice se encuentran los valores crticos wp
para de la estadstica de prueba T, para tamaos n
1
= 2,3,...,20 y
n
2
= 2,3,...,20; y distintos valores de p = 0.001, 0.005, 0.01, 0.025,
0.05 y 0.10 (nivel de significacin nominal).
Regi n cr ti ca
La regla de decisin est en funcin a la hiptesis alternativa
planteada.
En la siguiente tabla se resume los tres casos de la prueba de
hiptesis relacionada a la comparacin de las medianas de dos
poblaciones independientes.
(9
donde:
2
2 1
2
1

w n n w

, equivalentemente

w n n w
2 1 1
.
Grfi camente:
I.
2 1 1
2 1 0
:
:
M M H
M M H



II.
2 1 1
2 1 0
:
:
M M H
M M H
<


III.
2 1 1
2 1 0
:
:
M M H
M M H
>


Hiptesis Estadstica de Prueba Regla de decisin
Rechazar,
2 1 0
: M M H si
I.
2 1 1
2 1 0
:
:
M M H
M M H

2
) 1 (
1 1
+

n n
S T
2 1 2
> < w T o w T
II.
2 1 1
2 1 0
:
:
M M H
M M H
<

2
) 1 (
1 1
+

n n
S T
w T <
III.
2 1 1
2 1 0
:
:
M M H
M M H
>

2
) 1 (
1 1
+

n n
S T
>
1
w T
70
En base a esta informacin se puede concluir que el puntaje
medio obtenido por la Facultad de Administracin es diferente
que el obtenido por la Facultad de Derecho, con respecto a la ca-
lidad de atencin al momento de realizar el proceso de rectifica-
cin de matrcula?.
Sol uci n.
Las poblaciones en estudio son:
Poblacin 1: alumnos de la Facultad de Administracin
Poblacin 2: alumnos de la Facultad de Derecho
Variable de inters: Puntaje asignado a la calidad de atencin al
momento de realizar el proceso de rectificacin de matrcula.
Paso 1: Se pl antean l as hi ptesi s
Hiptesis nula: El puntaje medio obtenido por la Facultad de
Administracin es igual que el obtenido por la Facultad de Dere-
cho, con respecto a la calidad de atencin al momento de reali-
zar el proceso de rectificacin de matrcula. Es decir,
1 0 0
: M M H
Hi ptesi s al ternati va:
1 0 1
: M M H
Ejemplo 5.18
Quince estudiantes de la Facultad de Administracin y 15 estu-
diantes de la Facultad de Derecho, evaluaron sobre una base de
100 puntos la calidad de la atencin recibida al momento de rea-
lizar el proceso de rectificacin de matrcula en su respectiva
facultad. Los resultados se presentan a continuacin.
Fac.Admin. 99 85 73 98 83 88 99 80 74 91 80 94 94 98 80
Fac. Derch. 78 74 69 79 57 78 79 68 59 91 89 55 60 55 79
7
Paso 2: En base a las muestras aleatorias se realizan los clculos
para obtener la estadstica de prueba.
Muestras rango rango
combinada Administrac. Derecho
55 1,5
55 1,5
57 3
59 4
60 5
68 6
69 7
73 8
74 9,5
74 9,5
78 11,5
78 11,5
79 14
79 14
79 14
80 17
80 17
80 17
83 19
85 20
88 21
89 22
91 23,5
91 23,5
94 25,5
94 25,5
98 27,5
98 27,5
99 29,5
99 29,5
Suma de 148
rangos: S
En este caso como ambos tamaos de muestra son iguales se
considerar como S, la suma de los rangos correspondientes a la
muestra de la poblacin de la Facultad de Derecho.
7
Paso 4. Deci si n
Se decide rechazar la hiptesis nula debido a que el valor de T =
28 < 65 =
2

w
. Se puede concluir que las facultades de Adminis-
tracin y de Derecho tienen diferentes puntajes medios, con
respecto a la calidad de atencin al momento de realizar el pro-
ceso de rectificacin de matrcula.
Anl i si s por computadora usando el SPSS
1. Para este ejemplo se definen las variables:
puntaje que contiene los puntajes de las dos muestras y,
facultad que funciona como una etiqueta, 1: Facultad de
Administracin y 2: Facultad de Derecho
Estadstica de prueba:
28
2
) 1 15 ( 15
148
+
T
Paso 3. Obtenci n de l a regi n cr ti ca
En la tabla H con 05 . 0 15 , 15
2 1
y n n se encuentra el va-
lor de 65
2

w y el valor de
160 65 ) 15 ( 15
2
1

w
.
La regin crtica est conformada por:
160 65 > < T o T
73
2. Proceder a ejecutar los siguientes comandos: Analyze/
Nonparametric Test/ Two-I ndependent-Samples Test/
test type Mnn-Whitney U, llevar la variable puntaj e a
test variable list y la variable facul tad a grouping va-
riable/ mediante define groups se indican los grupos/
click OK..
74
OUTPUT
Prueba de Kruskall-Wallis
La prueba de Kruskall-Wallis es utilizada para detectar diferen-
cias en las medidas de posicin de tres o ms poblaciones basn-
dose en muestras aleatorias independientes. Esta prueba como
otras pruebas no paramtricas tiene la caracterstica de utilizar
los rangos de las observaciones que conforman las muestras.
Se supone que se tiene k poblaciones continuas
) ( ),..., ( ), (
2 1
x F x F x F
k
de las cuales se seleccionan muestras aleato-
rias independientes, donde la i-sima muestra es de tamao
k i n
i
,..., 2 , 1 , y existe un total de

k
i
i
n n
1
observaciones en total.
NPar Tests
Mann-Whitney Test
Ranks
FACULTAD N Mean Rani Sum of Ranks
PUNTAJ E 1. Administracin 15 21,13 317,00
2: erecho 15 9,87 148,00
Total 30
Test Statistics
PUNTAJ E
Mann-Whitney U 28,000
Wilcoxon W 148,000
Z -3,511
Asymp. Sig. (2-tailed) ,000
Exact Sig. 2*(1-tailed Sig.) ,000
a Not corrected for ties.
b Grouping Variable: FACULTAD
La hiptesis nula es rechazada. Exact Sig < 0.05.
75
Supuestos
1. Los datos disponibles para el anlisis consisten de k muestras
independientes de tamaos
k
n n n ,..., ,
2 1
respectivamente.
2. Las observaciones son independientes dentro de cada mues-
tra y entre muestras.
3. La variable de inters es continua.
4. La escala de medicin es al menos ordinal.
5. Las poblaciones desde las cuales se han seleccionado las
muestras son idnticas excepto para una diferencia en posi-
cin en al menos una de ellas.
Hi ptesi s
La hiptesis nula asociada al problema de k muestras es la que
plantea que las k muestras han sido seleccionadas de poblacio-
nes idnticas: ( ) ( ) ( ) x x F x F x F H
k
, ... :
2 1 0
y la hiptesis alter-
nativa
1
H : Al menos una de las ) (x F
i
es diferente.
Con un nivel de significacin .
Procedi mi ento para l a obtenci n de l a estad sti ca de
prueba
1. Se combinan las

k
i
i
n n
1
observaciones de las muestras,
ordenndolas en forma ascendente.
2. Se asigna el correspondiente rango a cada una de las obser-
vaciones ordenadas. Si existen observaciones empatadas, se
sustituyen los rangos de las observaciones empatadas por el
promedio de los rangos de estas.
3. Se calcula
i
R , que representa a la suma de los rangos de las
i
n observaciones que conforman la i-sima muestra.
4. Se obtiene la estadstica de prueba en base a los clculos rea-
lizados anteriormente.
7(
Estadstica de prueba:
donde: k = nmero de muestras.
i
n

= nmero de observaciones de la i-sima muestra.
n = nmero total de observaciones en las k muestras com-
binadas.
i
R = suma de los rangos de la i-sima muestra.
Equivalentemente la estadstica, puede expresarse como:

+
+

k
i
i
i
n
n
R
n n
H
1
2
) 1 ( 3
) 1 (
12
la cual tiene distribucin ji cuadrado con k-1 grados de li-
bertad. Es decir,

) 1 (
~
k
H
Si existen observaciones empatadas el estadstico H, es co-
rregido sustituyendo los rangos de las observaciones empatadas
por su rango promedio y considerando adems el siguiente fac-
tor de correccin:
n n
t t
f
j
j j
c

3
3
) (
1
. As la estadstica H corre-
gida es:
c
c
f
H
H
Val ores cr ti cos
En la Tabla C de Apndice se encuentran los cuantiles de la dis-
tribucin ji cuadrado.
Se rechaza la hiptesis nula para aquellos valores de
) 1 (
>
k
H .
Ej empl o 5.19
En base a las calificaciones obtenidas por cuatro grupos de aspi-
rantes a Jefe de Prctica para el curso de Matemtica, un investi-
77
Sol uci n
Paso 1. Pl anteami ento de l as hi ptesi s
Hiptesis nula: La cuatro poblaciones tiene calificaciones me-
dias idnticas. Es decir, ) ( ) ( ) ( ) ( :
4 3 2 1 0
x F x F x F x F H
Hiptesis alternativa: La calificacin media de al menos una
de las poblaciones es diferente.
Con un nivel de significacin = 0.05
Paso 2. En base a las observaciones de las cuatro muestras se
calcula el valor de la estadstica de prueba.
gador est interesado en conocer si existe diferencia en las califica-
ciones medias de las poblaciones en estudio. Las calificaciones son
las siguientes:
Grupo 1 Grupo 2 Grupo 3 Grupo 4
85 75 59 94
92 69 78 89
83 83 67 80
79 81 62 88
81 72 83
69 79 76
90
GRUPO 1 GRUPO 2 GRUPO 3 GRUPO 4
Calificacin Rango Calificacin Rango Calificacin Rango Calificacin Rango
85 18 75 7 59 1 94 23
92 22 69 4,5 78 9 89 20
83 16 83 16 67 3 80 12
79 10,5 81 13,5 62 2 88 19
81 13,5 72 6 83 16
69 4,5 79 10,5 76 8
90 21
6
1
n
1
R 84,5 7
2
n
2
R 78,5 6
3
n
3
R 39 4
4
n
4
R 74
78
Estadstica de prueba:
) 1 23 ( 3
) 24 ( 23
12
4
1
2
+

i
i
i
n
R
H

( ) ( ) ( ) ( )
3 . 8 2796 . 8 72
4
74
6
39
7
5 . 78
6
5 . 84
) 24 ( 23
12
4
1
2 2 2 2

1
]
1

+ + +

i
H
Paso 3. Obtenci n de l a regi n cr ti ca
En la Tabla C del Apndice para 81 . 7 ) 3 (
05 . 0
. La regin crtica
est conformada por:
81 . 7 > H
Paso 4. Deci si n
El valor de la estadstica es
3 . 8 H
, este valor se encuentra en
la regin de rechazo puesto que ) 3 ( 81 . 7 3 . 8
05 . 0
> H . Por lo
tanto la hiptesis nula es rechazada y puede concluirse que las
cuatro poblaciones son diferentes.
Anl i si s por computadora usando SPSS
1. Para este ejemplo se definen las variables:
cal i fi ca que contiene las calificaciones de las cuatro
muestras,
grupo que funciona como una etiqueta, 1: grupo 1, 2: grupo
2, 3: grupo 3, 4: grupo 4
2. Proceder a ejecutar los siguientes comandos: Analyze/
Nonparametric/ k Independent Sample/ llevar la varia-
ble cal i fi ca a Test Variable List y la variable grupo a
grouping variable/ mediante define groups se indican los
grupos/ OK.
79
80
Kruskal-Wallis Test
Ranks
GRUPO N Mean
Rank
CALIFICA 1 6 14,08
2 7 11,21
3 6 6,50
4 4 18,50
Total 23
Test Statistics
a,b
CALI FI CA
Chi-Square 8,308
df 3
Asymp. Sig. ,040
a. Kruskal Wallis Test
b. Grouping Variable: GRUPO
Prueba de bondad de ajuste: Preuba de Kolmogorov-Smirnov
A travs de la prueba de Kolmogorov-Smirnov se puede conocer
que tan adecuado es el ajuste de la distribucin de los datos de
una muestra a una distribucin terica. La prueba debe su nom-
bre a los matemticos rusos: A. Kolmogorov y N.V. Smirnov,
quienes presentaron dos pruebas parecidas en la dcada de 1930.
En su procedimiento la prueba utiliza la funcin de distribucin
terica y la funcin de distribucin emprica. La funcin de dis-
tribucin emprica ser expresada en trminos de las estadsti-
cas de orden
) ( ) 2 ( ) 1 (
,.., ,
n
X X X , de una muestra aleatoria de tama-
Se rechaza la hiptesis nula Asymp Sig <.
OUTPUT
8
o n,
n
X X X ,.., ,
2 1
. Cuando no existen observaciones iguales, la
funcin de distribucin emprica est definida por,

'


<

+
x x
n k x x x
n
k
x x
x S
n
k k n
) (
) 1 ( ) (
) 1 (
, 1
1 ,..., 2 , 1 , ,
, 0
) (
En este caso la funcin de distribucin emprica ) (x S
n
tiene
un salto de magnitud
n
1
, que ocurre en cada observacin. Si exis-
ten
k
n observaciones iguales a
k
x , ocurre un salto de magnitud
n
n
k
en
k
x .
Supuesto
La muestra aleatoria
n
X X X ,.., ,
2 1
, tamao n proviene de una
poblacin con funcin de distribucin desconocida
) (x F
.
Hi ptesi s
Se establece que ) (
0
x F es la funcin de distribucin hipottica.
Hiptesis nula: x x F x F H ) ( ) ( :
0 0
Hiptesis alternativa ) ( ) ( :
0 1
x F x F H para algn x.
Procedi mi ento para l a obtenci n de l a estad sti ca de
prueba
1. En base a las observaciones muestrales se obtiene la funcin
de distribucin emprica ) (x S
n
x.
2. En base a las observaciones muestrales se obtiene la funcin
de distribucin propuesta bajo la hiptesis nula ) (
0
x F x.
3. Se calcula la estadstica de prueba ) ( ) (
0
x F x S Sup D
n
x
n

< <
.
8
Regin crtica
Se rechaza la hiptesis nula si el valor de la estadstica
n
D excede
al cuantil
1
d presentado en la Tabla I del Apndice. Es decir, se
rechaza
0
H a un nivel de significacin si

>
1
d D
n
.
Si la muestra ha sido seleccionada desde la distribucin hi-
pottica, la discrepancia entre ) (x S
n
y ) (
0
x F no debera ser de-
masiado grande.
Ej empl o 5.20
Se tiene inters en conocer si la presin sangunea de los estu-
diantes del ltimo ao de la Escuela de Educacin Fsica, sigue
una distribucin normal. La informacin siguiente corresponde
a 20 estudiantes de la Escuela de Educacin Fsica y que cursan
el ltimo ao de estudios.
Solucin
En este caso la funcin de distribucin ) (
0
x F , planteada en la
hiptesis nula es la distribucin normal y la variable en estudio
es X : presin sangunea.
Paso 1. Pl anteami ento de l as hi ptesi s
Hiptesis nula: La presin sangunea sigue una distribucin
normal
Hiptesis alternativa: La presin sangunea no est distribui-
da normalmente. = 0.05
162 177 151 167
130 154 179 146
147 157 141 157
153 157 134 143
141 137 151 161
Considere =0.05
83
Paso 2. Clculo de la estadstica de prueba
Se organizarn las observaciones muestrales en forma ascenden-
te, es decir se obtienen las estadsticas de orden y se calculan
) ( ) (
0 20
x F y x S .
x Frecuencia
13
) 152 (

x
z ) (
0
x F ) (
20
x S ) ( ) (
0 20
x F x S D
130 1 -1,6923 0,0453 0,0500 0,0047
134 1 -1,3846 0,0831 0,1000 0,0169
137 1 -1,1538 0,1243 0,1500 0,0257
141 2 -0,8462 0,1987 0,2500 0,0513
143 1 -0,6923 0,2444 0,3000 0,0556
146 1 -0,4615 0,3222 0,3500 0,0278
147 1 -0,3846 0,3503 0,4000 0,0497
151 2 -0,0769 0,4693 0,5000 0,0307
153 1 0,0769 0,5307 0,5500 0,0193
154 1 0,1538 0,5611 0,6000 0,0389
157 3 0,3846 0,6497 0,7500 D =0,1003
161 1 0,6923 0,7556 0,8000 0,0444
162 1 0,7692 0,7791 0,8500 0,0709
167 1 1,1538 0,8757 0,9000 0,0243
177 1 1,9231 0,9728 0,9500 0,0228
179 1 2,0769 0,9811 1,0000 0,0189
El valor calculado de la estadstica de prueba es 1003 . 0 D .
Regi n cr ti ca
En la Tabla I, el valor del cuantil es 294 . 0
95 . 0
d . As la regin crti-
ca es la siguiente: 294 . 0
95 . 0
> d D . La decisin en este caso es la de
no rechazar la hiptesis nula, puesto que
95 . 0
294 . 0 1003 . 0 d D < .
84
No se puede concluir que la poblacin no se distribuya nor-
malmente.
Anl i si s por computadora usando el SPSS
1. Exploratoriamente puede visualizarse el comportamiento de
los datos y se observa que estos estn muy prximos a la l-
nea que representa a la distribucin normal.
En el Editor de datos se crea la variable medida y se ejecuta los
siguientes comandos: Analyse/ Nonparametric/ 1-Sample K-S/ In-
gresar a Test Variable List la variable medida y activar Test Distri-
bution la distribucin normal/ click OK
Normal P-P Plot of MEDIDA
E
x
p
e
c
t
e
d

C
m

P
r
o
b
Observed Cum Prob
85
OUTPUT
No se rechaza la hiptesis nula porque Asymp. Sig> = 0.05.
NPar Tests
One-Sampl e Kol mogorov-Smi rnov Test
MEDI DA
N 20
Normal Parameters a.b Mean 152,2500
Std. Deviation 13,0943
Most Extreme Absolute ,108
Differences Positive ,108
Negative -,071
Kolmogorov-Smirnov Z ,485
Asymp. Sig. (2-tailed) ,973
a. Test distribution is Normal.
b. Calculated from data.
8(
Ejerccios
En los siguientes casos identifique la variable dependiente e in-
dependiente (s).
a) El presupuesto familiar destinado a la educacin de los hijos
y los ingresos familiares.
b) El volumen de ventas de una empresa y la inversin en pro-
paganda.
c) El nmero de hijos por familia y el nivel educativo de los
padres.
d) El analfabetismo, lugar de residencia y la expansin del ser-
vicio educativo.
e) La edad y el tiempo efectivo de servicio de los docentes afi-
liados al SUTEP.
Se realiza un estudio con 16 atletas de alto rendimiento, ocho
de potencia y ocho de resistencia; se les mide la extensin isom-
trica de la rodilla (X
1
) (en kilogramos fuerza) y el porcentaje de
la contraccin muscular (X
2
). Se obtienen los siguientes datos; X
2
es la variable dependiente (Y ).
Atletas de Potencia Atletas de resistencia
1
X
2
X
1
X
2
X
196 56 161 98.4
183 28.8 142 70.8
295 57.2 122.5 35.4
203 46 123 74.5
195 35.5 176 79.5
289 58.6 156 62.1
198 41.4 126 74.3
206.9 21.6 95 67.7
a) Cree las bases de datos con los nombres ATLETA1 Y ATLE-
TA2.
b) Haga el diagrama de dispersin.
87
Realice el anlisis de regresin y correlacin lineal.
Un profesor de estadstica realiza un estudio para investi-
gar la relacin que existe entre el rendimiento de sus estudiantes
en los exmenes y su ansiedad. Elige a diez estudiantes para el
experimento y antes de asistir al examen final, los 10 estudiantes
respondieron un cuestionario de ansiedad. A continuacin se tiene
las calificaciones de la prueba final y los puntajes obtenidos en el
cuestionario de ansiedad.
c) Usar comandos del SPSS y obtener el coeficiente de correlacin
lineal e interprete.
d) Suponiendo que sea posible, realice el anlisis de regresin
lineal simple e interprete los coeficientes.
e) Usando las correspondientes frmulas, compruebe los valo-
res encontrados.
A 10 candidatos a ingresar en un programa de doctorado en
psicologa, se les aplica en la Facultad de Psicologa una prueba
de personalidad (X) y un examen general de conocimientos (Y).
Obtuvieron las siguientes puntuaciones:
Candidato A B C D E F G H I J
X 2.96 2.46 3.36 3.40 2.43 2.12 2.85 3.12 3.20 2.75
Y 529 506 591 610 474 509 550 600 575 540
Ansiedad 28 41 35 39 31 42 50 46 45 37
Examen Final 82 58 63 89 92 64 55 70 51 72
a. Elabore el diagrama de dispersin. Utilice la ansiedad como la
variable X.
b. Describa la relacin que muestra el diagrama de dispersin.
c. Suponga que la relacin es lineal y calcule el valor de la r de
Pearson.
88
d. Determine la lnea de regresin por mnimos cuadrados para
predecir la calificacin del examen final dado el nivel de an-
siedad.
e. Si un estudiante tiene un nivel de ansiedad de 38, qu valor
podra predecirse para su calificacin en el examen final?.
Se realiza un estudio con 10 estudiantes de postgrado en
Educacin. X
1
es el nmero de problemas resueltos correctamen-
te por un estudiante; X
2
son las puntuaciones obtenidas al apli-
carles una prueba psicolgica que mide autoestima de un estu-
diante y; Y

es el nmero de problemas que cada estudiante; espe-
ra resolver correctamente en el examen final. Con los datos que
se presentan a continuacin realice el anlisis de regresin lineal
simple mltiple usando comandos del SPSS.
En la siguiente tabla se tienen las puntuaciones obtenidas por
21 estudiantes en tres pruebas psicolgicas (X
1
, X
2
, X
3
).
a. Obtenga la base de datos usando comandos del SPSS.
b. Realice un anlisis de regresin lineal de: Y con X
1
.
Estudiante Nmero problemas Puntuacin en Nmero de problemas
resueltos en clase autoestima que espera resolver
en el examen final
1 14 5 14
2 8 15 5
3 9 19 8
4 13 33 11
5 10 39 15
6 11 38 14
7 14 74 18
8 15 74 19
9 11 11 7
10 16 78 17
89
Se aplic a un grupo de 18 adolescentes sordomudos la prue-
ba de inteligencia de Wechsler para adultos (Wais) y cuatro sub-
test del DAT. Las puntuaciones de ambas aplicaciones son las
siguientes:
Y X
1
X
2
X
3
48 22 38 15
48 19 38 15
47 20 37 20
46 20 37 17
46 17 35 19
43 21 34 15
42 21 34 14
42 19 33 20
41 17 33 13
40 15 32 15
39 15 32 12
32 11 25 15
31 17 25 9
30 16 23 9
29 15 22 13
29 15 21 9
28 16 20 11
27 16 18 11
27 13 17 10
27 12 15 8
26 12 15 8
c. Realice un anlisis de regresin lineal de: Y

con X
2
.
d. Realice un anlisis de regresin lineal de: Y

con X
3
.
e. Realice un anlisis de regresin mltiple.
Puntuacin de actitud ante la agresin
90
a. Obtenga la base de datos usando comandos del SPSS.
b. Realice un anlisis de regresin lineal de Y con cada uno de
los cuatro subtest del DAT:
c. Realice un anlisis de regresin lineal mltiple.
Adolescentes Wais Razonamiento Razonamiento Relaciones Velocidad y
mecnico abstracto espaciales exactitud
Y X
1
X
2
X
3
1 48 22 38 15 25
2 48 19 38 15 40
3 47 20 37 20 21
4 46 20 37 17 20
5 46 17 35 19 18
6 43 21 34 15 17
7 42 21 34 14 31
8 42 19 33 20 35
9 41 17 33 13 35
10 40 15 32 15 27
11 39 15 32 12 17
12 32 11 25 15 28
13 31 17 25 9 29
14 30 16 23 9 37
15 29 15 22 13 29
16 29 15 21 9 39
17 28 16 20 11 28
18 27 16 18 11 38
9
a) Haga el diagrama de dispersin.
b) Obtenga la recta de regresin Y de sobre X.
c) Si un estudiante obtuvo 14,7 en la primera prueba. Cunto
se espera que obtenga en la segunda prueba?.
Borrs y Fincias (1973) con el propsito de examinar cul es
la influencia que los mtodos de enseanza, basados en el traba-
jo libre y creativo del alumno ejercen sobre su rendimiento esco-
lar, llevaron a cabo una investigacin con 122 nios y nias, en
los que evaluaron los siguientes aspectos:
Creatividad: CREAT.
Coeficiente intelectual: C.I.
Capacidad de orden: ORDEN
Rendimiento escolar: RENDIM.
5.8 Se conocen las edades (X) y la presin sangunea (Y) de 12
mujeres. Si

. 89894 , 238822 , 34416 , 1684 , 628
2 2
i i i
i
i i
y x y x y x
a) Encuentre la recta de regresin de Y sobre X.
b) Si una mujer tiene 49 aos Cul sera su presin san-gunea?
c) Si una mujer tiene 72 aos, Cul es la presin sangunea
esperada?
5.9 La siguiente tabla muestra las calificaciones obtenidas por
10 estudiantes en dos pruebas de Estadstica:
X: Primera
Prueba 12 10 16 16 14 12 20 8 18 14
Y: Segunda
Prueba 16 14 14 20 10 16 20 12 16 12
9
a) Use comandos del SPSS para crear el archivo de datos.
b) Existe relacin entre inteligencia y creatividad?
c) Sobre la base de los datos obtenidos en esta experiencia po-
demos afirmar que a mayor creatividad corresponde una me-
nor capacidad de orden?
CASO ORDEN C.I. RENDIM. CREAT. CASO ORDEN C.I. RENDIM. CREAT.
1 8 114 0,85 8,00 31 4 109 0,84 4,50
2 6 103 0,87 4,00 32 7 113 0,88 7,50
3 5 97 0,90 8,00 33 7 123 0,86 6,00
4 3 94 0,80 2,00 34 10 106 0,91 8,00
5 4 88 0,70 9,00 35 7 110 0,74 6,00
6 6 76 0,70 4,00 36 6 95 0,62 5,50
7 7 116 1,00 10,00 37 9 125 0,92 7,00
8 4 86 0,73 5,50 38 6 100 0,62 2,00
9 4 97 0,99 3,00 39 7 112 0,72 2,00
10 3 91 0,75 8,00 40 3 53 0,14 5,00
11 6,5 123 1,50 3,50 41 3,5 77 0,21 1,50
12 5 63 0,73 1,00 42 7 100 0,65 3,50
13 3 92 0,90 6,00 43 8 105 0,78 5,00
14 5 86 0,82 8,00 44 5 89 0,48 0,00
15 5,5 84 0,81 5,00 45 6 105 0,91 4,50
16 4,5 63 0,62 5,00 46 4 92 0,97 6,00
17 4 88 0,77 7,00 47 3 98 0,62 2,00
18 10 128 0,99 7,00 48 3 91 0,84 4,00
19 7 102 0,78 6,00 49 6 90 0,63 0,00
20 8 115 0,98 7,00 50 6 98 0,89 6,50
21 6 93 0,74 6,00 51 6 113 1,05 6,00
22 10 130 0,94 7,00 52 4 92 0,84 3,00
23 7 90 0,76 4,00 53 8 98 0,74 5,00
24 5 90 0,81 5,00 54 7 86 0,58 0,50
25 9 102 0,92 8,00 55 5 88 0,82 2,00
26 7 102 0,85 7,00 56 5 88 0,92 1,50
27 7 99 0,91 6,00 57 5 102 0,75 3,00
28 6 100 0,73 6,00 58 5 101 0,88 6,50
29 6 88 0,64 5,00 59 6 76 0,81 4,00
30 4 74 0,45 3,00 60 4 94 0,65 0,00
93
d) Sobre la base de los datos obtenidos en esta experiencia pode-
mos afirmar que existe relacin lineal entre rendimiento esco-
lar y creatividad?.
e) Cul es la recta que mejor permite predecir la variable ren-
dimiento escolar en funcin de la variable creatividad? In-
terprete.
f) Manteniendo constante la capacidad intelectual de los
alumnos, la creatividad est relacionada con el rendimiento
escolar?.
g) En base a los datos obtenidos en esta experiencia podemos
afirmar que existe relacin lineal entre el rendimiento es-
colar y la inteligencia?.
h) Cul es la ecuacin de la recta que permite predecir el ren-
dimiento escolar en funcin de la variable inteligencia? In-
terprete.
Con los datos de ejercicio 3.8, realice la prueba de Mann-
Whitney.
Con los datos de la variable EXAMEN FINAL del ejercicio
5.4, responda lo siguiente:
a) Los datos se distribuyen normalmente?
b) Puede concluir que la mediana poblacional es diferente
de 68?
Con los datos de la variable PUNTUACIN DE AUTOESTI-
MA del ejercicio 5.5, responda lo siguiente:
a) Los datos se distribuyen normalmente?
c) Puede concluir que la mediana poblacional es diferente
de 50?
En tres regiones de un pas se investiga el grado de pro-
pensin al ahorro de sus habitantes. Para verificar si la dis-
posicin al ahorro es similar en dichas regiones se obtiene una
94
muestra ciudades de cada una de ellas. Obtenindose la siguien-
te informacin.
Muestra de Muestra de Muestra de
Regin 1 Regin 2 Regin 3
0.251 0.140 0.112
0.326 0.204 0.306
0.146 0.318 0.241
0.093 0.109
0.172
Se puede concluir que el grado de propensin al ahorro es la
misma en las tres regiones. Use un nivel de significacin = 0.05.

Das könnte Ihnen auch gefallen