Sie sind auf Seite 1von 40

Mdulo 4

Unidad 6
Lectura 4

Anlisis de Regresin y
Correlacin

Materia: Herramientas Matemticas V Estadstica II


Profesora: Mgter. Vernica Herrero

Unidad 6: Anlisis de
Regresin y Correlacin
Introduccin a la Inferencia Estadstica

6.1 ANLISIS DE REGRESIN LINEAL

Bibliografa Bsica La idea de poder predecir cierto valor de una variable a partir del
conocimiento del valor de otra que la determina o influye ha llevado a
Para cumplir con los desarrollar las tcnicas que presentamos en este mdulo.
objetivos de la Unidad 6
del programa, es necesario
profundizar en los temas
desarrollados en el En particular, la idea es detectar si existe una relacin lineal entre dos
Captulo 17 y 18 del variables, una que llamaremos dependiente que es condicionada por los
texto de Berenson &
valores de otra que denominamos independiente o explicatoria.
Levine (1996),
relacionndolo con los
comentarios, ejemplos y
recomendaciones de las
lecturas del mdulo.
Diagrama de dispersin
Captulos: 17 (Apartados
17.1, 17.2, 17.3, 17.4, 17.5,
17.6, 17.7, 17.8, 17.9), 18
(Apartados 18.1 y 18.2) Como siempre en Estadstica, un primer anlisis exploratorio grfico
posibilita un avance en el conocimiento sobre un fenmeno, aunque no
de manera concluyente.
Un grfico da la posibilidad de visualizar rpidamente la posible
existencia de una relacin entre las variables de inters.
El diagrama de dispersin, de amplia aplicacin en el caso del
anlisis de regresin, consiste en la representacin de puntos en un
sistema de ejes cartesianos, donde los valores de la variable dependiente
se indican en las ordenadas y los de la variable independiente en las
abscisas. Cada punto del grfico corresponde con las coordenadas del
mismo representado como par ordenado (x, y). El conjunto de
puntos que quedan ilustrados recibe el nombre de nube de puntos.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|2

Un diagrama de dispersin permite visualizar la forma de la relacin,


pero siempre debe tomarse precauciones (no confiar en las
apariencias), por lo cual siempre necesitaremos los test y estimaciones
estadsticas. No obstante, destacamos que la primera aproximacin
grfica es un buen punto de partida, por ejemplo, para preliminarmente
analizar si la lnea recta ser una aproximacin aceptable de la relacin
o no.
En el ejemplo de Diagrama de dispersin que mostramos a
continuacin, la variable Y (dependiente) indica, en el marco de un
estudio sobre productividad laboral en el contexto fabril, el nmero de
errores en una tarea repetitiva de un ocupado en el mercado laboral,
mientras que la variable X (independiente) seala el nmero de horas
seguidas de repeticin de la actividad. Para describir la relacin
aparente entre estas variables, podramos indicar que si bien en nuestra
muestra hay pocos casos con muy pocas horas de realizacin la tarea
repetitiva, a medida que ms horas se lleva a cabo continuamente la
misma, el nmero de errores resulta ms elevado. Con la intencin de
ser ms especficos y sintticos al mismo tiempo, el modelo de regresin
lineal intenta asociar la relacin entre estas variables a travs de una
lnea recta que generalice esta vinculacin, despreciando las
oscilaciones especficas de cada caso particular respecto de la lnea recta
que indicara la estructura de la relacin entre experiencia y salario
inicial.

Figura: Diagrama de dispersin


Y = nmero de errores en una tarea repetitiva

X = nmero de horas seguidas de repeticin de la actividad


Fuente: Elaboracin propia

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|3

Actividad:

1. Elabore (utilizando una hoja cuadriculada, para facilitar la


adecuacin a una escala proporcional de cada variable) la siguiente
relacin:

Los siguientes datos fueron tomados de un estudio sobre las


diferentes sucursales de una marca de supermercados de la ciudad:

Sucursal Superficie del local Ventas diarias (en


de venta (m2) miles de $)
1 300 425
2 350 435
3 450 550
4 500 600
5 700 860
6 760 770
7 770 980
8 900 1100
9 1200 1240
10 1400 1500
11 2000 2400
12 2050 2200
13 2100 2080

2. Intente graficar utilizando Excel. Aproveche la Ayuda disponible en


el programa, invierta unos minutos en explorar, conocer cmo
realizar buenos grficos con las herramientas estndar le puede ser
muy til.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|4

El modelo de regresin lineal


Como a partir del diagrama de dispersin comenzamos a sospechar
de una relacin aproximadamente lineal (es decir, que tiene forma
de lnea recta), trataremos de ver si realmente podemos indicar la
relacin a partir de este modelo.

El modelo lineal puede sintetizarse de manera que represente una


lnea recta con la siguiente expresin:

Yi = 0 + 1 X i + i
Donde:

0 = la interseccin u ordenada al origen poblacional

1 = la pendiente poblacional
i = error aleatorio en Y para la i-sima observacin

Figura: Relacin lineal positiva


Y = nmero de errores en una tarea repetitiva

X = nmero de horas seguidas de repeticin de la actividad


Fuente: Elaboracin propia

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|5

El coeficiente 0 = representa la ordenada al origen, es decir, el


punto en que la recta corta al eje vertical.

El coeficiente 1 = es la pendiente de la recta, el cual indica el


cambio en el valor esperado de la variable Y cuando se produce un
cambio en una unidad de X.

Figura: Diferentes ordenadas al origen


Ordenada al origen: 3,95

Ordenada al origen: 2,7

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|6

Ordenada al origen: 1,6

Fuente: Elaboracin propia con la herramienta de simulacin


provista por:
http://www.seeingstatistics.com/seeing1999/resources/opening.ht
ml

La relacin lineal es uno de los modelos que puede seguir la relacin


entre dos variables. En este caso, a su vez, la relacin puede ser
positiva (tal como la ejemplificada) o negativa. No obstante, la
relacin podr a tener otra forma (curvilnea, constante, etc.) que
pudiera tener enorme inters terico y prctico, que se trabaja con
tcnicas ms sofisticadas que las que presentaremos en este mdulo.
La siguiente figura ilustra algunas de las situaciones posibles.

Figura: formas de la relacin entre dos variables


Relacin lineal positiva

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|7

Relacin lineal negativa

Relacin cuadrtica entre las


variables

Variables que aparentemente


no poseen relacin

Fuente: Elaboracin propia

Determinacin de la ecuacin de regresin lineal


simple

Hasta el momento hemos visto que podemos sospechar de la


relacin lineal entre las variables, pero no presentamos la manera de
deducir el valor de los valores de los estimadores de la pendiente y la
ordenada al origen en base a datos de una muestra.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|8

El Mtodo de mnimos cuadrados es una manera de obtener la


ecuacin que mejor ajusta a la nube de puntos, justamente
minimizando la suma de los cuadrados de los errores (o residuos).

Figura: Recta de mnimos cuadrados

La ecuacin de la recta

Yi = b0 + b1 X i

Mtodo de Mnimos que mejor ajusta la nube de puntos del grfico de dispersin es la
Cuadrados que minimiza la suma de los cuadrados de los residuos.

Es el mtodo matemtico
que permite encontrar los
Esta manera de obtener los valores de b0 y b1, permite seleccionar
valores de b0 y b1 que
hacen mnimas la una de todas las posibles rectas (algunos ejemplos pueden
sumatoria del observarse en la figura siguiente) que podran ser utilizadas para
cuadrado de las describir la relacin. El mtodo de mnimos cuadrados aporta un
diferencias entre los criterio para determinar esa recta. Este criterio corresponde a
valores observados y el determinar la recta en la cual los valores reales y los valores
obtenido mediante la recta predichos tienen la mnima distancia. Como puede observarse en la
de regresin.
figura previa, la recta de mnimos cuadrados, es la que tiene las
menores distancias totales (ej: la distancia vertical indicada en la
figura). En cuanto a si las diferencias (ej) entre la recta de regresin
y los valores observados, no interesa si las diferencias son por exceso
o por defecto, por lo tanto, se trabaja con la suma de desvos
elevados al cuadrado.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|9

Figura: Otras rectas de regresin posibles

Para obtener los valores de los estimadores de los parmetros de la


recta de regresin, se minimiza la expresin

min e12 = min (Yi Yi ) 2 = min (Yi b0 b1 X i ) 2

Los valores b0 y b1 que minimizan la funcin se obtienen al igualar a


cero las derivadas parciales de la funcin respecto de cada uno de los
parmetros. Tales estimadores verifican tambin la condicin de
segundo orden de un mnimo (estudiada en las materias vinculadas
con el Anlisis Matemtico).
A travs de este proceso se obtienen las denominadas ecuaciones
normales, que permiten despejar las frmulas de clculo de los
estimadores de la pendiente y la ordenada al origen
respectivamente.

Ecuacin I:

Y i = n.b0 + b1 . X i

Ecuacin II:

X Y i i = b0 X i + b1 . X i2

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|10

Si ambas ecuaciones se resuelven como un sistema, se pueden


obtener los estimadores:

Pendiente:

b1 . =
X Y nXY
i i

X nX
i
2 2

Ordenada:

bo . = Y b1 X

Veamos en un ejercicio cmo se aplican todos estos conceptos.

Ejercicio:
Los siguientes datos corresponden a informacin sobre pautas de
consumo de individuos adultos de una ciudad metropolitana.
La variable X indica la edad del individuo (medida en aos),
mientras que la variable Y seala la cantidad de veces que salieron a
comer fuera de su casa, en ocasiones de esparcimiento, en el ltimo
ao. Los datos consideran una muestra reducida de individuos de la
ciudad, por tratarse de un estudio piloto.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|11

Datos del ejercicio


X Y

60 23

62 23

61 25

55 25

53 26

60 26

63 29

53 30

52 30

48 32

49 33

53 31

Descripcin grfica de los datos bivariados


Diagrama de dispersin

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|12

Obtencin de los estimadores de la pendiente y la ordenada al origen


a) Las medias de las variables son:
X = 55,75 aos

Y = 27,75 veces que sale a comer por ao

b) Tabla auxiliar

La siguiente tabla facilita el clculo posterior, debido a la manera en


que se sistematizan los datos:

X Y X2 XY

60 23 3600 1380

62 23 3844 1426

61 25 3721 1525

55 25 3025 1375

53 26 2809 1378

60 26 3600 1560

63 29 3969 1827

53 30 2809 1590

52 30 2704 1560

48 32 2304 1536

49 33 2401 1617

53 31 2809 1643

Suma: 37595 18417

c) Clculo del estimador de la pendiente

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|13

b1 . =
X Y nXY
i i

X nX
i
2 2

18417 12.27,75.55,75
b1 . =
37595 12.(55,75) 2

18417 18564,75
b1 . =
37595 37296,75

b1 . = 0,495
Tal como esperbamos de analizar el grfico de la nube de puntos, la
pendiente de la recta de regresin es negativa.

d) Clculo del estimador de la ordenada al origen


bo . = Y b1 X

bo . = 27,75 (0,495)55,75

bo . = 55,37

Por lo tanto, la ecuacin estimada de la recta es:

Yi = 55,37 0,495. X i

Si queremos usar los resultados para, por ejemplo, predecir la


cantidad de salidas a comer de un consumidor, de por ejemplo, 50
aos, reemplazamos en la ecuacin estimada, el valor de X por este
valor especfico de la variable independiente:

Yi = 55,37 0,495.50

Yi = 30,6 salidas a comer al ao, por esparcimiento

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|14

Figura: Predicciones utilizando la recta de regresin


En una recta de regresin,
para como la indicada,
obtenemos la prediccin
reemplazando en la
ecuacin a X por el valor
que se desee considerar, y
luego realizamos los
clculos indicados en la
ecuacin.
En base a la recta
planteada, cuando X=2,3,
Y predicho ser 2,38

Cuando X=3,65, Y
predicho ser 3,19

Cuando X=4,35, Y
predicho ser 3,61

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|15

Fuente: Elaboracin propia con la herramienta de simulacin


provista por:
http://www.seeingstatistics.com/seeing1999/resources/opening.ht
ml

Predicciones: para interpolar y no para extrapolar


Es muy importante que los valores de X que se utilicen para
predicciones correspondan al intervalo de valores considerados al
calcular los estimadores de los parmetros.
No corresponde aplicar el modelo obtenido a valores de la variable
que excedan los valores considerados en la regresin, ya que nada
asegura que la relacin se mantenga ms all del rango de valores de
estudio.

Error estndar de estimacin


Como se puede observar si en el ejemplo anterior calculan todos los
valores predichos en base al modelo estimado para los valores de X
disponibles, las predicciones basadas en el modelo no son exactas.

X Y Yi Yi Yi (Yi Yi ) 2

60 23 25,637 -2,637 6,951

62 23 24,646 -1,646 2,708

61 25 25,141 -0,141 0,019

55 25 28,114 -3,114 9,694

53 26 29,104 -3,104 9,636

60 26 25,637 0,363 0,132

63 29 24,150 4,850 23,518

53 30 29,104 0,896 0,8022

52 30 29,600 0,400 0,160

48 32 31,581 0,419 0,175

49 33 31,086 1,914 3,663

53 31 29,104 1,896 3,593

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|16

Suma: 0,096 61,057

El error estndar de la estimacin es una medida que informa


cunto varan los datos reales en torno de la recta de regresin.

(Y i Yi ) 2
sYX = i =1

n2

Donde Yi es el valor predicho para el valor Xi.

Para el problema ejemplificado anteriormente, el error estndar de


la estimacin, es:

61,047
sYX =
10

sYX = 2,47

El error estndar de la estimacin es la medida anloga a la


desviacin estndar, y est expresada en la misma unidad de medida
que la variable Y.
Pregunta para reflexin: si el error estndar de la estimacin es
anloga a la desviacin estndar calculada en base a datos
muestrales, por qu cree que en la frmula se divide en n-2?
(Ayuda: piense en el concepto de grados de libertad, y analice a qu
se asocian las prdidas de grados de libertad en este caso).

Bondad de ajuste de la regresin


Una vez que hemos encontrado la recta de regresin, necesitamos
disponer de alguna medida que indique en qu grado es buena (o
no) la representacin que permite hacer la esa recta del conjunto de
puntos iniciales.
Para construir una medida, construiremos algunas sumas de
cuadrados que permitan luego integrar esa medida.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|17

La suma de cuadrados total (SST) indica la variabilidad de los


valores de Y respecto de su media:

n
SST = (Yi Y ) 2
i =1

Figura: Descomposicin de los desvos respecto de la media

Esta suma de cuadrados totales, puede dividirse en la variabilidad


explicada o debida a la regresin (SSR) y variabilidad no explicada
asociada con el error (SSE).
SST = SSR + SSE

Para obtener cada una de estas medidas, aplicamos las siguientes


frmulas de clculo basadas en la parte del desvo respecto de la
media que les corresponde.

Suma de cuadrados debida a la regresin:


n
SSR = (Yi Y ) 2
i =1

Suma de cuadrados debida al error:

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|18

n
SSE = (Yi Yi ) 2
i =1

A partir de estas sumas de cuadrados, se puede definir una medida,


el coeficiente de determinacin o R2, que mide el grado en que
la regresin explica la variabilidad total del conjunto de datos:
SSR
R2 =
SST

Figura: Relacin entre SSR y SSE


En la barra
se indica
qu
proporcin
correspond
e a SSR (en
verde) y a
SSE (en
rosa) de la
variabilidad
total para la
recta
obtenida.

Fuente: Elaboracin propia con la herramienta de simulacin


provista por:
http://www.seeingstatistics.com/seeing1999/resources/opening.ht
ml

Obtengamos ahora el coeficiente de determinacin para el ejemplo


que estbamos desarrollando.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|19

Para ello, completemos la tabla que tenamos, con los desvos que
necesitamos y las respectivas sumas de desvos al cuadrado:

X Y Yi Yi Yi (Yi Yi ) 2 Yi Y (Yi Y ) 2

60 23 25,637 -2,637 6,951 -2,113 4,466

62 23 24,646 -1,646 2,708 -3,104 9,636

61 25 25,141 -0,141 0,019 -2,609 6,806

55 25 28,114 -3,114 9,694 0,364 0,132

53 26 29,104 -3,104 9,636 1,354 1,834

60 26 25,637 0,363 0,132 -2,113 4,466

63 29 24,150 4,850 23,518 -3,600 12,957

53 30 29,104 0,896 0,8022 1,354 1,834

52 30 29,600 0,400 0,160 1,850 3,422

48 32 31,581 0,419 0,175 3,831 14,679

49 33 31,086 1,914 3,663 3,336 11,128

53 31 29,104 1,896 3,593 1,354 1,834

Suma: 0,096 61,057 73,195

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|20

X Y Yi (Yi Yi ) 2 (Yi Y ) 2 Yi Y (Yi Y ) 2

60 23 25,637 6,951 4,466 -4,75 22,5625

62 23 24,646 2,708 9,636 -4,75 22,5625

61 25 25,141 0,019 6,806 -2,75 7,5625

55 25 28,114 9,694 0,132 -2,75 7,5625

53 26 29,104 9,636 1,834 -1,75 3,0625

60 26 25,637 0,132 4,466 -1,75 3,0625

63 29 24,150 23,518 12,957 1,25 1,5625

53 30 29,104 0,8022 1,834 2,25 5,0625

52 30 29,600 0,160 3,422 2,25 5,0625

48 32 31,581 0,175 14,679 4,25 18,0625

49 33 31,086 3,663 11,128 5,25 27,5625

53 31 29,104 3,593 1,834 3,25 10,5625

Suma: 61,057 73,195 0 134,25

La suma de cuadrados debida a la regresin:


n
SSR = (Yi Y ) 2
i =1

SSR = 73,195

La suma de cuadrados debida al error:


n
SSE = (Yi Yi ) 2
i =1

SSE = 61,067
La suma de cuadrados total:
n
SST = (Yi Y ) 2
i =1

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|21

SST = 134,25

El coeficiente de determinacin:
SSR
R2 =
SST

73,195
R2 =
134,25

R 2 = 0,545

Por lo tanto, la regresin a travs de la recta obtenida, explica el


54,5% de la variabilidad total de la variable Y observada.

6.2 ANLISIS DE CORRELACIN


El objetivo del anlisis de correlacin es cuantificar la intensidad
de relacin lineal entre dos variables cuantitativas.

El coeficiente de correlacin, r es un indicador que se ubica en el


intervalo [-1, 1], donde estos valores extremos indican correlaciones
exactas entre las variables:

-1 Correlacin negativa perfecta

1 Correlacin positiva perfecta

En problemas orientados a la regresin, el coeficiente de


correlacin, r, puede obtenerse a partir del coeficiente de
determinacin:

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|22

r = R2

En estos casos, en que corresponda a una regresin, el signo de r


ser el signo de b1.

Sin embargo, en muchas ocasiones hacemos un anlisis de


correlacin independiente del anlisis de regresin. En particular,
debido a que el anlisis de correlacin no exige fijar a ninguna de las
variables como dependiente de la otra.

Diferentes grados de correlacin

En este caso, existe una


correlacin negativa
perfecta.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|23

Vemos una correlacin


negativa, que si bien no
es perfecta es claramente
una correlacin fuerte
entre las variables.

El grado de relacin es
inferior.

La correlacin negativa
es menos intensa.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|24

Este grfico ilustra una


situacin en la cual no
hay correlacin lineal
entre las variables.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|25

Si bien existe una


correlacin lineal
positiva, sta es muy
dbil.

La correlacin es algo
mayor que en los casos
anteriores.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|26

Ahora vemos una


correlacin positiva
fuerte.

Una correlacin positiva


an mas marcada.

Y, finalmente, una
correlacin positiva
perfecta entre las
variables.

Fuente: Elaboracin propia con la herramienta de simulacin


provista por:
http://www.seeingstatistics.com/seeing1999/resources/opening.ht
ml

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|27

Tras analizar estos grficos, con su conocimiento de estadstica, qu


informacin est faltando? Haga un comentario crtico al respecto.

En los casos en los cuales no se aplica el anlisis de regresin, el coeficiente


de correlacin se calcula a travs de las siguientes frmulas:

Opcin 1:

(X i X )(Yi Y )
r= i =1
n n

(X
i =1
i X )2 . (Y
i =1
i Y )2

Opcin 2:
n

X Y i i nX .Y
r= i =1
n n

X i2 nX 2 .
i =1
Y
i =1
i
2
n.Y 2

Supuestos del anlisis de regresin

Los supuestos en este caso, son similares a los que mencionamos para el
ANOVA.

Los cuatro supuestos bsicos que deben controlarse son:

1. Normalidad
Es necesario que los valores de Y se distribuyan de manera normal
para cada valor de X. No obstante, el anlisis de regresin es
bastante robusto en cuanto a este supuesto, en tanto la distribucin
no sea demasiado asimtrica.

A travs de grficos Q-Q o P-P, que tienen en cuenta la prueba de


normalidad de Kolmogorff-Smirnov es posible diagnosticar la
normalidad de las distribuciones.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|28

2. Homocedasticidad
Para cada nivel de la variable X, la variabilidad o dispersin de los
valores de Y debe ser la misma. Es muy importante el cumplimiento
de este supuesto para la aplicacin del mtodo de mnimos
cuadrados ordinarios. Este supuesto es ms frecuentemente
vulnerado en los estudios de corte transversal.

Existen diferentes herramientas para diagnosticarla, una de ellas es


la prueba de Levene sobre igualdad de varianzas.

3. Independencia de error
Los residuos o errores (diferencia entre el valor observado y el
predicho) no debe estar correlacionado con el valor de X. Este
supuesto se ve afectado con frecuencia en los estudios de series de
tiempo.

Para verificar su cumplimiento, se analiza el estadstico Durbin


Watson (DW). Este indicador toma el valor de 2 cuando los residuos
son completamente independientes, en tanto si el DW resulta
inferior a 2, indica autocorrelacin positiva, y si DW es mayor que
dos, hay autocorrelacin negativa.

4. Linealidad
La relacin entre X e Y es lineal.

Como medida de diagnstico se recomienda el anlisis grfico de la


nube de puntos a travs de los diagramas de dispersin.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|29

Ejercicios

Resuelva los siguientes ejercicios, si tiene dudas o consultas, envelas a su


tutor virtual.

1. Con los siguientes datos, plantee y resuelva 2 problemas


distintos de regresin lineal
Anexo de Ejercitacin

Adems de estos ejercicios,


Ud. encontrar en el anexo Empleo (en miles) Turismo: Turismo:
del mdulo una gua de
ejercicios y sus Nmero de viajeros (miles) Estancia media
respectivas soluciones.
Le recomendamos que 28,4 11.902,5 3,1
realice toda la ejercitacin
posible para identificar con 3,6 1.848,0 2,1
claridad las situaciones en
las que se aplica cada 2,4 1.088,2 2,3
prueba estudiada.
25,9 6.716,0 7,2

27,2 4.875,7 7,8

2,0 933,8 2,4

6,2 3.647,6 1,7

2,8 1.805,1 1,7

23,5 10.771,7 3,4

13,4 5.579,7 3,9

2,2 1.000,7 1,7

6,3 3.040,5 2,1

10,7 5.748,9 2,1

2,0 882,5 3,0

1,1 557,7 2,0

3,2 1.540,6 1,9

0,7 446,2 1,8

Los datos corresponden a distintas ciudades tursticas del un pas.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|30

Empleo: indica el nmero de personas en cada ciudad que tienen un empleo


asociado con el turismo.

La variable nmero de viajeros, indica la cantidad total de viajeros o


turistas que le ciudad recibe por ao

La estancia media indica cuntos das en promedio, permanece un turista


en la ciudad.

Actividades:

1. Determine si existe correlacin entre la series.


2. Relacione las variables y trate de armar una vinculacin entre dos
variables de las listadas, en las cuales pueda existir una causalidad.
3. Plantee el modelo de regresin lineal simple a estimar
4. Grafique la nube de puntos a travs de un diagrama de dispersin
5. Obtenga los estimadores de los parmetros del modelo
6. Calcule una medida de bondad de ajuste y explique su significado

2. Con la siguiente informacin, analice la correlacin


entre las variables

Ao PIB Consumo Hipotecas Viviendas Empleo


construccin de (valores a
Cemento constantes) Construir

1995 403.822 296.432 162.909 3.383 65.294

1996 377.465 287.559 179.347 3.607 63.612

1997 396.944 310.719 215.490 5.116 64.268

1998 451.070 349.314 277.880 6.375 75.728

1999 529.679 373.310 344.324 6.264 86.031

2000 593.644 444.370 390.794 7.486 90.260

2001 638.578 501.691 428.410 7.763 97.318

2002 702.334 485.614 534.140 7.910 103.272

2003 723.412 497.092 698.667 7.822 107.684

2004 743.513 504.946 806.633 7.132 110.478

2005 775.183 507.362 958.913 10.496 115.640

2006 818.717 525.357 1.121.994 12.966 125.699

2007 531.342 1.318.888 14.906 137.097

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|31

Obtenga los coeficientes de correlacin entre las series y explique su


significado.

3. La tabla siguiente resume las puntuaciones de 10


individuos (N=10) en dos variables X e Y.

X Y

1 1

2 4

3 9

4 16

5 25

-5 25

-4 16

-3 9

-2 4

-1 1

Actividades:

a. Calcular el coeficiente de correlacin de Pearson


b. En este caso el coeficiente calculado es adecuado para
representar el patrn de covariacin que muestran los
datos?. por qu?. Ayuda: construya el diagrama de
dispersin. Elabore una conclusin
c. Qu relacin podra estar descripta por esas variables?
Indicar un ejemplo.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|32

4. La tabla siguiente recoge las puntuaciones de 10


individups (N=10) en dos variables X e Y.

X Y

1 2

2 4

3 6

4 8

5 10

6 12

7 14

8 16

9 18

10 20

Actividades:

a. Calcular el coeficiente de correlacin de Pearson


b. En este caso el coeficiente calculado es adecuado para
representar el patrn de covariacin que muestran los
datos?. por qu?. Ayuda: construya el diagrama de
dispersin. Elabore una conclusin
c. Qu relacin podra estar descripta por esas variables?
Indicar un ejemplo.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|33

5. La tabla siguiente recoge las puntuaciones de 10


individuos (N=10) en dos variables X e Y.

X Y

4 5

4 6

4 4

4 5

4 6

4 7

4 4

4 3

4 5

10 15

Actividades:

a. Calcular el coeficiente de correlacin de Pearson


b. En este caso el coeficiente calculado es adecuado para
representar el patrn de covariacin que muestran los
datos?. por qu?. Ayuda: construya el diagrama de
dispersin. Elabore una conclusin
c. Qu relacin podra estar descripta por esas variables?
Indicar un ejemplo.
d. En base a los ejercicios 3, 4 y 5, elabore una conclusin
general.

6. En una muestra de 10 personas se obtuvo informacin


referida al grado de extroversin, y se desea evaluar su
posible relacin lineal con la dimensin de
personalidad estabilidad emocional. Estas variables se
han medido a travs un test y se han obtenido las
puntuaciones para cada sujeto en una escala de 0 a 10.
Los valores obtenidos se presentan en la siguiente
tabla:

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|34

Sujetos X: Grado de Y: Estabilidad


Extroversin Emocional

1 5 6

2 10 6

3 4 3

4 7 8

5 6 6

6 5 3

7 4 5

8 4 9

9 4 10

10 3 9

Actividades

a. Realice un diagrama de dispersin. Sugerencia: intente hacerlo


usando alguna herramienta informtica como Excel.
b. Estime la ecuacin de regresin lineal simple.
c. Cul es el nivel de estabilidad predicho para un sujeto cuyo
grado de extroversin es cero?. Este valor corresponde a algn
coeficiente de la recta calculada?
d. En cunto se diferenciaran las puntuaciones ajustadas de dos
sujetos con puntuaciones consecutivas en grado de extroversin?
Este valor corresponde a algn coeficiente de la recta
calculada?
e. Complete la tabla anterior aadiendo para cada sujeto su
puntuacin predicha ( Y ) y el error cometido.
f. Identifique al sujeto mejor ajustado por la relacin lineal
estimada y al peor.

7. Se obtienen los siguientes estadsticos con las notas de


100 alumnos en las asignaturas X= Estadstica 1, e Y=
Estadstica 2.

(X X ) (Y Y ) (X X )(Y Y ) = 300
2 2
X = 6, Y = 7, = 360, = 240,

a. Estimar la ecuacin de regresin de Y sobre X

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|35

8. Con los datos de una muestra de 300 individuos hemos


estimado la ecuacin de regresin que relaciona aos
trabajados y estrs laboral y hemos obtenido la
siguiente ecuacin:

Y = 10 + 0,05 X

Tenga en cuenta que:

la escala de estrs puede tomar valores entre 1 y 30


que la media fue de 15

Indicar cules de las siguientes afirmaciones son correctas y justificar:

a) A mayor nmero de aos trabajados mayor estrs.

b) 0,05 es la media de estrs de los sujetos que no trabajan

c) A mayor nmero de aos trabajados menor es el estrs.

d) -10 es el estrs medio estimado de aquellas personas que no


trabajan

e) El ao prximo, si sigues trabajando, tu nivel medio de estrs se


incrementar en 0,05 puntos.

9. A un propietario de departamentos para alquilar le


interesa averiguar si la renta de sus departamentos son
tpicas
Para ello, ha escogido una muestra aleatoria de 11
alquileres y del tamao de los departamentos de
edificios similares. Los datos se transcriben a
continuacin.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|36

Renta Nmero de
habitaciones

230 2

190 1

450 3

310 2

218 2

185 2

340 2

245 1

125 1

350 2

280 1

a. Desarrollar el modelo de regresin lineal simple que mejor


describa estos datos e interpretar los coeficientes de regresin.

b. Graficar los datos y ajuste al grafico la lnea recta obtenida.

c. Calcular, interpretar los coeficientes de correlacin y de


determinacin, y estimar la renta de un departamento de 2
habitaciones.

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|37

10. Un encargado de costos desea predecir los costos C (en


millones de pesos), basndose en la cantidad de
insumos de materias primas M (cientos de kilos) que
recibe un fabricante de pantalones.

Costos Materia prima

10 25

7 20

5 16

6 17

7 19

6 18

a. Determinar el modelo de regresin lineal simple.


b. Graficar la nube de puntos y la recta de regresin obtenida
c. Obtener un indicador de bondad de ajuste y explicarlo

11. Una cadena nacional de tiendas ha tenido grandes


fluctuaciones en sus ingresos durante los ltimos aos.
Bastantes ofertas, nuevos productos y tcnicas de
publicidad se han utilizado durante este tiempo, por lo
cual es difcil determinar cules de esos factores tienen
la influencia ms profunda en las ventas.

El rea de marketing ha estudiado varias relaciones y


piensa que los gastos mensuales destinados a carteles
pueden ser significativos. Realiz una muestra de 7
meses y descubri lo siguiente:

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|38

Gasto mensual en carteles (en Ingresos mensuales por venta


miles de pesos)
(millones de pesos)

250 340

260 140

420 480

340 320

100 260

210 290

190 200

a. Desarrollar el modelo de regresin lineal simple que mejor


describa estos datos y calcular el error estndar de
estimacin.

12. En la contabilidad de costos, con frecuencia se trata de


estimar los gastos indirectos basndose en el nmero
de unidades producidas. La gerencia de una empresa
manufacturera, ha reunido informacin sobre esos
gastos y las unidades producidas en diferentes plantas
y le gustara estimar una ecuacin de regresin para
predecir los gastos indirectos en el futuro.
Gastos indirectos (en miles de Unidades producidas (en
pesos) miles)

191 40

170 42

272 53

155 35

280 56

173 39

234 48

116 30

153 37

178 40

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|39

a. Desarrollar la ecuacin de regresin

b. Interpretar los parmetros del modelo

c. Estimar el gasto general cuando se producen 50 unidades.

d. Calcular e interpretar el error estndar de estimacin, los


coeficientes de correlacin y de determinacin.

13. Qu tipo de correlacin (positiva, negativa o cero)


debemos esperar de estas variables?

a) Capacidad de los supervisores y productividad de sus


subordinados

b) Antigedad en su trabajo de tiempo completo y nmero de aos


de escolaridad

Bibliografa Lectura 4
Berenson & Levine (1996). Estadstica para administracin y
economa. Sexta Edicin. Ed. Prentice Hall Hispanoamericana. Mxico.

www.uesiglo21.edu.ar

Materia:HerramientasMatemticasV(EstadsticaII)
Profesora:Mgter.VernicaHerrero|40

Das könnte Ihnen auch gefallen