Beruflich Dokumente
Kultur Dokumente
Análisis de Regresión
Múltiple
Estadística
Objetivos
18/08/2009
UNI Norte
Luis María Dicovskiy Riobóo
1
Contenido
Correlación....................................................................................................................... 1
Regresión ......................................................................................................................... 3
Ecuación de Regresión Lineal ................................................................................... 4
Análisis de Regresión Múltiple ................................................................................... 9
Coeficientes de Correlación Parcial y Múltiple ........................................................... 10
Cálculo de los estimadores “b” de la ecuación de Regresión Múltiple ................... 13
Pruebas de Hipótesis de Correlación y Regresión .................................................... 16
Referencias .................................................................................................................... 21
Correlación
Es frecuente que estudiemos sobre una misma población los valores de dos o más
variables estadísticas distintas, con el fin de ver si existe alguna relación entre
ellas, es decir, si los cambios en una o varias de ellas influyen en los valores de la
variable dependiente. Si ocurre esto decimos que las variables están
correlacionadas o bien que hay correlación entre ellas. Este tipo de análisis
funcione bien cuando las variables estudiadas son continuas, no es adecuado usar
esta prueba con variables del tipo nominal.
1
2
entre dos variables. El valor del coeficiente de correlación puede tomar valores
desde menos uno hasta uno, -1 < r < 1, indicando que mientras más cercano a
uno sea el valor del coeficiente de correlación, en cualquier dirección, más fuerte
será la asociación lineal entre las dos variables. El coeficiente de correlación de
cálculo “r” es un estimador muestral del coeficiente poblacional Rho, .
Mientras más cercano a cero sea el coeficiente de correlación, este indicará que
más débil es la asociación entre ambas variables. Si es igual a cero se concluirá
que no existe relación lineal alguna entre ambas variables. Hay varias maneras de
equivalentes de calcular “r”, a continuación se muestran tres formas.
XY
r
XY
Siendo: “σXY” la covarianza de (X,Y) y “σX, σY” las desviaciones típicas de las
distribuciones de las variables independiente y dependiente respectivamente.
r
X X Y Y 2
X X 2 Y Y 2
2
3
XY
X Y
n
r
X 2
Y 2
X 2
n
Y 2
n
Regresión
3
4
hijos que heredaban parte de esta altura, pero los datos revelaban también una
tendencia a regresar a la media.
Los tipos de regresión más comunes entre dos variables son las del tipo
polinómico como la regresión: lineal, cuadrática y cúbica. La primera regresión
genera una recta, las otras diferentes tipos de parábolas. Otros tipos de regresión
que se pueden usar con dos variables son la logarítmica y la exponencial, la
regresión logarítmica permite transformar una curva en una línea recta. Cuando
hay más de una variable independiente “x”, la regresión más utilizada en la
regresión múltiple. A continuación se expresan matemáticamente los diferentes
modelos comentados:
REGRESIÓN ECUACIÓN
Lineal 𝑦 = 𝛽0 + 𝛽1 𝑋
Logarítmica 𝑦 = 𝛽0 + 𝛽1 𝐿𝑛(𝑋)
Exponencial 𝑦 = 𝛽0 𝑒 𝛽1 𝑥
Cuadrática 𝑦 = 𝛽0 + 𝛽1 𝑋 + 𝛽2 𝑥 2
Cúbica 𝑦 = 𝛽0 + 𝛽1 𝑋 + 𝛽2 𝑥 2 + 𝛽3 𝑥 3
4
5
los cuadrados de las distancias verticales entre los valores verdaderos de "y", los
observados y los valores estimados 𝑦 . Se debe notar que el valor observado
menos el valor estimado genera un residuo que llamaremos error, este residuo o
error, es la distancia que hay del valor observado a la recta de regresión. El error
de cada dato se encuentra de la siguiente manera:
𝑦𝑖 − 𝑦𝑖 = 𝜀𝑖
A i también llamado error aleatorio puede ser negativo o positivo. El error
calculado a partir de muestras se simboliza con la letra “e”. Una propiedad de los
errores es que La esperanza de los errores vale 0. 𝐸 𝑒𝑖 = 0. El promedio de
los errores es iguales a cero, al igual que la sumatoria de los mismos.
XY X Y
n
Yˆ X
X 2
X2
n
Yˆ b1 X
XY n
X Y
b1
X 2
X 2
n 5
6
Yˆ Y b1X X
Que puede replantearse como:
Yˆ Y b1 X b1 X
De tal manera que la ordenada al origen, cuando “X” vale 0, “b 0”, queda definida
de la siguiente manera:
Yˆ b0 Y b1 X
Ejemplo de regresión correlación lineal:
Matemáticas 2 3 5 5 6 6 7 7 8 9
Español 2 2 5 5 6 7 5 8 7 10
6
7
Gráfico de Dispersión.
10
8
Español
2
2 4 6 7 9
Matemáticas
375 (58)57
2
r 10
0.919
2 2
378 58 10 381 57 10
Este valor de “r” de 0.919 nos dice que hay una alta correlación entre las notas de
matemáticas y español.
Para hacer la recta de regresión debemos calcular:
375 (58)57
b1 10 1.0673
2
378 58
10
7
8
Regresión simple
10
8
Español
1
2 4 6 7 9
Matemáticas
8
9
Gráfico QQ plot
1.51
0.63
-0.24
-1.12
-2.00
-2.00 -1.12 -0.24 0.63 1.51
Cuantiles de una Normal
9
10
valor estimado.
Donde εik es el desvío o error de cada observación, este valor hace único a cada
dato.
10
11
En el caso de tres viables, la correlación parcial entre “Y” y “X 1”con un “X2” fijo se
denota “ryx1.x2”, y se calcula a partir de las correlaciones simples de la siguiente
manera:
11
12
𝒏
𝒊=𝟏(𝒚 − 𝒚)𝟐
𝒓𝒚.𝒙𝟏 𝒙𝟐..𝒙𝒌 = 𝒏
𝒊=𝟏(𝒚 − 𝒚)𝟐
1 ry2. x1 x2 x3 .....xk (1 ryx2 1 )(1 ryx2 2 . x1 )(1 ryx2 3 .x1 x2 )....(1 ryx2 k .x1 ....xk 1 )
12
13
Se debe notar que en este ejemplo para hacer ry.x1.x2 es necesario calcular
previamente tres correlaciones simples de dos variables. Al hacer la raíz se debe
respetar el signo del numerador
b0 b1 x1 b2 x2 yˆ
Y se construye un sistema de ecuaciones normales
b0 n b1 x1 b2 x2 yˆ
b0 x1 b1 x12 b2 x2 x1 yˆx1
b0 x2 b1 x1 x2 b2 x22 yˆx2
Si se plante la ecuación en términos de desviaciones respecto a la media
( x x) 0
1 , como la suma de las desviaciones es 0, entonces
x x
1 2 y 0 . Esto implica que se anula el primer término de las tres
13
14
Para poder resolver una regresión múltiple se puede usar una calculadora de
mano que tenga incorporada la función de regresión y permita calcular
directamente suma de cuadrados y suma de productos de los valores de “x y”.
Para esto se deben utilizar las siguientes igualdades conocidas:
x) 2
x x x x y y xy n
( x y
2
x2
n
Ejemplo: Hay una hipótesis que sugiere que el consumo de un producto dado,
expresado en unidades compradas por persona en un año está influido por: el
ingreso por persona que trabaja y el tamaño de habitantes de la ciudad. Hacer
estudio de regresión u correlación para responder a la suposición.
Datos
14
15
0.6 32 8
b0 y b1 x1 b2 x2
b0 = 9.875 – (-0.27) 1.95 – (0.28) 27.25 = 2.78
15
16
H1 : 0
n2
" t calculado" r
1 r2
Ejemplo con los datos del problema de regresión y correlación con las asignaturas
de “matemáticas y español” donde:
10 2
" t calculado" 0.915 6.59
1 .0.915 2
El valor 6.59 es mayor que el valor “t” de tabla de 2.3, por lo tanto se acepta como
era de esperar la hipótesis alternativa, Rho es diferente de 0.
16
17
H1 : no _ todos _ los _ 0
𝒏 𝟐
𝒊=𝟏(𝒚 − 𝒚)
𝒓𝟐𝒚.𝒙𝟏 𝒙𝟐 ..𝒙𝒌 = 𝒏 𝟐
𝒊=𝟏(𝒚 − 𝒚)
17
18
H1 : i 0
bi
Donde: t calculado
S bi
Ejercicio
Tomar en clase el peso y la altura de 10 personas, hacer el gráfico de dispersión,
calcular el coeficiente de correlación y la recta de regresión de estos datos.
Ejercicio
Hay una hipótesis de investigación que sugiere que el gasto en comida por familia,
expresado en C$ por mes, está influido directamente por el ingreso familiar
mensual en C$. Haga estudio de regresión y correlación de las dos variables.
Trabaje con calculadora.
18
19
Tabla de datos
Ingreso observado por Gasto observados en
familia, en cientos C$ alimentación, en cientos C$
30 21
34 26
17 5
26 19
29 18
18 7
32 23
32 25
Ejercicio
En una industria de alimentos, quieren saber si se puede predecir la gravedad
específica de los tubérculos de papa, “y” a partir de la cantidad de nitrógeno, “x1”,
y fósforo, “x2”, que poseen las mismas. Esta información permitirá al gerente de
una empresa industrial de alimentos, plantear un plan de fertilización para hacer
mejores chips. Para este análisis se tienen 20 datos de 20 tubérculos tomados al
azar.
19
20
Datos
X2 X2
“Y” Gravedad X1 p.p.m p.p.m “Y” Gravedad X1 p.p.m p.p.m
Específica Nitrógeno Fósforo Específica Nitrógeno Fósforo
2 96 40 82 36 25
14 82 36 83 73 15
15 121 30 91 58 26
15 88 42 97 31 25
16 100 28 98 38 24
27 114 26 101 56 11
48 71 33 128 24 22
54 94 26 140 37 11
58 74 15 163 10 24
68 36 35 179 14 10
Ejercicio
Se hizo un estudio correlación múltiple con 4 variables independientes, que se
cree sirven para caracterizar el valor de venta de un producto industrial. Las
20
21
variables independientes son “vida útil del producto”, “Resistencia del producto”,
“apreciación visual de la calidad” y “precio de costo del producto”. La variable
dependiente era “valor de venta”, fijado por los compradores. Se hizo la regresión
y el análisis de variancia de la regresión
Análisis de Variancia de la regresión
Modelo Suma de Grados de Cuadrado “F”
Cuadrados Libertad Medio
Regresión 18.5 4
Residual 12.0 20
Total 30.5 24
Nota: el valor F de tabla es 2.87
Plantee las 2 hipótesis correspondientes del ANDEVA para una regresión múltiple,
con 4 variables independientes.
Complete la Tabla de ANDEVA, el valor “F” de tabla es 2.71
Interprete el valor “F” del ANDEVA y responda a la prueba de hipótesis.
Referencias
Sifuentes, V. 2002. Curso Análisis Multivariante aplicado a la industria pesquera.
IMARPE.
Daniel, W. 2006. Bioestadística. Base para el análisis de las ciencias de la salud
4ta Edic. Edit Limusa Wiley. 924 p
Little T y Hills, J. 1990. Métodos estadísticos para la investigación en la agricultura.
Edit Trillas. 270 pp.
Ross, S. 2002. Probabilidad y estadística para ingenieros. Ed Mc Graw Hill. 585 pp.
21