Sie sind auf Seite 1von 7

Estadística en Ingeniería

Práctica Nro 2: Análisis de Regresión y Correlación


Apellidos y Nombres:................................................................................
Fecha: ...................... Hora: ............................... Aula: ........................

I. Objetivos
1. Conocer los principios teóricos del análisis de regresión y correlación.
2. Interpretar el diagrama de dispersión.
3. Calcular, analizar e interpretar el coeficiente de correlación.
4. Calcular, analizar e interpretar el coeficiente de determinación.
5. Realizar pruebas de hipótesis para los coeficientes de la ecuación de regresión
poblacional.

II. Marco Teórico

1. Coeficiente de Correlación
La correlación es el método es el método empleado para determinar el grado de
relacionamiento entre las variables que se estudian, para así determinar en que medida
una relación funcional describe o explica de una forma adecuada la relación entre estas
dos variables Se usa el término correlación cuando se habla de relaciones entre
variables de experimentos bivariantes.
Los diversos tipos de correlación que existen pueden ser:

Coeficiente de correlación lineal de Pearson


Es una medida del grado de asociación lineal entre las variables X e Y. Es un numero
abstracto y se representa por r:

S XY nΣXY − ( ΣX )( ΣY )
r= =
σ XσY ( nΣX 2 − ( ΣX )2 )( nΣY 2 − ( ΣY )2 )
Donde:
n
SXY = Covarianza de X e Y.
∑ ( x − x )( y − y )
i =1
i i
σ X = Desviación estándar de X. S XY =
n
σ Y = Desviación estándar de Y.
Propiedades
• r está siempre comprendido entre -1 y 1.
• Si r = 1 ó r = -1 entonces los puntos de la muestra están situados en línea recta
(correlación lineal perfecta).
• Si r está próximo a 1 ó a -1, habrá una asociación lineal fuerte entre ambas variables.
• Si r es cercano a 0, habrá una asociación lineal muy débil.
• r no varía cuando en las variables se realiza un cambio de escala o de origen. Esto
demuestra que r no tiene dimensión.

Docente: Ing. Ferly Urday Luna 1


Estadística en Ingeniería

Dos consideraciones sobre el coeficiente de correlación.

1. Se trata de una medida matemática que luego hay que interpretar. Aunque un alto
grado de correlación indique buena aproximación a un modelo matemático lineal, su
interpretación puede no tener ningún sentido. Por ejemplo puede haber un alto grado
de correlación entre las ventas de celulares y el consumo de alcohol en Arequipa,
pero ambas variables están claramente disociadas.

2. Aunque el grado de correlación sea cercano a cero (pobre aproximación al modelo


lineal) eso no significa que no haya relación entre las dos variables. Puede ser que
dicha relación sea no lineal.

2. Coeficiente de determinación
El coeficiente de determinación se calcula elevando al cuadrado el coeficiente de
correlación y representa el porcentaje de la variación explicada por la recta de regresión.
El coeficiente de determinación r2, es una medida de la proximidad del ajuste de la recta
de regresión; cuanto mayor sea el valor de r2, mejor será el ajuste y mas útil la recta de
regresión como instrumento de predicción. (r2 = 0.92 indica que de 100 pares de puntos
92 están en la recta de regresión y 8 fueran de la recta de regresión)
Cuando el n es pequeño se debe calcular el coeficiente de determinación corregido.
CME
R 2=R 2=1-
CMT

3. Método de mínimos cuadrados para encontrar la ecuación de regresión


Recordemos que el análisis de regresión lo que persigue es determinar la relación
funcional de la variable dependiente Y con respecto a la variable independiente X con el
fin de predecir valores de Y.

A continuación desarrollaremos un modelo matemático (ecuación de la línea) para


expresar la relación entre dos variables y para estimar el valor de la variable dependiente
Y basándonos en el valor de la variable independiente X. La técnica que se utiliza para
desarrollar la ecuación de la línea y hacer estas predicciones, se le llama análisis de
regresión.
El principio matemático con base con el cual se traza la ecuación de la línea y se
predicen los valores de Y, se conoce con el nombre de mínimos cuadrados. Este
principio consiste en trazar una línea sobre la gráfica de dispersión de los valores de
modo que la suma de los cuadrados de la distancia vertical entre el valor real de Y y su
valor predictorio, sea la cantidad más pequeña posible.
Entonces la ecuación lineal que se tiene que encontrar es:
Y* = a + bX
Donde:

Y*= Se lee Y asterisco, es el valor predictorio de la variable Y para un valor


seleccionado de X.
a= Es la intersección con el eje Y. Es el valor estimado de Y cuando X = 0.
b= Es la pendiente de la línea, o el cambio promedio en Y* por cada cambio en
una unidad de la variable independiente X.
X= Es el valor que se escoge para la variable independiente.
A los valores a y b se les conoce como coeficientes de regresión y se calculan
con las siguientes fórmulas:
nΣxy − ΣxΣy
Σy − bΣx b=
a= nΣx 2 − ( Σx )2
n
Docente: Ing. Ferly Urday Luna 2
Estadística en Ingeniería

4. Varianza de la regresión poblacional σ2.


Una vez que se ha determinado la recta de regresión Y = a + bX es de suma prioridad
saber su utilidad, siendo esta la de predecir valores de Y para valores determinados de
X. Si se hace una predicción seria razonable conocer la respuesta de la interrogante:
¿Qué tan confiable es la predicción que se acaba de determinar?
La respuesta a la pregunta anterior depende de la variabilidad de los valores de Y con
respecto a la recta de regresión.
Una medida que indica el grado de variabilidad o dispersión o concentración en torno a
la línea de regresión es la varianza de la regresión poblacional, que se denota por σ2 o
por σ Y2 y se define por:
X
N 2

∑( y − µ i Y ) Donde N es el tamaño
2
(
σ = E Y − µY
X
)= i =1

N
X
de la población

La raíz cuadrada de esta varianza es la regresión estándar de la regresión en la


población. Una estimación insesgada de σ2 es la varianza de la regresión muestral que
se denota por s2 y se define por:
n 2 n n n

SCE ∑( yi − y i ) ∑ yi2 − a∑ yi − b∑ xi yi
s2 = = i =1
= i =1 i =1 i =1

n−2 n−2 n−2


Donde, el numerador es la suma de los cuadrados de los errores alrededor de la línea de
regresión y el denominador, n-2, representa los grados de libertad (se le quitan 2 valores
a n porque corresponden al numero de coeficientes de regresión).

La raíz cuadrada de la varianza de la regresión muestral, es la desviación estándar


muestral de la regresión, denotada por s. Este valor es conocido también como error
estándar de estimación.

5. Análisis de la varianza para β


El análisis de la varianza es un método que utiliza la estadística F para probar la
significación de la ecuación de regresión muestral o existencia de regresión en la
población.
Las hipótesis nula y alternativa para esta prueba son:

H0: β = 0 contra H1: β ≠ 0

Se siguen todos los pasos para el análisis de la varianza de más de dos medias
poblacionales, resumiéndose los cálculos en la siguiente tabla:

Fuente de Suma de Grados de Cuadrados Razón F


Variación Cuadrados Libertad Medios calculada
SCR
CMR = CMR
Regresión SCR 1 1 Fcal =
CME
SCE
Error SCE n-2 CME =
n−2

Total SCT n-1

Donde:

Docente: Ing. Ferly Urday Luna 3


Estadística en Ingeniería

SCT=Σy2 -n(y)2 SCR=b ( Σxy-n(x)(y)) SCE=SCT-SCR

6. Intervalo de confianza para la media de Y

1 (x0 -x)2
y0 ± t 0 s +
n Σ(xi -x)2

Donde: t0 =tn-2;α es un valor t de student con n - 2 grados de libertad.


7. Intervalo de predicción para y0.
2
ˆ 0 ±t0s 1+ 1 + (x0 -x) 2
y
n Σ(xi -x)

III. Actividades
Resolver los siguientes ejercicios

1. ¿Cuál de las siguientes situaciones es inconsistente?


a) Y = 499 + 0.21X y r = 0.75
b) Y = 100 + 0.9X y r = -0.70
c) Y = -20 + 1X y r = 0.40
d) Y = -7 - 4X y r = -0.90

2. Las ganancias de AT&T (American Telephone and Telegraph) en miles de millones de


dólares se estiman mediante el GNP (gross national product, Producto Nacional Bruto).
La ecuación de regresión es Y = 0.078 + 0.06X donde el GNP se mide en miles de mi-
llones de dólares.
a) Interprete la pendiente.
b) Interprete la intersección con el eje Y.

3. Considere los datos en la tabla P.3, donde X = gastos semanales de publicidad e Y =


Ventas semanales en cientos de dólares.
a) ¿Existe una relación significativa entre los gastos de publicidad y las ventas?
b) Determine la ecuación de predicción.
c) Pronostique las ventas para un gasto de publicidad de 50 dólares.
d) ¿Qué porcentaje de la variación en ventas se puede explicar con la ecuación de
predicción?
e) Mencione la cantidad de la variación no explicada.
f) Obtenga la cantidad de la variación total.

Tabla P.3
Y X Y X
1250 41 1300 46
1380 54 1400 62
1425 63 1510 61
1425 54 1575 64
1450 48 1650 71

4. El tiempo requerido para que los clientes paguen en el supermercado y los valores
correspondientes de las compras se muestran en la tabla P.4. Conteste los incisos a), b),

Docente: Ing. Ferly Urday Luna 4


Estadística en Ingeniería

e) y f) del problema 3 utilizando estos datos. Proporcione un estimado puntual y un


intervalo estimado de 99% para Y sí X = 3.0.

Tabla P.4
Tiempo Tiempo
requerido para Valor de la requerido para Valor de la
pagar en caja compra (dólares) pagar en caja compra (dólares)
(minutos) (minutos)
3.6 30.6 1.8 6.2
4.1 30.5 4.3 40.1
0.8 2.4 0.2 2.0
5.7 42.2 2.6 15.5
3.4 21.8 1.3 6.5

5. Lori Franz, supervisora de mantenimiento de Baltimore Transit Authority, quisiera


determinar si existe una relación positiva entre los costos anuales de mantenimiento de
un autobús y su edad. Si existe tal relación, Lori cree que puede hacer un mejor trabajo
si pronostica el presupuesto anual para el autobús. Ella recopiló los datos dé la tabla P.5.
a) Grafique un diagrama de dispersión.
b) ¿Qué clase de relación existe entre estas dos variables?
c) Calcule el coeficiente de correlación.
d) Determine la recta de mínimos cuadrados.
e) Pruebe la significancia de la pendiente de la regresión en el nivel de significancia
f) 0.05. ¿Esta regresión es significativa? Explique.
g) Pronostique el costo anual del mantenimiento de un autobús de 5 años.

Tabla P.5
Autobus Costo de mantenimiento ($) Edad (años)
Y X
1 859 8
2 682 5
3 471 3
4 708 9
5 1094 11
6 224 2
7 320 1
8 651 8
9 1049 12

6. Andrew Vazsonyi es el gerente de la cadena de supermercados Spendwise, a quien le


gustaría poder pronosticar las ventas de libros (ejemplares por semana) basándose en la
cantidad de espacio de exhibición (en pies) de los anaqueles. Andrew reúne los datos
para una muestra de 11 semanas, como se mostró en la tabla P.6.
a) Grafique un diagrama de dispersión.
b) ¿Qué clase de relación existe entre estas dos variables?
c) Calcule el coeficiente de correlación.
d) Determine la línea de mínimos cuadrados.
e) Pruebe la significancia de la pendiente de correlación en el nivel de significancia de
0.10. ¿Esta correlación es significativa? Explique.
f) Grafique los residuales contra los valores ajustados. Basándose en esta gráfica, ¿es
apropiado el modelo de regresión lineal simple para estos datos?
g) Pronostique las ventas de libros para una semana durante la cual se proveen 4 pies
de espacio en anaqueles.

Docente: Ing. Ferly Urday Luna 5


Estadística en Ingeniería

Tabla P.6
Nro de libros vendidos Espacio en pies en los anaqueles
Semana
Y X
1 275 6.8
2 142 3.3
3 168 4.1
4 197 4.2
5 215 4.8
6 188 3.9
7 241 4.9
8 295 7.7
9 125 3.1
10 266 5.9
11 200 5.0

7. En la tabla P.7 se muestra la información proporcionada por un negocio de órdenes por


correo para 12 ciudades.
a) Determine si existe una relación lineal significativa entre estas dos variables.
(Pruébelo con un nivel de 0.05 de significancia.)
b) Determine la línea de regresión ajustada.
c) Calcule el error están dar de la estimación.
d) Elabore una tabla ANOVA.
e) ¿Qué porcentaje de la variación en las órdenes por correo se explica por el número
de catálogos repartidos?
f) Realice la prueba de hipótesis para determinar si la pendiente o coeficiente de
regresión es significativamente diferente de cero. (Utilice el nivel 0.01 de signifi-
cancia.)
g) Pruebe la significancia de la regresión usando la estadística F de la tabla ANOVA.
(Use el nivel de significancia de 0.01) ¿Es el resultado consistente en el punto f?
¿Debe serIo?
h) Pronostique el número de órdenes por correo recibidas cuando se han repartido 10
mil catálogos con un intervalo para la predicción de 90% de confianza.

Tabla P.7
Número de Número de Número de Número de
órdenes postales Catálogos órdenes postales Catálogos
Ciudad Ciudad
recibidas (Miles) recibidos (Miles) recibidas (Miles) recibidos (Miles)
Y X Y X
A 24 6G 18 15
B 16 2H 18 3
C 23 5I 35 11
D 15 1J 34 13
E 32 10 K 15 2
F 25 7L 32 12

8. Industrias Peruanas S.A., (INPESA), es una empresa que se dedica a la producción y


comercialización de artículos para limpieza en todo el territorio peruano, cuenta con
agencias en 10 ciudades del país, a continuación se presenta la cantidad de vendedores
por agencia que posee esta empresa.

Nro Vendedores 2 6 8 8 12 16 20 20
Ventas Mensuales
58 105 88 118 117 137 157 169
Miles de $

Docente: Ing. Ferly Urday Luna 6


Estadística en Ingeniería

a) Elaborar el diagrama de dispersión.


b) Hallar el coeficiente de correlación y determinación e interpretar los resultados.
c) Encontrar la ecuación de regresión por el método de mínimos cuadrados.
d) Halle el intervalo de confianza y de predicción cuando los vendedores sean 10
e) Elabore el ANOVA para β.
f) Halle el coeficiente de determinación corregido.

9. El gerente de personal de la empresa DITESSUR quiere estudiar la relación entre


ausentismo y la edad de sus trabajadores. Se tienen los siguientes datos.

Edad 25 46 58 37 55 32 41 50 23 60
Ausentismo 18 12 8 15 10 13 7 9 16 6
Nota.- La edad esta expresada en años y el ausentismo en días por año.

a) Elaborar el diagrama de dispersión.


b) Hallar el coeficiente de correlación y determinación e interpretar los resultados.
c) Encontrar la ecuación de regresión por el método de mínimos cuadrados.
d) Halle el intervalo de confianza y de predicción cuando la edad sea 30 años.
e) Elabore el ANOVA para β.
f) Halle el coeficiente de determinación corregido.

10. Se presenta la siguiente información del ingreso de una personas con el su ahorro.

Ingreso 350 400 450 500 950 850 700 900 600
Ahorro 100 110 130 160 350 350 250 320 130

a) Elaborar el diagrama de dispersión.


b) Hallar el coeficiente de correlación y determinación e interpretar los resultados.
c) Encontrar la ecuación de regresión por el método de mínimos cuadrados.
d) Halle el intervalo de confianza y de predicción cuando el ingreso sea de 1200.
e) Elabore el ANOVA para β.
f) Halle el coeficiente de determinación corregido.

Docente: Ing. Ferly Urday Luna 7