Sie sind auf Seite 1von 9

REGRESION LINEAL SIMPLE

Introducción. - En el análisis conjunto para dos o más variables es básica la búsqueda del tipo y
grado de la relación que pueda existir entre ellas, o si por el contrario, las variables sean
independientes entre sí y la relación que puedan mostrar se debe únicamente al azar, o a
través de terceras variables.

Veamos algunas variables susceptibles de relacionar:

 El peso y estatura de un grupo de adultos.


 Edad y peso de un grupo de niños.
 Ingresos y gastos de arrendamiento de un grupo de familias.
 Escolaridad e ingreso mensual de un grupo de empleados.
 Ventas y utilidades de un almacén de variedades.

Para fortalecer el indicio de correlación inicial, se grafica cada uno de los pares ordenados de
las variables (xi, yj) en un plano cartesiano, para observar la “nube de puntos” o diagrama de
dispersión, donde se advierte la tendencia o no, de la información representada.

Diagrama de dispersión.
Definición. - Se denomina diagrama de dispersión o nube de puntos, a la gráfica de los valores
(xi, yi) de las variables X e Y en el sistema cartesiano.

Es frecuentemente posible visualizar el tipo de relación existente entre dos variables a partir
del diagrama de dispersión.

Por ejemplo, a pesar de la ilustración visual que ofrecen las gráficas, solo podemos percibir la
tendencia, mas no el grado o fortaleza de la relación, entre la variable independiente “X” y la
variable dependiente “Y”.
Para cuantificar la calidad de la dependencia, entre las dos variables, el indicador más
acostumbrado es el Coeficiente de correlación de Pearson.

Coeficiente o índice de correlación Definición.

El coeficiente de correlación lineal de Pearson de n pares de valores (x 1, y1),(x2, y2),…..,(xn,yn) de


una variable bidimensional (X,Y). es el número abstracto r que se calcula por:

Donde:

𝒓: Coeficiente de correlación entre “X” y “Y”

𝑺𝒙: Desviación típica de “X”

𝑺𝒚: Desviación típica de “Y”

𝑺𝒙𝒚: Covarianza entre “X” y “Y”

En la práctica, se utilizará la siguiente fórmula para determinar r:

El coeficiente de correlación, es un indicador del grado de la relación entre las dos variables, el
cual oscila en el intervalo cerrado, es decir: −1 ≤ 𝑟 ≤ 1.

Interpretación:

 Si r = 1, se dice que hay una correlación perfecta positiva.


 Si r = — 1, se dice que hay una correlación perfecta negativa.
 Si r = 0, se dice que no hay correlación entre las dos variables.
 𝑆𝑖 0.9 ≤ 𝑟 ≤ 1 ó− 1 ≤ 𝑟 ≤ −0.9, 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖o𝑛 𝑒𝑥𝑐𝑒𝑙𝑒𝑛𝑡𝑒
 𝑆𝑖 0.8 ≤ 𝑟 ≤ 0.9 ó−0.9 ≤ 𝑟 ≤ −0.8, 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖o𝑛 𝑏𝑢𝑒𝑛𝑎
 𝑆𝑖 0.6 ≤ 𝑟 ≤ 0.8 ó −0.8 ≤ 𝑟 ≤ −0.6, 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖o𝑛 𝑟𝑒𝑔𝑢𝑙𝑎𝑟
 𝑆𝑖 0.3 ≤ 𝑟 ≤ 0.6 ó−0.6 ≤ 𝑟 ≤ −0.3, 𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖o𝑛 𝑚𝑎𝑙𝑎
Ejemplo: Aspiración Salarial, de acuerdo a la experiencia de las Obreros de la Fábrica de
ladrillos de san jerónimo.

Experienci 0 1 2 3 4 5 6 7 8 9 10
a /Años
Soles /día 56 58 60 62 64 66 68 70 72 74 76
Determine el coeficiente de correlación.

Solución.

Construimos una tabla de doble entrada de acuerdo a la formula dada.

Experiencia / Soles /día(y) 𝑿𝒊𝒀𝒊 𝑿𝒊 𝟐 𝒀𝒊 𝟐


Años(x)
0 56 0 0 3136
1 58 58 1 3364
2 60 120 4 3600
3 62 186 9 3844
4 64 256 16 4096
5 66 330 25 4356
6 68 408 36 4624
7 70 490 49 4900
8 72 576 64 5184
9 74 666 81 5476
10 76 760 100 5776
55 726 3850 385 48356

𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑝𝑒𝑟𝑓𝑒𝑐𝑡𝑎 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑎, Sin embargo, no todas las relaciones son tan ideales.

REGRESIÓN LINEAL.

Teniendo ya conocimiento de la intensidad de la correlación entre las variables, manifestada a


través del diagrama de dispersión, y el coeficiente de correlación, podemos ensayar el ajuste
de un modelo estadístico que se adapte mejor a las n observaciones; lo que lleva por nombre
regresión.

DEFINICION. - Dados los n pares (x 1, y1 ),(x2 ,y2 ),..., (xn ,yn) de la variable estadística
bidimensional ( X , Y). La regresión lineal simple de Y con respecto a X, consiste en determinar
la ecuación de la recta:

y = a + mx
MÉTODO DE LOS MÍNIMOS CUADRADOS.

La forma general de una ecuación de línea recta es y = mx+b.

Con:

X : Variable independiente

Y : Variable dependiente

Debemos determinar los parámetros “b” y “m” de la ecuación para poder expresar los valores
de la variable Y en función de los valores de la variable X.

El método de mínimos cuadrados nos proporciona un criterio con el cual podremos obtener la
mejor recta que representa a los puntos dados.

Se desearía tener yi = mxi + b para todos los puntos (xi , yi) de i = 1, ..., n.

Sin embargo, como en general y i ≠ mxi + b, se pide que la suma de los cuadrados de las
diferencias (las desviaciones) yi − (mxi + b) sea la menor posible.

Se requiere

sea lo más pequeña posible. Los valores de m y b que cumplan con esta propiedad, determinan
la recta y = mx + b que mejor representa el comportamiento lineal de los puntos (x i , yi).

Consideremos entonces la función f de las variables m y b dada por:

donde los puntos críticos de esta función se obtienen al resolver el sistema.


que nos dará un sistema de dos ecuaciones.
n n n

∑ xiyi=m ∑ xi2+ b ∑ xi… .. 1


i=1 i=1 i=1

n n

∑ yi=m ∑ xi+nb ….2


i=1 i=1

n
Multiplicando por n a la ecuación (1) y por ∑ xi a la ecuación 2, se tiene:
i=1

n n n
n ∑ xiyi=n m ∑ xi 2 +nb ∑ xi … ..1
i=1 i=1 i=1

n n n n
2
∑ xi ∑ yi=m(∑ xi) + nb ∑ xi ….2
i=1 i=1 i =1 i=1

Sumando miembro a miembro, se tiene:


n n n n n
2 2
n ∑ xiyi−∑ xi ∑ yi=nm ∑ xi −m( ∑ xi)
i=1 i=1 i=1 i =1 i=1

n n n n n 2
n ∑ xiyi−∑ xi ∑ yi=m(n ∑ xi2−
i=1 i=1 i=1 i=1
( )
∑ xi )
i=1

Despejando m, se tiene:
n n n
n ∑ xiyi−∑ xi ∑ yi
i=1 i=1 i=1
m= n n 2

n ∑ xi −
i=1
2
(∑ ) i =1
xi

Luego para calcular el valor de b, se tiene:

b= ý−m x́
Para datos agrupados, se tiene:
n n n
n ∑ fixiyi−∑ fixi ∑ fiyi
i=1 i=1 i=1
m= n n 2

n ∑ fi xi 2−
i=1
( ∑ fixi
i=1
)
EJEMPLO. - En un estudio de la relación entre la publicidad por radio y las ventas de un
producto, durante 10 semanas se han recopilado los tiempos de duración en minutos de la
publicidad por semana (x), y el número de artículos vendidos (y), resultando:

a) Trazar el diagrama de dispersión, e indicar la tendencia.

b) Calcular la recta de regresión de mínimos cuadrados con el fin de predecir las ventas.

c) Estimar la venta si en una semana se hacen 100 minutos de propaganda.

d) Si en la novena semana se incrementara la publicidad en 5 minutos, ¿en cuánto se estima se


incrementen las ventas?

SOLUCION.

a) Al trazar el diagrama de dispersión se observa que hay una relación lineal positiva
entre el número de artículos vendidos y el tiempo de publicidad semanal por radio.
b) Para determinar la recta de regresión se dispone del siguiente cuadro:
n n n
n ∑ xiyi−∑ xi ∑ yi
i=1 i=1 i=1 10 ( 61800 )−(500)( 1100) 68000
m= = = =2
n n 2
10 ( 28400 )−(500)2 34000
n ∑ xi 2−
i=1
(∑ )i =1
xi

Para calcular el valor de b, debemos calcular los promedios.

Luego:

b= ý−m x́=110−2 (50 )=10


La ecuación de la recta esta dado por:

y=2x+10.

c) Si x=100, entonces y = 10 + 2(100) = 210.


d) Si en la novena semana se incrementara el tiempo de propaganda en 5 minutos,
entonces, la venta se incrementa en promedio 5x2=10 unidades.

Das könnte Ihnen auch gefallen