10 15 1 PB

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FACULTAD DE CIENCIAS ECONOMICAS
ANALISIS DE REGRESION CON DOS VARIABLES
En esta sección se analizaran dos problemas. El primero, denominado Regresión, implica

necesariamente el desarrollo de una ecuación mediante la cual pueda estimarse el valor
medio de una variable aleatoria desde el conocimiento de los valores tomados por una o
más variables. El segundo, denominado Correlación, consistente en medir la fuerza de la
relación lineal entre dos variables aleatorias.
INTRODUCCION AL ANALISIS DE REGRESION
Estamos interesados en una variable aleatoria simple Y. Se supone que el valor tomado
por esta variable aleatoria depende o está influenciada por los valores tomados por una o
más variables diferentes. La variable aleatoria Y se denomina variable dependiente o
respuesta; las variables que influencian a Y, simbolizadas por la letra X, se denominan
variables independientes, variables predictoras o regresores. Al realizar estimaciones
o predicciones, los regresores no se tratan como variables aleatorias. Por el contrario, son
entidades que pueden asumir valores diferentes pero cuyos valores en el momento en
que debe hacerse la predicción no se determinan al azar.
Supongamos que deseamos desarrollar una ecuación para describir la temperatura del
agua fuera de la plataforma continental. Como la temperatura depende en parte de la
profundidad del agua, hay dos variables implicadas. Estas son X, la profundidad del agua,
e Y, la temperatura del agua. No estamos interesados en hacer inferencias sobre la
profundidad del agua. En cambio, queremos describir el comportamiento de la
temperatura del agua bajo la suposición de que la profundidad del agua se conoce de
antemano con precisión. La temperatura del agua es la respuesta; la profundidad del agua
es el único regresor considerado.
Incluso si la profundidad del agua está fijada en algún valor x, la temperatura del agua
variará debido a otras influencias aleatorias. Por ejemplo, si se toman varias mediciones
UNI-FPGP-UPG: MAESTRIA EN PETROLEO Y GAS NATURAL
ANALISIS DE REGRESION LINEAL 1
DOCENTE: DRA. SARA ADELINA ARANA LOPEZ
de temperatura en diferentes lugares, cada una a una profundidad de x = 1000 pies, los
valores de las mediciones variarán. Por esta razón, debemos admitir que para una x dada,
estamos realmente tratando con una variable aleatoria “condicional”, que indicamos
mediante Y/x (Y dado que X = x). Esta variable aleatoria condicional tiene una media
indicada mediante  Y/ x . Resulta obvio que la temperatura media del agua del océano
depende en parte de la profundidad del agua; no esperamos que la temperatura media a x
= 1000 pies sea la misma que a x = 5000 pies. Es decir, es razonable suponer........ Para
descubrirlo. Sin embargo, por razones prácticas, estos valores deberían representar una
gama bastante amplia de los valores posibles de la variable independiente X. A veces se
pueden preseleccionar los valores utilizados. Por ejemplo, al estudiar la relación entre la
temperatura del agua y la profundidad del agua, podemos saber que nuestro modelo debe
utilizarse para predecir la temperatura del agua a profundidades de 1000 a 5000 pies.
Podemos elegir para medir las temperaturas del agua a cualquier profundidad deseada
dentro de esta gama. Por ejemplo podemos tomar mediciones en incrementos de 1000
pies. De esta manera prefijamos nuestros valores x a x 1 = 100; x 2 = 2000; x 3 = 3000; x 4
= 4000; x 5 = 5000. Cuando se preseleccionan los valores X utilizados para desarrollar la

ecuación de regresión, se dice que el estudio está controlado. A menudo los valores X
utilizados para desarrollar la ecuación se eligen mediante algún mecanismo aleatorio. Por
ejemplo, al estudiar el efecto de la calidad del aire sobre el pH del agua de lluvia, nos
veremos forzados a seleccionar una muestra de días, anotar la lectura de la calidad del
aire de ese día y medir el pH del agua de lluvia. En este caso, los valores de X utilizados
para desarrollar la ecuación de regresión no están preseleccionados por el investigador.
Representan un conjunto de valores de X típicos. Los estudios de este tipo se denominan
estudios observacionales. Veamos.
EJEMPLO. Un Farmacéutico quiere predecir la concentración de un determinado fármaco

en la corriente sanguínea, cinco minutos después de su administración (Y), en base al
conocimiento del tamaño de la dosis inicial (X). En este caso, la variable aleatoria Y es la
variable dependiente; X es la variable independiente. En un experimento controlado en
laboratorio, el experimentador selecciona los valores tomados por X. Por ejemplo,
podríamos elegir experimentar con dosis de 0.05, 0.10, 0.20 y 0.30 ml. Puesto que la
elección de las dosis experimentales está en manos del investigador, este es un estudio
controlado.

Independientemente de si el estudio es controlado u observacional, el objeto del análisis
de regresión es encontrar una ecuación de predicción o regresión razonable.
REGRESION
Es el método estadístico que investiga y define la relación funcional entre dos o más
variables. La ecuación o función matemática constituye la función o línea de regresión.
Dadas las variables (X, Y) podemos expresarlas como
Y = f(X) o X = f(Y)
lo cual dignifica que tales relaciones funcionales permitirán estimar, explicar o predecir el
valor de una variable dado el valor de la otra variable.
DIAGRAMA DE ESPARCIMIENTO (Gráfica de Calibración)
Si tenemos n observaciones bidimensionales, cada par de datos (X, Y) puede

representarse en un sistema de eje de coordenadas cartesianas. Cada pareja de
observaciones se representa por un punto sobre el plano y la totalidad de puntos
registrados se denomina diagrama de dispersión o, para casos de equipos, gráficas de
calibración.
NOTA: una buena estimación de un parámetro dependerá del grado de asociación que
exista entre las variables X, Y y de que la función elegida se ajuste lo mejor posible a la
nube de puntos en el plano de ejes cartesianos.
CORRELACION

Es el análisis del grado de asociación o de afinidad entre las variables expresada a través
de la función o modelo de regresión. Para que exista correlación es necesario dos
variables, es decir, dos medidas que vayan cambiando valores.
MODELO LINEAL BIDIMENSIONAL
Dadas las relaciones existentes entre una variable dependiente Y, y una variable
independiente o explicatoria X, debemos probar la hipótesis sobre el tipo de relación que
hay entre ellas y sobre la capacidad de predicción. Tal relación o modelo queda definido
por:
Y i  1   2 X i
Como es poco probable que los puntos (X, Y) caigan precisamente sobre una recta, la
relación lineal exacta de la ecuación debe ser modificada para incluir un término de
perturbación aleatoria, llamado también error o término estocástico  . Así tenemos:
Y i  1   2 X i   i
Yi: variable dependiente.

Xi: variable independiente.
 1 : int ercepto;  2 : pendiente de la recta ; : perturbaciones aleatorias.
El propósito básico del análisis de regresión es estimar los parámetros estructurales, es

decir, el intercepto y la pendiente de la recta respectivamente.
Si existe una relación lineal entre la señal analítica de un instrumento (Y) y la

concentración de un analito (X) nos propondremos calcular la “mejor” línea recta que pasa
a través de los puntos de la gráfica de calibración, cada uno de los cuales está sujeto a un
error experimental.
HIPOTESIS RELATIVAS A LAS PERTURBACIONES

1.Toda perturbación aleatoria tiene Media cero
 
E i  0 para i  1, 2, 3, ... , n
2.Todas las perturbaciones aleatorias tienen la misma Variancia. Homocedasticidad.
 
E  2i   2 para i  1,2,3, ... , n
3.Las perturbaciones son independientes entre si. Covariancia.


E i  j   0 i j
4.Las perturbaciones se distribuyen normalmente con Media 0 y variancia  2 . Además
son independientes del valor x. La función de distribución de probabilidad de  i es:

2

i
1
  2 2
f , P  exp 
  2
La estimación de estos parámetros estructurales se lleva a cabo mediante el método de

los Mínimos Cuadrados, que busca determinar los estimadores b1 y b2 .
CALCULO DE LOS ESTIMADORES
Suponiendo: y i  b1  b 2 x i  e i
Los estimadores se determinan mediante las siguientes relaciones
  x 2i    y i     x i    x i y i 
b1 
n  x 2i    x i 
2
n  xi yi    xi    yi 
b2 
n  x 2i    x i 
2

o también b1  y  b 2 x
CALCULO DE LA VARIANCIA DE LOS ESTIMADORES
Asumiendo la siguiente proposición:
 2  s 2e 
 e 2i

 y 2  b1  y  b 2  x y
n2 n2
Entonces
 2
Var  b2    Sb22
  xi  x 
2
 2  x 2i
 
Var b 1   S 2b
  2
xi  x
1
INTERVALOS DE CONFIANZA DE LOSPARAMETROS
Por definición
b 
t i i es decir i  bi  t Sb
Sb i
i
con (n - 2) grados de libertad (g de l) y un % de significancia.
Índice de Determinación R2 e Índice de Correlación R.

b 22  x 2i 
  x i  2 
  n
2  
R 

 y2  2
 yi  
 i

n 
 

VERIFICACION
Variation Total = Variación Explicada + Variación No Explicada
CT = SCR + SCE
  y i  y   y  y   y i  y i 
2 2 2
 
PRUEBA DE CONFIABILIDAD DEL MODELO. Prueba F
2 x x  
2
Variancia Explicada b2
i
FCALCULADA  
Variancia No Explicada S 2e
se compara con un FTABULADO en Tablas con 1 y (n - 2) grados de libertad; y 5% de

significancia o 1% de significancia estadística.
PRUEBA DE COHERENCIA DE LOS ESTIMADORES. Prueba t
bi
t CALCULADO 
Sb i
se compara con un tTABULADO en tablas con (n - 2) grados de libertad y una significancia

estadística dada del 1% o del 5%.
CASO PRACTICO
En un ensayo calorimétrico para glucosa (GLU) el equipo detecta absorbancia (Y) de

soluciones estándares de glucosas, cuyas concentraciones medidas en miliMoles (mM) y
asumidas como variables independientes genera la siguiente tabla
Muestra ( n ) 1 2 3 4 5 6 7 8 9 10
Concentración 6 10 12 14 16 18 22 24 26 32
GLU (mM) (X)
Absorbancia (y) 40 44 46 48 52 58 60 68 74 80
Se requiere desarrollar un análisis de regresión.
SOLUCION: ELABORACION DEL DIAGRAMA DE DISPERSION (Gráfica de calibración)
ABSORVANCIA
90
80
CONCENTRACION DE GLUCOSA
70
60
50
40
30
40 50 60 70 80
2. CALCULO DE LOS ESTIMADORES
a) Desarrollamos la siguiente tabla
n Yi Xi (Y Y ) ( X X ) ( X  X ) (Y Y ) ( X X ) 2
1 40 6 -17 -12 204 144
2 44 10 -13 -8 104 64
3 46 12 -11 -6 66 36
4 48 14 -9 -4 36 16
5 52 16 -5 -2 10 4
6 58 18 1 0 0 0
7 60 22 3 4 12 16
8 68 24 11 6 66 36
9 74 26 17 8 136 64
10 80 32 23 14 322 196
Suma
Total 570 180 0 0 956 576
Debemos hallar : Y i  b 0  b 1 X i   i
n = 10, Media (X) = 18; Media (Y) = 57
  x i  x  y i  y  956;   x i  x   y i  y
2 2
 576;  1 634
Cálculo de Estimadores:
b 1 
  X i  X  Yi  Y
956
  X i  X
2   166
.
576
b 0  Y  b 1 X  57  1. 66 *  18   27. 12
La recta de la regresión será: Y i  27. 12  1. 66 X i
ABSORVANCIA
1.00
.75
PROBABILIDAD ACUMULADA
.50
.25
0.00
0.00 .25 .50 .75 1.00
PROBABILIDAD OBSERVADA ACUMULADA
3. PRUEBA DE SIGNIFICACION DE ESTIMACION DE PARAMETROS

Hacemos uso de la siguiente tabla
n Yi Xi Yi ei e2 i X2 i ( Xi – X)2 (Yi – Y)2

1 40 6 37.08 2.92 8.5264 36 144 289
2 44 10 43.72 0.28 0.0784 100 64 169
3 46 12 47.04 -1.04 1.0816 144 36 121
4 48 14 50.36 -2.36 5.5696 196 16 81
5 52 16 53.68 -1.68 2.8224 256 4 25
6 58 18 57.00 1.00 1.0000 324 0 1
7 60 22 63.64 -3.64 13.2496 484 16 9
8 68 24 66.96 1.04 1.0816 576 36 121
9 74 26 70.28 3.72 13.8384 676 64 289
10 80 32 80.24 -0.24 0.0576 1024 196 529
Total
Suma 570 180 0 47.3056 3816 576 1634
a) Cálculo de la Variancia No Explicada  2
S2e = 47. 3056 / ( 10 - 2 ) = 5. 9132
b) Cálculo de las Variancias y Desviaciones Estándares de los Estimadores
Sb20 = (47.3056) (3816) / (10 - 2) 10 (576) = 3.92

Sb1 = 1.98
Sb21 = 47.3056 / (10- 2) 576 = 0.01

Sb2 = 0.1
c) Prueba de Coherencia de los estimadores

Estimador Intercepto
Hipótesis Nula Ho : b 0 = 0 (No existe coherencia)

Hipótesis Alternante H 1 : b 0 = 0 (Existe Coherencia)
b 0  b 0 b 0 27. 12
tC     13. 7
S b0 S b 0 1. 98
t TABULADO = t (0.05, 8 g de l) = 2.306
Asimismo. Estimador Pendiente
Hipótesis Nula Ho : b 1 = 0 (No existe coherencia)
Hipótesis Alternante H 1 : b 1 = 0 (Existe Coherencia)
b 1  b 1 b 1 1. 66
tC     2. 306
S b1 S b 1 0. 1
H 1: b1  0 t T   2.306 con 8 g. l. y   0.05
t TABULADO = t (0.05, 8 g de l) = 2.306
Como tCALCULADO cae en la zona de rechazo, rechazaremos Ho. Luego Xi si influye

significativamente sobre Yi.
Entonces b 0 yb 0 son estadísticamente significativos a un nivel de significación

del 5%.
3. Prueba de Bondad de Ajuste ( R2 ) y de Correlación ( R )
b 1   X i  X  Yi  Y   9. 56 
R2   1. 66    0.971212
 Yi  Y  2  1634 
Es decir, la ecuación de regresión explica alrededor del 97.12% de la variación total

Asimismo R = 0.9854, es decir, 98.54%, lo cual es un alto índice de correlación lineal.
5. Prueba de Confiabilidad del Modelo (Tabla F)
Hipótesis Nula Ho :El modelo no tiene la confianza estadística del 95%

Hipótesis Alternante H 1 :El modelo si tiene la confianza estadística del 95%
Es decir:
Ho : b 0 = b 1 = 0
H1 : b 0 = b 1 = 0
  X i  X  1. 66 2 576
2
 
FC  b
2
S 2e

 47. 3056 
 268. 421
 
 10  2 
FTABULADO = F [ 0.05; 1 y (n - 2) g de l] = F ( 0.05: 1 y 8 g de l ) = 5.32
Se acepta la hipótesis alternante
6. Predicción Puntual de Yi si Xi = 40.

  27. 12  1. 66 X
Como la Ecuación de la Recta de Regresión es: Yi i

Reemplazando valores tenemos: Y i  27. 12  1. 66 X i  27. 12  .1. 66 *  40  93. 52
NOTA SOBRE EL ERROR ESTANDAR DE ESTIMACION O VARIANCIA NO EXPLICADA

Al observar la siguiente gráfica podemos notar que

X
El error estándar de estimación es una medida de esparcimiento alrededor de una línea

de regresión. Es la desviación estándar de los valores observados Yi con respecto a los
valores de Y estimados ( Y i ) por la línea de regresión.
Entre el valor de Y y su estimado Y i existe una diferencia o sesgo, que puede ser menor
o mayor en la medida que los n puntos del diagrama de esparcimiento estén más o
menos cerca de la línea de regresión.
El error estándar de estimación o de regresión cumple las mismas propiedades de la

desviación estándar. La diferencia está en que el error estándar de regresión mide las
dispersiones de los valores alrededor de la línea de regresión y la desviación estándar
alrededor de la media.
CORRELACION LINEAL
Se ha asumido que la variable independiente (X) se conocen sin error. Aun cuando esto
es aplicable a múltiples experimentos, existen también problemas en los cuales tanto las
X como las Y son variables aleatorias. Este es el caso de la relación entre las
precipitaciones pluviales y la producción de ciertos cultivos; entre el medio ambiente y
cultivos de bacterias, etc. A esta clase de problemas se les llama problema de análisis de
correlación. El coeficiente de correlación de una población queda definido por la
relación

2
2  1 
 22
donde
 2 es una medida de la variación de las Y cuando X se conoce.
 22 Es una medida de la variación de las Y cuando la X no es conocida
 22   2 es una medida de la variación de las Y que se explica por la relación lineal entre X
2
 nos indica qué proporción de la variación de las Y puede atribuirse a la relación lineal
de X
Estos mismos argumentos se aplica también a R 2, el cuadrado del coeficiente de

correlación muestral, que es definido por
R 
  X  X  Y  Y
  X  X  Y  Y
2 2

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FACULTAD DE CIENCIAS ECONOMICAS
UNIDAD DE POST GRADO
DOCTORADO EN NEGOCIOS GLOBALES
ESTADISTICA APLICADA
PRACTICA Nº 9
REGRESIÓN LINEAL
Propuesta Nº1

Con los datos:
a. Elaboración un diagrama
b. Calcular los coeficientes del la recta de regresión
c. Analizar el grado de relación que tiene el nivel de hidrocarburos en la fuerza de
Oxigeno
d. Comprobar si existe influencia de la variable X sobre la variable Y


10 15 1 PB

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

10 15 1 PB

Hochgeladen von

Copyright:

Verfügbare Formate

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

FACULTAD DE CIENCIAS ECONOMICAS

ANALISIS DE REGRESION CON DOS VARIABLES

En esta sección se analizaran dos problemas. El primero, denominado Regresión, implica

INTRODUCCION AL ANALISIS DE REGRESION

= 4000; x 5 = 5000. Cuando se preseleccionan los valores X utilizados para desarrollar la

EJEMPLO. Un Farmacéutico quiere predecir la concentración de un determinado fármaco

UNI-FPGP-UPG: MAESTRIA EN PETROLEO Y GAS NATURAL

DIAGRAMA DE ESPARCIMIENTO (Gráfica de Calibración)

Si tenemos n observaciones bidimensionales, cada par de datos (X, Y) puede

UNI-FPGP-UPG: MAESTRIA EN PETROLEO Y GAS NATURAL

MODELO LINEAL BIDIMENSIONAL

Yi: variable dependiente.

 1 : int ercepto;  2 : pendiente de la recta ; : perturbaciones aleatorias.

El propósito básico del análisis de regresión es estimar los parámetros estructurales, es

Si existe una relación lineal entre la señal analítica de un instrumento (Y) y la

HIPOTESIS RELATIVAS A LAS PERTURBACIONES

UNI-FPGP-UPG: MAESTRIA EN PETROLEO Y GAS NATURAL

2.Todas las perturbaciones aleatorias tienen la misma Variancia. Homocedasticidad.

3.Las perturbaciones son independientes entre si. Covariancia.

4.Las perturbaciones se distribuyen normalmente con Media 0 y variancia  2 . Además

son independientes del valor x. La función de distribución de probabilidad de  i es:

La estimación de estos parámetros estructurales se lleva a cabo mediante el método de

CALCULO DE LOS ESTIMADORES

Los estimadores se determinan mediante las siguientes relaciones

UNI-FPGP-UPG: MAESTRIA EN PETROLEO Y GAS NATURAL

CALCULO DE LA VARIANCIA DE LOS ESTIMADORES

Asumiendo la siguiente proposición:

INTERVALOS DE CONFIANZA DE LOSPARAMETROS

con (n - 2) grados de libertad (g de l) y un % de significancia.

Índice de Determinación R2 e Índice de Correlación R.

UNI-FPGP-UPG: MAESTRIA EN PETROLEO Y GAS NATURAL

Variation Total = Variación Explicada + Variación No Explicada

PRUEBA DE CONFIABILIDAD DEL MODELO. Prueba F

se compara con un FTABULADO en Tablas con 1 y (n - 2) grados de libertad; y 5% de

PRUEBA DE COHERENCIA DE LOS ESTIMADORES. Prueba t

se compara con un tTABULADO en tablas con (n - 2) grados de libertad y una significancia

En un ensayo calorimétrico para glucosa (GLU) el equipo detecta absorbancia (Y) de

Se requiere desarrollar un análisis de regresión.

SOLUCION: ELABORACION DEL DIAGRAMA DE DISPERSION (Gráfica de calibración)

2. CALCULO DE LOS ESTIMADORES

a) Desarrollamos la siguiente tabla

n = 10, Media (X) = 18; Media (Y) = 57

La recta de la regresión será: Y i  27. 12  1. 66 X i

PROBABILIDAD OBSERVADA ACUMULADA

3. PRUEBA DE SIGNIFICACION DE ESTIMACION DE PARAMETROS

UNI-FPGP-UPG: MAESTRIA EN PETROLEO Y GAS NATURAL

n Yi Xi Yi ei e2 i X2 i ( Xi – X)2 (Yi – Y)2

a) Cálculo de la Variancia No Explicada  2

S2e = 47. 3056 / ( 10 - 2 ) = 5. 9132

b) Cálculo de las Variancias y Desviaciones Estándares de los Estimadores

Sb20 = (47.3056) (3816) / (10 - 2) 10 (576) = 3.92

Sb21 = 47.3056 / (10- 2) 576 = 0.01

c) Prueba de Coherencia de los estimadores

Hipótesis Nula Ho : b 0 = 0 (No existe coherencia)

t TABULADO = t (0.05, 8 g de l) = 2.306

Asimismo. Estimador Pendiente

Hipótesis Nula Ho : b 1 = 0 (No existe coherencia)

Hipótesis Alternante H 1 : b 1 = 0 (Existe Coherencia)

H 1: b1  0 t T   2.306 con 8 g. l. y   0.05

t TABULADO = t (0.05, 8 g de l) = 2.306

Como tCALCULADO cae en la zona de rechazo, rechazaremos Ho. Luego Xi si influye

Entonces b 0 yb 0 son estadísticamente significativos a un nivel de significación