Beruflich Dokumente
Kultur Dokumente
Estamos interesados en una variable aleatoria simple Y. Se supone que el valor tomado
por esta variable aleatoria depende o está influenciada por los valores tomados por una o
más variables diferentes. La variable aleatoria Y se denomina variable dependiente o
respuesta; las variables que influencian a Y, simbolizadas por la letra X, se denominan
variables independientes, variables predictoras o regresores. Al realizar estimaciones
o predicciones, los regresores no se tratan como variables aleatorias. Por el contrario, son
entidades que pueden asumir valores diferentes pero cuyos valores en el momento en
que debe hacerse la predicción no se determinan al azar.
Supongamos que deseamos desarrollar una ecuación para describir la temperatura del
agua fuera de la plataforma continental. Como la temperatura depende en parte de la
profundidad del agua, hay dos variables implicadas. Estas son X, la profundidad del agua,
e Y, la temperatura del agua. No estamos interesados en hacer inferencias sobre la
profundidad del agua. En cambio, queremos describir el comportamiento de la
temperatura del agua bajo la suposición de que la profundidad del agua se conoce de
antemano con precisión. La temperatura del agua es la respuesta; la profundidad del agua
es el único regresor considerado.
Incluso si la profundidad del agua está fijada en algún valor x, la temperatura del agua
variará debido a otras influencias aleatorias. Por ejemplo, si se toman varias mediciones
UNI-FPGP-UPG: MAESTRIA EN PETROLEO Y GAS NATURAL
ANALISIS DE REGRESION LINEAL 1
DOCENTE: DRA. SARA ADELINA ARANA LOPEZ
de temperatura en diferentes lugares, cada una a una profundidad de x = 1000 pies, los
valores de las mediciones variarán. Por esta razón, debemos admitir que para una x dada,
estamos realmente tratando con una variable aleatoria “condicional”, que indicamos
mediante Y/x (Y dado que X = x). Esta variable aleatoria condicional tiene una media
indicada mediante Y/ x . Resulta obvio que la temperatura media del agua del océano
depende en parte de la profundidad del agua; no esperamos que la temperatura media a x
= 1000 pies sea la misma que a x = 5000 pies. Es decir, es razonable suponer........ Para
descubrirlo. Sin embargo, por razones prácticas, estos valores deberían representar una
gama bastante amplia de los valores posibles de la variable independiente X. A veces se
pueden preseleccionar los valores utilizados. Por ejemplo, al estudiar la relación entre la
temperatura del agua y la profundidad del agua, podemos saber que nuestro modelo debe
utilizarse para predecir la temperatura del agua a profundidades de 1000 a 5000 pies.
Podemos elegir para medir las temperaturas del agua a cualquier profundidad deseada
dentro de esta gama. Por ejemplo podemos tomar mediciones en incrementos de 1000
pies. De esta manera prefijamos nuestros valores x a x 1 = 100; x 2 = 2000; x 3 = 3000; x 4
REGRESION
Es el método estadístico que investiga y define la relación funcional entre dos o más
variables. La ecuación o función matemática constituye la función o línea de regresión.
Dadas las variables (X, Y) podemos expresarlas como
Y = f(X) o X = f(Y)
lo cual dignifica que tales relaciones funcionales permitirán estimar, explicar o predecir el
valor de una variable dado el valor de la otra variable.
NOTA: una buena estimación de un parámetro dependerá del grado de asociación que
exista entre las variables X, Y y de que la función elegida se ajuste lo mejor posible a la
nube de puntos en el plano de ejes cartesianos.
CORRELACION
Dadas las relaciones existentes entre una variable dependiente Y, y una variable
independiente o explicatoria X, debemos probar la hipótesis sobre el tipo de relación que
hay entre ellas y sobre la capacidad de predicción. Tal relación o modelo queda definido
por:
Y i 1 2 X i
Como es poco probable que los puntos (X, Y) caigan precisamente sobre una recta, la
relación lineal exacta de la ecuación debe ser modificada para incluir un término de
perturbación aleatoria, llamado también error o término estocástico . Así tenemos:
Y i 1 2 X i i
E i 0 para i 1, 2, 3, ... , n
E 2i 2 para i 1,2,3, ... , n
2
i
1
2 2
f , P exp
2
Suponiendo: y i b1 b 2 x i e i
x 2i y i x i x i y i
b1
n x 2i x i
2
n xi yi xi yi
b2
n x 2i x i
2
2 s 2e
e 2i
y 2 b1 y b 2 x y
n2 n2
Entonces
2
Var b2 Sb22
xi x
2
2 x 2i
Var b 1 S 2b
2
xi x
1
Por definición
b
t i i es decir i bi t Sb
Sb i
i
b 22 x 2i
x i 2
n
2
R
y2 2
yi
i
n
CT = SCR + SCE
y i y y y y i y i
2 2 2
2 x x
2
Variancia Explicada b2
i
FCALCULADA
Variancia No Explicada S 2e
bi
t CALCULADO
Sb i
CASO PRACTICO
Concentración 6 10 12 14 16 18 22 24 26 32
GLU (mM) (X)
Absorbancia (y) 40 44 46 48 52 58 60 68 74 80
ABSORVANCIA
90
80
CONCENTRACION DE GLUCOSA
70
60
50
40
30
40 50 60 70 80
n Yi Xi (Y Y ) ( X X ) ( X X ) (Y Y ) ( X X ) 2
1 40 6 -17 -12 204 144
2 44 10 -13 -8 104 64
3 46 12 -11 -6 66 36
4 48 14 -9 -4 36 16
5 52 16 -5 -2 10 4
6 58 18 1 0 0 0
UNI-FPGP-UPG: MAESTRIA EN PETROLEO Y GAS NATURAL
ANALISIS DE REGRESION LINEAL 8
DOCENTE: DRA. SARA ADELINA ARANA LOPEZ
7 60 22 3 4 12 16
8 68 24 11 6 66 36
9 74 26 17 8 136 64
10 80 32 23 14 322 196
Suma
Total 570 180 0 0 956 576
Debemos hallar : Y i b 0 b 1 X i i
x i x y i y 956; x i x y i y
2 2
576; 1 634
Cálculo de Estimadores:
b 1
X i X Yi Y
956
X i X
2 166
.
576
b 0 Y b 1 X 57 1. 66 * 18 27. 12
ABSORVANCIA
1.00
.75
PROBABILIDAD ACUMULADA
.50
.25
0.00
0.00 .25 .50 .75 1.00
b 1 b 1 b 1 1. 66
tC 2. 306
S b1 S b 1 0. 1
b 1 X i X Yi Y 9. 56
R2 1. 66 0.971212
Yi Y 2 1634
Es decir:
Ho : b 0 = b 1 = 0
H1 : b 0 = b 1 = 0
X i X 1. 66 2 576
2
FC b
2
S 2e
47. 3056
268. 421
10 2
Reemplazando valores tenemos: Y i 27. 12 1. 66 X i 27. 12 .1. 66 * 40 93. 52
Entre el valor de Y y su estimado Y i existe una diferencia o sesgo, que puede ser menor
o mayor en la medida que los n puntos del diagrama de esparcimiento estén más o
menos cerca de la línea de regresión.
CORRELACION LINEAL
Se ha asumido que la variable independiente (X) se conocen sin error. Aun cuando esto
es aplicable a múltiples experimentos, existen también problemas en los cuales tanto las
X como las Y son variables aleatorias. Este es el caso de la relación entre las
precipitaciones pluviales y la producción de ciertos cultivos; entre el medio ambiente y
cultivos de bacterias, etc. A esta clase de problemas se les llama problema de análisis de
correlación. El coeficiente de correlación de una población queda definido por la
relación
donde
22 2 es una medida de la variación de las Y que se explica por la relación lineal entre X
2
nos indica qué proporción de la variación de las Y puede atribuirse a la relación lineal
de X
R
X X Y Y
X X Y Y
2 2
PRACTICA Nº 9
REGRESIÓN LINEAL
Propuesta Nº1
a. Elaboración un diagrama
b. Calcular los coeficientes del la recta de regresión
c. Analizar el grado de relación que tiene el nivel de hidrocarburos en la fuerza de
Oxigeno
d. Comprobar si existe influencia de la variable X sobre la variable Y