Sie sind auf Seite 1von 8

TEMA2:Modelosderegresin

Datosbidimensionales

Tablas,grficos,estadsticosbidimensionales

Mtododemnimoscuadrados

Regresinlinealsimple

Regresinlinealmltiple

Regresinnolineal

Idoneidaddelmodelo

Medidasdelacalidaddelajuste

MaterialelaboradoporM.DoloresFras,JessFernndezyCarmenM.Sordo
profesoresdelDptodeMatemticaAplicadayC.C.delaUniversidaddeCantabria

Datosbidimensionales
Los mtodos vistos hasta ahora solo permiten trabajar con datos
unidimensionales.
Siseanalizanlasvariablesporseparadosepierdeinformacinsobrela
distribucindefrecuenciasconjunta.

Las variables bidimensionales surgen cuando se estudian dos


caractersticasasociadasalaobservacindeunfenmeno
En concreto, resultandetomarunamuestradetamaondeuna
variablealeatoriabidimensional(X,Y)

{(x1,y1),(x2,y2),...,(xn,yn)}

Ejemplo

Pesoyalturadeunamuestradepersonas
Altura
(cm)

Peso
(kg)

160 165 168 170 171 175 175 180 180 182
55

58

58

61

67

62

66

74

79

79

Datosbidimensionales
La relacin entre dos variables (X, Y) se puede estudiar
mediantetablas.
Distribucindefrecuenciasconjuntaymarginalesdelaaltura
yelpesode20personas.
ALTURA
PESO 155160 160165 165170 170175175180
5060
1
3
0
0
0
6070
0
2
3
0
0
7080
0
1
2
0
0
8090
0
0
1
2
2
90100
0
0
2
0
1
TOTAL

TOTAL
4
5
3
5
3

Tambin se puede
expresar la tabla en
funcin
de
las
frecuencias relativas, sin
msquedividirentren.

20

Rtip
table(cut(Peso,seq(50,100,10)),cut(Altura,seq(155,180,5)))

Diagramadedispersin
La forma ms sencilla de representar grficamente datos
bidimensionales es mediante los diagramas de
dispersin,que representa los pares de datos de la muestra
sobreunosejescartesianos.

Ejemplo
Se observa que cuando la altura aumenta el
pesoaumenta.
Existe una relacin lineal directa entre las
variables.

Rtip
plot(Peso,Altura,ylab="Altura(cm)",xlab="Peso(Kg)")

Diagramadedispersin
La forma ms sencilla de representar grficamente datos
bidimensionales es mediante los diagramas de
dispersin,que representa los pares de datos de la muestra
sobreunosejescartesianos.
Y

Cuando X crece Y crece:


relacinlinealdirecta.

Cuando X crece Y decrece:


relacinlinealinversa.

Casi todos los puntos pertenecen


alprimerytercercuadrante

Casi todos los puntos pertenecen


alsegundoycuartocuadrante.

Correlacinlineal
Es posible cuantificar la relacin lineal entre los datos
tomados de dos variables mediante el coeficiente de
correlacin:
dondeS
(x,y)eslacovarianzamuestral.

n
Toma valores entre 1 (dependencia
directa)y1(dependenciainversa).
Siseacercaa0ladependencialineal
esdbil.

Rtip
cor.test(X,Y)

Ejercicio

Regresin
En la prctica surge con frecuencia la necesidad de tener
que relacionar un conjunto de variables a travs de una
ecuacin(ej,elpesodeunaspersonasconsualtura).
La regresin es una tcnica estadstica que permite
construir modelos que representan la dependencia entre
variables o hacer predicciones deunavariableY en funcin
delasobservacionesdeotras(X1,...,Xp).
Yeslavariablerespuestaodependiente
X1, ..., Xp son las variables predictoras, independientes o
covariables
eseltrminodeerrorquesesuponeconmediaceroyvarianza
constante.

Regresin
Las ecuaciones ms comunes que se utilizan para expresar estas
relacionesson:
Lineal
Y

Cuadrtica
Polinmica
Logartmica
Exponencial

El diagrama de dispersin puede


servir de gran ayuda a la hora de
determinar la relacin entre las
variables.

Potencial

Nos centraremos en los modelos de regresin lineales (en los


parmetros).

Regresinlineal
Una vez seleccionado el modelo (lineal en nuestro caso) a
ajustarapartirdelasobservacionesdeunamuestraseest
interesadoenestimarlosparmetrosdedichomodelo(i).

Rectademejorajuste?

Uno de los mtodos ms


comunes es el de
mnimos cuadrados que
consiste en ajustar los
parmetrosdelmodelode
manera que la suma de
los cuadrados de los
erroresseamnima.

Regresinlinealsimplepormn.c.
Enelcasomssencillo,regresinlinealsimple,laecuacin
nosdaunaestimacindey,siendoelerrorquesecomete,
Enestecasoaybseeligendemaneraque,
2

E
Y

yk
k=yk ^y

seamnimo

^y
k

Ejercicio

Rtip
lm(Y~X)

Ejercicio

Modelosnolineales
El mtodo de mnimos cuadrados permite obtener la mejor recta de
ajustealosdatosenelcasodelaregresinlineal.
Sin embargo, no siempre existe una relacin lineal entre la variable
dependiente e independiente y muchos modelos noson lineales en los
parmetros,impidiendoelusodelmtododemnimoscuadrados.
Enalgunoscasosesposibleaplicartransformacionesparaexpresarlos
datos en una forma compatible con la regresin lineal. Este es el caso
delmodeloexponencialydepotencias.
Exponencial

Potencial

Modelosnolineales
Exponencial

El modelo exponencial se linealiza


alaplicarellogaritmonatural:
Y

Linealizacin

donde si representamos el ln(Y)


frente a X obtendremos una recta
con pendiente b y corte con el eje
deordenadasln(a).

ln(Y)

Modelosnolineales
Potencial

El modelo potencial se linealiza al


aplicarellogaritmonatural:
Y

Linealizacin

XX

donde si representamos el ln(Y)


frente a ln(X) obtendremos una
recta con pendiente b y corte con
elejedeordenadasln(a).

ln(Y)

ln(X)

Modelosnolineales
Ejemplo
Ajuste los datos siguientes con el modelo de potencias y aplique una
transformacinlogartmicaparaestimarlosparmetrosdedichomodelo.
Uselaecuacinresultanteparahacerelpronsticoparax=9
x

2.5

3.5

7.5

10

12.5

15

17.5

20

13

11

8.5

8.2

6.2

5.2

4.8

4.6

4.3

Modelosnolineales
Ejemplo
Ajuste los datos siguientes con el modelo de potencias y aplique una
transformacinlogartmicaparaestimarlosparmetrosdedichomodelo.
Uselaecuacinresultanteparahacerelpronsticoparax=9
x

2.5

3.5

7.5

10

12.5

15

17.5

20

ln(x) ln(y)

13

11

8.5

8.2

6.2

5.2

4.8

4.6

4.3

0.92

2.56

1.25

2.40

1.61

2.14

1.79

2.10

2.01

1.95

2.30

1.82

2.53

1.65

2.71

1.57

2.86

1.53

3.00

1.46

Parax=9:

Rtip

Modelosnolineales

#Definicindevariables
v1<c(2.5,3.5,5,6,7.5,10,12.5,15,17.5,20)
v2<c(13,11,8.5,8.2,7,6.2,5.2,4.8,4.6,4.3)
xval<9
x<log(v1)
y<log(v2)
#Calculoregresinlineal
fit<lm(y~x)
a<fit$coeff[1]
b<fit$coeff[2]
#Funcionespotencialyrecta
fx<function(x,a,b)exp(a)*x^b
fxrecta<function(x,a,b)a+b*x
#Plots
pdf("figura.pdf",width=7,height=3)
par(mfrow=c(1,2),mar=c(4,4,1,1))
plot(v1,v2,xlab="v1",ylab="v2",type="n")
curve(fx(x,a,b),col="blue",lwd=4,add=TRUE)
points(v1,v2,pch=19,col="red")
points(xval,fx(xval,a,b),pch=3,lwd=4,col="black")
plot(x,y,xlab="log(v1)",ylab="log(v2)",type="n")
curve(fxrecta(x,a,b),col="blue",lwd=4,add=TRUE)
points(x,y,pch=19,col="red")
dev.off()

Medidasdelaidoneidaddelmodelo
Todalainformacinsobrelafaltadeajustedelmodeloest
contenidaenlosresiduos.
Un diagrama de los residuos frente a los valores predichos
nossirveparadetectarposiblesdesviacionesdelashiptesis
departida:valormedioceroyvarianzaconstante.
e

Errorestpicoscuandoelmodelonoeseladecuado:
e

^
y
Caso ideal: media cero y
varianzaconstante

^
y

Varianzanoconstante

^
y

Dependenciasistemtica

Tambin se recomienda pintar los residuos frente a la


variableindependienteparadetectarposiblestendencias.

Medidasdelacalidaddeajuste
Es posible cuantificar la bondad del ajuste realizado en la
regresin lineal simple al aplicar el mtodo de mnimos
cuadradosmediantelassiguientesmagnitudes:
Errorestandardelaestimacin,Se:
Cuantificaladispersindelosdatosalrededordelalneaderegresin.
Sedivideentren2yaqueseusarondosdatosestimados(0y1)paracalcularE2.

Coeficientedecorrelacin,r:
Cuantificalarelacinlinealentredosvariables.

Medidasdelacalidaddeajuste
Es posible cuantificar la bondad del ajuste realizado en la
regresin lineal simple al aplicar el mtodo de mnimos
cuadradosmediantelassiguientesmagnitudes:
Coeficientededeterminacin,r2:
Medidadelabondaddelajustelineal.Indicalafraccindevariacinexplicadaporla
rectaderegresinrespectoalavariacintotal.
Y

yk
_ Variacin
yky total

_
y

^y
k

yk ^y Variacinno
k
explicada

_
^y y Variacin
k
explicada

Tomavaloresentre0y1.
Cuantomsprximoa1mejorserelajustelinealy
cuantomsproximoa0peor.
Coincideconelcuadradodelcoeficientedecorrelacin
X

Ejercicio

Das könnte Ihnen auch gefallen