You are on page 1of 4

28/04/13

Sistema Galileu de Educao Estatstica

Tpico: [Covarincia e correlao]


Covarincia Quando se considera a distribuio conjunta de uma varivel aleatria bivariada (x,y) torna-se importante verificar o quanto as duas variveis aleatrias esto relacionadas ou variam conjuntamente. Uma caracterstica importante da distribuio de probabilidade de uma varivel aleatria sua disperso, que pode ser medida por sua varincia. Quando se considera duas variveis aleatrias, frequentemente importante a caracterizao da relao entre a variao das duas variveis aleatrias. Uma medida dessa relao provida pela covarincia, ou seja, o valor esperado do produto dos desvios das duas variveis aleatrias. A covarincia surge naturalmente quando se considera a varincia da soma (ou a diferena) de duas variveis aleatrias z=xy. Nesse caso, como E(z)=z=xy, ento: V(z)=V(xy)=E(z-z)2=E((xy)-(xy))2 Desenvolvida a expresso tem-se que: V(z)=E(x-x)2+E(y-y)22E((x-x)(y-y)) Assim: O valor esperado do produto dos desvios denominado covarincia entre as variveis aleatrias x e y e definida por: Cov(x,y)=xy=E((x-x)(y-y))=E(xy)-xy A varincia de z=xy pode, ento, ser escrita como: V(xy)=V(x)+V(y)2Cov(x,y)=x2+y2+xy Fica claro que se x e y so variveis aleatria independentes ento E(x,y)=E(x)E(y) e Cov(x,y)=0 Para seguir a notao da covarincia, a varincia de y, por exemplo, muitas vezes representada por yy=y2. Pelo modo como definida, se (x,y) uma varivel discreta e assume valores no espao amostral Sxy ento a covarincia pode ser calculada atravs de: xy=(v,w) Sxy (v-x)(w-y)fxy(v,w) e, no caso de (x,y) ter distribuio contnua conjunta, a expresso fica: xy=(v,w) Sxy(v-x)(w-y)fxy(v,w)dvdw Como o termo sugere, a covarincia mede um certo tipo de dependncia entre as variveis e um dos objetivos compreender a profundidade dessa dependncia. Como se pode observar na figura que segue, (E(x),E(y))=(x,y) descreve o centro da distribuio conjunta de (x,y) e as linhas horizontal e vertical que passam por esse ponto dividem o 2 em quatro quadrantes. A varivel aleatria (x-x)(y-y) positiva no primeiro e terceiro quadrantes e negativa no segundo e quarto quadrantes.

www.galileu.esalq.usp.br/mostra_topico.php?cod=286

1/4

28/04/13

Sistema Galileu de Educao Estatstica

Observando a expresso para variveis discretas (o caso contnuo semelhante), v-se que xy ser positiva se os desvios v-x e w-y tiverem predominantemente o mesmo sinal e negativa se, predominantemente, tiverem sinais distintos. Desse modo, ao contrrio da varincia, que sempre positiva ou nula, a covarincia poder ser positiva, negativa ou nula. O sinal e a grandeza de E((x-x)(y-y)) refletem o sentido e o grau da relao linear entre as variveis aleatrias x e y. nesse sentido que a covarincia exprime a relao, ou associao, entre os valores de x e de y. Considerando que a e b so constantes, a definio de covarincia possui propriedades importantes: 1. Cov(a+bx,c+dy)=bdCov(x,y). Note-se que, em particular, adicionar constantes varivel aleatria no altera a covarincia mas multiplicar a varivel por uma constante tambm multiplica a covarincia pela constante. 2. Se x e y so variveis aleatrias independentes ento Cov(x,y)=0. importante salientar que a recproca em geral no verdadeira, ou seja, covarincia nula em geral no implica em independncia. 3. Cov(x,y)=Cov(y,x) 4. Cov(y,y)=yy=y2=V(y) 5. Cov(ax+by,z)=a Cov(x,z)+bCov(y,z) 6. Se (x1,...,xi,...,xm) e (y1,...,yj,...,xn) so duas sequncias de variveis aleatrias em um experimento aleatrio ento: Cov(i 1:maixi,j 1:nbjyj)=i 1:mj 1:naibj Cov(xi,yj). 7. V(i 1:nyi)=i 1:nV(yi)+2i<jCov(yi,yj). Esta uma generalizao da varincia da soma de duas variveis. Em particular, se as variveis tem, duas a duas, covarincia nula, ento a varincia da soma a soma das varincias. 8. Se L=i 1:naiyi, sendo ai valores fixados, ento V(L)=i 1:k ai2V(yi)+2i 1:k j i+1:k aiaj V(yi).

9. Se La e Lb so combinaes lineares das mesmas variveis, isto , se La=i 1:n aiyi e Lb=i 1:n biyi

, sendo ai e bi valores fixados, ento Cov(La,Lb)=i 1:k aibiV(yi)+i 1:k j i+1:k (aibj+ajbi) Cov(yi,yj). Coeficiente de correlao
www.galileu.esalq.usp.br/mostra_topico.php?cod=286 2/4

28/04/13

Sistema Galileu de Educao Estatstica

O valor de xy depende das unidades de medida nas quais as variveis aleatrias x e y so expressas. Muito frequentemente, conveniente uma medida da relao entre as duas variveis aleatrias que no dependa de unidades de medida, como se logra com o uso do coeficiente de variao como medida de disperso. Tal medida obtida pela diviso da covarincia pelos desvios padres de x e de y, se estes desvios padres so ambos maiores que zero. Assim: Coeficiente de correlao entre duas variveis aleatrias x e y a medida de relacionamento linear entre as variveis aleatrias, definida por: xy=xyxy se as medidas existem. O coeficiente de correlao , por assim dizer, uma medida de covarincia sem dimenso, ou seja, independente das unidades de medida de x e de y. De acordo com o valor de xy, pode-se dizer que x e y so: no correlacionadas, se xy=0 ; negativamente correlacionadas, se xy<0 (y tem a tendncia de decrescer quando x cresce); positivamente correlacionadas, se xy>0 (y tem a tendncia de crescer quando x cresce); perfeitamente correlacionadas, se xy=1. O coeficiente de correlao possui muitas propriedades interessantes: 1. xy independe de unidades de medida. 2. Se x e y so variveis aleatrias independentes ento xy=0. Note-se que xy=0 em geral no implica em independncia. 3. -1xy1, ou seja, o coeficiente de correlao situa-se no intervalo entre -1 e 1. 4. -xy<xy<xy. 5. Se se a, b, c e d so constantes, z=a+bx e t=c+dy, com b0 e d0, ento zt=xy e o sinal o mesmo de bd. Em particular, se b e d tem o mesmo sinal ento zt=xy. 6. Se a e b0 so constantes e xy=1 ento y=a+bx com probabilidade 1. Esta uma propriedade importante, pois garante que se a correlao 1 ento y pode ser expresso como uma funo linear de x, o que refora ser xy uma medida da relao linear existente entre x e y. O sinal negativo se b<0 e positivo se b>0. Nesse caso, a recproca tambm verdadeira, ou seja, se y=a+bx ento xy=1, com o sinal determinado pelo sinal de b. 7. Se V(x)=V(y) ento x+y e x-y so no correlacionadas. 8. xy=Cov(x-xx,y-yy), ou seja, a correlao entre x e y a covarincia entre as variveis padronizadas. O melhor preditor linear Considere-se as variveis aleatrias x e y tais que x>0 e y>0. Se essas variveis so correlacionadas, faz sentido imaginar como y pode ser predito por x por meio de uma equao linear do tipo ax+b. Observe-se que, pelas propriedades do coeficiente de correlao, se xy=1 ento y=ax+b com probabilidade 1, com a>0 se xy=1 e a<0 se xy=-1. Dentre as inmeras retas possveis desejvel escolher uma que atenda critrios estatsticos. O erro quadrtico mdio para predio de y por meio de ax+b dado por EQM(ax+b)=E(y-(ax+b))2 Um critrio interessante, portanto, pode ser obter a e b de tal forma que o erro quadrtico mdio seja minimizado. O resultado abaixo, obtido pelas tcnicas usuais do clculo, denominado melhor preditor linear para y, oferece a soluo do problema. O erro quadrtico mdio EQM(ax+b)=E(y-(ax+b))2 tem seu valor minimizado quando a=xyx2 e b=y-xyx2x

Assim, pode-se escrever que


www.galileu.esalq.usp.br/mostra_topico.php?cod=286 3/4

28/04/13

Sistema Galileu de Educao Estatstica

l(y x)=xyx2x+y-xyx2x =y+xyx2(x-x) =y+xyyx(x-x) Para valores fixados de x tem-se uma reta, denominada reta de regresso, dada por l(y x=v)=y+xyyx(v-x) Finalmente, o menor valor para EQM(ax+b) dado por E(y-l(y x))2=(1-xy2)y2 Quanto a esses resultados, vrios aspectos so interessantes: 1. xyyx o coeficiente angular da reta, ou seja, o coeficiente angular proporcional e tem o sinal de xy. 2. E(y-l(y x))2 no depende do valor de x mas da correlao existente entre x e y. 3. Se xy=1 ento todos os pares de valores de (x,y) esto sobre a reta e E(y-l(y x))2=0. 4. y2-E(y-l(y x))2=xy2y2, de modo que E(y-l(y x))2 a reduo na varincia de y quando o termo linear em x adicionado ao preditor constante y e xy2 a frao de reduo. Essa quantidade usualmente denominada de coeficiente de determinao. A figura que segue ilustra a situao.

Referncias: [VLab/2012] [Ferreira05/2005] [Silva04/2004] [Snedecor/1980]

www.galileu.esalq.usp.br/mostra_topico.php?cod=286

4/4