Sie sind auf Seite 1von 4

En probabilidad y estadstica, la covarianza es un valor que indica el grado de variacin

conjunta de dos variables aleatorias. Es el dato bsico para determinar si existe una
dependencia entre ambas variables y adems es el dato necesario para estimar otros
parmetros bsicos, como el coeficiente de correlacin lineal o la recta de regresin.

Interpretacin[editar]

Cuando a grandes valores de una de las variables suelen mayoritariamente corresponderles los
grandes de la otra y lo mismo se verifica para los pequeos valores de una y la otra, se
corrobora que tienden a mostrar similar comportamiento lo que se refleja en un valor positivo
de la covarianza1

Por el contrario, cuando a los mayores valores de una variable suelen corresponder en general
los menores de la otra, expresando un opuesto comportamiento, la covarianza es negativa.

El signo de la covarianza, por lo tanto, expresa la tendencia en la relacin lineal entre las
variables.

La magnitud requiere un esfuerzo adicional de interpretacin:

La versin normalizada de la covarianza, el coeficiente de correlacin indica la magnitud de la


especificidad de la relacin lineal.

Se debe distinguir entre:

(1) la covarianza de dos variables aleatorias, parmetro estadstico de una poblacin


considerado una propiedad de la distribucin conjunta y

(2) la covarianza muestral que se emplea como un valor estadsticamente estimado del
parmetro.

La covarianza entre dos distribucin conjunta variables aleatorias reales x e y de segundos


momentos finitos se define como2

(x,y)=E[(xE[x])(yE[y])],

donde E[x] es el valor esperado de x, conocido tambin como la media de x. Apelando a la


propiedad de la esperanza matemtica lineal, se puede simplificar como

(x,y)=E[(xE[x])(yE[y])]=E[xyxE[y]E[x]y+E[x]E[y]]=E[xy]E[x]E[y]E[x]E[y]+E[x]E[y]=E[xy]E[x
]E[y].

aunque esta ltima ecuacin es proclive a perder sentido cuando se la calcula con punto
flotante aritmtico y E[xy]E[x]E[y] y lo que debe evitarse en programas de computacin
cuando el dato no ha sido previamente centrado.3

El estimador insesgado de la covarianza denotado sxy de dos variables aleatorias x e y es


sxy=1(n1)i=1n(xix)(yiy).

Cuando las variables aleatorias x e y son n-dimensionales, es decir, x=(x1,,xn)t e y=(y1,,yn)t,


su matriz de covarianzas xy es:

xy=E([xE(x)][yE(y)]t)

Interpretacin de la covarianza[editar]

Si sxy>0 hay dependencia directa (positiva), es decir, a grandes valores de x corresponden


grandes valores de y.

Si sxy=0 Una covarianza 0 se interpreta como la no existencia de una relacin lineal entre las
dos variables estudiadas.

Si sxy<0 hay dependencia inversa o negativa, es decir, a grandes valores de x corresponden


pequeos valores de y.

Iguales interpretaciones se aplican al parmetro (x,y)

Propiedades[editar]

Si X, Y, W, y V son variables aleatorias y a, b, c, d son constantes ("constante" en este contexto


significa no aleatorio), se cumple que:

Cov(X,a)=0

Cov(X,X)=Var(X), la varianza de X

Cov(X,Y)=Cov(Y,X)

Cov(aX,bY)=abCov(X,Y)

Cov(X+a,Y+b)=Cov(X,Y)

Cov(aX+bY,cW+dV)=acCov(X,W)+adCov(X,V)+bcCov(Y,W)+bdCov(Y,V)

Cov(X,Y)=E(XY)E(X)E(Y), frmula que suele emplearse en la prctica para calcular la


covarianza.

Estas propiedades se deducen de manera casi directa de la definicin de la covarianza. En otras


palabras la covarianza trata de explicar qu tan relacionadas se encuentran dos variables entre
s, qu tanto se mueve una cuando la otra se mueve otro tanto. Ejemplo, si la variable X se
mueve 1, supongamos que la variable Y se mueve 2, entonces podemos decir que la variable Y
se mueve positivamente el doble de lo que se movera la variable X.

Ausencia de correlacin e independencia[editar]

Si X e Y son independientes, entonces su covarianza es cero. Esto ocurre por la propiedad de


independencia,
E(XY)=E(X)E(Y).

Lo opuesto, sin embargo, generalmente no es cierto: algunos pares de variables aleatorias


tienen covarianza cero pese a que no son independientes. Bajo algunas hiptesis adicionales,
la covarianza de valor cero implica independencia, como por ejemplo en el caso de la
distribucin normal multivariante.

Relacin con el producto escalar[editar]

La mayora de las propiedades de la covarianza se deducen de las del producto escalar:

Bilinealidad: para las constantes a y b, y las variables aleatorias X, Y, y U, Cov(aX + bY, U) = a


Cov(X, U) + b Cov(Y, U)

Simetra: Cov(X, Y) = Cov(Y, X)

Es un operador positivo definido: Var(X) = Cov(X, X) 0; adems, si Cov(X, X) = 0 entonces X es


una variable aleatoria constante.

De hecho, la covarianza es un producto interior sobre el espacio cociente de las variables


aleatorias de momentos finitos iguales salvo constante.

Vase tambin[editar]

En estadstica, el coeficiente de correlacin de Pearson es una medida de la relacin lineal


entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlacin de
Pearson es independiente de la escala de medida de las variables.

De manera menos formal, podemos definir el coeficiente de correlacin de Pearson como un


ndice que puede utilizarse para medir el grado de relacin de dos variables siempre y cuando
ambas sean cuantitativas.

ndice [ocultar]

1 Definicin

1.1 Interpretacin

2 Vase tambin

3 Enlaces externos

Definicin[editar]

En el caso de que se est estudiando dos variables aleatorias x e y sobre una poblacin; el
coeficiente de correlacin de Pearson se simboliza con la letra \rho_{x,y}, siendo la expresin
que nos permite calcularlo:
\rho_{X,Y}={\sigma_{XY} \over \sigma_X \sigma_Y} ={E[(X-\mu_X)(Y-\mu_Y)] \over
\sigma_X\sigma_Y},

Donde:

\sigma_{XY} es la covarianza de (X,Y)

\sigma_{X} es la desviacin tpica de la variable X

\sigma_{Y} es la desviacin tpica de la variable Y

De manera anloga podemos calcular este coeficiente sobre un estadstico muestral, denotado
como r_{xy} a:

r_{xy}=\frac{\sum x_iy_i-n \bar{x} \bar{y}}{n s_x s_y}=\frac{n\sum x_iy_i-\sum x_i\sum y_i}

{\sqrt{n\sum x_i^2-(\sum x_i)^2}~\sqrt{n\sum y_i^2-(\sum y_i)^2}}.

Interpretacin[editar]

Varios grupos de puntos (x, y), con el coeficiente de correlacin para cada grupo. Ntese que la
correlacin refleja la no linealidad y la direccin de la relacin lineal. En la figura del centro, la
varianza de y es nula, por lo que la correlacin es indeterminada.

El valor del ndice de correlacin vara en el intervalo [-1,1]:

Si r = 1, existe una correlacin positiva perfecta. El ndice indica una dependencia total entre
las dos variables denominada relacin directa: cuando una de ellas aumenta, la otra tambin lo
hace en proporcin constante.

Si 0 < r < 1, existe una correlacin positiva.

Si r = 0, no existe relacin lineal. Pero esto no necesariamente implica que las variables son
independientes: pueden existir todava relaciones no lineales entre las dos variables.

Si -1 < r < 0, existe una correlacin negativa.

Si r = -1, existe una correlacin negativa perfecta. El ndice indica una dependencia total entre
las dos variables llamada relacin inversa: cuando una de ellas aumenta, la otra disminuye en
proporcin constante.

Das könnte Ihnen auch gefallen