Sie sind auf Seite 1von 23

DISTRIBUCIONES

ESTADISTICAS BIVARIADAS

Docente: Licda. Meiby Sulema Rivera Vasquez


INTRODUCCION
Hasta ahora nos hemos centrado en medidas de
tendencia central, variabilidad, asimetría y curtosis de
una única variable.

No obstante, en la práctica es común examinar dos o


más variables conjuntamente (relación entre inteligencia
y rendimiento, etc.)

En este tema nos centraremos en la relación entre 2


variables (a partir de n observaciones apareadas) y
calcularemos (en particular) un índice que nos dará el
grado de relación/asociación entre ambas variables: el
coeficiente de correlación lineal (de Pearson)
Representación gráfica de una relación
rendimiento

rendimiento

rendimiento
inteligencia inteligencia inteligencia

Sin relación Relación lineal negativa


Relación lineal positiva
Representación gráfica de una relación

rendimiento

inteligencia rendimiento inteligencia

Relación lineal Relación no lineal

Nota: El coeficiente de correlación de Pearson mide relación LINEAL.


Representación gráfica de una relación (3)
rendimiento

rendimiento

rendimiento
inteligencia inteligencia inteligencia

Relación lineal perfecta Relación lineal Relación lineal débil


(casi perfecta) fuerte/moderada

Ahora necesitamos un índice que nos informe tanto del grado en que X e Y están
relacionadas, y si la relación es positiva o negativa
Covarianza e índice de correlación de Pearson

Observar que cuando la relación lineal es positiva,


rendimiento

cuando las puntuaciones diferenciales de X son


positivas, las puntuaciones diferenciales de Y suelen
Caso 1 ser positivas.

inteligencia

Observar que cuando la relación lineal es negativa,


cuando las puntuaciones diferenciales de X son
Caso 2
rendimiento

positivas, las puntuaciones diferenciales de Y suelen


ser negativas.

inteligencia
TIPOS DE GRAFICOS:
BIVARIADOS
-Dos variables cuantitativas: Gráficos de
dispersión
- Dos variables cualitativa: Gráficos de Barras
dobles
- Una variable cualitativa y otra cuantitativa:
a) Diagramas de Puntos.
b) Panel de histogramas.
c) Diagrama de cajas agrupadas.
Tabla de Correlación o
Contingencia (atributos)
Tabla de Correlación o Contingencia
Permite ayudarnos a determinar si existe relación de interdependencia
entre 2 variables, es decir, si se influyen mutuamente.

donde nij es el número de


observaciones que presentan
simultáneamente las características
i, j de las variables A y B,
respectivamente.

Así, una tabla de contingencia es una tabla de doble


entrada, donde en cada casilla figurará el número de casos
o individuos que poseen un nivel de una de las
características analizadas y otro nivel de la otra
característica.
DISTRIBUCIONES
MARGINALES
Al analizar una distribución bidimensional, uno puede centrar su
estudio en el comportamiento de una de las variables, con
independencia de como se comporta la otra. Estaríamos así en el
análisis de una distribución marginal.

Distribución marginal de A Distribución marginal de B


Ai ni. Bj n.j
A1 n1. B1 n.1
A2 n2. B2 n.2
… … … …
An-1 nn-1. Bm-1 n.m-1
An nn. Bm n.m
Distribuciones marginales

Definimos:

J
ni    nij
I
n j   nij son las frecuencias absolutas marginales
j 1 de las variables A y B, respectivamente.
i 1

J nij I nij
fi    f j   son las frecuencias relativas marginales
j 1 n i 1 n de las variables A y B, respectivamente.
En las tablas de contingencia:
a) Distribuciones marginales

b) Distribuciones de frecuencias relativas


c) Perfiles fila

Del total de
individuos con la
característica “A1”
que porcentaje
comparte a su vez la
“B1”
d) Perfiles columna
Cómo es lógico, el
porcentaje de
individuos con “A1”
que, o bien
comparten B1 o B2 y
hasta Bj será el
100% = 1
Distribución de una de las variables
siempre que la otra cumpla una
condición específica.

xi ni.
(Frecuencia cuando y=valor específico)

x1 n1.
x2 n2.
… …
xn-1 nn-1.
xn nn.

X: Gasto en material escolar


0 5
Y: Número de hijos 50 8
Distrib. Condicionada: Por ejemplo, gasto en material escolar 100 5
Suma de frecuencias
cuando el número de hijos es <3. También podría ser simplemente 150 8
cuando y=0, y=1, y= 2.
cuando y=número, sólo sería coger esa columna sin sumar nada.
200 4 Que tienen un gasto de 50.
nij
N
h

 i
( x  x ) 2
ni Varianza de X
Var ( X )  i 1
 S X2
N
k

 j
( y
j 1
 y ) 2
n j
Varianza de Y Var (Y )   SY2
N

h k

 ( x  x )( y
i 1 j 1
i j  y )nij
Covarianza entre X e Y
Cov( X , Y )   S XY
N Mide si existe asociación lineal
entre X e Y. Positiva o negativa
pero no la intensidad
Coeficiente de correlación lineal
El valor de la covarianza dependerá de los valores de las
variables, por tanto de sus unidades. Para poder eliminar las
unidades y tener una medida adimensional utilizamos el
COEFICIENTE DE CORRELACIÓN LINEAL ( rxy )
S xy
rxy 
SxS y
siendo invariante frente a transformaciones lineales (cambio de origen
y escala) de las rvariable.
xy

•Es un coeficiente adimensional


• -1  r  1
Propiedades: •Si hay relación lineal positiva r > 0 y próximo a 1
•Si hay relación lineal negativa r < 0 y próximo a -1
•Si no hay relación lineal r se aproxima a 0
•Si X e Y son independientes Sxy = 0 y por tanto r = 0
Importante:

Si las dos variables son independientes, su covarianza vale cero. No podemos asegurar lo mismo en sentido contrario. Si
dos variables tienen covarianza cero, no significa que sean independientes. Linealmente NO tienen relación. Pero pueden
ser dependientes.
Coeficiente de correlación (lineal) de Pearson

Interpretación

Hemos de tener en cuenta qué es lo que estamos midiendo para poder


interpretar cuán grande es la relación entre las variables bajo estudio. En
muchos casos, depende del área bajo estudio.

En todo caso, es muy importante efectuar el


diagrama de dispersión. Por ejemplo, en el
caso de la izquierda, es claro que no hay
relación entre inteligencia y rendimiento. Sin
embargo, si calculamos el índice de
correlación de Pearson nos dará un valor muy
rendimiento

elevado, causado por la puntuación atípica en


la esquina superior derecha.

inteligencia
VARIABLES CUALITATIVAS

1) Coeficiente de Asociación Chi-Cuadrado (χ2):

nij
I J
nij  eij 
2  Frecuencia observada

  2
 eij ni  n j
i 1 j 1 eij  Frecuencia
n esperada

Si  2 ≈ 0 no habrá asociación  inexistencia de asociación

Problema: no tiene límite superior por lo que no permite


conocer el grado de asociación.
2) Coeficiente “C” de contingencia de Karl Pearson:

 2
1
C lím ite _ m áxim o 1 
2 n min(I , J )
Nunca superior a uno

Si C ≈0 inexistencia de asociación
Si C ≈1 perfecta asociación entre las variables
Coeficiente de Correlación por Rangos de Spearman:

• El Coeficiente de Correlación por Rangos de Spearman permite determinar


la correlación de datos de carácter ordinal midiendo la concordancia o
discordancia entre las clasificaciones.

• Formulación:
Si no hay empates

D: diferencia de valores para las


dos variables.
• Interpretación:

 Si ρ= 1: Correlación por rangos perfecta y positiva. La concordancia entre los


rangos es perfecta
Si ρ = -1: Correlación por rangos perfecta y negativa. La concordancia entre los
rangos es perfecta
Si ρ = 0: Correlación por rangos nula. No hay concordancia entre los rangos
Si 0 < ρ < 1: Correlación por rangos positiva y si -1 < ρ <0: Correlación por
rangos negativa
ASOCIACIÓN ESTADÍSTICA

La idea de asociación / relación entre variables


se define por lo general en oposición al de
independencia estadística y se evalúa
examinando el sentido y la fuerza de las
regularidades empíricas

“Las variables X e Y (sexo y condición de


actividad) son estadísticamente
independientes si el porcentaje de
observaciones que poseen el atributo Y1
(activo) es el mismo entre X1 (hombres)
que entre X2 (mujeres)”.
22
MEDIDAS DE ASOCIACIÓN

Medida de Escala de
Tabla Observaciones
asociación Medida

Phi 2x2 Nominales Medidas basadas en chi cuadrado.


Toman valores comprendidos entre 0 y 1.
Evalúa hipótesis lineales (diagonal principal).
V de Cramer fxc Nominales Son útiles para estimar grados de asociación
entre pares de variables, sobre un mismo
conjunto de individuos para n filas y columnas.
Toma valores entre 0 y 1.
Disponen versión asimétrica.
Es fácil de interpretar en términos de la
Lambda fxc Nominales proporción que se reduce le error de
predicción del valor de una variable a partir
de los valores de la otra (pero puede tomar
valores muy bajos en tablas con asociación).
Gamma fxc Ordinales Toma valores entre -1 y 1, pasando por 0.
Gamma es más fácil de interpretar. Asume
relaciones curvilineales.
Tau b / c de fxc Ordinales Tau b sólo alcanza valores extremos cuando
Kendall hay asociación total y f y c son iguales.
Tau c tiende a subestimar la relación. 23

Das könnte Ihnen auch gefallen