Sie sind auf Seite 1von 25

Análisis Bivariado

ANALISIS BIVARIADO

•Después de haber realizado el análisis de tipo exploratorio y


univariado, procede el análisis de la relación entre dos
variables.

•Tanto con fines descriptivos (es decir describir al conjunto de


la población observada), como explicativos (analizar las
posibles relaciones causales entre dos variables: la
Independiente y la dependiente).
Relación entre variables
• Dos variables x e y pueden relacionarse de
diversas maneras:
–x y

–y x

–x y

–xey ?
Técnicas de análisis
• Tablas de contingencia.

• Diagramas de dispersión.

• Correlaciones.

• Regresión lineal simple


Tablas de contingencia

Es una de las formas de análisis más común en


investigación en ciencias sociales.

Consiste en la confección de tablas formadas a


partir del cruce de dos o mas variables.

En SPSS: Analizar - Estadísticos descriptivos -Tablas


de contingencia.

Variables: Nominales y ordinales, en principio.


Pueden usarse en todas.
Tablas de contingencia
•Si bien no es estrictamente necesario, conviene considerar las
variables en términos de dependiente e independiente, ya que nos
permite entender el sentido del análisis.

•En caso de buscar aproximaciones de tipo causal, los porcentajes se


suelen estimar como dependiente por independiente. Así la variable
dependiente figurará en las filas, mientras que la independiente en
las columnas.

•De la misma manera, los porcentajes se observarán en las columnas


(v.i.) ya que se estiman sólo en el sentido de las variables
independientes.

•Adicionalmente, se pueden introducir variables de control para la


explicación de hipótesis alternativas.

•Significancia: Chi2 (-0,05; -20% casillas con frecuencia esperada


inferior al índice especificado).

•Qué muestra: Sólo asociación!!!


Cuán fuerte es la relación entre las variables?
• Dos variables están relacionadas si sus atributos varían conjuntamente.
Para determinar o graduar la relación se debe recurrir a los estadísticos de
contingencia, dependiendo del nivel de medición de la variable:

• Estas medidas están basadas en modificaciones al chi-Cuadrado


considerando el tamaño de la muestra y los grados de libertad para luego
restringir el rango del test estadístico de 0 a 1.

– Nominal: Phi y V de Cramér, Coeficiente de contingencia, Lambda (lambdas simétricas


y asimétricas y tau de Kruskal y Goodman) o Coeficiente de incertidumbre.

– Ordinales: Gamma (orden cero para tablas de doble clasificación y condicional para
tablas cuyo orden de clasificación va de 3 a 10), Tau-b de Kendall y Tau-c de Kendall. Para
pronosticar las categorías de columna a partir de las categorías de fila, seleccione d de
Somers.

– Nominal por intervalo. Cuando una variable es categórica y la otra es cuantitativa,


seleccione Eta. En este caso, la variable categórica debe codificarse numéricamente.
Especificaciones
• Phi: es muy certero para tablas de 2 x 2. Sin embargo en tablas más grandes puede no situarse entre 0 y 1
por ello se creó el coeficiente de contingencia.
• Coeficiente de contingencia: asegura que los valores estén entre 0 y 1 pero rara vez alcanza 1 por ello
Cramer creó la Cramer´s V.
• Cramer´s V: Cuando dos variables tienen sólo dos categorías Phi y Cramer´s V son idénticas. Sin embargo
con más categorías es la mejor medición. 0 es nula relación y +1 es una relación perfecta.
• Lambda: es una medida de dirección que también varía de 0 a 1. No se calcula a partir de Chi-cuadrado y
permite la predicción de una variable a partir de la otra. 1 significa que puede predecirse sin error a la
variable dependiente a partir de la independiente. Puede ser simétrica si pretendemos predecir la
dependiente en base a la independiente o asimétrica si no hay una variable dependiente y una
independiente. Lambda trata de predecir la moda de la variable dependiente, Tau busca predecir la
distribución de esa variable.
• Gamma: Para variables ordinales varía de –1 a +1. Magnitudes de 0.10 y 0.20 son pequeñas pero
considerables, coeficientes entre 0.21 y 0.40 moderadamente fuertes y más de 0.41 indican relaciones
importantes. Un gamma de .57 indica un error del 57% si predecimos el orden de los pares de casos de
una variable desde el orden de los pares de casos de la otra variable.
• Tau-b de Kendall: Más apropiado para tablas con igual número de renglones y columnas .-1 a +1.
• Eta = Variables independiente nominal y dependiente por intervalos o razón. Es un indicador de cuán
disímiles son las medias. 0 a 1. Si son iguales es 0.
Correlaciones: Análisis de la relación
entre variables de intervalo.
Después de analizar principalmente los grados de asociación entre variables a nivel
nominal y ordinal, una de las principales herramientas estadísticas para estudiar el nivel de
asociación entre variables a nivel intervalar son las correlaciones.

Una correlación es una medida de asociación lineal entre dos variables.

Por ejemplo, un profesor podría estar interesado en saber si existe una relación entre el
tiempo utilizado por los alumnos para practicar análisis de datos con SPSS y las notas
obtenidas en los trabajos prácticos. Existen varias maneras de saber cómo ambas variables
pueden estar correlacionadas:

-En primer lugar puede existir una correlación positiva, lo que significa que a mayor
horas de práctica con SPSS mejores son las notas en los trabajos. (+, + / -, -).

-Pueden estar negativamente correlacionadas por lo que a mayor horas de práctica


con el SPSS, peores son las notas obtenidas. (+, - / -, +).

-Pueden no estar correlacionadas en absoluto, por lo que las notas no representan


horas de trabajo con SPSS.
¿Cómo sabemos el tipo de correlación?

• Coeficiente de correlación de Pearson:


Valores entre -1 +1.

Correlación Positiva Correlación Negativa.


+ .70 Muy fuerte. -.70 Muy fuerte.
+.50 a +.69 Sustancial. -.50 a -.69 Sustancial.
+.30 a +.49 Moderada. -.30 a -.49 Moderada.
+.10 a +.29 Baja. -.10 a -.29 Baja.
+.01 a +.09 Muy Baja. -.01 a -.09 Muy Baja.
En SPSS…
• El procedimiento para realizar una correlación es bastante
sencillo ya que en la ventana analizar escogemos la opción
correlaciones bivariadas.

• Sin embargo antes de calcular debemos determinar que


características tienen los datos y para eso llevamos los datos a
un gráfico. Utilizamos un diagrama de dispersión.

• Los gráficos de dispersión son útiles para determinar si existe


un grado de asociación entre variables, de qué tipo es esta
asociación y también, si existen valores extremos que podrían
afectar la correlación (OJO!).

• Después de una vista preliminar a las variables podemos


proceder a realizar la correlación. Para ello vamos a la ventana
analizar y allí elegimos el tipo de correlación bivariada.
• También podemos controlar por medio de una 3ra variable
realizando un correlación parcial. Por ejemplo si
correlacionamos natalidad y mortalidad, ambos tendrán una
correlación negativa fuerte pero, si introducimos una variable
que representa desarrollo económico en un análisis de países,
vemos que ambas son dependientes de éste y la correlación
se espera que baje.

• En cuanto a la prueba de significación se recomienda usar


siempre la bilateral, ya que la unilateral supone que sabemos
que una variable afecta a la otra. O sea es una hipótesis
direccional.

• ADVERTENCIA: Las correlaciones son una medida de


asociación y no implica causalidad.
Análisis Multivariado
• Relación simultánea entre 3 o más variables.
Regresión múltiple
• Estimar el efecto independiente que produce
un cambio en el valor de una V.I. sobre una
V.D.
• Predecir los valores de la VD a partir del
conocimiento de los valores conjuntos de las
VI´s
Condiciones
(Manheim & Rich, 1988)

• Especificación de un modelo.
• No hay error de medición en las variables.
• Variables intervalares.
• Las VI’s no están perfectamente
correlacionadas entre sí (multicolinealidad).
OJO
• Cualquier combinación de variables debe
estar teóricamente justificada (Manheim & Rich, 1988).

• Medición de las VI´s en unidades similares:


Normalizar
Proporción de la variación del valor
de Y explicada por X.
* 100 = % de la variación explicada
por el modelo.
Valores entre 0 y 1

Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación
1 ,929a ,863 ,862 ,81030
a. Variables predictoras: (Constante), Gov ernment
Ef f ect iv eness

…de la VD que
“medida de la calidad de ajuste buscamos predecir.
de los diversos puntos de datos
Sin valor crítico
en torno a la línea de regresión”
determinado.
Reg: Q explicada 1°
Res: Q no explicada Menor
a 0,05
Reg mayor que Res

ANOVAb

Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 641,048 1 641,048 976,328 ,000a
Residual 101,772 155 ,657
Total 742,820 156
a. Variables predictoras: (Constante), Gov ernment Ef f ect iv eness
b. Variable dependient e: Indice percepción corrupción 2005 Transp. Internacional
Punto de intersección
de la gradiente con el
eje vertical (Y)

Coeficientesa

Coef icientes
Coef icientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 4,140 ,065 64,001 ,000
Gov ernment
1,992 ,064 ,929 31,246 ,000
Ef f ectiv eness
a. Variable dependiente: Indice percepción corrupción 2005 Transp. Int ernacional

Incremento de Y Gradiente: cambio en VD por cada unidad de


por cada X cambio en VI: “cambio medio de desviación típica
en Y asociado al cambio de desviación típica en X
cuando se mantiene constante el efecto de las
otras”
Problemas
• Datos sin intervalos: transformar en variable dicotómica (0, 1).

• Categorías múltiples no intervalares: variables dummy o


ficticias: crear variables dicotómicas para cada categoría -1
(evita función lineal exacta.

• Efectos de interacción: impacto de una VI depende de otra VI

• Multicolinealidad: ninguna VI puede estar perfectamente


correlacionado con otra VI. Si las correlaciones entre las VI es
fuerte, las estimaciones de los coeficientes se hacen
inexactas.
Síntomas de multicolinealidad
• R2 elevado con betas no significativos.
• Alteraciones en los coeficientes al añadir o suprimir
VI’s.
• Coeficientes con signo erróneo.

Remedios caseros:
• Aumentar el tamaño de la muestra.
• Identificar las VI´s altamente correlacionadas y
combinarlas en un solo indicador.
• Descartar VI´s muy correlacionadas (1)
2. Evitar multicolinealidad
Generalmente, 1 (No menor que
0,2 ni cercano a 10)

Coefici entesa

Coef icientes
Coef icientes no estandarizad Estadí sticos de
estandarizados os colinealidad
Modelo B Error típ. Beta t Sig. Tolerancia FI V
1 (Constante) 4,140 ,065 64,001 ,000
Gov ernment
1,992 ,064 ,929 31,246 ,000 1,000 1,000
Ef f ect iv eness
a. Variable dependient e: Indice percepción corrupción 2005 Transp. Internacional
Evitar
heterocedasticidad:

Valores agrupados en
torno a 0 (-1 y + 1):
Residuos no
relacionados
Correlación entre residuos.
Valores en torno a 2: Sin correlación
Valores en torno a 4: correlación negativa
Valores próximos a 0: correlación positiva.

Resumen del modelob

R cuadrado Error típ. de la Durbin-


Modelo R R cuadrado corregida estimación Wat son
1 ,929a ,863 ,862 ,81030 2,050
a. Variables predictoras: (Constante), Gov ernment Ef f ectiv eness
b. Variable dependiente: Indice percepción corrupción 2005 Transp.
Internacional

Das könnte Ihnen auch gefallen