Sie sind auf Seite 1von 15

ANÁLISIS BIVARIADO

GRUPO 4

KHAN MELÉNDEZ EDGAR ANTONIO

PEREZ PEZO MOISES NOE

SANGAMA ROJAS CÉSAR AUGUSTO

20 DE SETIEMBRE DEL 2018


UNIVERSIDAD NACIONAL DE LA AMAZONIA PERUANA
UNAP
ÍNDICE

I. Dedicatoria ……………………………………………………………………. 3

II. Introducción …………………………………………………………………… 4

III. Análisis De Dos Variables …………………………………………………… 5

IV. Métodos Para El Análisis Vibariado ………………………………………… 6


 Correlación
 Regresión Lineal
 Chi Cuadrado

V. Conclusión …………………………………………………………………... 15
DEDICATORIA
En primer lugar, a dios por habernos permitido llegar hasta este punto y habernos
dado salud, ser el manantial de vida y darnos lo necesario para seguir adelante
día a día para lograr nuestros objetivos, además de su infinita bondad y amor y
nuestros Padres por estar ahí cuando más los necesitamos.
I. Introducción

El Análisis Bivariado Implica el análisis comparativo de dos variables una de las cuales
modifica a la otra.

Al considerar dos variables, la construcción de las tablas de distribución de frecuencias


Bivariadas, que llamaremos Tablas Bivariadas, se realizará considerando la siguiente
estructura:

a) Llamaremos a cada una de las variables con, niveles o intervalos o clases para la
variable X, y niveles o intervalos o clases para la variable Y.

b) La variable X se puede disponer en las filas y la variable Y en las columnas,


registrándose para ellas la información conjunta, de los pares ordenados en el centro de
la tabla.

A menudo se desea determinar la existencia o no de relación entre dos variables, para


lo cual se realizan diferentes pruebas de significación estadística. La forma en que se
relacionan dos variables se denomina asociación entre dos variables. El interés de este
tipo de análisis se centra principalmente en la forma en que se distribuye la variable
dependiente en función de las diferentes categorías o valores de la variable
independiente.

Es decir, la variable que atrae primordialmente la atención del investigador, y cuya


variación trata de explicar, se llama variable dependiente, porque se supone que los
valores que toma dicha variable dependen de los valores que presentan otras variables.
Estas variables que se suponen influyen en los valores que toma la variable dependiente
son las variables independientes (explicativas o causales), ya que permiten conocer por
qué varía la variable dependiente de la forma que lo hace en una determinada población
(usualmente una muestra).

Sin embargo, los resultados que aparecen al establecer relaciones significativas entre
dos variables son de naturaleza descriptiva y tales resultados no explican por qué ocurre
dicha relación. Esto es, una correlación entre dos variables no implica necesariamente
una relación causal entre ellas puesto que en cualquier correlación podría existir una
tercera variable que explique la asociación entre las dos variables que han sido medidas
(relación espuria). A su vez, se debe verificar que la variable independiente (causa)
anteceda temporalmente a la variable dependiente (efecto).

Del mismo modo, se hace necesaria la existencia de una teoría que nos permita
discriminar entre las simples relaciones estadísticas y las relaciones causales
propiamente tales.

El estudio de la relación entre dos variables se puede caracterizar mediante: i) la


existencia o no de asociación; ii) la fuerza de dicha asociación y iii) la dirección de ésta.2
Ciertamente solamente tiene sentido ii) y iii) si se verifica en i) la existencia de relación
entre las variables. Para ello se utilizan un conjunto de pruebas de significación
estadística, las cuales dependerán del nivel de medición de las variables.
II. Análisis de Dos Variables

Para la determinación de la existencia o no de asociación entre la variable dependiente


y las variables independientes se utilizará el Coeficiente Estadístico Chi Cuadrado de
Pearson. La intensidad de la asociación se determinará mediante el Coeficiente V de
Cramer. Para la determinación de la dirección de la asociación, en tanto, se efectuará
el Coeficiente de Correlación de Spearman.

La prueba de significación estadística basada en el coeficiente Chi Cuadrado de


Pearson tiene como fin examinar asociación entre variables categóricas (nominales u
ordinales). Existe asociación entre variables cuando los valores de una de ellas
dependen de los valores de otra. Cuando dos variables están relacionadas es posible
predecir los valores de la variable dependiente en función de los valores de las variables
independientes.

No existe relación cuando éstas son independientes. Dos variables independientes no


tienen nada en común. El estadístico Ji cuadrado, sin embargo, no permite estudiar la
intensidad de la relación entre las variables.

La prueba basada en el Coeficiente V de Cramer tiene como finalidad comparar grados


de asociación entre variables medidas a nivel nominal. El Coeficiente V de Cramer
asume valores entre 0 y 1, en donde, valores próximos a 0 indican una muy baja
asociación entre las variables y valores próximos a 1 indicas una fuerte asociación.

Finalmente, la prueba de significación estadística basada en el Coeficiente de


Correlación de Spearman tiene por objeto determinar la dirección y la intensidad de la
asociación entre dos variables medidas a nivel ordinal. Dicho coeficiente toma valores
entre -1 y +1. Los valores cercanos a -1 ó +1 indican fuerte asociación entre las variables
mientras que los valores cercanos a 0 indican una muy baja asociación. Si el valor es
positivo, las variables varían en la misma dirección, en tanto, si es negativo lo hacen en
direcciones opuestas (a medida que aumenta una disminuye la otra). Se debe tener
presente que Spearman está pensado para detectar relaciones de tipo lineal, pero no
todas las relaciones son lineales (por ejemplo, las curvilíneas).

Para las pruebas estadísticas en cuestión, si el p-valor asociado al estadístico de


contraste es menor que el nivel de significación 0.05, se rechazará la hipótesis nula H0
a un nivel de confianza del 95%, y se aceptará la hipótesis alternativa H1 (asociación
entre la variable dependiente y la independiente).

El nivel de significación constituye el valor crítico a partir del cual estamos dispuestos a
aceptar o rechazar una hipótesis dentro de ciertos márgenes razonables de error, siendo
el máximo estándar en ciencias sociales de un 5% (95% de confianza).

Entre menor sea el nivel de significación, mayor es el nivel de confianza y, por


consiguiente, menor será la probabilidad de cometer un error en la prueba de hipótesis.
Los errores que se pueden cometer son de dos: (i) el error tipo I ó α (alfa), el cual se
produce cuando se acepta la hipótesis alternativa siendo ésta falsa; y (ii) el error tipo II
ó β (beta), el cual se genera cuando se rechaza la hipótesis alternativa siendo ésta
verdadera.
III. Métodos para el Análisis Bivariado

La Correlación

En el presente trabajo trataremos de valorar la asociación entre dos variables


cuantitativas estudiando el método conocido como correlación. Dicho cálculo es el
primer paso para determinar la relación entre las variables. La predicción de una
variable.

El coeficiente de correlación lineal entre X e Y viene dado por

y trata de medir la dependencia lineal que existe entre las dos variables. Su cuadrado
se denomina coeficiente de determinación, r2.

La correlación está basada en la asociación lineal, es decir, que cuando los valores de
una variable aumentan los valores de la otra variable pueden aumentar o
disminuir proporcionalmente. Por ejemplo, la altura y el peso tienen una relación
lineal positiva, a medida que aumenta la altura aumenta el peso. Si realizamos
un gráfico de puntos con ambas variables la nube de puntos se asemejará a
una diagonal si hay correlación entre las variables.

Existen 2 grandes tipos de correlaciones: Correlación de Pearson y Correlación


de Spearman. Ambas están basadas en la misma información, aunque usan fórmulas
diferentes.

 La correlación de Pearson es más adecuada cuando las variables siguen


la curva normal.

 La correlación de Spearman es más conveniente usarla cuando las variables


no siguen la curva normal.

Por lo general, no suelen haber muchas diferencias entre los resultados, aunque pueden
variar los resultados sobre todo cuando se trabaja con muestras pequeñas.

En análisis estadístico de datos se usa la correlación cuando trabajamos con variables


ordinales o escalares. Las variables ordinales y escalares son aquellas que sus
categorías tienen un orden interno. Si incluimos una variable nominal debemos
recodificarla a variable dummy.
La cuantificación de la fuerza de la relación lineal entre dos variables cuantitativas, se
estudia por medio del cálculo del coeficiente de correlación de Pearson. Dicho
coeficiente oscila entre –1 y +1. Un valor de –1 indica una relación lineal o línea recta
positiva perfecta. Una correlación próxima a cero indica que no hay relación lineal entre
las dos variables.

El realizar la representación gráfica de los datos para demostrar la relación entre el valor
del coeficiente de correlación y la forma de la gráfica es fundamental ya que existen
relaciones no lineales.

El coeficiente de correlación posee las siguientes características:

a. El valor del coeficiente de correlación es independiente de cualquier unidad


usada para medir las variables.

b. El valor del coeficiente de correlación se altera de forma importante ante la


presencia de un valor extremo, como sucede con la desviación típica. Ante estas
situaciones conviene realizar una transformación de datos que cambia la escala
de medición y modera el efecto de valores extremos (como la transformación
logarítmica).

c. El coeficiente de correlación mide solo la relación con una línea recta. Dos
variables pueden tener una relación curvilínea fuerte, a pesar de que su
correlación sea pequeña. Por tanto, cuando analicemos las relaciones entre dos
variables debemos representarlas gráficamente y posteriormente calcular el
coeficiente de correlación.

d. El coeficiente de correlación no se debe extrapolar más allá del rango de valores


observado de las variables a estudio ya que la relación existente entre X e Y
puede cambiar fuera de dicho rango.

e. La correlación no implica causalidad. La causalidad es un juicio de valor que


requiere más información que un simple valor cuantitativo de un coeficiente de
correlación.

El coeficiente de correlación de Pearson (r) puede calcularse en cualquier grupo de


datos, sin embargo, la validez del test de hipótesis sobre la correlación entre las
variables requiere en sentido estricto: a) que las dos variables procedan de una muestra
aleatoria de individuos. b) que al menos una de las variables tenga una distribución
normal en la población de la cual la muestra procede.

Para el cálculo válido de un intervalo de confianza del coeficiente de correlación de r


ambas variables deben tener una distribución normal. Si los datos no tienen una
distribución normal, una o ambas variables se pueden transformar (transformación
logarítmica) o si no se calcularía un coeficiente de correlación no paramétrico
(coeficiente de correlación de Spearman) que tiene el mismo significado que el
coeficiente de correlación de Pearson y se calcula utilizando el rango de las
observaciones.

La covarianza, que en este ejemplo es el producto de peso (kg) por talla (cm), para que
no tenga dimensión y sea un coeficiente, se divide por la desviación típica de X (talla) y
por la desviación típica de Y (peso) con lo que obtenemos el coeficiente de correlación
de Pearson que en este caso es de 0.885 e indica una importante correlación entre las
dos variables. Es evidente que el hecho de que la correlación sea fuerte no implica
causalidad. Si elevamos al cuadrado el coeficiente de correlación obtendremos el
coeficiente de determinación (r2=0.783) que nos indica que el 78.3% de la variabilidad
en el peso se explica por la talla del niño. Por lo tanto, existen otras variables que
modifican y explican la variabilidad del peso de estos niños. La introducción de más
variable con técnicas de análisis multivariado nos permitirá identificar la importancia de
que otras variables pueden tener sobre el peso.

Ejemplo:

Los valores de dos variables X e Y se distribuyen según la tabla siguiente:

Y/X 100 50 25
14 1 1 0
18 2 3 0
22 0 1 2

1 Calcular la covarianza.
2 Obtener e interpretar el coeficiente de correlación lineal.
3 Ecuación de la recta de regresión de Y sobre X.

Convertimos la tabla de doble entrada en una tabla simple.

xi yi fi xi · fi xi2 · fi yi · fi yi2 · fi xi · yi · fi
100 14 1 100 10 000 14 196 1 400
100 18 2 200 20 000 36 648 3 600
50 14 1 50 2 500 14 196 700
50 18 3 150 7 500 54 972 2 700
50 22 1 50 2 500 22 484 1 100
25 22 2 50 1 250 44 968 1 100
10 600 43 750 184 3 464 10 600
La Regresión Lineal

En estadística la regresión lineal o ajuste lineal es un modelo matemático usado para


aproximar la relación de dependencia entre una variable dependiente Y, las variables
independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como:

donde:

Yt : variable dependiente, explicada o regresando.

X1, X2,… Xp : variables explicativas, independientes o regresores.

β0, β1, β2,… βp : parámetros, miden la influencia que las variables explicativas tienen sobre
el regrediendo.

donde β0 es la intersección o término "constante", las βi (i > 0) son los parámetros


respectivos a cada variable independiente, y “p” es el número de parámetros
independientes a tener en cuenta en la regresión.

En estadística, el análisis de la regresión es un proceso estadístico para estimar las


relaciones entre variables. Incluye muchas técnicas para el modelado y análisis de
diversas variables, cuando la atención se centra en la relación entre una variable
dependiente y una o más variables independientes (o predictoras).

Más específicamente, el análisis de regresión ayuda a entender cómo el valor de la


variable dependiente varía al cambiar el valor de una de las variables independientes,
manteniendo el valor de las otras variables independientes fijas. Más comúnmente, el
análisis de regresión estima la esperanza condicional de la variable dependiente dadas
las variables independientes, es decir, el valor promedio de la variable dependiente
cuando se fijan las variables independientes.

En todos los casos, el objetivo de la estimación es una función de las variables


independientes llamada la función de regresión.
En el análisis de regresión, también es de interés caracterizar la variación de la variable
dependiente en torno a la función de regresión, la cual puede ser descrita por
una distribución de probabilidad.

El análisis de regresión es ampliamente utilizado para la predicción y previsión, donde


su uso tiene superposición sustancial en el campo de aprendizaje automático. El análisis
de regresión se utiliza también para comprender cuales de las variables independientes
están relacionadas con la variable dependiente, y explorar las formas de estas
relaciones. En circunstancias limitadas, el análisis de regresión puede utilizarse para
inferir relaciones causales entre las variables independientes y dependientes. Sin
embargo, esto puede llevar a ilusiones o relaciones falsas, por lo que se recomienda
precaución, por ejemplo, la correlación no implica causalidad.

Muchas técnicas han sido desarrolladas para llevar a cabo el análisis de regresión.
Métodos familiares tales como la regresión lineal y la regresión por cuadrados mínimos
ordinarios son paramétricos, en que la función de regresión se define en términos de un
número finito de parámetros desconocidos que se estiman a partir de los datos.
La regresión no paramétrica se refiere a las técnicas que permiten que la función de
regresión consista en un conjunto específico de funciones, que puede ser
de dimensión infinita.

El desempeño de los métodos de análisis de regresión en la práctica depende de la


forma del proceso de generación de datos, y cómo se relaciona con el método de
regresión que se utiliza. Dado que la forma verdadera del proceso de generación de
datos generalmente no se conoce, el análisis de regresión depende a menudo hasta
cierto punto de hacer suposiciones acerca de este proceso.

Ejemplo:

El número de horas dedicadas al estudio de una asignatura y la calificación obtenida en


el examen correspondiente, de ocho personas es:

Horas (X) Calificación (Y) xi yi xi2 yi2 xi ·yi


20 6.5 16 6 256 36 96
16 6 18 7.5 324 56.25 135
34 8.5 20 6.5 400 42.25 130
23 7 22 8 484 64 176
27 9 23 7 529 49 161
32 9.5 27 9 729 81 243
18 7.5 32 9.5 1 024 90.25 304
22 8 34 8.5 1156 72.25 289
192 62 4 902 491 1 534
El Chi Cuadrado

Una prueba de chi-cuadrada es una prueba de hipótesis que compara la distribución


observada de los datos con una distribución esperada de los datos.

El estadístico de chi-cuadrada es una medida de la divergencia entre la distribución de


los datos y una distribución esperada o hipotética seleccionada. Por ejemplo, se utiliza
para:

 Probar la independencia o determinar la asociación entre variables categóricas.


Por ejemplo, si usted tiene una tabla de dos factores de resultados electorales
basada en el sexo de los votantes, los estadísticos de chi-cuadrada pueden
ayudar a determinar si un voto es independiente del sexo del votante o si existe
alguna asociación entre voto y sexo. Si el valor p asociado con el estadístico de
chi-cuadrada es menor que el nivel de significancia (α) seleccionado, la prueba
rechaza la hipótesis nula de que las dos variables son independientes.

 Determinar si un modelo estadístico se ajusta adecuadamente a los datos. Si el


valor p asociado al estadístico de chi-cuadrada es menor que el nivel de
significancia (α) seleccionado, la prueba rechaza la hipótesis nula de que el
modelo se ajusta a los datos.

Existen varios tipos de pruebas de chi-cuadrada:

Prueba de bondad de ajuste de chi-cuadrada

Utilice este análisis para probar qué tan bien una muestra de datos categóricos se ajusta
a una distribución teórica.

Por ejemplo, usted puede comprobar si un dado es justo, lanzando el dado muchas
veces y utilizando una prueba de bondad de ajuste de chi-cuadrada para determinar si
los resultados siguen una distribución uniforme. En este caso, el estadístico de chi-
cuadrada cuantifica qué tanto varía la distribución observada de los conteos con
respecto a la distribución hipotética.

Pruebas de chi-cuadrada de asociación e independencia

Los cálculos para estas pruebas son iguales, pero la pregunta que se está tratando de
contestar puede ser diferente.

 Prueba de asociación: Utilice una prueba de asociación para determinar si una


variable está asociada a otra variable. Por ejemplo, determine si las ventas de
diferentes colores de automóviles dependen de la ciudad donde se venden.

 Prueba de independencia: Utilice una prueba de independencia para determinar


si el valor observado de una variable depende del valor observado de otra
variable. Por ejemplo, determine si el hecho de que una persona vote por un
candidato no depende del sexo del elector.
Ejemplo:

En un grupo de enfermos que se quejaban de que no dormían se les dio somníferos y


placebos. Con los siguientes resultados. Nivel de significación: 0, 05.

¿Es lo mismo tomar somníferos o placebos para dormir bien o mal en este grupo de
enfermos?

Las hipótesis de este ejercicio, serían las siguientes:

– Ho: No es lo mismo tomar somníferos o placebos para dormir mal o bien

-H1: Es lo mismo tomar somníferos o placebos para dormir bien o mal.

Para la realización del problema se muestran los pasos a seguir, a continuación.

Paso 1: Completar la tabla de las frecuencias observadas.

Paso 2: Calcular las frecuencias teóricas.

(Es importante caer en la cuenta de que la suma de las frecuencias observadas debe
de ser igual a la suma de las frecuencias teóricas).
Para este cálculo, tenemos que basarnos en la fórmula: (total filas x total columnas) /
total

– ƒe 1 (Duermen bien con somníferos):

– ƒe 2 (Duermen bien con placebos):

– ƒe 3 (Duermen mal con somníferos):


– ƒe 4 (Duermen mal con placebos):

Como dijimos antes, la suma de las frecuencias observables debía de ser igual a la
suma de las frecuencias esperadas. En este caso podemos decir, que dicho pronóstico
se cumple:
– Suma frecuencias observadas = 170
– Suma de frecuencias esperadas: 39, 71 + 85, 29 + 14, 29 + 30, 71 = 170

Paso 3: Calcular los grados de libertad. En este caso, como son dos los criterios de
clasificación, el grado de libertad se calcularía así:
Grados de libertad = (nº de filas – 1) por (nº de columnas – 1)
Grados de libertad = (2 – 1)(2 – 1) = 1 x 1 = 1

Paso 4: Calcular el valor de chi cuadrado (usando para ello la fórmula escrita al principio
de esta entrada)

Paso 5: Ver la tabla.


En este apartado, buscamos en la tabla de la distribución X2 el valor que se compara
con el del resultado del chi cuadrado. Para ello, tenemos que tener en cuenta el nivel
de significación (0, 05) y el grado de libertad (1). La tabla que se utiliza, se muestra en
seguida:

Observando la tabla, obtenemos pues que el valor que buscamos es 3, 84.


Paso 6: Comparar los valores.

– Valor calculado –> 2, 57

– Valor de la tabla –> 3, 84

Conclusión: como 2, 57 < 3, 84 ——–> ACEPTAMOS H0 y rechazamos H1. Podemos


decir que la diferencia no es estadísticamente significativa y que se debe al azar. Es
decir, no es lo mismo usar somíferos o placebos para dormir bien o mal en este grupo
de enfermos.
CONCLUSIÓN

Los conceptos antes mencionados han sido analizados e investigados de tal


manera de hacer más fácil su comprensión y entendimiento.
Durante la elaboración de este trabajo fue notoria la aplicación de las
herramientas estadísticas dentro de una metodología de mejora.
Esta aportación se logra al momento de querer interpretar los datos
originales, en este caso el manejo de variables cualitativas más concisos en
valores numéricos, sin embargo, a pesar de ello se lograron obtener análisis
cuantitativos.
La estadística juega un papel muy importante en nuestras vidas, ya que
actualmente ésta se ha convertido en un método muy efectivo para describir con
mucha precisión los valores de datos económicos, políticos, sociales,
psicológicos, biológicos y físicos, además, sirve como herramienta para
relacionar y analizar dichos datos.

Das könnte Ihnen auch gefallen