Sie sind auf Seite 1von 14

VARIABLE ESTADISTIA BIDIMENSIONAL INDICE 1. INTRODUCCION 2. REPRESENTACION DE LA INFORMACION 3. DISTRIBUCIONES CONDICIONADAS 4.

MEDIDAS DE DEPENDENCIA ENTRE DOS VARIABLES NOMINALES 5. DIAGRAMA DE DISPERSION 6. NOCIONES DE CORELACION Y REGRESION LINEAL 7. CONCLUSIONES 8. BIBLIOGRAFIA 1. Introduccin Estudiaremos dos caractersticas de un mismo elemento de la poblacin (altura y peso, dos asignaturas, longitud y latitud). De forma general, si se estudian sobre una misma poblacin y se miden por las mismas unidades estadsticas una variable X y una variable Y, se obtienen series estadsticas de las variables X e Y. Considerando simultneamente las dos series, se suele decir que estamos ante una variable estadstica bidimensional. La variable estadstica bidimensional (x,y) se puede clasificar segn la naturaleza de sus variables cualitativos cuantitativos discretos y cuantitativos continuos .Se obtienen los tipos de distribuciones de dos caracteres siguientes: 1. Los dos caracteres cualitativos. Por ejemplo, nivel educional y religin 2. Uno cualitativo, otro cuantitativo. Estos pueden ser: a) Uno cualitativo, otro cuantitativo discreto. Por ejemplo, nivel educacional y nmero de hijos de las personas. b) Uno cualitativo, otro cuantitativo contino. Por ejemplo, edad y estado civil de las personas. 3. Los dos cuantitativos. Estos pueden ser: a) Los dos cuantitativos discretos. Por ejemplo, nmero de horas extras trabajadas y nmero de accidentes de trabajo. b) Uno discreto y otro continuo. Por ejemplo nmero de horas extras trabajadas y edad de la persona. c) Los dos continuos. Por ejemplo, estatura y peso de las personas. Si hay ms de dos caractersticas se habla de variables estadsticas n-dimensionales, convirtindose entonces, el anlisis en multivariable, situacin que no analizaremos. Ahora bien el tema una parte central del estudio y abordaremos dos:

1. El estudio descriptivo de las series estadsticas de dos caracteres como son la representacin de la informacin, distribuciones condicionadas, medidas de dependencia entre dos variables nominales, diagrama de dispersin. 2. El estudio de la asociacin entre variables, las que se dan en dos aspectos distintos pero relacionados : nociones de correlacin y Regresin lineal 2. REPRESENTACION DE LA INFORMACION Vamos a considerar 2 tipos de tabulaciones: 1) Para variables cuantitativas, que reciben el nombre de tabla de correlacin. 2) Para variables cualitativas, que reciben el nombre de tabla de contingencia. 2.1. Tablas de correlacin. Sea una poblacin estudiada simultneamente segn dos caracteres X e Y; que representaremos genricamente como (xi; yj; nij), donde xi; yj, son dos valores cualesquiera y nij es la frecuencia absoluta conjunta del valor i-simo de X con el j-simo de Y. Una forma de disponer estos resultados es la conocida como tabla de doble entrada o tabla de correlacin, la cual podemos representar como sigue: y x Y X x1 x2 . . . xi . . . xr n. j

y1

y2

..

yj

..

ys

ni .

fi .

n11 n21 . . ni1 . . . nh1

n12 n22 . . ni2 . . . nh2

.. .. . . . .. . . . ..

n1j n2j . . nij . . . nhj

.. .. . . . .. . . . ..

n1k n2k . . nik . . . nhk

n1 . n2 . . . ni . . . . nh . N

f1 . f2 . . . fi . . . . fh .

n. 1

n. 2

..

n. j

..

n. k

f. j

f. 1

f. 2

..

f. j

..

f. k

En este caso, n11 nos indica el nmero de veces que aparece x1 conjuntamente con y1; n12, nos indica la frecuencia conjunta de x1 con y2, etc. 2.2.Tipos de distribuciones Cuando se estudian conjuntamente dos variables, surgen tres tipo de distribuciones: Distribuciones conjuntas, distribuciones marginales ydistribuciones condicionadas. a) Distribucin conjunta - La frecuencia absoluta conjunta, viene determinada por el nmero de veces que aparece el par ordenado (xi , yj), y se representa por nij . - La frecuencia relativa conjunta, del par ( xi , yj ) es el cociente entre la frecuencia absoluta conjunta y el nmero total de observaciones. Se trata de fij . Se cumplen las siguientes relaciones entre las frecuencias de distribucin conjunta: 1) La suma de las frecuencias absolutas conjuntas, extendida a todos los pares es igual al total de observaciones.

2) La suma de todas las frecuencias relativas conjuntas extendida a todos los pares es igual a la unidad. 1 b) Distribuciones marginales Cuando trabajamos con ms de una variable y queremos calcular las distribuciones de frecuencias de cada una de manera independiente, nos encontramos con las distribuciones marginales. Variable X Variable Y yj y1 y2 y3 y4 n.j n.1 n.2 n.3 n.4 N f.j f.1 f.2 f.3 f.4 1

xi x1 x2 x3 x4

ni. n1. n2. n3 . n4. N

fi. f1. f2. f3 . f4. 1

Frecuencia absoluta marginal: el valor ni. Representa el nmero de veces que aparece el valor xi de X, sin tener en cuenta cual es el valor de la variable Y. A ni. se le denomina frecuencia absoluta marginal del valor xi de X, de forma que:

De la misma manera, la frecuencia absoluta marginal del valor yj de Y se denotar por nj.

Frecuencia relativa marginal. La frecuencia relativa marginal de xi de X, viene dada por:

La frecuencia relativa marginal de yj de Y, viene dada por:

Se cumplen las siguientes relaciones entre las frecuencias de distribucin marginales: 1) La suma de frecuencias absolutas marginales de la variable X, es igual al nmero de observaciones que componen la muestra 2) La suma de las frecuencias relativas marginales de la variable X, es igual a 1. 3) Las dos propiedades anteriores se cumplen tambin para la variable Y. c)3.DISTRIBUCIONES CONDICIONADAS Consideremos a los nj individuos de la poblacin que representan la modalidad yj de la variable Y, y obsrvese la columna j-esima de la tabla. Sus nj elementos constituyen una poblacin, que es un subconjunto de la poblacin total. Sobre este subconjunto se define la distribucin de X condicionada por yj, que se representa por x/yj ;su frecuencia absoluta se representa por ni/j, y su frecuencia relativa por fi/j , para i = 1, 2, 3, ,r siendo:
/

El razonamiento es anlogo cuando condicionamos la variable Y a un determinado valor de X, es decir Y /xi Ejemplo: Sea X= salario en u.m. Sea Y = antigedad en la empresa (aos) 1 X/Y 90 110 130 150 170 1 2 1 4 2 2 4 7 6 3 1 4 3 6 4 1 5 1 4 6 0 2 2 3 4 0 1 0 0 1 5 18 14 23 20 0,053 0,189 0,147 0,242 0,211 3 5 7 9 11 ni. fi.

190 n.j f.j

0 10 0,105

0 22 0,232

2 5 5 3 15 20 22 16 5 95 0,21 0,232 0,168 0,053

0,158 1 1

1 Cul es la distribucin de la retribucin, pero nicamente de los empleados con una antigedad de 5 aos?, es decir. Cul es la distribucin condicionada de la variable X condicionada a que Y sea igual a 5? ni/ y=5 fi/ y=5 1 4 3 6 4 2 20 1/20 4/20 3/20 6/20 4/20 2/20 1

X/Y 90 110 130 150 170 190 n.j 3.1.Covarianza

La covarianza mide la forma en que vara conjuntamente dos variables X e Y. En el estudio conjunto de dos variables, lo que nos interesa principalmente es saber si existe algn tipo de relacin entre ellas. Veremos ahora una medida descriptiva que sirve para medir o cuantificar esta relacin: Si Sxy >0 hay dependencia directa (positiva), es decir las variaciones de las variables tienen el mismo sentido Si Sxy = 0 las variables estn incorreladas, es decir no hay relacin lineal, pero podra existir otro tipo de relacin. Si Sxy < 0 hay dependencia inversa o negativa, es decir las variaciones de las variables tienen sentido opuesto. Grficamente, indicara la Covarianza, que los datos, se ajustan a una recta, en los siguientes casos:

Sxy >0 Otra forma de calcular la Covarianza sera:

Sxy<0

Ser la que utilizaremos en la prctica. - La covarianza no es un parmetro acotado, y puede tomar cualquier valor real, por lo que su magnitud no es importante; lo significativo es el signo que adopte la misma. Ejemplo: Sea X el tiempo de vida de un insecto ( aos ) e Y la longitud del mismo, podras deducir si existe relacin entre la edad del insecto y su tamao X/Y 1 2 3 n.j 2 3 1 0 4 3 1 3 1 5 4 0 1 3 4 ni. 4 5 4 13

14

25 13 35 13

34

24

44

Al tener la covarianza entre ambas variables signo positivo, podemos deducir que existe una relacin directa o positiva entre ambas variables, es decir, cuando aumenta la edad del insecto tambin aumenta su tamao. 3.2.Tablas de contingencia Cuando tenemos la informacin de 2 variables de tipo cualitativo o de una variable cualitativa y otra cuantitativa, se dispone de una tabla de contingencia. Nos limitaremos al caso de 2 variables. Es una tabla de doble entrada en la que en las filas se ubican las modalidades de una de las variables ( atributos ) y en las columnas las del otro; en las celdas resultantes del cruce de las filas y las columnas se incluye el nmero de elementos de la distribucin que presentan ambas modalidades. Si se tiene informacin de N elementos acerca de las variables A y B de tal forma que presentan r y s modalidades respectivamente, la tabla de contingencia sera de la forma

23

0.461

B A A1 A2 . . . Ai . . . Ar n. s f. s

B1

B2

..

Bj

..

Bs

ni .

fi .

n11 n21 . . ni1 . . . nr1

n12 n22 . . ni2 . . . nr2

.. .. . . . .. . . . ..

n1j n2j . . nij . . . nrj

.. .. . . . .. . . . ..

n1s n2s . . nis . . . nrs

n1 . n2 . . . ni . . . . nr . N

f1 . f2 . . . fi . . . . fr .

n. 1 f. 1

n. 2 f. 2

.. ..

n. j

..

n. s f. s

f. j .. tabla de contingencia r x s

nij= nmero de elementos de la distribucin que presentan la modalidad i sima del atributo A y la modalidad j esima del atributo B. ni= ni1+ ni2+ + nis nmero de elementos de la distribucin con la i sima modalidad del atributo A. Como a las variables cualitativas no se les puede someter a operaciones de sumas, restas y divisiones, al venir expresadas en escalas nominales u ordinales no tiene sentido hablar de medias marginales, condicionadas, varianzas, etc; si podramos calcular la moda en el caso de que se empleara una escala nominal y de la mediana si utilizamos escalas ordinales. 4.MEDIDAS DE DEPENDENCIA ENTRE DOS VARIABLES NOMINALES 4.1.Independencia Cuando no se da ningn tipo de relacin entre 2 variables o atributos, diremos que son independientes.Dos variables X e Y, son independientes entre s, cuando una de ellas no influye en la distribucin de la otra condicionada por el valor que adopte la primera. Por el contrario existir dependencia cuando los valores de una distribucin condicionan a los de la otra.

Dada dos variables estadsticas X e Y, la condicin necesaria y suficiente para que sean independientes es: ,

Propiedades:

1) Si X es independiente de Y, las distribuciones condicionadas de X/Yj son idnticas a la distribucin marginal de X. 2) Si X es independiente de Y, Y es independiente de X. 3) Si X e Y son 2 variables estadsticamente independientes, su covarianza es cero. La recproca de esta propiedad no es cierta, es decir, la covarianza de 2 variables puede tomar valor cero, y no ser independientes. 4.2.Dependencia funcional ( existe una relacin matemtica exacta entre ambas variables ) El carcter X depende del carcter Y, si a cada modalidad yj de Y corresponde una nica modalidad posible de X. Por lo tanto cualquiera que sea j, la frecuencia absoluta nij vale cero salvo para un valor de i correspondiente a una columna j tal que nij = nj Cada columna de la tabla de frecuencias tendr, por consiguiente, un nico trmino distinto de cero. Si a cada modalidad xi de X corresponde una nica modalidad posible de Y, ser Y dependiente de X. La dependencia de X respecto de Y no implica que Y dependa de X. Para que la dependencia sea recproca, los caracteres X e Y deben presentar el mismo nmero de modalidades ( debe ser n=m) y en cada fila como en cada columna de la tabla debe haber uno y solo un trmino diferente de cero. Sea X el salario de un empleado e Y la antigedad del mismo en la empresa

Dependencia funcional recproca: X depende de Y e Y depende de X X 100 120 140 160 180 \Y1 15 0 0 0 0 3 0 20 0 0 0 5 0 0 30 0 0 7 0 0 0 25 0 9 0 0 0 0 10

Y depende de X pero X no depende de Y. 4.3.Dependencia estadstica ( existe una relacin aproximada ) Existen caracteres que ni son independientes, ni se da entre ellos una relacin de dependencia funcional, pero si se percibe una cierta relacin de dependencia entre ambos; se trata de una dependencia estadstica.

Cuando los caracteres son de tipo cuantitativo, el estudio de la dependencia estadstica se conoce como el problema de regresin , y el anlisis del grado de dependencia que existe entre las variables se conoce como el problema de correlacin. 5.DIAGRAMA DE DISPERSION Diagrama de dispersin o nube de puntos. En un problema de este tipo, se observan los valores ( xi,yj ) y se representan en un sistema de ejes coordenados, obteniendo un conjunto de puntos sobre el plano, llamado diagrama de dispersin o nube de puntos
Y Y

En los diagramas de arriba se puede observar cmo en el de la izquierda, una lnea recta inclinada puede aproximarse a casi todos los puntos, mientras que en el otro, cualquier recta deja a muchos puntos alejados de ella. As pues, el hacer un anlisis de regresin lineal slo estara justificado en el ejemplo de la izquierda. Como se puede ver en ambos diagramas, ninguna recta es capaz de pasar por todos los puntos, y seguir siendo recta. De todas las rectas posibles, la RECTA DE REGRESIN DE Y SOBRE X es aquella que minimiza un cierto error, considerando a X como variable explicativa o independiente y a Y como la explicada o dependiente. 6.NOCIONES DE CORELACION Y REGRESION LINEAL 6.1.CORRELACION La correlacin estadstica determina la relacin o dependencia que existe entre las dos variables que intervienen en una distribucin bidimensional. Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso de que suceda, diremos que las variables estn correlacionadas o que hay correlacin entre ellas. Para ver si existe relacin lineal entre dos variables X e Y, emplearemos un parmetro que nos mida la fuerza de asociacin lineal entre ambas variables. La medida de asociacin lineal ms frecuentemente utilizada entre dos variables es r o coeficiente de correlacin lineal de Pearson; este parmetro se mide en trminos de covarianza de X e Y. 1 1

Si: R = 1, existe una correlacin positiva perfecta entre X e Y. Si: R = -1, existe una correlacin negativa perfecta entre X e Y. Si: R = 0, no existe correlacin lineal, pudiendo existir otro tipo de relacin.

Si: 1 0 existe correlacin negativa y dependencia inversa, mayor cuanto ms se aproxime a -1. Si: 0 1 existe correlacin positiva, y dependencia directa, mayor cuanto mas se aproxime a 1. Ejercicios Las estaturas y pesos de 10 jugadores de baloncesto de un equipo son:
Estatura (X) Pesos ( Y) 186 85 189 85 190 86 192 90 193 87 193 91 198 93 201 103 203 100 205 101

Calcular el coeficiente de correlacin?.


xi2 yi 2

xi

yi

x i yi

186

85

34 596

7 225

15 810

189

85

35 721

7 225

16 065

190

86

36 100

7 396

16 340

192

90

36 864

8 100

17 280

193

87

37 249

7 569

16 791

193

91

37 249

8 281

1756 3

198

93

39 204

8 649

18 414

201

103

40 401

10 609

20 703

203

100

41 209

10 000

20 300

205

101

42 025

10 201

20 705

1 950

921

380 61 8

85 255

179 97 1

36.8

195

6.07

195

36.08

92.1 43.09

92.1

179971 10

37.61 6.07 6.56

195 92.1

0.94

37.6

6.56

43.09

Correlacin positiva muy fuerte. 6.2. Recta de mnimos cuadrados o recta de regresin de Y sobre X (y* = a+ b x) Sea y = a + b x una recta arbitraria. Para cada dato de X, es decir, para cada x i de la tabla tenemos em parejado un dato de Y llamada y i , pero tambin tenemos el valor de sustituir la x i en la ecuacin de la recta, al que llamaremos y* i * .
yi xi a + b xi = y*

Cuando se toma el dato xi, el error que vamos a considerar es el que se comete al elegir y* en lugar del verdadero yi .Se denota con ei y vale:

Esos errores pueden ser positivos o negativos, y lo que se hace es escoger la recta que minimice la suma de los cuadrados de todos esos errores, que es la misma que la que minimiza la varianza de los errores. Usando tcnicas de derivacin se llega a que, de todas las rectas y = a + b x, con a y b nmeros arbitrarios, aquella que minimiza el error elegido es aquella que cumple. y por lo tanto

As pues, sustituyendo en y = a + b x, la ecuacin de la recta de regresin de Y sobre X es

y recolocando los trminos se puede escribir de la forma

es decir

5.2.Recta de regresin de X sobre Y

Si se hubiese tomado Y como variable independiente o explicativa, y X como dependiente o explicada, la recta de regresin que se necesita es la que minimiza errores de la X. Se llama RECTA DE REGRESIN DE X SOBRE Y y se calcula fcilmente permutando los puestos de x e y, obtenindose: es decir
, , , ,

Sabiendo que: PROPIEDADES:

y que

- Ambas rectas de regresin pasan por el punto (x, y )

- La pendiente de la recta de regresin de Y sobre X es b y la de X sobre Y es b . Dado que las varianzas son positivas por definicin, el signo de las pendientes ser el mismo que el de la covarianza, y as, las rectas sern ambas crecientes o decrecientes, dependiendo de si la covarianza es positiva o negativa, respectivamente, es decir b y b tendrn el mismo signo. - Los trminos de las rectas a y a constituyen los orgenes de las rectas, es decir, son los valores que adoptan respectivamente y* x* cuando x o y toman el valor cero en sus correspondientes rectas de regresin. - Las rectas de regresin las emplearemos para realizar predicciones acerca de los valores que adoptaran las variables. - Puede darse el caso, de no existencia de correlacin lineal entre las variables, lo cual no implica que no existan otro tipo de relaciones entre las variables estudiadas: relacin exponecial, relacin parablica, etc. EJERCICIOS Las notas de 12 alumnos de una clase en Matemticas y Fsica son las siguientes:
Matemticas Fsica 2 1 3 3 4 2 4 4 5 4 6 4 6 6 7 4 7 6 8 7 10 9 10 10

Hallar las rectas de regresin y representarlas.


xi
2 3 4 4 5 6 6 7 7 8 10 10 72

yi
1 3 2 4 4 4 6 4 6 7 9 10 60

xi yi
2 9 8 16 20 24 36 28 42 56 90 100 431

xi
4 9

yi
1 9 4

16 16 25 36 36 49 49 64 100 100 504

16 16 16 36 16 36 49 81 100 380

1 Hallamos las medias aritmticas.

2 Calculamos la covarianza.

3 Calculamos las varianzas.

4Recta de regresin de Y sobre X.

4Recta de regresin de X sobre Y.

7. CONCLUSIONES La recta de regresin sirve para hacer estimaciones, teniendo en cuenta que: *Los valores obtenidos son aproximaciones en trminos de probabilidad: es probable que el valor correspondiente a x0 sea y0. *La fiabilidad es mayor cuanto ms fuerte sea la correlacin. *La fiabilidad aumenta al aumentar el nmero de datos.

*La estimacin es ms fiable para los valores de x prximos a la media. Con las variables estadsticas bidimensionales podemos saber en qu medida afectan unas variables sobre otras y con ello conocer un dato estadstico. As sabremos como por ejemplo si un adolescente es propenso a volverse adicto u alcohlico a cierta edad, si la tasa en la tasa de mortalidad influye ms el tabaco o el alcohol, o simplemente cuantos das deben pasar para que nazca un nio y saber con ello si pesara ms o menos que otros nacidos antes o despus. 8. BIBLIOGRAFIA Manual de Estadstica de David Ruiz Muoz Estadstica aplicada bsica - David S. Moore Estadstica descriptiva - Santiago Fernndez Estadstica para administracin y economa - David R. Anderson Estadstica Elemental, lo esencial 3ra Ed. - Johnson

Das könnte Ihnen auch gefallen