Sie sind auf Seite 1von 8

DISTRIBUCIONES BIDIMENSIONALES.

REGRESIN Y CORRELACIN

Introduccin Si sobre una poblacin de nios entre 0 y 6 aos, estudiamos las variables peso y estatura, esperamos que en general ocurra que a mayor estatura tambin encontremos mayor peso, aunque es posible que en algunos pocos casos no ocurra as. Vemos que existe una relacin entre las dos variables, aunque no es funcional, o sea, no puedo determinar con exactitud el peso que corresponder a cada talla. En este tema trataremos de describir y medir este tipo de relaciones, que aparecen en gran cantidad de problemas. DISTRIBUCIONES BIDIMENSIONALES Cuando sobre una poblacin estudiamos simultneamente los valores de dos variables estadsticas, el conjunto de los pares de valores correspondientes a cada individuo se denomina distribucin bidimensional. Ejemplo 1: Las notas de 10 alumnos en Matemticas y en Lengua vienen dadas en la siguiente tabla: MATEMTICAS LENGUA 2 2 4 2 5 5 5 6 6 5 6 7 7 5 7 8 8 7 9 10

Los pares de valores {(2,2),(4,2),(5,5),...;(8,7),(9,10)}, forman la distribucin bidimensional. IDEA DE CORRELACIN Es frecuente que estudiemos sobre una misma poblacin los valores de dos variables estadsticas distintas, con el fin de ver si existe alguna relacin entre ellas, es decir, si los cambios en una de ellas influyen en los valores de la otra. Si ocurre esto decimos que las variables estn correlacionadas o bien que hay correlacin entre ellas.

En el ejemplo anterior parece que hay cierta tendencia a que cuanto mejor es la nota en Matemticas, mejor es la de lengua. NUBE DE PUNTOS O DIAGRAMA DE DISPERSIN La primera forma de describir una distribucin bidimensional es representar los pares de valores en el plano cartesiano. El grfico obtenido recibe el nombre de nube de puntos o diagrama de dispersin.

CORRELACIN LINEAL Y RECTA DE REGRESIN. Cuando observamos una nube de puntos podemos apreciar si los puntos se agrupan cerca de alguna curva. Aqu nos limitaremos a ver si los puntos se distribuyen alrededor de una recta. Si as ocurre diremos que hay correlacin lineal. La recta se denomina recta de regresin.

Hablaremos de correlacin lineal fuerte cuando la nube se parezca mucho a una recta y ser cada vez ms dbil (o menos fuerte) cuando la nube vaya desparramndose con respecto a la recta. En el grfico observamos que en nuestro ejemplo la correlacin es bastante fuerte, ya que la recta que hemos dibujado est prxima a los puntos de la nube. Cuando la recta es creciente la correlacin es positiva o directa: al aumentar una variable, la otra tiene tambin tendencia a aumentar, como en el ejemplo anterior. Cuando la recta es decreciente la correlacin es negativa o inversa: al aumentar una variable, la otra tiene tendencia a disminuir. Ejemplo 2: Una persona se entrena para obtener el carnet de conducir repitiendo un test de 50 preguntas. En la grfica se describen el n de errores que corresponden a los intentos realizados. Observa que hay una correlacin muy fuerte (los puntos estn "casi" alineados) y negativa (la recta es decreciente).

Ejemplo 3: A 12 alumnos de un centro se les pregunt a qu distancia estaba su residencia del Instituto, con fin de estudiar si esta variable estaba relacionada con la nota media obtenida. Se obtuvieron los datos que figuran en la siguiente tabla: Distancia (en km) 0,05 0,1 0,12 0,4 0,5 0,7 Nota media 8,4 4 1 1,2 2,1 2,5 3 3

5,7 9,1 6,3 6,7 4,3 5,4 7,8 4,5 7,2 8,1

Observamos una nube de puntos que no nos sugiere ninguna recta concreta, porque la correlacin es prcticamente inexistente, es decir, no tiene nada que ver con el rendimiento acadmico la distancia del domicilio al instituto,

MEDIDA DE LA CORRELACIN La apreciacin visual de la existencia de correlacin no es suficiente. Usaremos un parmetro, llamado coeficiente de correlacin que denotaremos con la letra r, que nos permite valorar si sta es fuerte o dbil, positiva o negativa. El clculo es una tarea mecnica, que podemos realizar con una calculadora o un programa informtico. Nuestro inters est en saber interpretarlo. Antes de ponernos a trabajar destacaremos una de sus propiedades -1 < r < 1 ESTIMACIN MEDIANTE LA RECTA DE REGRESIN Es evidente que no todos dibujaramos exactamente la misma recta para una nube de puntos, aunque la correlacin fuera bastante fuerte. De todas las rectas posibles los matemticos han elegido como la mejor aproximacin la llamada de los mnimos cuadrticos, Su clculo es tambin algo mecnico que podemos hacer con calculadora o un ordenador. En el siguiente apartado encontrars un ejercicio para estudiar sus propiedades. La recta de regresin sirve para hacer estimaciones, teniendo en cuenta que:

Los valores obtenidos son aproximaciones en trminos de probabilidad: es probable que el valor correspondiente a x0 sea y0. La fiabilidad es mayor cuanto ms fuerte sea la correlacin. La fiabilidad aumenta al aumentar el nmero de datos. La estimacin es ms fiable para los valores de x prximos a la media.

Ejemplo 1: Con los datos del primer ejemplo, (las notas de 10 alumnos en Matemticas y en Lengua), podemos contestar con aproximacin a la siguiente cuestin: si un alumno no realiz el examen de lengua, pero s el de matemticas, obteniendo un 7, qu nota cabe esperar que obtuviera en lengua? MATEMTICAS LENGUA 2 2 4 2 5 5 5 6 6 5 6 7 7 5 7 8 8 7 9 10

PROPIEDADES DE LA RECTA DE REGRESIN DE LOS MNIMOS CUADRTICOS.

Una de las relaciones ms comnes entre dos variables experimentales es la lineal, donde la grfica de una variable (en el eje x) contra otra (en el eje y) se aproxima a la tendencia de una lnea recta. Para encontrar la relacin matemtica entre estas variables x y y, necesitas una ecuacin para la lnea que mejor encaje con tus datos. La ecuacin de esa lnea estar en la forma y = mx + b, donde m es su pendiente y b es donde y intercepta. Puedes calcular esta ecuacin usando el mtodo de mnimos cuadrados. 1. Calcula la suma de todos los valores x en tu grupo de datos (abreviado como x), as como todos los valores de y (y). 2. Cuadra cada valor de x en el grupo de datos y calcula la suma de todos los valores cuadrados. Esta suma se abrevia as: (x^2). 3. Multiplica cada valor de x en el grupo de datos por su correspondiente valor y, y suma los productos de esas multiplicaciones. El resultado ser el trmino (xy). 4. Calcula la pendiente, m, de la mejor lnea recta que ajuste a travs de tus datos usando la siguiente ecuacin: m = (n(xy) - xy)/(n(x^2) - (x)^2), donde n es el nmero de pares de los puntos de datos en el grupo (x,y).

5. Calcula la interseccin con y, b, para la mejor lnea recta de ajuste usando la siguiente ecuacin: b = (y - mx)/n, donde m es el valor de la pendiente que acabas de calcular y n es el nmero de pares de datos. 6. Escribe la ecuacin y = mx + b, sustituyendo los valores de m y b que acabas de calcular. Esta es la mejor lnea recta de ajuste a travs del grupo de datos, determinado por el mtodo de mnimos cuadrados. AJUSTE POR MNIMOS CUADRADOS Existen numerosas leyes fsicas en las que se sabe de antemano que dos magnitudes x e y se relacionan a travs de una ecuacin lineal y = ax + b donde las constantes b (ordenada en el origen) y a (pendiente) dependen del tipo de sistema que se estudia y, a menudo, son los parmetros que se pretende encontrar. EJEMPLO: La fuerza F de traccin sobre un muelle y el alargamiento l que experimenta ste estn ligadas a travs de una ley lineal: l = (1/K)F con ordenada en el origen cero y donde el inverso de la pendiente (K) es una caracterstica propia de cada muelle: la llamada constante elstica del mismo. El mtodo ms efectivo para determinar los parmetros a y b se conoce como tcnica de mnimos cuadrados.

Consiste en someter el sistema a diferentes condiciones, fijando para ello distintos valores de la variable independiente x, y anotando en cada caso el correspondiente valor medido para la variable dependiente y. De este modo se dispone de una serie de puntos (x1,y1), .... (xn,yn) que, representados grficamente, deberan caer sobre una lnea recta. Sin embargo, los errores experimentales siempre presentes hacen que no se hallen perfectamente alineados (ver Fig. 1). El mtodo de mnimos cuadrados determina los valores de

los parmetros a y b de la recta que mejor se ajusta a los datos experimentales. Sin detallar el procedimiento, se dar aqu simplemente el resultado:

Donde n es el nmero de medidas y representa la suma de todos los datos que se indican. Los errores en las medidas, se traducirn en errores en los resultados de a y b. Se describe a continuacin un mtodo para calcular estos errores. En principio, el mtodo de mnimos cuadrados asume que, al fijar las condiciones experimentales, los valores yi de la variable independiente se conocen con precisin absoluta (esto generalmente no es as, pero lo aceptamos como esencial en el mtodo). Sin embargo, las mediciones de la variable x, irn afectadas de sus errores correspondientes, si es el valor mximo de todos estos errores, entonces se tiene:

La pendiente de la recta se escribir a a, y la ordenada en el origen b b. El coeficiente de correlacin es otro parmetro para el estudio de una distribucin bidimensional, que nos indica el grado de dependencia entre las variables x e y. El coeficiente de correlacin r es un nmero que se obtiene mediante la frmula:

Su valor puede variar entre 1 y -1. Si r = -1 todos los puntos se encuentran sobre la recta existiendo una correlacin que es perfecta e inversa.

Si r = 0 no existe ninguna relacin entre las variables. Si r = 1 todos los puntos se encuentran sobre la recta existiendo una correlacin que es perfecta y directa. Ejemplo: Supongamos un muelle sometido a traccin, se ha cargado el muelle con diferentes pesos (F, variable independiente o y ) y se han anotado los alargamientos (l variable dependiente o x)

Los distintos datos que se necesitan son:

con lo cual aplicando las expresiones [1] , [2], [3] y [4] b = -18,4153; a =3,4959; b =0,08164966; a =0,00102217; r = 0,9995 Redondeando en la forma usual b = -18,42 0,08 mm; a =3,50 0,00 mm/Kp No se debe olvidar que se persigue el valor de la constante elstica del muelle:

Das könnte Ihnen auch gefallen