Sie sind auf Seite 1von 16

o

Anlisis de Regresin y Correlacin Lic. Olga Susana Filippini por

Muchas veces las decisiones se basan en la relacin entre dos o ms variables.Ejemplos

Dosis de fertilizantes aplicadas y rendimiento del cultivo.

La relacin entre la radiacin que reciben los sensores con la que se predicen los rendimientos por parcelas con los rendimientos reales observados en dichas parcelas.

Relacin entre tamao de un lote de produccin y horas hombres utilizadas para realizarlo.

Distinguiremos entre relaciones funcionales y relaciones estadsticas Introduccin

Relacin funcional entre dos variables Una relacin funcional se expresa mediante una funcin matemtica.

Si X es la variable independiente e Y es la variable dependiente, una relacin funcional tiene la forma:

o o

Y=f(X) Ejemplo 1 260 130 3 50 25 2 150 75 1 Rend.(kg/h) Dosis Parcela

Figura 1 Nota: Las observaciones caen exactamente sobre la lnea de relacin funcional

Relacin estadstica entre dos variables A diferencia de la relacin funcional, no es una relacin perfecta, las observaciones no caen exactamente sobre la curva de relacin entre las variables

Ejemplo 2 87 40 5 170 80 4 128 60 3 50 20 2 73 30 1 Horas hombre Tamao del lote Lote de prod.

Figura 2 Nota: La mayor parte de los punto no caen directamente sobre la lnea de relacin estadstica. Esta dispersin de punto alrededor de la lnea representa la variacin aleatoria

Figura 3 Nota: se trata de un terreno rugoso donde varan notablemente las condiciones de observacin del sensor, para corregir errores geomtricos de la imagen, se aplican funciones de segundo grado. Los datos sugieren que la relacin estadstica es de tipo curvilnea.

o Anlisis de Regresin: Es un procedimiento estadstico que estudia la relacin funcional entre variables.Con el objeto de predecir una en funcin de la/s otra/s. o Anlisis de Correlacin: Un grupo de tcnicas estadsticas usadas para medir la intensidad de la relacin entre dos variables

Diagrama de Dispersin: Es un grfico que muestra la intensidad y el sentido de la relacin entre dos variables de inters .

Variable dependiente (respuesta, predicha, endgena) : es la variable que se desea predecir o estimar

Variables independientes (predictoras, explicativas exgenas). Son las variables que proveen las bases para estimar .

Regresin simple: interviene una sola variable independiente

Regresin mltiple: intervienen dos o ms variables independientes .

Regresin lineal: la funcin es una combinacin lineal de los parmetros.

Regresin no lineal: la funcin que relaciona los parmetros no es una combinacin lineal Conceptos bsicos

Grfico de dispersin Los diagramas de dispersin no slo muestran la relacin existente entre variables, sino tambin resalta n las observaciones individuales que se desvan de la relacin general. Estas observaciones son conocidas como outliers o valores inusitados, que son puntos de los datos que aparecen separados del resto.

Coeficiente de correlacin lineal

El Coeficiente de Correlacin ( r ) requiere variables medidas en escala de intervalos o de proporciones

Vara entre -1 y 1.

Valores de -1 1 indican correlac in perfecta .

Valor igual a 0 indica ausenci a de correlac in.

Valores negativ os indican una relacin lineal inversa y valores

positivo s indican una relacin lineal directa Correlacin Negativa Perfecta 0 1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 4 3 210XY 0 1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 4 3 2 1 0 X Y Correlacin Positiva Perfecta 0 1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 4 3 2 1 0 X Y Ausencia de Correlacin 0 1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 4 3 2 1 0 X Y Correlacin Fuerte y Positiva o Frmula para el coeficente de correlacin (r) Pearson Modelos de Regresin Un modelo de regresin, es una manera de expresar dos ingredientes esenciales de una relacin estadstica: Una tendenc ia de la variable dependi ente Y a variar conjunt

amente con la variaci n de la o las X de una manera sistem tica Una dispersi n de las observa ciones alreded or de la curva de relacin estadst ica o Modelos de Regresin Estas dos caractersticas estn implcitas en un modelo de regresin, postulando que: En la poblaci n de observa ciones

asociad as con el proceso que fue muestre ado, hay una distribu cin de probabil idades de Y para cada nivel de X. Las medias de estas distribu ciones varan de manera sistem tica al variar X.

Representacin grfica del modelo de Regresin Lineal Nota: en esta figura se muestran las distribuciones de probabilidades de Y para distintos valores de X

Anlisis de Regresin Objetivo: determinar la ecuacin de regresin para predecir los valores de la variable dependiente ( Y ) en base a la o las variables independientes ( X ).

Procedimiento: seleccionar una muestra a partir de la poblacin, listar pares de datos para cada observacin; dibujar un diagrama de puntos para dar una imagen visual de la relacin; determinar la ecuacin de regresin.

Supuestos de Regresin Lineal Clsica Cada error est normalmente distribuido con:

Espera nza de los errores igual a 0

Varianci a de los errores igual a una

constan te 2 . Covaria ncia de los errores nulas para todo i j Proceso de estimacin de la regresin lineal simple Modelo de regresin y= 0 + 1 x+ Ecuacin de regresin E(y)= 0 + 1 x Parmetros desconocidos 0 . 1 Datos de la muestra b 0 y b 1 proporcionan estimados 0 y 1 Ecuacin estimada de regresin y=b 0 +b 1 x Estadsticos de la muestra b 0 .b 1 x y x 1 y 1 x 2 y 2 . . ....xnyn Lneas posibles de regresin en la regresin lineal simple x x E y Seccin A Relacin lineal positiva Lnea de regresin La pendiente 1 es positiva * x E y Seccin B Relacin lineal negativa Lnea de regresin La pendiente 1 es negativa * Seccin C No hay relacin E y Lnea de regresin La pendiente 1 es 0 * Ordenada al origen 0* o Estimacin de la ecuacin de Regresin Simple Y= a + bX , donde : Y es el valor estimad o de Y para

distintos X. a es la intersec cin o el valor estimad o de Y cuando X=0 b es la

Regresin y Correlacin La regresin y la correlacin son dos tcnicas estrechamente relacionadas y comprenden una forma de estimacin. En forma ms especifica el anlisis de correlacin y regresin comprende el anlisis de los datos muestrales para saber que es y como se relacionan entre si dos o mas variables en una poblacin. El anlisis de correlacin produce un nmero que resume el grado de la correlacin entre dos variables; y el anlisis de regresin da lugar a una ecuacin matemtica que describe dicha relacin. El anlisis de correlacin generalmente resulta til para un trabajo de exploracin cuando un investigador o analista trata de determinar que variables son potenciales importantes, el inters radica bsicamente en la fuerza de la relacin. La correlacin mide la fuerza de una entre variables; la regresin da lugar a una ecuacin que describe dicha relacin en trminos matemticos Los datos necesarios para anlisis de regresin y correlacin provienen de observaciones de variables relacionadas. Regresin lineal La regresin lineal simple comprende el intento de desarrollar una lnea recta o ecuacin matemtica lineal que describe la reaccin entre dos variables. La regresin puede utilizadas de diversas formas. Se emplean en situaciones en la que las dos variables miden aproximadamente lo mismo, pero en las que una variable es relativamente costosa, o, por el contrario, es poco interesante trabajar con ella, mientras que con la otra variable no ocurre lo mismo. La finalidad de una ecuacin de regresin seria estimar los valores de una variable con base en los valores conocidos de la otra. Otra forma de emplear una ecuacin de regresin es para explicar los valores de una variable en trmino de otra. Es decir se puede intuir una relacin de causa y efecto entre dos variables. El anlisis de regresin nicamente indica qu relacin matemtica podra haber, de existir una. Ni con regresin ni con la correlacin se pude establecer si una variable tiene causa ciertos valores de otra variable. Ecuacin Lineal Dos caractersticas importantes de una ecuacin lineal

la independencia de la recta la localizacin de la recta en algn punto. Una ecuacin lineal tiene la forma
y = a + bx En la que a y b son valores que se determina a partir de los datos de la muestra; a indica la altura de la recta en x= 0, y b seala su pendiente. La variable y es la que se habr de predecir, y x es la variable predictora. Determinacin de la ecuacin matemtica

En la regresin, los valores de y son predichos a partir de valores de x dados o conocidos. La variable y recibe le nombre variable dependiente y la variable x, el de variable independiente. Mtodos de mnimos cuadrados EL procedimiento mas utilizado por adaptar una recta aun conjunto de punto se le que conoce como mtodo de mnimos cuadrados. La recta resultante presenta 2 caracterstica importantes

es nula la suma desviaciones verticales en los puntos a partir de la recta es mnima la suma de los cuadrados de dicha desviaciones
(yi - yc)2 En el cual Yi = valor esperado de y Yc= valor calculado de y utilizando la ecuacin de mnimos cuadrados con el valor correspondientes x para yi Los valores de a y b para la recta es Yc = a + bx que minimiza la suma de los cuadrados de la desviacin ecuaciones normales y = na + (x) xy= a (x) +b (x2) En las que n es el numero de pares de observaciones. Evaluando las cantidades x, y, etc. Se puede resolver estas dos ecuaciones simultneamente para determinar a b. la ecuaciones puede despejarse. Se obtuvieron dos formulas aun para a y otra para b. n(xy)- (x)(y) b= n(x2)-(x)2 y-b a= n Inferencia en el anlisis de regresin Los supuestos para el anlisis de regresin son como: x

Existen datos de medicin para a x y z. la variable dependiente es una variable aleatoria. para cada valor de x, existe una distribucin condicional de la qu es de naturaleza normal la desviacin estndar de toda las distribuciones condicionales son iguales

EL error estndar de estimacin La determinante primaria de la exactitud es el grado de dispersin de la poblacin: cuanto mas dispersa este, menor ser la exactitud de la estimacin. El grado de dispersin en la poblacin se puede estimar a partir del grado de dispersin en las observaciones de la muestra con respecto a la lnea de regresin calculada, utilizando la formula. Se = " n-2 en la cual: yi = cada valor de y yc = valor de lnea de regresin correspondiente a partir de la ecuacin de regresin. n = nmeros de observaciones. La formula anterior no se utiliza por lo general para clculos reales, es mas fcil trabajar con la formula simplificada Se " xy n-2 Inferencia de acerca de la pendiente de una lnea de regresin Aun cuando es muy poca o nula relacin entre dos variables de aun poblacin, es posible obtener valores maestrales que hacen que parezca que la variables estn relacionadas, es importantes probar los resultados tales de caculo, a fin determinar si son significativos (es decir si los parmetros verdaderos no son cero), Si no existe ninguna relacin se esperara obtener aun pendiente cero, se pone a prueba la hiptesis nula contra la hiptesis alternativa. La significacin del coeficiente de regresin se puede probar comparndolo con su desviacin estndar t = valor de la muestra - valor esperado Desviacin estndar Anlisis de regresin lineal mltiple La regresin mltiple comprende tres o ms variables. Existe solo una variable dependiente, pero hay dos o mas tipo independiente. Esta operacin al desarrollo de una ecuacin que se pede utilizar para predecir valore de y, respecto a valores dados de la diferencia variables independientes adicionales es incrementar la capacidad predicativa sobre la de la regresin lineal simple. Las tcnicas de los mnimos cuadrados se utilizan para obtener ecuaciones de regresin. Yc= a +b1x1+b2x2+bkxk a = ordenada en el origen b1= pendiente y2 - a y-b (yi -yc)

k = numero de variables independientes Un anlisis de regresin simple de dos variable da lugar a la ecuacin de una recta, un problema de tres variables produce un plano, y un problema de k variables implica un hiperplano de a (k +1) dimensiones. Anlisis de Correlacin EL objetivo de un estudio de correlacin es determinar la consistencia de una relacin entre observaciones por partes. EL termino correlacin significa relacin mutua, ye que indica el grado en el que los valores de una variable se relacionan con los valores de otra. Se considera tres tcnicas de correlacin uno para datos de medicin, otro para datos jerarquizados y el ltimo para clasificaciones nominales. Datos Continuos: r de Pearson EL grado de relacin entre dos variables continuas se resume mediante un coeficiente de correlacin que se conoce como r de Pearson en honor del gran matemtico Kart Pearson, quien ideo este mtodo. Esta tcnica es valida mientras si es posible establecer ciertos supuestos bastante estrictos. Tales supuestos son los siguientes:

Tanto x como y son variables continuas aleatorias. Es decir, a diferencia del anlisis de
referencia de regresin, no es aceptable seleccionar ciertos valores de x, y despus medir y; tanto y como x deben de variar libremente.

La distribucin conjunta de frecuencia es normal. Esto recibe el nombre de de distribucin


normal divariada. Carcter de r El coeficiente de relacin presenta dos propiedades que establecen la naturaleza de una relacin entre dos variables. Una es su signo (+ o -) y la otra, es su magnitud. El signo es igual al de la pendiente de una recta que podra ajustarse a los datos si estos se graficaran en un diagrama de dispersin, y la magnitud de r indica cuan cerca esta de la recta tales puntos. Mtodo practicar para calcular r Dado que los clculos necesarios pueden requerir mucho tiempo especialmente cuando se resta las medias del grupo de cada observacin se elevan a cuadrado esas diferencias. Existe una versin, la cual simplifica los clculos: r= n ("xy)-("x)("y) _ "n("x2)-("x)2 "n("y2)("y)2 Existen 3 formas posibles para obtener el valor de r en el caso de datos de medicin: estandarizar cada conjunto y hallar el producto medio, calcular el coeficiente de determinacin r2 y obtener su raz cuadrada como utilizar la formula. Para un conjunto de datos los tres mtodos producirn el mismo valor para r no obstante cada mtodo agrega algo a la comprensin del significado del termino correlacin Inferencia acerca del coeficiente de correlacin

Intervalo de confianza para la correlacin de la poblacin El valor del coeficiente de correlacin de la muestra se puede utilizar como un estimado de la correlacin verdadera de poblacin existen varios mtodos para obtener un mtodo de confianza para pero quizs la forma mas directa es usar un diagrama. Si se examinan el diagrama se observara que el intervalo de los valores potenciales (no conocidos) se indica a lo largo de la escala vertical los posibles valores r de la muestra se indica en la escala inferior una serie de curvas representan tamao de muestras seleccionadas. Prueba de significacin de r Puede ser necesario evaluar una aseveracin con respecto al valor de . La forma mas sencilla es obtener un intervalo de confianza para r y observar si el valor propuesto esta incluido en el intervalo de ser as se rechaza a Ho y se acepta la alternativa. Datos jerarquizados de: r Spearman Es una tcnica no paramtrica que utiliza para medir la fuerza de una relacin por pares de 2 variables cuando los datos se encuentran en forma jerarquizados. El objeto de calcular un coeficiente de correlacin estos ejemplos es determinar el grado en el que dos conjuntos de jerarquizacin concuerdan o no. Esta tcnica tambin se puede extender a calificaciones u otro tipo de medicin si estas se convierten a rangos. Las medidas de l grado de concordancia son sol cuadrados de las diferencias entre los dos conjuntos de rangos: si la suma de stos es pequea, esto significa que hay acuerdo; si la suma es grande, esto indica lo contrario. EL calculo real de la correlacin comprende la formula. rsp = 1 - 6"d2 n(n2 -1) En la cual n es el nmero de observaciones y "d2 es la suma de los cuadrados de la diferencia entre los rangos. El coeficiente de correlacin de jerarqua obtenido recibe el nombre de r Spearman. La suma de la diferencia es cero. Esto no sirve como una comprobacin til de los clculos aunque no es necesaria en la frmula. El procedimiento es como el siguiente:

Obtener la diferencia en rango para cada par de observaciones Como comprobaciones, verificar que la diferencias se sumen a 0 elevar el cuadrado la diferencias sumar los cuadrados de la diferencia para obtener "d2 Calcular rsp
Si el valor rsp es pequeo para situaciones en donde n es mayor que 10, la hiptesis nula de rsp = 0 puede ser probada utilizndola la frmula

rsp - 0 t= "(1- rsp 2) (n -2) Datos nominales: el coeficiente de contingencia Cuando ambas variables se miden en escalas nominales ( es decir , categoras ) , el anlisis es fcilmente mediante el desarrollo de una tabla de contingencia semejante a la que se utilizo en el anlisis de k proporciones ( prueba de ji cuadrada ), el procedimiento en realidad de aun extensin del anlisis de una tabla r * k. Una medida de relacin es calcular el coeficiente de contingencia en C, donde x2 C= X2 + N Un aspecto interesante de una tabla ji cuadrada es que l tamao mximo posible de x2 es funcin de N, de las observaciones y del tamao de la tabla. En le caso de tabla con los valores cuadrado, esto lleva obtener un valor mximo de C de K-1 C max = k En el cual k es el nmero de fila o columnas. La co

Das könnte Ihnen auch gefallen