Sie sind auf Seite 1von 26

I.C.

CLAUDIA ELISA ORIHUELA LAGUNA


La correlación lineal y la
CORRELACIÓN regresión lineal simple son
métodos estadísticos que
Y REGRESIÓN estudian la relación lineal
SIMPLE existente
variables.
entre dos
•La correlación cuantifica como de
relacionadas están dos variables, mientras que
la regresión lineal consiste en generar una
ecuación (modelo) que, basándose en la
relación existente entre ambas variables,
permita predecir el valor de una a partir de la
otra.

•El cálculo de la correlación entre dos variables


es independiente del orden o asignación de
cada variable a XX e YY, mide únicamente la
relación entre ambas sin considerar
dependencias. En el caso de la regresión
lineal, el modelo varía según qué variable se
considere dependiente de la otra (lo cual no
implica causa-efecto).
•A nivel experimental, la correlación se
suele emplear cuando ninguna de las
variables se ha controlado, simplemente se
han medido ambas y se desea saber si
están relacionadas. En el caso de estudios
de regresión lineal, es más común que una
de las variables se controle (tiempo,
concentración de reactivo, temperatura…) y
se mida la otra.

•Por norma general, los estudios de


correlación lineal preceden a la generación
de modelos de regresión lineal. Primero se
analiza si ambas variables están
correlacionadas y, en caso de estarlo, se
procede a generar el modelo de regresión.
y x x2 xy
1. Comenzamos con la tabla con columnas
3 100 10000 200
xey
5 90 8100 450 2. Sacamos el cuadrado a x, y agregamos
9 80 6400 720 una tercer columna con este valor.
10 45 2025 450 3. Multiplicamos las columnas x e y, y
20 50 2500 1000 agregamos una cuarta columna con ese
valor.
21 50 2500 1050
4. Obtenemos la sumatoria por columna y
24 60 3600 1440 ponemos el resultado correspondiente,
24 40 1600 960 al final de cada una.
27 25 625 675 5. Encontramos la ecuación de correlación
35 20 400 700
lineal, con 𝑦 = 𝑎𝑥 + 𝑏, con las fórmulas:
178 560 37750 7745
 𝑛 = 10
𝑛 σ 𝑥𝑦 − σ 𝑥 σ 𝑦
𝑎=
𝑛 σ 𝑥 2 − (σ 𝑥)2
(10∙7745)−(560∙178) 247
𝑎= =− = −𝟎. 𝟑𝟒𝟕𝟖
(10∙37750)−(560)2 710
𝑛σ𝑦 − 𝑎σ𝑥
𝑏=
𝑛
σ 𝑦−𝑎 σ 𝑥 178−(−0.3478∙560) 178+194.768 372.768
𝑏= = = = = 𝟑𝟕. 𝟐𝟕𝟔𝟖
𝑛 10 10 10
 Sustituimos los valores encontrados de a y b, en la ecuación 𝑦 = 𝑎𝑥 + 𝑏

 Ecuación de correlación de x e y de los valores de la tabla

𝒚 = −𝟎. 𝟑𝟒𝟕𝟖𝒙 + 𝟑𝟕. 𝟐𝟕𝟔𝟖


y x x - 𝑥ҧ y - 𝑦ത
1. Para encontrar el coeficiente de correlación
3 100 44 - 14.8
lineal, comenzamos con la tabla original.
5 90 34 -12.8
2. Calculamos las medias de los valores
σ 𝑥 560
9 80 24 -8.8 𝑥ҧ = = = 𝟓𝟔
𝑛 10
10 45 -11 -7.8 𝑦ത =
σ𝑦
=
178
= 𝟏𝟕. 𝟖
𝑛 10
20 50 -6 2.2
3. Obtenemos la diferencia de cada termino
21 50 -6 3.2
de la columna, menos su media
24 60 4 6.2
4. Elevamos al cuadrado las columnas
24 40 -16 6.2
anteriores.
27 25 -31 9.2
5. Multiplicamos ambas columnas.
35 20 -36 17.2
6. Obtenemos las sumatorias de las últimas
178 560
tres columnas,
y x x - 𝑥ҧ y - 𝑦ത (x - 𝑥)ҧ 2 (y - 𝑦)
ത 2 (x - 𝑥)(y
ҧ - 𝑦)

3 100 44 - 14.8 44 - 14.8 -651.2
5 90 34 -12.8 34 -12.8 -435.2
9 80 24 -8.8 24 -8.8 -211.2
10 45 -11 -7.8 -11 -7.8 85.8
20 50 -6 2.2 -6 2.2 -13.2
21 50 -6 3.2 -6 3.2 -19.2
24 60 4 6.2 4 6.2 24.8
24 40 -16 6.2 -16 6.2 -99.2
27 25 -31 9.2 -31 9.2 -285.2
35 20 -36 17.2 -36 17.2 -619.2
178 560 6390 993.6 -2223
 Obtenemos el coeficiente de correlación lineal, sustituyendo los valores
encontrados en la siguiente fórmula:

σ 𝑥 − 𝑥ҧ 𝑦 − 𝑦ത
𝑟=
σ 𝑥 − 𝑥ҧ 2 σ 𝑦 − 𝑦ത 2

σ(𝑥 − 𝑥)(𝑦
ҧ − 𝑦)
ത −2223 −2223 −2223
𝑟= = = =
2
σ(𝑥 − 𝑥)ҧ ∙ σ(𝑦 − 𝑦)
ത 2 6390 ∙ 993.6 79.9374 ∙ 31.5214 79.9374 ∙ 31.5214

−2223
= = − 𝟎. 𝟖𝟖𝟐𝟐
2519.7387
DIAGRAMAS DE
DISPERSIÓN
 Es un gráfico que muestra la
relación entre dos variables
cuantitativas, sobre un mismo
grupo de individuos.
 En un plano cartesiano, se
representan la combinación o
relación de los valores de las
variables x (abscisas) e y
(ordenadas), para que cualquier
punto ubicado en el plano, sea la
combinación de ambos valores,
formando una coordenada (x, y)
 Tenemos un conjunto de datos, donde relacionaremos dos variables,
eficiencia terminal y el gasto público en educación por alumno en
miles de pesos.
 Los datos están ordenados por años, tenemos dos niveles educativos
a considerar: bachillerato y profesional técnico (Datos a nivel
Nacional, Fuente INEGI)
 Dibujaremos un diagrama que relacione la eficiencia terminal con el
gasto público en educación, seleccionaremos para este primer
diagrama de dispersión, el nivel bachillerato y lo relacionaremos con
el gasto publico a nivel bachillerato.
 Cada punto representa un año en especifico, por cada año hay un
nivel de gasto y por cada nivel de gasto, hay un nivel de eficiencia
terminal.
65

2010
64 2014
2013
2009
2012
Eficiencia Terminal

63
2011
2008

62

61 2007

60 2006

2005

59
0 5 10 15 20 25 30 35
Gasto Público en Nivel Bachillerato (Miles de pesos)
 Se debe identificar el comportamiento dentro de la nube de puntos,
para poder determinar si alguno de ellos, sale del comportamiento
general, por lo que será importante determinar la forma de la
relación, así como la dirección que tiene (sentido) y la fuerza que hay
en la relación entre las variables.
 En este gráfico, se pueden identificar tres grupos principales:
65

2010
64 2014

2013
2009
2012

63
2011
Eficiencia Terminal

2008

62

61 2007

2006
60

2005

59
0 5 10 15 20 25 30 35
Gasto Público en Nivel Bachillerato (Miles de pesos)
 También observamos dos brincos, donde se
 De manera general, observamos que el gasto ha aumentado al paso de los años y
la eficiencia terminal.
 En el año 2010 el gasto publico fue de 27 y la eficiencia terminal de 64.2
 En el 2011 el gasto público se elevo a 29.1 y la eficiencia terminal disminuyo de
64.2 a 62.8, lo que se representa con el brinco en la gráfica.
 En términos generales, la relación es de incremento, lo cual lleva a definir el
diagrama como una relación positiva.
 Podemos determinar, entonces, que existe una relación lineal entre las variables

65

64

63
Eficiencia Terminal

62

61

60

59
0 5 10 15 20 25 30 35
Gasto Público en Nivel Bachillerato (Miles de pesos)
 Por el contrario, si graficamos el nivel de profesional técnico, obtenemos una grafica

60

50 2009
2005 2008 2011
2010
2013
eficiencia Terminal

40 2007 2012 2014


2006

30

20

10

0
0 5 10 15 20 25
Gasto Público Profesional Técnico (Miles de pesos)
 En el diagrama podemos observar que no hay una relación clara, es decir, no se
puede determinar una relación entre ambas variables.
 El coeficiente de determinación, se define como la proporción de la
varianza total de la variable explicada por la regresión. El coeficiente de
determinación, también llamado R cuadrado, refleja la bondad del ajuste
de un modelo a la variable que pretender explicar.
 Es importante saber que el resultado del coeficiente de determinación
oscila entre 0 y 1. Cuanto más cerca de 1 se sitúe su valor, mayor será el
ajuste del modelo a la variable que estamos intentando explicar. De forma
inversa, cuanto más cerca de cero, menos ajustado estará el modelo y, por
tanto, menos fiable será.

2 𝜎𝑅2 2
𝑅 = 1− 2 𝑅
𝜎
𝑅2 = 1 −
𝜎2

𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙
𝐶𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑑𝑒𝑡𝑒𝑟𝑚𝑖𝑛𝑎𝑐𝑖𝑜𝑛 = 1 −
𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎
 Estadística inferencial: se ocupa de predecir, sacar conclusiones para una
población tomando como base una muestra.
 Población: conjunto de individuos sobre los que realizamos el estudio
 Muestra: subconjunto de la población , esta debe representar bien a la
población para que los datos a inferir sean correctos.

POBLACION MUESTRA
𝜇 = 𝑚𝑒𝑑𝑖𝑎 𝑡í𝑝𝑖𝑐𝑎 𝜇ҧ = 𝑥ҧ = 𝑚𝑒𝑑𝑖𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙
p= 𝑝𝑟𝑜𝑝𝑜𝑟𝑐𝑖ó𝑛 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙 𝑝Ƹ = 𝑝𝑟𝑜𝑝𝑜𝑟𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙
𝜎 = 𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑡í𝑝𝑖𝑐𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙 (𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝜎 2 ) 𝑠 = 𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑡í𝑝𝑖𝑐𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 (𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝜎 2 )
Parámetros muestrales
Parámetros poblacionales
(Estadísticos poblacionales)
 Estimación estadística:

 Puntuales:obtenemos un único valor, calculando a partir de las


observaciones muestrales y que es utilizado como estimación del valor del
parámetro poblacional (se usa poco)
 Intervalos: consiste en utilizar los datos de una muestra para obtener un
intervalo de valores dentro del cual se espera que se encuentre el parámetro
poblacional con cierto nivel de confianza

 Estimación puntuales:

 Dada una población que sigue una 𝑁 𝜇, 𝜎 , se toma una muestra de n


individuos, la media muestral:
𝜎
𝑥~𝑁
ҧ 𝜇,
𝑛
En el caso de que la población no siga 𝑁 𝜇, 𝜎 , la expresión anterior también
es valida si 𝑛 ≥ 30
 La altura de los estudiantes de una población se distribuye según una normal media
de 167 y desviación típica de 3.2
 Se toma una muestra de 10 estudiantes. Calcula la probabilidad de que la media
muestral sea menor que 165 cm
𝜇 = 167
𝜎 = 3.2
𝑛 = 10

𝜎 3.2
𝑥~𝑁
ҧ 𝜇, = 𝑁 167,
𝑛 10
𝑥~𝑁
ҧ 167, 1.012
𝑥~𝑁
ҧ 167, 1.012 𝑧~𝑁
ҧ 0, 1 𝑆𝑖𝑔𝑢𝑒 𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑛𝑜𝑟𝑚𝑎𝑙,

𝑃(𝑥ҧ ≤ 165) Tipificando

𝑥ҧ = 165 𝑥ҧ − 𝜇 165 − 167


𝑧ҧ = = = −1.97 𝑆𝑖𝑔𝑢𝑒 𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑛𝑜𝑟𝑚𝑎𝑙,
𝜎 1.012

𝑃(𝑥ҧ ≤ 165) = 𝑃(𝑧ҧ ≤ −1.98) = 1 − 𝑃(𝑧ҧ ≤ −1.98) = 0.0239 = 2.39%


 La regresión lineal múltiple estima los coeficientes de la ecuación lineal, con una
o más variables independientes, que mejor prediga el valor de la variable
dependiente. Por ejemplo, se puede intentar predecir el total de facturación
lograda por servicios prestados en una IPS cada mes (la variable dependiente) a
partir de variables independientes tales como: Tipo de servicio, edad, frecuencia
del servicio, tipo de usuario y los años de antigüedad en el sistema del usuario.

Das könnte Ihnen auch gefallen