Beruflich Dokumente
Kultur Dokumente
IMPORTANCIA
En el pasado, tratar gran volumen de datos era una
tarea costosa y tediosa que exiga muchas horas de
trabajo.
Hace como dos dcadas, ya es posible estudiar, analizar
y obtener conclusiones de gran cantidad de datos con
un programa informtico en un computador personal.
El computador contribuye grandemente en la difusin y
uso de los mtodos estadsticos.
NECESIDAD
Los programas informticos pueden conducir a una
automatizacin que orienten a un individuo no preparado
a utilizar tcnicas de forma inadecuada para resolver un
problema.
Es necesario as, una mnima comprensin de los
conceptos de la estadstica as como suposiciones para
su uso con criterio.
OBJETIVO
En el anlisis de datos cuando se dispone de un conjunto
de datos que son
. mediciones,
. observaciones,
. valores
ESTADSTICA
DESCRIPTIVA
Organizar y presentar datos
en resmenes numricos, tablas,
cuadros y grficos.
INFERENCIAL
Conjunto de mtodos utilizados para
establecer afirmaciones
probabilsticas acerca de una
poblacin a partir de una muestra
(slo en la muestra)
Produciendo datos
Censo
Muestreo
Registro de datos
secundarios
Poblacin
Registro de datos
secundarios
Muestra
Proceso por el
cual se registran
observaciones de
inters de toda
la poblacin en
estudio.
Proceso por el
cual se registran
observaciones de
inters de una
parte de la
poblacin en
estudio llamada
muestra y que
debera ser
representativa.
Proceso por el
cual toman
observaciones ya
registradas de
bases de datos
disponibles y que
son apropiadas
para estudiar la
poblacin.
Proceso por el
cual toman
observaciones ya
registradas de
bases de datos
disponibles y que
son apropiadas
para estudiar la
poblacin.
Registros de toda
la poblacin.
Registros de
apenas una
muestra.
ESTADSTIC
A
DESCRITIVA
Univariada
No agrupada
Agrupada
Bivariada
No
Agrupada
Agrupada
Multivariada
Glosario de trminos
Datos
Estadstica
Estadstica descriptiva
Inferencia Estadstica
Probabilidad
Censo
Muestreo
Unidad de Estudio
Poblacin
Tamao de la poblacin
Muestra
Parmetro
Estadstico
Conceptos
DATOS
Existen varias definiciones de data, dos ejemplos a
continuacin:
ESTADSTICA
Se la conoce como una ciencia o disciplina que incluye un conjunto
de tcnicas que permite, de forma sistemtica o no, organizar,
resumir, modelar, describir, analizar e interpretar datos originales de
estudios o experimentos, realizados en cualquier rea del
conocimiento.
ESTADSTICA BSICA
Estadstica Descriptiva,
Inferencia Estadstica y
Probabilidad
ESTADSTICA DESCRIPTIVA
ESTADSTICA DESCRIPTIVA
POR EJEMPLO:
Para todos los estados de USA, acerca del Producto
Nacional Bruto, se deseara preguntar:
. Cul es un valor promedio, central o
tpico del
conjunto total?
. Cun dispersa est la data alrededor del
centro?
. Cun lejos del valor tpico estn los valores ms
extremos, tanto los altos como los bajos?
. Qu fraccin de los nmeros son menores que el
valor de para un Estado en particular?
Notacin poblacional vs
muestral
Medida
Media
Varianza
Desviacin estndar
Proporcin
Total
Poblacional
Muestral
Datos No agrupados
Definicin general:
Son aquellas medidas que
ubican el centro de una
distribucin o de un grupo de datos y reciben el nombre de
medidas de tendencia central.
Media Aritmtica
Mediana
Moda
Media Geomtrica
Media Armnica
Media Aritmtica
n
i1
xi
Propiedades:
a) Todos los valores de la data estn considerados e incluidos en el
clculo de la media aritmtica.
b) Existe una nica media aritmtica para un conjunto de datos.
c) La suma de las desviaciones alrededor de la media es igual a cero.
d) Es sensible a los valores extremos.
e) Usa toda la informacin disponible sobre las observaciones.
f) Matemticamente es fcil trabajar con ella.
Ejemplo:
Promedio de la edad de las 20 personas
n
45 41 ... 45 37
M X xi n
20
i1
43.5
xi
n
Media ponderada:
wi xi
x 1 , x 2 ,,...., x n
w1 x1 w 2
w 1 , w 2 ,....,
x 2 ....
wn
wn xn
i1
valores observados
wi
i1
Ejemplo:
En una empresa de produccin se tienen los siguientes
datos: el sueldo promedio de
mensuales,
los empleados es de
S/.2500
mensuales y
los los
operarios
es de
de
ejecutivos
es de S/. S/. 3800 mensuales
1850
Media total:
Es un promedio ponderado en el cual la ponderacin est determinada
por el nmero de elementos de cada grupo. Se utiliza cuando se
desea hallar un promedio de promedios cuando se tienen k grupos
diferentes.
K
n x
T
n x n x ... n x
i1k
1 1n 2n 2 ... k k
1
2
k
n
i
n
i 1
i
Ejemplo:
En una central telefnica se recibieron,
Propiedades de la media:
1) El promedio de una constante es la misma constante:
M (b) b,
Si Y X b
b
M (Y ) M ( X )
Propiedades de la media:
3) Si a todos los valores de una conjunto de datos los
multiplicamos por una constante a, entonces el promedio
quedar multiplicado por ese mismo valor.
Si
)
Y aX
M (Y ) a M ( X
Si Y aX b
(X ) b
M (Y ) aM
5) Permite
calcular el promedio de los valores transformados,
utilizando las propiedades algebraicas.
6) No puede calcularse cuando la tabla de distribucin de
frecuencias tiene intervalos de clase abiertos indefinidos.
7) La suma de las desviaciones
(diferencias)
variable X y su media aritmtica es cero:
n
(xi
a,
Mediana (Me)
Es aquel punto o posicin en la escala de la variable que divide a
los datos en dos grupos con igual nmero de observaciones
X1 , X
,, Xn
X 1 X 2 X n
entonces:
n1
2
Me
1
X
2
si n es
impar
si
n
es
X n 1
par
2
Mediana (Me)
a)Una distribucin tiene una nica mediana.
b) La mediana no est afectada por valores extremos.
c)No usa toda la informacin sobre el tamao y magnitud de las
observaciones, tan solo su posicin relativa en las
observaciones ordenadas.
d)Su clculo es ms complejo, pues requiere ordenar previamente las
observaciones de menor a mayor y determinar si el tamao de la
muestra es par o impar (es menos manejable matemticamente).
Caracterstica de la Mediana
i1
,b
Moda (Mo)
Es el valor que se presenta con mayor frecuencia en un
conjunto de observaciones.
Una distribucin puede tener una moda (unimodal), ms de
una moda (bimodal, trimodal, etc.), o ninguna.
En distribuciones continuas, se puede hallar un intervalo modal
(o
ms de uno).
Es la nica medida de tendencia central que puede utilizarse
con datos en escala nominal.
Moda
0,5000
0,4500
0,4000
0,3500
0,3000
0,2500
0,2000
0,1500
0,1000
0,0500
0,0000
Rango
Media armnica
(Xa )
xa
n
n
i 1
xi
Percentiles Cuantiles
Son medidas descriptivas que permiten dividir, distribuir o subclasificar los datos, a uno y otro lado en porcentajes dados,
una vez ordenados y clasificados.
Pk
X
2
100
kn
Percentil k
Percentiles Cuantiles
Percentiles con que ocasionan divisiones
particulares
Qk X
kn
Dk X
1
2
kn
10 2
Pk X
100 2
kn
Percentiles Cuantiles
Ejemplos:
Q1 X
1n
D3 X
1
2
3n
10 2
P70 X
1
100 2
70n
percentil 70 de un total de 99
Percentiles Cuantiles
Para determinar la posicin de una observacin en un percentil
y donde n datos son ordenados ascendentemente, se utiliza la
siguiente frmula:
Ly (n
1)
y
100
Ly (n
1)
y
100
Media Geomtrica ( X
g
xg
X1 X
... X n
xg
t
F C 1 F C 2 ... F C t
Rg n 1 R1 1 R2 ... 1 Rn
1
Xt
FC t
Xt
Xt
Nota:
Si FC>1,
quiere decir que el valor de la variable
se incremento.
Si FC<1,
quiere decir que el valor de la variable
disminuy.
Si multiplicamos el
Factor de Crecimiento por
100,
entonces este quedar expresado en porcentaje.
La media geomtrica en el
factor de
crecimiento promedio, de la variable en
estudio, a travs del tiempo.
xg
t : Nmero de periodos
Se calcula a
TCt
TC t % FC t %
100%
FCt 1
Como
la media geomtrica es el Factor de
Crecimiento promedio, entonces Tasa de crecimiento
promedio ,
que la
denotaremos como r ser:
r xg 1
Cmo interpretara
se FC=3.45?
A mayor dispersin de los datos, mayor diferencia entre estas dos medidas.
Slo son iguales cuando todas las observaciones son iguales.
Para valores diferentes,
Media harmnica
Media aritmtica
Medidas de dispersin
Datos No agrupados
Medidas de dispersin
Dispersin es la variabilidad alrededor de la tendencia central.
La dispersin es una medida del riesgo.
Dispersin absoluta.- Es el monto de variabilidad observada
sin
compararlo con ningn punto de referencia.
Las medidas de dispersin absoluta ms comunes son: el
rango, desviacin absoluta de la media, varianza y desviacin
estndar.
Dispersin relativa.- Es el monto de variabilidad con relacin a
un punto de referencia .
Las medidas de dispersin relativa ms comunes son:
el coeficiente de variacin y el ratio de Sharpe.
Medidas de dispersin
Rango
Rango intercuartlico
Desviacin absoluta de la media
Varianza
Desviacin estndar
Semivarianza y semidesviacin
Coeficiente de variacin
Ratio de Sharpe
Asimetra
Curtosis
Desigualdad de Chebyshev
Rango
El Rango es una medida de variabilidad o Dispersin. Es la diferencia
entre el Valor Mximo y el Valor Mnimo de las observaciones.
Puede resultar una informacin distorsionada del comportamiento de la
variacin.
RX
max
min
Rango intercuartlico
Es una medida que mantiene la idea del rango pero no es influenciado por
los valores extremos. El Rango Intercuartil mide la dispersin de la mitad
(50%) de los datos. La idea es dividir los datos ordenados en cuatro partes
iguales y ver cuan alejadas estn las dos partes extremas. Para
distribuciones sesgadas o con datos discordantes, RI tiende a ser la mejor
Medida de la dispersin
RI
Q3 Q1
DAM
i1
X
n
Poblacional:
i
i1
Muestral:
s2
i1
Semivarianza y semidesviacin
Coeficiente de variacin
Mide cunta dispersin respecto de la media existe en una distribucin.
Permite la comparar de forma directa diferentes conjuntos de datos.
En inversiones el CV mide el riesgo por unidad de retorno
esperado
(media).
CV
SXX
Ratio de Sharpe
Ratio de Sharpe
rp rf
donde:
rp
rf
p
Ratio de Sharpe
Los inversionistas adversos al riesgo que toman
decisiones basados en
el retorno promedio y
desviacin estndar prefererirn
su
portafolios con
ratios de Sharpe mayores.
Limitaciones:
Solo
considera
solo desviacin
estndar.
Asimetra
( Xi
n
SK
X ) s3
(n 1)(n 2)
SK
i
1
n X ) s3
(X
Asimetra
Curtosis
Mide si una distribucin es ms o menos puntiaguda que una
distribucin normal y provee de informacin sobre la probabilidad
de resultados extremos.
Leptocrtica.- Distribucin ms puntiaguda (y con colas ms
gordas) que una distribucin normal.
Platicrtica.- Distribucin menos puntiaguda que una
distribucin normal.
Mesocrtica.- Distribucin idntica (en curtosis) a la normal.
La curtosis de una distribucin normal es igual a
3. El exceso de curtosis se mide como: curtosis 3.
Un exceso de curtosis > 1 en valor absoluto se
Curtosis
El exceso de curtosis en una muestra
es:
n
Xi X
n(n
i1
4
KE
1)
s
(n 1)(n 2)(n
3)
2
(n
1)
2)(n
(n
3)
3
a:
n
KE
1
X i X
i1
s4
KE
Desigualdad de Chebyshev
La desigualdad de Chebyshev declara que la proporcin de las
observaciones dentro de k desviaciones estndar de la media es
al menos 1 1/k2 para todo k > 1.
Segn esto, para cualquier distribucin se cumple:
1.25 desviaciones
1.50 desviaciones
2 desviaciones
3 desviaciones
4 desviaciones
Desigualdad de Chebyshev
Sea X una variable aleatoria con media
y varianza 2 finita.
Para cualquier k>0 (positiva) se verifica:
P Z k
1
k
P Z k 1
Donde:
Z
( X )
P k X k 1 2
k
1
Desigualdad de Chebyshev
Ejemplo:
Obtener cul es la probabilidad mxima de que una variable
aleatoria difiera de su media en al menos 2,3,4 y 5 veces la
desviacin tpica
Si k=2
P[ X- 2 ] 1 /22
P[ X- 2 ] 1-1 /22
Si k=3
P[ X- 3 ] 1 /32
P[ X- 3 ] 1-1 /32
Si k=4
P[ X- 4 ] 1 /42
P[ X- 4 ] 1-1 /42
Si k=5
P[ X- 5 ] 1 /52
P[ X- 5 ] 1-1 /52
Desigualdad de Chebyshev
Si k=2
P[ X- 2 ] 1-1 /22
Si
k=3
al menos el
89 %
Covarianza
La varianza y la
desviacin
estndar son
medidas de
dispersin o
volatilidad
de una variable.
En finanzas, interesa conocer cmo dos variables aleatorias se comportan
con relacin a la otra, por ejemplo en el caso de los retornos de dos
inversiones.
La covarianza y la correlacin son medidas que proveen de informacin
muy til.
Se expresa:
Mide cmo una variable aleatoria se mueve respecto de otra variable
aleatoria.
Es el valor esperado
del
estndar
de jlas dos
i
j producto de
i las desviaciones
i
j
variables aleatorias respecto de sus valores esperados.
Cov R , R E
Ri
Retorno
R de la inversin
E(Ri
Rj
Retorno de la inversin j
E(R )
Covarianza
Poblacin
Cov( X ,Y ) X ,
N
i
1
( X i )(Yi
) N
Muestra
Cov( X ,Y ) SX ,
Y
n
i
1
( Xi X )(Yi
X)n
1
Covarianza
PROPIEDADES
1.Representa el mismo concepto que la varianza.
2.La covarianza de una variable aleatoria consigo misma es su propia varianza.
3.El rango de la covarianza puede extenderse desde - hasta +.
4.Cov(Ri, Rj) > 0 -- El retorno de ambas inversiones tiende a ir en el mismo
sentido (por encima o debajo) de sus valores esperados.
5.Cov(Ri, Rj) < 0 -- Cuando el retorno de una inversin est por encima de su
valor esperado, el retorno de la otra inversin tender a estar por debajo de su
valor esperado (relacin inversa).
6.Cov(Ri, Rj) = 0
No existe relacin entre los resultados de las variables (inversiones).
Correlacin
Mide el movimiento conjunto (relacin lineal) entre dos
variables
aleatorias.
Esta medida hace ms fcil la interpretacin de la
covarianza. Se expresa:
R , R
i
j
ij
Cov R R
(Ri ) (R j
)
i
j
Correlacin
PROPIEDADES
1.Mide la fuerza de la relacin lineal entre variables aleatorias
2.No tiene unidades
3.Su rango es -1 (Ri, Rj) 1
4.Si (Ri, Rj) = 1 -- las variables tienen correlacin positiva perfecta,
es decir, el movimiento de una variable resulta en un movimiento de la
otra en el mismo sentido y en la misma magnitud respecto de su media.
5.Si (Ri, Rj) = -1 -- las variables tienen correlacin negativa perfecta.
El movimiento de una variable en un sentido har que la otra lo haga
en el sentido opuesto.
6.Si (Ri, Rj) = 0
Correlacin
APLICACIN
Para un portafolio de n activos donde wi es el peso de cada activo
en el portafolio.
El valor esperado de los retornos puede determinarse como:
n
E RP w1 E R1 w2 E R2 wn E Rn wi E Ri
i1
Var RP
w w Cov R , R
i1
Aplicacin
Medidas de posicin
Datos A-grupados
Media
k
xf
i i
i1
xi h
i1 i
xi
xi : marca de clase
f i : Frecuencia absoluta simple
(x
0
i1
x) f i
Mediana
Usaremos la frmula siguiente
2 F i1
M e Li c
fi
donde:
fi
0 .5 H
Donde:
hi
Me L
hi
c
i1
n
Fi
2
H i 0.5
Moda (Mo)
La Moda es el valor obtenido de la tabla de frecuencias, que se repite
ms frecuentemente en un conjunto de datos agrupados, se
encuentra en el intervalo con mayor frecuencia.
Intervalo modal
Es aquel intervalo cuya frecuencia absoluta simple es mayor, o es
aquel intervalo cuya frecuencia relativa simple es mayor.
Moda
d1
Mo Li
c
d1 d 2
L
c
fi1
fi
1 f i f i 1
d
donde
d2
fi fi 1
Caractersticas de la Moda:
a,
,b
x Me Mo
x Me Mo
x Me Mo
x Mo 3(x
Me)
xa
n
k
i 1
fi
xi
Percentiles (Pk)
k
1
nk
Pk Li c 100 f i
k
1,2,...99
Pk L i c 1 0 0
hi
k 1
k 1,2,...99
Graficos
Diagrama de Pastel
Diagrama de Barras
Diagrama de Bastones
Diagrama de Frecuencia
Diagrama de Cajas (Box Plot)
Diagrama de Tallos y Hojas
Histogramas
Diagramas temporales
Diagrama de Pastel
Para variables cualitativas o categricas
y a veces cuantitativa categorizada
Diagrama de Barras
variables cualitativas o categricas
a veces cuantitativas categorizadas
Diagrama de Barras
De una muestra de 20 personas,
en un estudio mdico de presin
sangunea, se analiza la proporcin
del gnero objeto del estudio.
Diagrama de bastones
variables cuantitativas
discretas
6/36
5/36
5/36
4/36
4/36
3/36
3/36
2/36
2/36
1/36
1/36
10
11
12
Grficos de dispersin
variable cuantitativa continua
Diagrama de
Cajas o
Box Plots
variables cuantitativas continua
Cuando el anlisis exige conocer medidas
estadsticas, el box Plot es un mtodo de
resumen grfico de estas medidas.
El Box Plot ofrece una rpida impresin de
ciertos detalles prominentes de la
distribucin de la variable.
Box Plot:
La mediana, muestra el centro o localizacin de
la distribucin.
La dispersin del grueso de la data (del 50% central) es
visto como la longitud de la caja (del Box).
La longitud de las lneas punteadas relacionadas con la
caja,
muestran cuan estrechas estn las colas de la distribucin.
Los valores individuales fuera de las lneas, proporcionan
al espectador la oportunidad de considerar la existencia de
outliers que son medidas insualmente o implausiblemente
grandes o pequeas.
Box Plot:
Los valores fuera de las lneas punteadas, no
necesariamente son outliers.
Cualquier outlier siempre caer fuera de las
lneas
punteadas del Box Plot.
Box Plot:
El Box Plot permite una evaluacin parcial de la
simetra de la distribucin.
Si la distribucin es simtrica, el Box Plot es
simtrico respecto de la mediana,
La mediana corta la caja por la mitad.
Las lneas punteadas superior e inferior son
aproximadamente de la misma longitud.
Los puntos fuera de las lneas punteadas son
iguales en nmero y simtricamente
colocados.
La distribucin es simtrica ?
Box Plot:
Box Plot:
Q1 - 1.5 *
RIQ
Q3 - 1.5 *
RIQ
Box Plot:
Grfico en resumen
Ejercicio
Buscar un conjunto de datos cuantitativos para una
variable
Calcular todos los estadsticos del Diagrama de Cajas
Interpretar los estadsticos de acuerdo a la naturaleza de
la data
Histograma:
Para variables cuantitativas discretas o continuas
Histograma:
Histograma:
Histograma:
Tallos y Hojas:
Para variables cuantitativas discretas o
continuas
El Diagrama de Tallos y Hojas es un diagrama hbrido entre una tabla y
un grfico.
Muestra nmeros apilados y a la vez se muestra como una figura.
Es una forma compacta de registrar la data. Podra reducir
la representacin a por ejemplo la mitad de dgitos.
Es como un histograma apoyado de lado.
Ejemplo:
En la presente base de datos
de Mximas Concentraciones
de Ozono Diarias en Stanford
Connecticut, hay 319 dgitos.
Ejemplo:
Considerado
como un
histograma,
tiene longitud
de intervalos
igual a 10.
Ejemplo:
Alternativas:
En ocasiones, la data es tan abundante que podra graficarse en dos
o ms tallos, para que las grficas muestren mayores detalles.
En estos casos, se puede alterar la longitud de los
intervalos. Considerar slo los datos de ozono entre 60 y 89
ppb
Primera forma.- Hay muy pocas
filas como para que el diagrama
sea informativo.
Segunda forma.- Cada tallo tiene dos filas.
La primera es para las hojas del 0 al 4.
La segunda es para las hojas del 5 al 9.
La longitud del intervalo es 5.
Alternativas:
Tercera forma.- Cada tallo tiene cinco filas.
Los parntesis son para recordar qu
hojas (dgitos) irn en cada tallo.
La primera fila es para las hojas del 0 al
1. La segunda es para las hojas del 2 al
3.
La longitud del intervalo es 2.
Tallos y Hojas:
Es posible, segn la necesidad:
Multiplicar por alguna potencia de 10 para facilitar la
elaboracin del diagrama.
Truncar la data
Transformar la data
Cambiar la longitud de los intervalos
Las hojas pueden ser de un dgito, de dos dgitos,
etc.
Se pueden elaborar diagramas de Tallos y Hojas con
data no ordenada (las hojas no sern ordenadas dentro
Formas Distribucionales
variables cuantitativas discretas o
continuas
FORMAS DISTRIBUCIONALES:
FORMAS DISTRIBUCIONALES:
FORMAS DISTRIBUCIONALES:
Distribucin Normal
Distribucin Normal
Distribucin Normal
Distribucin Normal
Z es el nmero de
desviaciones estndar
respecto de la media
Distribucin t-Student
Inferencia
Inferencia
Muestreo
Intervalos de confianza
Intervalos de confianza
Intervalos de confianza
Modelo de Regresin
Lineal
Docente: MAGEN INFANTE
magen.infante@gmail.com
Esteestudio
est dirigido a descubrir las
relaciones entre dos variables o entre dos
conjuntos de observaciones.
Los datos
usados para describir la
relacin entre dos variables son llamados
bivariantes.
Variable explicatoria
Ejemplo:
Sean dos variables cuantitativas: Examen Parcial y Examen Final.
Se desea analizar la relacin entre las notas del exmen parcial y las
notas del examen final de un curso.
Podra utilizarse un modelo que podra para predecir la nota del
Examen final para un estudiante de quien ya se conoce su
calificacin del Examen parcial.
stas dos notas son las variables cuantitativas.
x:
Queremos responder:
Y a bX
Notas
examen
final
39
44
32
40
45
46
33
39
32,5
21
30
39
44
28,5
38
43
42
25,5
47
36
31,5
32
42
21
41
Notas
examen
parcial
62
69
68
86
88,5
88,5
76
66,5
75
38
71
88
96,5
71,5
96
82,5
85
28
95
39
58
49
62
59
90
Y= variable respuesta
X= variable explicativa
Y a bX
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Notas
examen
final
39
44
32
40
45
46
33
39
32,5
21
30
39
44
28,5
38
43
42
25,5
47
36
31,5
32
42
21
41
Notas
examen
parcial
62
69
68
86
88,5
88,5
76
66,5
75
38
71
88
96,5
71,5
96
82,5
85
28
95
39
58
49
62
59
90
Scatterpl
ot
10
0
8
0
Examen Final
Estudiante N
Y= variable respuesta
6
0
4
0
1
20
0
0
2
0
30
Examen
Parcial
4
0
X= variable explicativa
5
0
Examen Final
10
0
8
0
6
0
4
0
2
0
Se
observa
que
las
est
observaciones
asociadas
positivamente,
n
de una forma lineal es decir
que cuanto ms alta tiende a
ser la nota de un alumno en el
Parcial, en el Final tender a
tener una nota alta tambin.
Aunque la asociacin entre
las variables es ligeramente
fuerte, hay indicios que se
puede modelar a travs de
una Regresin Simple.
0
1
0
2
0
30
40
Examen Parcial
5
0
No se observan
comportamientos
discrepantes.
Diagrama de dispersin
En un diagrama de puntos, generalmente, los valores de la variable
respuesta son colocados en el eje vertical y los valores de la variable
explicativa son colocados en el eje horizontal.
100
Examen Final
80
60
40
20
0
10
20
30
40
Examen Parcial
50
Definiciones bsicas:
Asociacin positiva.- Existe si cuando aumentan los valores de ,
los valores de tienden a aumentar.
Definiciones bsicas:
Asociacin positiva.- Existe si cuando aumentan los valores de ,
los valores de tienden a aumentar.
50
45
40
35
30
Serie1
25
20
15
10
5
0
0
5
0
10
0
15
0
20
0
25
0
30
0
35
0
Definiciones bsicas:
Asociacin negativa.- Si cuando aumentan los valores ,
los valores de tienden a disminuir.
1,
2
1
0,
0,8
Serie1
6
0,
4
0,
2
0
1
0
2
0
3
0
4
0
5
0
Direccin-Forma-Fuerza :
Direccin.- Se observa un comportamiento de direccin cuando
las variables estn positivamente asociadas, negativamente
asociadas o asociadas de una forma lineal.
. .
. . .. ..
.. .
.. . .
. ....
..
.
..
.
. .. . .
..
X
Asociacin
Negativa
(lineal)
. .
Asociacin
Positiva
(lineal)
..
.
. ..
.
..
. ....
..
Asociacin
Negativa
.
(lineal)
Direccin-Forma-Fuerza :
Forma.- Cuando se observa que la relacin entre las variables
podra ser lineal, encorvada, cuadrtica, estacional, cclica o
quizs no existe ninguna forma definida de asociacin entre esas
variables.
Y
..
..
.
.
. . . . . .. .
. .
.. .
Encorvada
.. . ..
..
..
Cclica
.
.
Cuadrtica
. .
. . . ...
.. .
X
.
.
. .. ..
.
.. . . .
.
.
.
..
. . . ... .
..
.
.
.
.
..
.. ..
. . .. .
. . .. . . ... . . .
. . . ..
.
. .. .
.
Cuadrtica
Direccin-Forma-Fuerza:
Forma.- Cuando se observa que la relacin entre las variables
podra ser lineal, encorvada, cuadrtica, estacional, cclica o
quizs no existe ninguna forma definida de asociacin entre esas
variables.
..
.
.. .. .
. .
.. . .
.... . .. .
.
.. .. . ... . . . .
. .. .
.. . ... .. . .. .
.. . . . . . .
. . . . ... . .
Lineal
Ninguna
.
Y
.
. ... . ..... . .
. .. . ...
. .. . .. .. .. ... .
.. . . . . . ...
X
Estacional
Direccin-Forma-Fuerza :
Fuerza.- Cuando se observa que firmemente los puntos estn
rodeando la forma observada. En este caso es necesario ser muy
cuidadosos porque un cambio en la escala de los ejes puede
ofrecer otra visin diferente de la realidad.
Y
.. . . .
.
.
..
.
.
..
.
.
..
.
.
Asociacin fuerte
.
..
..
.
. ..
. ..
. ..
. . . .
.
... .
.. .
Asociacin dbil
.
..
.
. ..
.. . .
.
.
. .
.
.
.
.
.
..
.
.. .
.
.
Ese
Qu se debe hacer?
Encontrar una lnea
recta todos los puntos.
lo ms
cercana
posible a
100
Examen Final
80
60
40
20
0
10
20
30
40
Examen Parcial
50
Lnea
1
Lnea 2
100
Examen Final
80
60
40
20
0
10
20
30
40
Examen Parcial
50
a:
b
:
ya
bx
es cero.
Definiciones: Residuo
Residuo:
Un residuo es la diferencia entre la respuesta
observada y la respuesta predicha
usando la lnea
de la Cada par de observaciones , es decir, cada
regresin.
el
scatterplot
punto
produce
en un residuo.
Definiciones: Residuo
Residuo:
Esas diferencias verticales son llamadas
residuos
residuos= (valor
- valor
observadyo
Re
siduo :
e yi
y
predictado)y
un
residuo
y a bx
Es la lnea de Regresin Lineal Simple
buscada
y a bx
n
n ( xi yi ) ( xi ) (
i1 n
i1
b y )i 1 n
i
x2) (
x )2
n(
n
a y i 1 bx
i1
i1
y yi1
i
y a
bx
n xi y i xi y i
2
2
n xi xi
n yi2 yi
1 r 1
r
1
r 0
en
tanto por
( y y ) 2
(y y)
ciento,
SCE
n
2
y
i
yn
2
Prediccin Puntual:
Con los estimadores a y b, se pueden hacer
predicciones
y 7.5 1.75x
Cul sera el valor de la respuesta y si fuera igual a 2.72 ?.
Cul sera el valor de la respuesta y si fuera igual a 12.1 ?.
Cul sera el valor de la respuesta y para cualquier valor de x ?.
Qu significa que el valor de la pendiente b en una lnea de regresin es 0 ?.