Beruflich Dokumente
Kultur Dokumente
2
Guillermo Ayala Gallego
26 de marzo de 2014
1
Uno más.
2
.
2
Índice general
1. Probabilidad: lo bueno si . . . 9
1.1. Experimento y probabilidad . . . . . . . . . . . . . . . . . . . . . . . 9
1.2. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.1. Función de distribución . . . . . . . . . . . . . . . . . . . . . 11
1.2.2. Media y varianza . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.3. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . 19
1.3. Vectores aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.4. Distribución normal multivariante . . . . . . . . . . . . . . . . . . . 20
3. Componentes principales 37
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2. Componentes principales . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3. Componentes principales de los datos golub . . . . . . . . . . . . . . 45
3.4. Un poco de teorı́a ⇑ . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4. Análisis cluster 51
4.1. Algunos ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.2. Disimilaridades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.2.1. Disimilaridades entre observaciones . . . . . . . . . . . . . . 55
4.2.2. Disimilaridades entre grupos de observaciones . . . . . . . . 58
4.3. Cluster jerárquico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.4. Métodos de particionamiento . . . . . . . . . . . . . . . . . . . . . . 65
4.4.1. Método de las k-medias . . . . . . . . . . . . . . . . . . . . . 65
4.4.2. Particionamiento alrededor de los mediodes . . . . . . . . . . 70
4.5. Silueta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.6. Un ejemplo completo . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3
5. Análisis discriminante o de cómo clasificar con muestra de entre-
namiento 83
5.1. Un problema de probabilidad sencillo . . . . . . . . . . . . . . . . . 86
5.2. Dos poblaciones normales . . . . . . . . . . . . . . . . . . . . . . . . 87
5.3. Dos normales multivariantes . . . . . . . . . . . . . . . . . . . . . . 87
5.4. Dos poblaciones normales multivariantes con parámetros desconoci-
dos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.5. Análisis discriminante con más de dos poblaciones normales . . . . 91
5.6. Valoración del procedimiento de clasificación . . . . . . . . . . . . . 92
5.7. Variables discriminantes canónicas o discriminantes lineales . . . . . 96
5.8. Algunos ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
6. Regresión 103
6.1. Regresión lineal simple . . . . . . . . . . . . . . . . . . . . . . . . . . 106
6.2. Regresión lineal múltiple . . . . . . . . . . . . . . . . . . . . . . . . . 108
6.3. Estimación de β . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
6.4. Algunos casos particulares . . . . . . . . . . . . . . . . . . . . . . . . 110
6.5. Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.6. Algunos ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.7. Distribución muestral de β̂ . . . . . . . . . . . . . . . . . . . . . . . 114
6.8. Bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
6.9. Valoración de las hipótesis del modelo . . . . . . . . . . . . . . . . . 116
6.10. Inferencia sobre el modelo . . . . . . . . . . . . . . . . . . . . . . . . 134
6.11. Selección de variables . . . . . . . . . . . . . . . . . . . . . . . . . . 140
6.11.1. Procedimientos que comparan modelos . . . . . . . . . . . . . 140
6.11.2. Procedimientos basados en criterios . . . . . . . . . . . . . . 143
6.12. Algunos ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
4
Prólogo
Cada vez hay más datos. Tenemos más datos introducidos en ficheros. Y esto
es lo peor. Si los datos estuvieran en hojas sueltas y perdidas pues no pasa nada.
Se archivan los papeles y los datos no molestan. No, ahora los propios ordenadores
o bien muchas personas accediendo desde distintos lugares, tienen el mal gusto de
crear unas bancos de datos cada vez mayores. Cada vez con más casos y con más
variables. El problema no es conseguir datos. Los tienes a precio de saldo. Te los dan
sin que los pidas. Si tienes conocidos biólogos, médicos, quı́micos, psicólogos seguro
que tienen datos para analizar. Si trabajáis en un hospital, tendréis una legión de
médicos (y cada vez más enfermeros) con datos. Todo el mundo tiene datos. A los
que tienen cariño. Que creen que tienen mucho valor. Pero que no saben qué hacer
con ellos. En el mejor de los casos algún dibujo estilo pastel (bueno, se le llama
diagrama de sectores pero es un pastel) o histograma. ¡Que Dios nos libre de tanto
dibujo que solo sirve para gastar papel y tinta!
En estas notas se pretende (sólo se pretende) partiendo de unos conocimientos
informáticos que no sean básicos y de unos conocimientos probabilı́sticos y estadı́sti-
cos más bien básicos, llegar a poder hacer algo decente con un banco de datos.
La parte de análisis descriptivo de datos se obvia. Simplemente a lo largo del
curso se va utilizando y recordando. Ya está bien de perder el tiempo explicando
cómo hacer un histograma si luego lo hace un programa.
El tono de estas notas pretende ser ameno pues bastante tostón es lo que se
cuenta. No inútil. Pero sı́ tostón. Hay que asumirlo desde un principio. Esto no es
”Sexo en Nueva York”.1 Son unas notas de Estadı́stica con R ?. 2
Este documento contiene unas notas de clase para la asignatura de Análisis de
Datos de Ingenierı́a Informática de la Universidad de Valencia. Pretende en cada
tema empezar desde un nivel básico de contenidos para llegar al uso de la técnica
correspondiente. Es una realidad que el informático acaba realizando análisis de
datos. Entre otras cosas porque suele ser la persona más a mano o bien porque ya ha
programado el resto de la aplicación que también incorporar algún tipo de análisis
más o menos sencillo. Y es una pena ver cómo se desaprovecha la información.
Por ello en estas notas pretendo tratar rápidamente muchos temas y, además, que
podamos utilizarlas. Por ello se recurre a R. Por su potencia y por su disponibilidad.
Incluso en su propia casa y con una conexión a Internet no demasiado rápida puede
el estudiante instalarse R y cualquier paquete que se necesite. Esto ya es bastante
desde el punto de vista docente. Además, cualquier procedimiento estadı́stico está en
R. Casi se puede decir, que si no lo está, no merece la pena de utilizarse.
Se proponen distintos apéndices como apoyo a conceptos anteriores necesarios.
Se hace un repaso rápido de los conceptos básicos de la Probabilidad en el tema
1 Sin duda, la mejor serie de televisión de la historia. Hay que verla. Las pelı́culas de después
porqué su profesor de Estadı́stica lo habı́a suspendido. Es de suponer que la persona que escribió el
anuncio estudiarı́a Periodismo. Allı́ hay una asignatura de Estadı́stica. Claramente le ha servido.
Ha hecho un anuncio y le habrán pagado por ello.
5
1. Las ideas básicas de la Estadı́stica que utilizamos en el resto del curso aparecen
en el tema 2. Ambos capı́tulos con meros resúmenes que no sustituyen el repaso
de muchos de los conceptos en algunos de los textos que se citan en los capı́tulos
correspondientes.
Estas notas están orientadas para estudiantes de Ingenierı́a Informática y por
ello en muchas ocasiones se incluyen definiciones y conceptos básicos que dicho
estudiante no tiene. Una introducción genérica a la Probabilidad y la Estadı́stica
que es adecuado hojear pues cubre los conceptos previos es el libro de texto de
Dougherty [1990].
El interés fundamental de estas notas es dar una visión muy amplia sin perder
demasiado tiempo en detalles de cada técnica. En este sentido se intenta ir directo
al grano con lo que eso supone de dificultad añadida. Sin embargo, tiene la com-
pensación de ver cómo muchos de los conceptos que se estudian son reescritura uno
de otro.
Por fin, un signo de edad es tener que escribir las cosas para que no se nos
olviden. Quizás para que uno mismo lo aprenda y para no olvidarlo después. En el
fondo, todos vamos aprendiendo según lo explicamos y lo escuchamos.
Sin duda, unas notas como las que siguen sólo se pueden hacer utilizando LATEX
para escribir y el programa R ? 3 para realizar el análisis de los datos. Son dos
herramientas imprescindibles que se complementan perfectamente. Un tratamiento
estadı́stico no acaba con un código o con unos dibujos aislados. Acaba con un
informe. Con frecuencia, se dedica más tiempo a explicar lo que se ha hecho, a
escribir el informe, que a la preparación y tratamiento de los datos, al análisis de
los datos. En este sentido, creo que una herramienta como LATEX es fundamental
utilizada con R. En este texto hablamos de análisis de datos. No de LATEX. Sin
embargo, uno aprende a veces cosas importantes mientras estudia otras que cree
que lo son más. En este sentido, habrá referencias a LATEX.
Finalmente veamos una guı́a de lectura del documento. Es muy habitual que
si uno empieza a leer un texto por el principio nunca pase más allá del primer o
segundo capı́tulo, y eso con suerte. Las notas están escritas de manera que se lean
cada tema por separado sin más conexiones entre ellos. De modo que si quieres un
pequeño repaso de Probabilidad consulta el tema 1. Si patinas un poco en lo básico
de la Estadı́stica pues entonces hay que leer el tema 2. Son los únicos temas de
carácter básico. Los demás van al grano. En particular si te interesa cómo reducir
la dimensión del banco de datos lee el tema 3. Si el problema que te quita el sueño
es cómo dadas unas variables sobre un individuo clasificarlo en uno de g posibles
grupos conocidos a priori y de los cuales tienes ejemplos entonces no lo dudes y
lee el tema 5. Si tienes datos y no saben si se disponen formando grupos y ni tan
siquiera del número de grupos que tienes entonces has de acudir sin remisión al
tema 4. Finalmente en los temas 6, ?? y ?? viene la artillerı́a pesada. Como todos
sabemos los modelos lineales son el corazón de la Estadı́stica, sin ellos, otras técnicas
de análisis de datos se la hubieran ventilado. Los modelos lineales es un esfuerzo
colectivo que ha construido una teorı́a redonda, útil, fácil de aprender y aplicar.
Parece que casi todo está previsto y bien resuelto. Los modelos lineales generalizados
surgen de la envidia que todo lo corroe. Cuando la variable respuesta, en lugar de
ser continua, como en los modelos lineales, es una respuesta binaria, o multinomial,
o bien un conteo. ¿Qué hacer? La teorı́a de modelos lineales no se puede aplicar
ni con calzadores. Sin embargo, con unos cuantos cambios técnicamente simples
surgen unos modelos probabilı́sticos para analizar estos datos que son absolutamente
preciosos.
3 La primera lección sobre R es cómo citar el programa. En la lı́nea de comandos escribimos
citation y nos devuelve la referencia bibliográfica. Del mismo modo lo podemos hacer si utilizamos
otro paquete. Por ejemplo tecleando citation(“cluster”) nos indica cómo citar el paquete cluster
que utilizamos en el tema 4.
6
Un detalle práctico de enorme interés. Para programar con R en el sistema ope-
rativa Windows lo más cómodo es utilizar RWinEdt (?) mientras que si trabajamos
en Linux la opción más cómoda es utilizar emacs con el paquete ESS. Se pueden
encontrar detalles adicionales R.
R es libre. ¿Esto significa que es malo? ¿Tiene pocas funciones? ¿Lo que tiene
no es de fiar? Hay una idea muy extendida de que el precio de las cosas está ı́nti-
mamente relacionado con la calidad. No sé si en general es cierto. En el caso de R
no lo es. Algunos artı́culos de prensa que apoyan el comentario son NYT.06.01.09,
NYT.07.01.09, The New York Times, 16 de febrero de 2009.
También podeis encontrar algunas empresas que, basándose en R, desarrollan
productos comerciales como Revolution Computing.
Finalmente algunas direcciones de interés sobre R son las siguientes: http://www.r-
bloggers.com/.
7
8
Capı́tulo 1
Probabilidad: lo bueno si . . .
Empezamos por donde hay que empezar. Con la Probabilidad. Temida, odiada.
Despreciada porque habla de juegos. Por encima de todo, útil, de una utilidad
extraña. Da vergüenza hablar de Estadı́stica sin citar algo de Probabilidad. 1 Y
no lo vamos a hacer. Vamos a cumplir con la papeleta. En cualquier caso, si no
te manejas bien con los conceptos básicos probabilı́sticos (variable aleatoria, vector
aleatorio, distribución conjunta y marginal, . . .) hay que leer algún texto. Uno muy
bueno, pero no fácil de encontrar, es ?.
1 De hecho, hay una teorı́a muy extendida que dice que podemos saber Estadı́stica sin ningún
conocimiento de Probabilidad. Esta creencia se considera un nuevo tipo de enfermedad mental. Si
bien en una versión leve de dicha enfermedad.
9
Ejemplo 1 Si el espacio muestral es finito y consideramos que todos los elementos
que lo componen son equiprobables entonces la probabilidad de un suceso A vendrı́a
dada como
#(A)
P (A) = (1.1)
#(Ω)
siendo # el cardinal del conjunto. Se comprueba con facilidad que es una medida
de probabilidad que verifica la axiomática previa. Es el modelo que corresponde al
concepto intuitivo de resultados equiprobables. Prácticamente todos los juegos de
azar siguen un modelo como este donde varı́an los resultados posibles.
n <- 30
omega <- 1:n
sample(omega, size = 6, replace = FALSE)
## [1] 4 14 5 9 25 15
## [1] 28 2 6 26 2 7
10
Una variable aleatoria se dice continua cuando
Z b
P (a ≤ X ≤ b) = f (x)dx, (1.3)
a
11
Cuadro 1.1: Distribuciones discretas
Distribución Función de probabilidad Media Varianza
Bernoulli f (x|p) = px (1
− p)
1−x
si x = 0, 1 p p(1 − p)
n
Binomial f (x|n, p) = px (1 − p)n−x si x = 0, 1, . . . , n np np(1 − p)
x
A B
12
x n−x nA nAB(A+B−n)
Hipergeométrica f (x|A, B, n) = si x = 0, . . . , n. A+B (A+B)2 (A+B−1)
A+B
n
1−p 1−p
Geométrica f (x|p) = p(1 − p)x si x = 0, 1, 2, . . . p p2
r+x−1 r(1−p) r(1−p)
Binomial Negativa f (x|r, p) = pr (1 − p)x si x = 0, 1, 2, . . . p p2
x
e−λ λx
Poisson f (x|λ) = x! si x = 0, 1, . . . λ λ
Cuadro 1.2: Distribuciones continuas
Distribución Función de densidad Media Varianza
1 α+β (β−α)2
Uniforme f (x|α, β) = β−α si α < x < β 2 12
1 x−µ 2
2
Normal, N (µ, σ 2 ) f (x|µ, σ 2 ) = σ√12π e− 2 ( σ ) x ∈ R µ σ
βα α α
Gamma Ga(α, β) f (x|α, β) = Γ(α) xα−1 e−βx si x > 0 a β β2
1 2
Exponencial Expo(λ) f (x | λ) = λ exp − λx si x ≥ 0 λ λ
Ji-Cuadrado χ2 (ν) X ∼ χ2 (ν) si X ∼ Ga( ν2 , 12 ) ν 2ν
13
Γ(α+β) α−1 α αβ
Beta Be(α, β) f (x|α, β) = Γ(α)Γ(β) x (1 − x)β−1 si 0 < x < 1 α+β (α+β)2 (α+β+1)
− ν+1
2
Γ( ν+1
2 ) x2 ν
t-Student t(ν) f (x) = √νπΓ( ν 1 + ν ∀x ∈ R 0 si ν > 1 ν−2 si ν > 2
2)
Γ( m+n ) m/2−1 2n2 (m+n−2)
2 m/2 n/2 x n
F-Snedecor F (m, n) f (x) = Γ( m )Γ( n m n (mx+n) (m+n)/2 si x > 0 (n−2) si n>2 m(n−2)2 (n−4) si n > 4
2 2)
−α α−1 x α β 1 β2 2 1 2 1
Weibull(α, β) f (x | α, β) = αβ x exp −( β ) si x > 0 α Γ( α ) α (2Γ( α ) − α Γ ( α ))
2 X 2
Lognormal X ∼ N (µ, σ ) → e ∼ LN (µ, σ )
a La
R +∞
función gamma se define como Γ(α) = 0 xα−1 exp{−x}dx, que existe y es finita ∀α > 0
De hecho podemos ver la forma que tiene esta función de probabilidad para todos
los valores posibles.
●
0.25
●
dbinom(0:10, size = 10, prob = 0.23)
●
0.20
0.15
●
0.10
●
0.05
●
0.00
● ● ● ●
2 4 6 8 10
14
0.30
1 2
0.25
1 2
dbinom(0:10, size = 10, prob = 0.23)
1 2
0.20
0.15
1 2
0.10
1 2
0.05
1
2
2 1
0.00
2 2 2 2 1 1 1 1
2 4 6 8 10
## [1] 0.07327 0.29212 0.58628 0.82060 0.94308 0.98698 0.99791 0.99978 0.99999 1.00000
## [11] 1.00000
15
stepfun(0:10, c(pbinom(0:10, size = 10, prob = 0.23), 1))
1.0 ●
● ● ● ● ● ●
●
0.8
0.6
●
f(x)
0.4
●
0.2
0 2 4 6 8 10
## [1] 2
## [1] 5 1 1 2 3
16
## [41] 1.107e-10 3.239e-11 9.256e-12 2.583e-12 7.044e-13 1.878e-13 4.900e-14 1.251e-14
## [49] 3.128e-15 7.660e-16 1.838e-16 4.326e-17 9.983e-18 2.260e-18 5.023e-19 1.096e-19
## [57] 2.348e-20 4.944e-21 1.023e-21 2.080e-22 4.161e-23
11
1 1
0.10
1
1
0.08
22
2 2
dpois(0:60, lambda = 12)
1 2 2
1 2
0.06
1 2
2
1 2
0.04
2
1
2
2
2
1 1
0.02
2 2
2 1 2
1 2
2 1
1 2
1 2 22
2 11
0.00
1 222 22222222222222222222222
1111111111111111111111111111111111111
111
222222222
0 10 20 30 40 50 60
## [1] 8 9 10 11 12 13 14 15 17
## [1] 10 8 16 9 12 13 11 12 9 11 9 17 17 6 12 12 12 14 15 14 18 10 15 12 20 9 9 13
## [29] 13 7 20 10 8 11 14 16 6 10 15 14 11 14 10 10 7 10 11 13 9 16
17
Nota de R 4 La función de densidad y de distribución las obtenemos con dpois y
ppois.
11
1 1
0.10
1
1
0.08
22
2 2
dpois(0:60, lambda = 12)
1 2 2
1 2
0.06
1 2
2
1 2
0.04
2
1
2
2
2
1 1
0.02
2 2
2 1 2
1 2
2 1
1 2
1 2 22
2 11
0.00
22222222222222222222222
1111
222222222222 1111111111111111111111111111111111111
0 10 20 30 40 50 60
18
qpois(seq(0.1, 0.9, 0.1), lambda = 12)
## [1] 8 9 10 11 12 13 14 15 17
## [1] 10 16 11 13 8 13 14 12 13 6 7 12 10 14 13 15 12 17 10 10 12 7 10 16 16 5 6 11
## [29] 11 15 14 6 13 13 13 10 14 8 13 12 7 11 17 14 18 18 11 14 14 20
P (A | Bi )P (Bi )
P (Bi | A) = Pk (1.7)
j=1 P (A | Bj )P (Bj )
µ1
µX = ...
µd
19
de covarianzas, también llamada en la literatura matriz de varianzas, matriz de
varianzas-covarianzas o matriz de dispersión. La denotaremos por Σ, es decir,
σ11 . . . σ1d
Σ = ... .. ..
. .
σd1 ... σdd
20
Se puede probar que EY = µ y var(Y ) = Σ y por ello se suele denotar
donde Y (i) y µ(i) son vectores di × 1 y Σii es una matriz di × di (con d1 + d2 = d).
Se verifican las siguientes propiedades:
6. La distribución condicionada de Y (2) , dado Y (1) = y (1) es Nd2 (µ(2) +Σ21 Σ−1
11 [y
(1)
−
µ(1) ], Σ22,1 ) donde Σ22,1 = Σ22 − Σ21 Σ−1 Σ
11 12 .
library(mvtnorm)
npuntos <- 50
x <- seq(mu[1] - 3 * sqrt(Sigma[1, 1]), mu[1] + 3 * sqrt(Sigma[1, 1]), len = npuntos)
y <- seq(mu[2] - 3 * sqrt(Sigma[2, 2]), mu[2] + 3 * sqrt(Sigma[2, 2]), len = npuntos)
21
z <- NULL
for (i in 1:npuntos) {
for (j in 1:npuntos) {
z <- rbind(z, c(x[i], y[j], dmvnorm(c(x[i], y[j]), mean = mu, sigma = Sigma)))
}
}
Vamos a representarlos.
persp(z)
contour(z)
Z
22
1.0
0.8
6
6
4
4
8
8
8
2
8
8
0.6
10
10
10
10
10
10
10
10
10
2
8
4
4
10
10
4
4
2
10
4
12
10
8
6
10
10
6
10
12
6
6
8
4
10
6
8
12
0.4
8
8
4
12
12
8
10
6 8
6 8
8
10
8
6
8
10
8
10 8
8
8
10
6
6
8
10
10
8
4
6
12
6
6
8
6
12
6
10
4
10
6
4
6
4
4
12
0.2
10
8
6
4
10
8
6
12
2
8
−2
6
0.0
23
24
Capı́tulo 2
load("../data/scoremaster")
names(scoremaster)
Para poder trabajar con los nombres de las variables hemos de adjuntar el banco
de datos
attach(scoremaster)
25
score[1:10]
## [1] 6 4 5 6 7 6 7 8 6 5
## Levels: 3 < 4 < 5 < 6 < 7 < 8
De las variables consideradas algunas son categóricas como puede ser la especia-
lidad o tipoanes (tipo de anestesia), otras son ordinales como score, score2, score3,
. . . mientras que otras son continuas como T.TOTALP o T.QUIRUR. Es intere-
sante utilizar la función extractora summary sobre un data frame.
summary(scoremaster)
summary(T.TOTALP)
26
Nos aparece el mı́nimo, el primer cuartil (o percentil 0,25), la mediana, la media,
el tercer cuartil (o percentil 0,75) y el máximo de las observaciones.
Para una variable categórica podemos pedirle una tabla de frecuencias.
table(tipoanes)
## tipoanes
## General Plexo CAM
## 746 108 65
barplot(table(tipoanes))
700
600
500
400
300
200
100
0
2.2. Verosimilitud
Sea y = (y1 , . . . , yn ) una realización del vector aleatorio Y = (Y1 , . . . , Yn ). Es
habitual asumir que Y tiene una función de densidad conjunta f en una cierta
familia F. Para una función dada f , el valor f (y) nos muestra cómo varı́a la densidad
dentro del espacio muestral de valores posibles de y. Y viceversa, si consideramos
unos datos y y lo que hacemos variar es la función de densidad entonces estamos
27
viendo cómo de verosı́mil es cada una de las funciones dados los datos y. Esta función
recibe el nombre de verosimilitud de f dados los datos y y se suele denotar como
y
n
X n
X
ly (θ; y) = log fYi (yi ) = LYi (θ; yi ).
i=1 i=1
28
Ejemplo 4 (Muestreo Bernoulli inverso) Nuestros datos son ahora el número
total de pruebas necesarias para alcanzar un número previamente especificado de
éxitos. La variable aleatoria correspondiente N tendrá una distribución binomial
negativa con r éxitos y una probabilidad de éxito θ. La función de verosimilitud
correspondiente viene dada por
n−1 r
L(θ; n) = θ (1 − θ)n−r
r−1
Consideremos los tres ejemplos anteriores 2, 3 y 4. Si consideramos dos valores del
parámetro θ1 y θ2 entonces el cociente de las verosimilitudes calculados en ambos
valores tiene el mismo valor en los tres ejemplos.
2.3. Estimación
Denotamos por Θ el espacio formado por los valores que puede tomar θ o espacio
paramétrico. Un estimador del parámetros o vector paramétrico θ es cualquier
función de la muestra X1 , . . . , Xn que toma valores en el espacio paramétrico.
Si δ(X1 , . . . , Xn ) es un estimador del parámetro θ entonces se define el error
cuadrático medio como
M SE(δ) = E[δ(X1 , . . . , Xn ) − θ]2 (2.4)
En el caso en que se verifique que Eδ(X1 , . . . , Xn ) = µδ = θ, es decir, que el
estimador sea insesgado entonces:
M SE(δ) = E[δ(X1 , . . . , Xn ) − θ]2 = E[δ(X1 , . . . , Xn ) − µδ ]]2 = var(δ).
Y el error cuadrático medio no es más que la varianza del estimador.
Consideremos la siguiente cadena de igualdades. Denotamos
M SE(δ) = E[δ − θ]2 = E[δ − µδ + µδ − θ]2 = E[δ − µδ ]2 + [µδ − θ]2 (2.5)
La diferencia entre la media del estimador y el parámetro, µδ − θ, recibe el nombre
de sesgo. Finalmente lo que nos dice la ecuación anterior es que el error cuadrático
medio M SE(δ) lo podemos expresar como la suma de la varianza del estimador,
E[δ − µδ ]2 , más el sesgo al cuadrado, [µδ − θ]2 .
A la raı́z cuadrada de la varianza de un estimador, es decir, a su desviación
tı́pica o estándar se le llama error estándar. La expresión error estándar se usa
en ocasiones indistintamente para referirse o bien dicha desviación tı́pica o bien al
estimador de la misma.
Notemos que
n n n
1X 1X 1X
E Ȳ = E[ Yi ] = EYi = µ = µ.
n i=1 n i=1 n i=1
En definitiva, la media muestral es un estimador que no tiene ningún sesgo cuando
estima la media de Yi (la media poblacional) o, lo que es lo mismo, es un estimador
insesgado.
29
Para estimar de un modo insesgado la varianza σ 2 a partir de una muestra
Y1 , . . . , Yn se utiliza la varianza muestral dada por
n
1 X
S2 = (Yi − Ȳ )2 . (2.7)
n − 1 i=1
de donde,
n
1 X
ES 2 = E (Yi − Ȳ )2 = σ 2 ,
n − 1 i=1
load("../data/scoremaster")
attach(scoremaster)
La media muestral del tiempo total quirúrgico (en segundos) lo obtenemos con
mean(T.QUIRUR)
## [1] 3903
var(T.QUIRUR)
## [1] 3107898
sd(T.QUIRUR)
## [1] 1763
30
muestrales. Si
Yi1
Yi = ...
Yip
mientras que los datos observados, la matriz de datos, vendrı́a dada por
0
y1 y11 . . . y1d
y = ... = ... .. ..
. .
yn0 yn1 . . . ynd
Ȳ·p
de modo que
S11 ... S1d n
.. .. .. = 1 X 1
S= . . . (Yi − Ȳ )(Yi − Ȳ )0 = Q.
n − 1 i=1 n−1
Sd1 ... Sdd
31
Tenemos pues que S es un estimador insesgado de la matriz Σ.
Finalmente, si denotamos por rjk el coeficiente de correlación entre las variables
j y k, es decir,
Pn
(Yij − Ȳ·j )(Yik − Ȳ·k ) Sjk
rjk = qP i=1 =p (2.10)
n
(Y − Ȳ ) 2
Pn
(Y − Ȳ )2 Sjj Skk
i=1 ij ·j i=1 ik ·k
load("../data/scoremaster")
attach(scoremaster)
cov(T.QUIRUR, T.TOTALP)
## [1] 2308272
cor(T.QUIRUR, T.TOTALP)
## [1] 0.2365
cov(cbind(T.QUIRUR, T.TOTALP))
## T.QUIRUR T.TOTALP
## T.QUIRUR 3107898 2308272
## T.TOTALP 2308272 30659874
y la de correlaciones serı́a
cor(cbind(T.QUIRUR, T.TOTALP))
## T.QUIRUR T.TOTALP
## T.QUIRUR 1.0000 0.2365
## T.TOTALP 0.2365 1.0000
o también
θ̂ = argmaxθ∈Θ L(θ), (2.12)
32
Pn
xi
Ejemplo 5 (Bernoulli) Se puede comprobar sin dificultad que p̂ = i=1
n .
Ejemplo c2 = n−1 S 2 =
6 (Normal) En este caso se comprueba que µ̂ = X̂n y que σ
Pn n
1 2
n i=1 (Xi − X̄nq
) . Teniendo en que cuenta la propiedad enunciada en 2.13 ten-
dremos que σ̂ = n−1 2
n S .
Notemos que el error estándar de θ̂j será el elemento que ocupa la posición (j, j)
en la inversa de la matriz de información. Cuanto mayor es la curvatura de la
logverosimilitud menores serán los errores estándar. La racionalidad que hay detrás
de esto es que si la curvatura es mayor entonces la logverosimilitud cae rápidamente
cuando el vector θ se aleja de θ̂. En resumen, es de esperar que θ esté más próximo
a θ̂.
∂l(p) y n−y y − np
= − = . (2.17)
∂p p 1−p p(1 − p)
∂ 2 l(p)
y n−y n
−E 2
=E 2 + 2
= . (2.18)
∂p p (1 − p) p(1 − p)
33
2.5. Contraste de hipótesis
Genéricamente vamos a considerar situaciones en donde particionamos el espacio
paramétrico Θ en dos conjuntos Θ0 y Θ1 , es decir, Θ0 ∩ Θ1 = ∅ (son disjuntos) y
y Θ0 ∪ Θ1 = Θ (cubren todo el espacio paramétrico). Consideramos el contraste de
hipótesis siguiente.
H0 :θ ∈ Θ0 (2.19)
H1 :θ ∈ Θ1 (2.20)
H0 H1
Rechazamos H0 Error tipo I
No rechazamos H0 Error tipo II
H0 :µ = µ0 , (2.22)
H1 :µ 6= µ0 . (2.23)
Pn 2
i=1 (Xi −X̄)
Siendo S 2 = n−1 , el estadı́stico habitualmente utilizado es el siguiente
X̄ − µ0
T = √ .
S/ n
Bajo la hipótesis nula este estadı́stico sigue una distribución t de Student con n − 1
grados de libertad,
T ∼ t(n − 1).
Si suponemos que trabajamos con un nivel de significación α la región crı́tica en la
cual rechazamos la hipótesis nula serı́a
|T | > tn−1,1− α2 .
34
2.5.1. Test del cociente de verosimilitudes
El cociente de verosimilitudes para contrastar estas hipótesis se define como
máxθ∈Θ0 L(θ)
Λ= (2.24)
máxθ∈Θ L(θ)
L0
− 2 log λ = −2 log = −2(l0 − l1 ) (2.25)
L1
siendo l0 y l1 los logaritmos de L0 y L1 respectivamente que también corresponden
con los máximos de la logverosimilitud sobre Θ0 y sobre Θ.
H0 :θ = θ0 , (2.26)
H1 :θ 6= θ0 . (2.27)
Denotamos por SE(θ̂) el error estándar bajo la hipótesis alternativa de θ̂. Entonces
el estadı́stico
θ̂ − θ0
z= (2.28)
SE(θ̂)
tiene, bajo la hipótesis nula, aproximadamente una distribución normal estándar,
z ∼ N (0, 1). Este tipo de estadı́sticos donde se utiliza el error estándar del estimador
bajo la hipótesis alternativa recibe el nombre de estadı́stico de Wald.
Supongamos que θ es un vector de parámetros y queremos contrastar las hipóte-
sis dadas en 2.26. La versión multivariante del estadı́stico dado en 2.28 viene dada
por
W = (θ̂ − θ0 )0 [cov(θ̂)]−1 (θ̂ − θ0 ), (2.29)
donde cov(θ̂) se estima como la matriz de información observada en el MLE θ̂. La
distribución asintótica de W bajo la hipótesis nula es una distribución ji-cuadrado
donde el número de grados de libertad coincide con el número de parámetros no
redundantes en θ.
X̄n − µ
√ ∼ tn−1 . (2.30)
S/ n
35
−µ
Vemos cómo X̄ n√
S/ n
depende tanto de la muestra que conocemos como de un paráme-
tro (la media µ) que desconocemos. Fijamos un valor de α (habitualmente tomare-
mos α = 0,05) y elegimos un valor tn−1,1−α/2 tal que
X̄n − µ
P (−tn−1,1−α/2 ≤ √ ≤ tn−1,1−α/2 ) = 1 − α. (2.31)
S/ n
|θ̂ − θ0 |
{θ0 : < Z1−α/2 } (2.34)
SE(θ̂)
36
Capı́tulo 3
Componentes principales
3.1. Introducción
En este tema nos ocupamos de problemas de reducción de dimensión. ¿Qué sig-
nifica reducir la dimensión? Responder a esta pregunta es obvio si nos fijamos en los
datos que tenemos. Trabajando con expresión de genes tenemos tantas filas como
genes y tantas columnas como muestras. En resumen miles de filas y decenas o cen-
tenares de columnas. En temas anteriores hemos visto como seleccionar filas, esto
es, seleccionar genes es una tarea incluso previa. Hemos de quedarnos con genes que
tengan una expresión diferencial si consideramos alguna caracterı́stica fenotı́pica
o bien con genes que tengan una expresión mı́nima o bien con genes que tengan
un cierto nivel de variación. ¿Qué hacemos con las columnas? O de otro modo:
¿qué hacemos con las muestras? Quizás la respuesta natural serı́a: si tenemos miles
de filas, ¿por qué preocuparse de unas decenas de filas? No es una buena respuesta.
Realmente tener 50 o 100 columnas son muchas a la hora de visualizar resultados o
bien de aplicar tratamientos estadı́sticos. En este tema tratamos el tema de cómo
reducir el número de columnas.
library(multtest)
data(golub)
sel <- grep("Cyclin", golub.gnames[, 2])
golub.red <- golub[sel, 1:2]
Los datos aparecen en el siguiente dibujo. Cada punto corresponde con uno de
los genes seleccionados.
plot(golub.red)
37
1.5 ●
●
1.0
0.5
●
golub.red[,2]
●
●
0.0
●●
●
−0.5
●
−1.0
●
−1.5
golub.red[,1]
Para la fila i (para el gen i) denotamos las expresiones observadas en las dos
muestras como xi = (xi1 , xi1 ). Tenemos n filas y por lo tanto nuestros datos son xi
con i = 1, . . . , n.
38
CCND2 Cyclin D2
1.5
CCND3 Cyclin D3
1.0
Segunda muestra
0.5
Cyclin G2 mRNA
Cyclin−dependentkinase
CDKN1A Cyclin−dependent kinaseinhibitor
4 (CDK4)1Agene
(p21, Cip1)
Cyclin G1 mRNA
−0.5
CCNH Cyclin H
−1.0
Cyclin
CCNFA1Cyclin
mRNA F
−1.5
Primera muestra
Centramos los datos. Esto es, le restamos a cada columna la media de la columna.
Para ello, primero calculamos las medias. El vector de medias lo vamos a denotar
por x̄ = (x̄1 , x̄2 ) donde
n
X xij
x̄j =
i=1
n
es decir, cada componente es la media de las componentes. En resumen el primer
valor es la expresión media en la primera muestra para todos los genes. Podemos
calcular fácilmente el vector de medias. Una función especı́fica es la siguiente.
También podemos usar la función genérica apply que nos hace lo mismo.
39
plot(golub.red)
abline(v = mean(golub.red[, 1]), col = "red")
abline(h = mean(golub.red[, 2]), col = "red")
●
1.5
●
1.0
0.5
●
golub.red[,2]
●
●
0.0
●●
●
−0.5
●
−1.0
golub.red[,1]
Hemos trasladado los datos de modo que las medias de cada variable valen cero
ahora. Esto es lo que se conoce como centrar los datos. Hemos centrado los datos.
Podemos comprobar que los nuevos datos tienen una media nula.
colMeans(golub.red)
40
de modo que maximizamos
n
1X
(ui − ū)2 .
n i=1
El vector a1 nos indica la dirección sobre la cual proyectamos los datos originales.
Las proyecciones sobre a1 , los valores ui son la mejor descripción univariante de los
datos.
La segunda mejor descripción que sea ortogonal a la anterior serı́an las proyec-
ciones sobre la lı́nea ortogonal a la primera que pasa por el origen de coordenadas.
Obtengamos las componentes principales.
Vamos a representar los vectores directores de las lı́neas sobre las que proyecta-
mos.
●
1.5
●
1.0
0.5
●
golub.red[,2]
●
●
0.0
●●
●
−0.5
●
−1.0
golub.red[,1]
a.pca$rotation
## PC1 PC2
## [1,] -0.7620 0.6476
## [2,] -0.6476 -0.7620
Y las lı́neas sobre las que proyectamos aparecen en el siguiente dibujo en azul.
41
1.5 ●
●
1.0
0.5
●
golub.red[,2]
●
●
0.0
●●
●
−0.5
●
−1.0
golub.red[,1]
42
●
1.5
●
1.0
0.5
●
golub.red[,2]
●
●
0.0
●●
●
−0.5
●
−1.0
golub.red[,1]
43
1.5 ●
●
1.0
0.5
●
golub.red[,2]
●
●
0.0
●●
●
−0.5
●
−1.0
golub.red[,1]
predict(a.pca)
## PC1 PC2
## [1,] -2.50309 -1.542e-01
## [2,] 0.01369 -2.024e-01
## [3,] -2.38702 3.714e-03
## [4,] 0.33490 -6.847e-05
## [5,] 0.76608 2.806e-01
## [6,] 0.27145 2.900e-02
## [7,] 0.31170 -2.876e-01
## [8,] 2.22052 -8.232e-02
## [9,] -0.93221 1.837e-01
## [10,] -0.39946 -7.240e-03
## [11,] 0.08294 3.192e-01
## [12,] 2.22052 -8.232e-02
44
## [1] 1.469 0.185
a.pca$sdev^2
var(golub.red[, 1])
## [1] 1.267
var(golub.red[, 2])
## [1] 0.9246
cuya suma es
## [1] 2.192
sum(a.pca$sdev^2)
## [1] 2.192
45
El argumento center=TRUE centra los datos restando la media de la columna de
modo que las variables tengan medias nulas. El argumento scale=TRUE hace que
las variables originales sean divididas por su desviación estándar de modo que la
varianza (y la desviación estándar) de las nuevas variables sea la unidad.
Diferentes criterios podemos aplicar a la hora de decidir con cuántas componen-
tes nos quedamos.
1. Uno puede ser la proporción total explicada. Fijar un nivel mı́nimo y quedar-
nos con el número de componentes necesario para superar este valor mı́nimo.
2. El segundo puede ser que una componente no puede tener una desviación
estándar menor que una de las variables originales. Si hemos escalado cada
variable original dividiendo por su desviación estándar entonces la desviación
estándar de cada componente ha de ser mayor que uno.
Un resumen de las componentes nos puede indicar con cuántas nos quedamos.
summary(golub.pca)
## Importance of components:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9
## Standard deviation 5.044 1.4407 1.1173 1.0351 0.8582 0.7440 0.7210 0.6923 0.6382
## Proportion of Variance 0.669 0.0546 0.0328 0.0282 0.0194 0.0146 0.0137 0.0126 0.0107
## Cumulative Proportion 0.669 0.7240 0.7569 0.7851 0.8045 0.8190 0.8327 0.8453 0.8561
## PC10 PC11 PC12 PC13 PC14 PC15 PC16 PC17
## Standard deviation 0.6363 0.56700 0.55263 0.53868 0.52011 0.49568 0.48402 0.47719
## Proportion of Variance 0.0106 0.00846 0.00804 0.00764 0.00712 0.00647 0.00617 0.00599
## Cumulative Proportion 0.8667 0.87518 0.88321 0.89085 0.89797 0.90443 0.91060 0.91659
## PC18 PC19 PC20 PC21 PC22 PC23 PC24 PC25
## Standard deviation 0.47068 0.45421 0.43795 0.43410 0.42475 0.41582 0.40718 0.40066
## Proportion of Variance 0.00583 0.00543 0.00505 0.00496 0.00475 0.00455 0.00436 0.00422
## Cumulative Proportion 0.92242 0.92785 0.93290 0.93786 0.94260 0.94715 0.95152 0.95574
## PC26 PC27 PC28 PC29 PC30 PC31 PC32 PC33
## Standard deviation 0.3948 0.38731 0.38417 0.37882 0.37124 0.36957 0.3596 0.3593
## Proportion of Variance 0.0041 0.00395 0.00388 0.00378 0.00363 0.00359 0.0034 0.0034
## Cumulative Proportion 0.9598 0.96379 0.96767 0.97145 0.97508 0.97867 0.9821 0.9855
## PC34 PC35 PC36 PC37 PC38
## Standard deviation 0.35276 0.34218 0.33228 0.32572 0.30667
## Proportion of Variance 0.00327 0.00308 0.00291 0.00279 0.00247
## Cumulative Proportion 0.98875 0.99183 0.99473 0.99753 1.00000
Atendiendo al segundo criterio nos quedarı́amos con las cuatro primeras compo-
nentes. La quinta tiene una desviación inferior a uno. Atendiendo al tercer criterio
vemos que a partir de la quinta es muy estable la desviación estándar. Si nos que-
damos con las cinco primeras componentes estamos explicando un 80.44 % de la
variación total. Puede ser una buena elección y una solución intermedia. Los nuevos
datos los obtenemos con la función predict.
a <- predict(golub.pca)
Podemos ver todas las componentes para el primer gen (primera fila).
46
a[1, ]
Y ahora nos quedamos con las primeras cinco columnas correspondientes con las
cinco primeras componentes principales como hemos decidido previamente.
plot(a[, 1], a[, 2], xlab = "Primera componente", ylab = "Segunda componente")
●
●
● ●
● ●
5
●
●●●
●● ●●●● ●● ● ●
●● ● ●
● ● ●
● ●● ●● ●
● ● ●●●● ●● ●●●
● ●
●●●●● ●● ● ● ●
● ●
●
●●
● ●
● ●●●● ●●● ● ●●
●● ● ●
● ● ● ●
●
●●● ●● ● ●● ●
●●● ●● ●
●● ●●●●●●●
●●●● ● ●●●●●●● ●● ●● ●● ●● ● ●●●●●
●
●
● ● ●● ●●
●●
●
● ●
● ● ●● ●●
●
● ●
●● ● ● ● ● ● ● ●● ● ●●● ●● ● ● ● ● ●
● ●●●●● ●● ●
●● ● ●●
● ●●
●● ● ●● ●
●● ●● ●
●●● ●● ●● ● ●●● ● ●● ●● ● ●
●
●●
●● ●●●
● ● ● ●●
●●●
●●
●
● ●●●●●●
● ● ●● ● ●● ●●●● ● ●● ●●
●
●
●● ●
●
●
●
●
●
●
●●
●
●●●
●
●
●●●
●●
● ●●
●
●
●●
●
●
●
●
●
●●●
●
● ●●
●
●
●●●●
●●
●●
●
●●
●●
●●●●●●●● ●●
●
●
●●●●●●●
● ●●● ●●●●●●●●
● ●● ● ● ● ●
●
●
● ●● ●
●
● ● ● ● ●
Segunda componente
● ●●● ●● ● ● ● ● ●●●●● ●
●●● ●● ●
●●●●●● ● ●● ● ● ● ●
●●
● ● ●
● ●●●●●●
●●
●●●●● ●●●●●●●●●●
●●
●● ●●●● ●●● ●●
● ●
●●
● ●● ●●●● ●● ●●●●
●●●●●● ● ●
●
●
●●●
●
● ●
●●●●
●●
●●●
●
●
●●
●
●
●● ●
●●●●
●●
●●
●
●●●
●
●
●●
●
●
●●●
●●●
● ●●
●●
●●●●●
●
●
●●
● ●●●
●
●
●
●
●●●
●
●
●
●
●
●
●●
●●●
●●●
●
● ● ●● ●●
●●
● ●
●●
●
● ●
●●
●
● ●●● ●
●
● ● ●●
● ●
● ●● ●●● ●
●
●●
● ●
● ●
●●●●● ●●●●● ● ● ● ●● ●●● ●
●●● ● ●
●
●●● ●
●●● ●
●●● ●
● ●●●
●● ●
●●●●
● ●● ● ●●●●● ●● ● ●● ●
●●● ●●●
●● ●●●
●● ●●●
● ●● ●
● ●● ●
●●● ●
● ●
● ●● ● ●●● ●● ●● ● ●●● ●●● ●●
●● ●●
●● ●●●●● ● ●● ● ●
●
●
●
●●●
●●
●●
●●●●●● ●●
●●●●●
●● ●●●●● ●●●●●
●
●●
●●
●
●●
●●
●
●●●
● ●●●●●
●●●
●●
●●
●
●
●● ●
●●
●
●●
●●
●● ●
●
●●●
●
● ●
●
●
●●●●●●● ●●●● ●
● ● ● ●● ●● ●●● ● ●●
●●●● ● ●●●
●
●●
●●
●●●●
●●●
● ●
●●
●●●●●● ●●
●● ●
●
●●●
● ●● ●●● ●●
● ●
●●
● ●
●
●●
●
●●●●●
●
●●
●
● ●●
●
●●●●
●● ●
●● ●●●●
●
●●●
●●●
●●●
● ● ●●●●
● ●●
●●
●●
●
●● ● ●
●
● ●●
●●●
● ●●●●●● ●
● ● ●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●●
●
●
● ●
●
●
●
●●● ●
●
●●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●●●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●●
●●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●●
●
●
●●●
●
●
●
●
●
●
●
● ●
●●
●●
●
●
●
●●
●
●●
●●●●
●●●●
● ●
●●
●
●
●
●●
●
● ●
●●●●
●●●
●
●
●
●
●
●●
●
●
●
●
●●
●
●●●●
●
●
●●
●
●●●●●●●●●
● ●
●
●● ● ●●● ●●
● ● ● ●
0
●
●●●
● ●
●● ●●● ●●
● ●
●●●● ● ●
●● ●●●
● ●●
● ●●●●
●
●
● ●
●●
●●
●
●●●
●● ● ●●
●
●●●●●●
●●●●● ● ●
●●●
●●●● ● ●
●●● ●● ● ● ● ●●
●● ● ● ● ●●
● ●●●●
● ● ● ●●
●
●●
●●
●
●●
●●
●●●
●●●
●
●●●●●●●
● ●
●
●
●
●
●
●●●●
●●
●●●●●
●
●●
●●
●
●
● ●
●
●
●
●●
●●●
●●
●●
●
●
●●●
●
●
●●
●●
●●
●
●
●
●
●●
●
●●
●
●●
●
● ●
●●
●●
●●
●
●
●●●●
●
●●
●●●
●●●●●
●● ●●
●
●
●
●
●●
● ●
●
●
●●
●
● ● ●●
●●●
●
●●
●●●●
● ● ●●● ●● ● ●●● ●● ● ● ● ●
●
●●●●
● ●●
●●
●●●●●●●●●●
● ●
● ●●●
●●
●●
● ● ●●●●
●●●● ●
●●●
●
●●●
●●
●●
●
●●
●●●
●●
●●●
●●●
●●
●●
●
●●●
●
●
●● ●
●●●●●● ●
●●
● ●●●●
● ● ●
●
●●●
●
●●
●●●●
●●●●● ●
●●●●
● ●●● ● ● ● ● ● ● ● ●●
●
●
● ● ●● ● ● ●● ● ●●●●●
● ● ●● ● ●
●● ●● ● ●● ● ● ●● ●● ● ●●● ● ●
●●
● ●
●●●●
● ●
●● ● ●●
●●●●● ● ●●●
● ●● ●● ●●● ●
●●●
●●●●
●
● ●
●●
●●●
●●●
●●
●
●●
●●
●
●●● ●
●●●● ●●
● ●●
● ●
●●●●
●●
● ●●
● ●●●
● ●
●
●●
●●●●●● ●●
● ●●●●● ● ●●●● ●
● ● ● ●● ● ● ●● ● ●● ●●
●●
● ●●
●●●
● ●●
●
●●●
●
●
●
●
●●
●●●
●●●
● ●
●● ●
●●●
●●
●●●
●
●
●
●
●
●●
●●●●●●
●
●●
●●
●
●●
●
●●
●●●
●●
●●
●
●●●●
●
●
●●
●●
●
●
●
●●●
●●
●
●
●
●●●
●●●●●
●● ●
●
●●
●●●
●●●●●
●●
●
●
●●●● ●●
●●●
●●●● ●●●
● ●●● ●● ● ● ●● ●● ● ●
● ● ● ●
● ● ● ●
● ●●
●●
●●
●
●
●●
●
●●
●
●●●
●●
●●
● ●
●●●● ●
●●●
●
●
●
●●
●●
●
●
●
●●●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●●●
●
●
●
●
●
●
●●●●
●
●
●
●
●
●
●
●
●
●
●●● ●
●
●
●
●
●●
●
●
●● ●
● ●●●
●●
● ●●●●
●
●
●●
●●●
●
●
●
●
●●●
●●●●● ●
● ●●●●● ● ●●
● ● ●● ● ●● ●
●
●
●●●●● ● ●●●
●● ●● ●●●● ●● ● ●●
● ●● ●● ●
●
●●● ●●● ●● ●● ●
●● ● ●● ●
● ● ● ● ●
●●
●●●●●
●●●● ●● ●●
●●●
● ●●
● ●●●●● ●●
●
● ●
●●
●
●● ● ●●● ●●●●
● ● ●● ●●●● ●
●● ●●●●
●●
●● ●
●●
●●●
● ●●
● ● ●●● ● ●●● ●●● ●● ●●
●●
●
●
● ●
●●
●●●●● ●● ●●●●● ●●● ● ●●
●● ● ● ●●● ●● ●● ● ● ● ● ● ●● ● ● ● ●
●●
●
●● ● ●●● ●● ● ● ● ● ● ● ●●
●
●
● ● ● ● ● ● ●
●● ● ● ●
●●● ● ● ● ● ●
● ● ● ●●●●● ● ●●● ●●● ● ● ● ● ●● ● ●● ●
●●
● ●
●
● ● ●●● ● ● ● ● ● ●● ● ●
●●● ● ● ● ●● ● ●● ●
●● ●● ●
●●● ● ● ●●● ● ● ●
●● ●● ●●●
● ● ●
●
●● ● ● ● ● ● ● ●
●
● ● ●● ● ● ● ● ●
● ● ● ● ● ●
● ● ● ●●
−5
●
● ● ● ● ●
●
● ●
●
●
−5 0 5 10 15 20
Primera componente
47
golub.pca$rotation[, 1]
## [1] 0.1715 0.1691 0.1650 0.1727 0.1659 0.1669 0.1686 0.1602 0.1649 0.1688 0.1654 0.1694
## [13] 0.1629 0.1661 0.1648 0.1721 0.1559 0.1600 0.1677 0.1492 0.1273 0.1621 0.1644 0.1653
## [25] 0.1659 0.1690 0.1540 0.1689 0.1541 0.1517 0.1691 0.1682 0.1452 0.1675 0.1638 0.1509
## [37] 0.1476 0.1520
Podemos ver que son coeficientes muy parecidos, todos positivos. Básicamente
tenemos la media muestral de todos los niveles de expresión en las 38 muestras. La
primera componente es básicamente la media sobre las 38 muestras. ¿Y la segunda
componente?
golub.pca$rotation[, 2]
Si observamos los coeficientes vemos que las primeros 27 valores son positivos y
los 11 últimos son negativos. Además no hay una gran diferencia entre los 27 prime-
ros y tampoco entre los 11 últimos. Básicamente estamos comparando, para cada
gen, la media de los niveles de expresión sobre los datos ALL (leucemia linfoblástica
aguda) con la media sobre los datos AML (leucemia mieloide aguda).
T 0 ΣT = Λ = diag(λ1 , . . . , λd ), (3.1)
Y = T 0 (X − µ). (3.2)
48
2. Las variables Zj son incorreladas y con varianza unitaria.
Demostración.
En cuanto al apartado primero tenemos que
Finalmente, si las variables vienen dadas en unidades muy distintas puede ser
conveniente sustituir la matriz de covarianzas (poblacional o muestral) por la co-
rrespondiente matriz de correlaciones. De hecho, una de los inconvenientes de las
componentes principales como un modo de reducir la dimensión de los datos es preci-
samente que obtenemos resultados distintos si utilizamos las componentes principa-
les obtenidas a partir de la matriz de covarianzas o bien las componentes principales
obtenidas a partir de la matriz de correlaciones.
A partir de las d variables originales podemos obtener hasta d componentes prin-
cipales. Sin embargo, hemos dicho que pretendemos reducir la dimensión del vector
de datos. La pregunta a responder es: ¿con cuántas componentes nos quedamos?
Supongamos que estamos trabajando Pd con la matriz Pd de covarianzas
PdΣ. Hemos
de recordar que var(yj ) = λj y que j=1 var(xj ) = j=1 var(yj ) = j=1 λj . En
consecuencia se suelen considerar los siguientes cocientes
Pk
j=1 λj
Pd , con k = 1, . . . , d,
j=1 λj
de modo que, cuando para un cierto valor de k, estamos próximos a la unidad nos
quedamos con ese valor de k. En la versión muestral trabajaremos o bien con los
valores propios de la matriz de covarianzas muestral o la matriz de correlaciones
muestrales.
Una referencia muy interesante sobre componentes principales es Abdi and Wi-
lliams [2010].
49
50
Capı́tulo 4
Análisis cluster
51
pues no existe la palabra) son métodos de particionamiento y los tratamos en la
sección 4.4.
library(mvtnorm)
x1 <- rmvnorm(n = 100, mean = c(1, 1))
x2 <- rmvnorm(n = 100, mean = c(3.3, 4.1))
x3 <- rmvnorm(n = 100, mean = c(6, 5.5))
52
8
6
4
x1[,2]
● ●
●
●
●
●
● ● ● ●●
● ●
●
2
● ●● ●
● ●
● ● ●
● ● ● ●
● ● ●●
● ● ● ●● ●
● ●● ● ● ●
●● ●
● ● ●●● ● ● ● ●●
●
●● ● ●
●
●● ● ● ●
● ● ● ●● ● ●
●● ● ● ●
● ● ● ●●
0
●
●
●
● ●
● ● ●
● ●
●
●
●
●
0 2 4 6 8
x1[,1]
Se ve que hay tres grupos pero estos no estan muy claramente delimitados. No-
sotros no disponemos de esta información. Conocemos los valores que componen los
vectores de datos pero no conocemos el grupo al que podrı́a pertenecer cada uno de
ellos. Tampoco tenemos porqué tener prefijado el número de grupos. Los datos son
artificiales pero ilustran bien el problema.
Nota de R 10 (Un ejemplo artificial: los datos Ruspini) Son unos datos co-
nocidos, los datos Ruspini. Están en el paquete cluster ?. Cargamos el paquete y los
datos.
library(cluster)
data(ruspini)
plot(ruspini)
53
● ●
●●
150
● ● ● ●
● ● ●
●
●
● ● ●● ● ●
●
●
●
●
●
●
● ●
●
●
● ● ● ●
● ●
●●
100
● ●
●
●
y
● ●
● ●
● ●
●
●
●
● ● ●●
● ●
●
● ●
50
● ●
●
●
●
● ● ●
●
● ● ●
● ●
●
0
0 20 40 60 80 100 120
Son datos bivariantes. Visualmente vemos cómo se agrupan los puntos. Parece
claro que podemos distinguir cuatro grupos.
Nota de R 11 (Un ejemplo con los datos golub) Empezamos cargando los da-
tos.
library(multtest)
data(golub)
Previamente hemos visto que los valores de expresión de los genes “CCND3
Cyclin D3” y “Zyxin” permiten diferenciar entre ALL y AML. Localicemos las ex-
presiones correspondientes a estos genes.
## [1] 1042
## [1] 2124
Los datos aparecen en estas filas. Por lo tanto podemos construir la matriz de
datos correspondiente.
54
cz.data <- data.frame(golub[1042, ], golub[2124, ])
colnames(cz.data) <- c("CCND3 Cyclin D3", "Zyxin")
plot(cz.data)
●
●
2
●
●
●
●
●
●
● ●
●
1
●
● ●
●
Zyxin
● ● ●
● ●
●
● ● ●
0
● ●
● ●
●
−1
● ●
●
● ●
●
CCND3 Cyclin D3
En este caso las observaciones corresponden a las muestras y las variables son
los niveles de expresión de dos genes. ¿Hay grupos? Esto no son datos artificiales
como los de Ruspini y ya no es tan claro.
4.2. Disimilaridades
4.2.1. Disimilaridades entre observaciones
Empezamos tratando el problema de cuantificar el grado de proximidad, de
similaridad entre dos puntos en el espacio de dimensión d. Tradicionalmente este
tema en Matemáticas se ha formalizado a través del concepto de distancia o métrica.
Una métrica es una función que a cada par de puntos x, y ∈ Rd le asocia un valor
positivo de modo que cuando mayor es más distantes son, más alejados están. Como
siempre la formalización matemática de un concepto intuitivo ha de ser prudente
y pedir que se verifiquen ciertos axiomas que resulten razonables y generalmente
55
admisibles. En concreto la función d definida en el espacio producto Rd × Rd se dice
que es una métrica si verifica:
No negativa d(x, y) ≥ 0.
Un punto dista 0 de sı́ mismo d(x, x) = 0.
Simetrı́a d(x, y) = d(y, x).
Desigualdad triangular d(x, z) ≤ d(x, y) + d(y, z), para todo x, y, z ∈ Rd .
Las distancias más utilizadas en análisis cluster son la distancia euclı́dea y la dis-
tancia de Manhattan. Para dos vectores x e y (en Rd ) entonces la distancia euclı́dea
se define como v
u d
uX
d(x, y) = t (xk − yk )2 , (4.1)
k=1
d
con x, y ∈ R . La distancia de Manhattan viene dada por
d
X
d(x, y) = |xk − yk |. (4.2)
k=1
56
Cuadro 4.1: Conteos asociados a dos casos descritos por variables binarias
1 0
1 A B A+B
0 C D C+D
A+C B+D d=A+B+C+D
57
siendo 1, . . . , Mk los valores que puede tomar la j-ésima variable ordinal. Lo que
estamos haciendo con este procedimiento es transformar la variable ordinal es una
variable numérica con una escala común. En la medida en que el número de cate-
gorı́as sea mayor esta transformación tendrá más sentido.
Hemos visto cómo tratar cada tipo de variable aisladamente. El problema es
combinar todas ellas en una sola medida de disimilaridad. La función daisy del
paquete cluster ? utiliza la siguiente medida:
Pd (k) (k)
k=1 δij dij
d(i, j) = Pd (k)
, (4.3)
k=1 δij
donde:
(k)
δij vale uno cuando las medidas xik y xjk no son valores faltantes y cero en
otro caso;
(k)
δij vale 0 cuando la variable k es binaria asimétrica y tenemos entre los
individuos i y j un acoplamiento 0-0;
(k)
el valor dij es lo que contribuye a la disimilaridad entre i y j la variable k.
(k)
• Si la variable k es binaria o categórica entonces dij es definida como
(k)
dij = 1 si xik 6= xjk y 0 en otro caso.
• Si la variable k es numérica entonces
(k) |xik − xjk |
dij =
Rk
siendo Rk el rango de la variable k definido como
Rk = máx xhk − mı́n xhk
h h
donde h varı́a entre todos los individuos con valor no faltante de la va-
riable k.
Si todas las variables son categóricas entonces 4.3 nos da el número de acoplamientos
del total de pares disponibles, en definitiva, el coeficiente de acoplamiento simple. Si
todas son variables binarias simétricas entonces obtenemos otra vez el coeficiente de
acoplamiento simple. Si las variables son binarias asimétricas entonces obtenemos
el coeficiente de Jaccard. Cuando todas las variables con las que trabajamos son
numéricas la medida de disimilaridad es la distancia de Manhattan donde cada
variable está normalizada.
Dado un conjunto de datos xi con i = 1, . . . , n tendremos, utilizando algunas
de las medidas de disimilaridades comentadas, una matriz de dimensión n × n que
tiene en la posición (i, j) la disimilaridad entre xi y xj , d(i, j): [d(i, j)]i,j=1,...,n .
Con esta matriz cuantificamos la disimilaridad que hay entre los elementos ori-
ginales de la muestra. Algunos de los procedimientos de agrupamiento que vamos
a considerar en lo que sigue no necesitan conocer los datos originales. Pueden apli-
carse con solo conocer esta matriz de disimilaridades. Otros no. Otros utilizan los
datos a lo largo de las distintas etapas de aplicación del procedimiento.
58
Supongamos que tenemos un banco de datos con n individuos cuyos ı́ndices son
{1, . . . , n}. Sean A y B dos subconjuntos disjuntos del conjunto de ı́ndices de la
muestra {1, . . . , n}, esto es, dos subconjuntos de observaciones disjuntos. ¿Cómo
podemos definir una disimilaridad entre A y B partiendo de las disimilaridades
entre los datos individuales? Se han propuesto muchos procedimientos. Si denota-
mos la disimilaridad entre A y B como d(A, B) entonces las disimilaridades más
habitualmente utilizadas son las siguientes:
Enlace simple La disimilaridad entre los dos grupos es el mı́nimo de las disimi-
laridades entre las observaciones de uno y de otro. Tomamos la disimilaridad
de los objetos que más se parecen en uno y otro grupo.
Enlace completo Ahora tomamos como disimilaridad entre los grupos como el
máximo de las disimilaridades, en definitiva, la disimilaridad entre los objetos
más alejados o más distintos.
59
Paso 0 Tenemos grupos unitarios formados por cada una de las observaciones.
Tenemos pues una partición inicial Ci = {i} con i = 1, . . . , n. En un principio,
cada dato es un grupo.
Paso 2 Agrupamos los dos conjuntos de la partición más próximos y dejamos los
demás conjuntos igual. Tenemos ahora Ci con i = 1, . . . , k.
Hay una representación gráfica muy utilizada para describir los resultados de
un cluster jerárquico aglomerativo como el que acabamos de describir. Esta repre-
sentación tiene el nombre de dendograma. En el dendograma se va mostrando
a qué valor de la medida de disimilaridad se produce la unión de los grupos y si-
multáneamente qué grupos se están uniendo para esa disimilaridad. También nos
permite una valoración rápida de cuántos grupos puede haber en el banco de datos.
Simplemente trazando una linea horizontal a la altura en que tengamos el número
de grupos que pensamos que puede haber.
Nota de R 12 Veamos un ejemplo de análisis cluster. Los datos han sido obteni-
dos de esta página. Tenemos cuatro variables que nos dan las puntuaciones obte-
nidas en 25 escuelas de New Haven en aritmética y lectura al principio del cuarto
curso y al principio del sexto curso. Empezamos cargando el paquete cluster ? y
leyendo los datos.
library(cluster)
x <- read.table("../data/achieve.txt")
names(x) <- c("centro", "lec4", "aritme4", "lec6", "aritme6")
attach(x)
Veamos el dendograma.
plot(y.ag, which = 2)
60
Dendrogram of agnes(x = y)
3.0
2.5
2.0
Height
1.5
1.0
10
13
25
0.5
9
3
7
2
23
16
0.0
11
17
1
12
19
5
21
8
18
4
22
15
14
20
6
24
y
Agglomerative Coefficient = 0.84
library(cluster)
data(votes.repub)
agn1 <- agnes(votes.repub, metric = "manhattan", stand = TRUE)
plot(agn1, which = 2)
61
Height
0 20 40 60 80
Alabama
Georgia
Arkansas
Louisiana
Mississippi
South Carolina
Alaska
Vermont
Arizona
Montana
plot(agn2, which = 2)
Nevada
Colorado
Idaho
Wyoming
Utah
California
Oregon
Washington
Minnesota
Connecticut
62
Ohio
Indiana
Michigan
Pennsylvania
New Hampshire
votes.repub
Wisconsin
Delaware
Kentucky
Maryland
Missouri
New Mexico
West Virginia
50
Vermont
Mississippi
South Carolina
Louisiana
Texas
Arkansas
Florida
Alabama
Georgia
Colorado
Oklahoma
Delaware
Minnesota
0
West Virginia
North Dakota
Wisconsin
Kentucky
Maryland
California
New Hampshire
Hawaii
Maine
Utah
Virginia
North Carolina
Tennessee
Alaska
Michigan
Montana
Iowa
South Dakota
Kansas
Nebraska
Pennsylvania
Arizona
Nevada
Massachusetts
Rhode Island
Oregon
Washington
Missouri
New Mexico
Illinois
New Jersey
Indiana
Ohio
Connecticut
New York
Idaho
Wyoming
daisy(votes.repub)
Agglomerative Coefficient = 0.88
Representamos el dendograma.
plot(ruspini.ag, which = 2)
63
Dendrogram of agnes(x = ruspini, metric = "euclidean", method = "average")
100
80
60
Height
40
20
44
45
61
41
8 7
0
60 58
3 5
13 20
1
46
66 63
4
3531
6865
2
14
6
1911
72
75
73
74
40
5153
5657
21
22
47
48
15
17
42
43
10
9
12
62
52
64
70
71
37
38
16
25
26
50
54
32
36
39
67
69
29
30
59
23
24
33
34
49
27
28
55
18
ruspini
Agglomerative Coefficient = 0.95
cutree(ruspini.ag, 4)
## [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
## [44] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
Y ahora podemos representar los datos de modo que ponemos en un mismo color
los datos que hemos clasificado en un grupo.
64
● ●
●●
150
● ● ● ●
● ● ●
●
●
● ● ●● ● ●
●
●
●
●
●
●
● ●
●
●
● ● ● ●
● ●
●●
100
● ●
●
●
y
● ●
● ●
● ●
●
●
●
● ● ●●
● ●
●
● ●
50
● ●
●
●
●
● ● ●
●
● ● ●
● ●
●
0
0 20 40 60 80 100 120
65
modo bastante natural de valorar la calidad de del agrupamiento que la partición
nos indica serı́a simplemente considerar la siguiente función.
k X
X
dE (xj , x̄Ci )2 , (4.4)
i=1 j∈Ci
1 X
x̄Ci = xj , (4.5)
|Ci |
j∈Ci
es el vector de medias del grupo cuyos ı́ndices están en Ci . Una partición será tanto
mejor cuanto menor sea el valor de la función dada en 4.4. El procedimiento de
agrupamiento de las k-medias simplemente se basa en elegir como partición de los
datos aquella que nos da el mı́nimo de la función objetivo considerada en ecuación
4.4. Notemos que en muchos textos se hablan del algoritmo de las k-medias y se
identifica con un procedimiento concreto para encontrar el mı́nimo de la función.
Aquı́ entendemos el procedimiento como la minimización de la función objetivo.
De hecho, R ofrece hasta cuatro posibles procedimientos de los muchos que cabe
proponer. Hay que diferenciar claramente el procedimiento del método de aplicación
del mismo, del método de obtención de dicho mı́nimo.
Es importante darnos cuenta de que el procedimiento que acabamos de ver
está basado en la utilización de la distancia euclı́dea y en que, dado un grupo,
podemos calcular el vector de medias y esto solo lo podemos hacer si todas las
variables son cuantitativas.
ruspini.km$cluster
## 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
## 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 3 3 3 3 3 3 3 3 3 3
## 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
## 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
## 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75
## 2 2 2 1 2 2 1 1 1 1 1 1 1 1 1
66
plot(ruspini, col = ruspini.km$cluster)
● ●
●●
150
● ● ● ●
● ● ●
●
●
● ● ●● ● ●
●
●
●
●
●
●
● ●
●
●
● ● ● ●
● ●
●●
100
● ●
●
●
y
● ●
● ●
● ●
●
●
●
● ● ●●
● ●
●
● ●
50
● ●
●
●
●
● ● ●
●
● ● ●
● ●
●
0
0 20 40 60 80 100 120
cz.km$cluster
## [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
67
●
●
2
●
●
●
●
●
●
● ●
●
1
●
● ●
●
Zyxin
● ● ●
● ●
●
● ● ●
0
● ●
● ●
●
−1
● ●
●
● ●
●
CCND3 Cyclin D3
68
●
●
2
●
●
●
●
●
●
● ●
●
1
●
● ●
●
Zyxin
● ● ●
● ●
●
● ● ●
0
● ●
● ●
●
−1
● ●
●
● ●
●
CCND3 Cyclin D3
69
●
●
2
●
●
●
●
●
●
● ●
●
1
●
● ●
●
Zyxin
● ● ●
● ●
●
● ● ●
0
● ●
● ●
●
−1
● ●
●
● ●
●
CCND3 Cyclin D3
70
Nota de R 17 (ruspini) Aplicamos PAM.
● ●
●●
150
● ● ● ●
● ● ●
●
●
● ● ●● ● ●
●
●
●
●
●
●
● ●
●
●
● ● ● ●
● ●
●●
100
● ●
●
●
y
● ●
● ●
● ●
●
●
●
● ● ●●
● ●
●
● ●
50
● ●
●
●
●
● ● ●
●
● ● ●
● ●
●
0
0 20 40 60 80 100 120
71
●
●
2
●
●
●
●
●
●
● ●
●
1
●
● ●
●
Zyxin
● ● ●
● ●
●
● ● ●
0
● ●
● ●
●
−1
● ●
●
● ●
●
CCND3 Cyclin D3
72
●
●
2
●
●
●
●
●
●
● ●
●
1
●
● ●
●
Zyxin
● ● ●
● ●
●
● ● ●
0
● ●
● ●
●
−1
● ●
●
● ●
●
CCND3 Cyclin D3
73
●
●
2
●
●
●
●
●
●
● ●
●
1
●
● ●
●
Zyxin
● ● ●
● ●
●
● ● ●
0
● ●
● ●
●
−1
● ●
●
● ●
●
CCND3 Cyclin D3
4.5. Silueta
¯ C) = 1
X
d(i, d(i, j),
|C|
j∈C
la disimilaridad media i con los elementos del grupo C. Para cada observación i,
sea A el cluster al cual lo ha asignado el procedimiento cluster que empleamos
y calculamos a(i) la disimilaridad media de i con todos los demás individuos del
¯ A). Obviamente estamos asumiendo que A contiene al menos
grupo A, a(i) = d(i,
¯ C) para todos los grupos C 6= A y seleccionemos el
otro objeto. Consideremos d(i,
que tiene el mı́nimo valor:
¯ C).
b(i) = mı́n d(i,
C6=A
74
Cuadro 4.2: Silueta media y estructura en un conjunto de datos
SC Interpretación
0,71 − 1,00 Fuerte estructura
0,51 − 0,70 Estructura razonable
0,26 − 0,50 Estructura débil. Probar otros métodos
≤ 0,25 No se encuentra estructura
a(i)
s(i) = 1− si a(i) < b(i), (4.7)
b(i)
= 0 si a(i) = b(i), (4.8)
b(i)
= − 1 si a(i) > b(i). (4.9)
a(i)
b(i) − a(i)
s(i) = .
máx{a(i), b(i)}
En el caso en que el grupo A contenga un único objeto no está muy claro cómo
definir a(i). Tomaremos s(i) = 0 que es una elección arbitraria. Se comprueba con
facilidad que −1 ≤ s(i) ≤ 1 para cualquier objeto i.
Para interpretar el significado de s(i) es bueno ver los valores extremos. Si s(i)
es próximo a uno significa que a(i) es mucho menor que b(i) o lo que es lo mismo,
que el objeto i está bien clasificado pues la disimilaridad con los de su propio grupo
es mucho menor que la disimilaridad con los del grupo más próximo que no es el
suyo. Un valor próximo a cero significa que a(i) y b(i) son similares y no tenemos
muy claro si clasificarlo en A o en B. Finalmente un valor de s(i) próximo a −1
significa que a(i) es claramente mayor que b(i). Su disimilaridad media con B es
menor que la que tiene con A. Estarı́a mejor clasificado en B que en A. No está bien
clasificado.
Los valores de s(i) aparecerán representados para cada cluster en orden decre-
ciente. Para cada objeto se representa una barra horizontal con longitud propor-
cional al valor s(i). Una buena separación entre grupos o cluster viene indicada
por unos valores positivos grandes de s(i). Además de la representación gráfica se
proporciona un análisis descriptivo. En concreto la media de los valores de la silueta
dentro de cada cluster y la media de la silueta para todo el conjunto de datos. La
clasificación será tanto mejor cuanto mayor sean estos valores medios. De hecho, se
puede decidir el número de grupos en función del valor medio de las silueta sobre
toda la muestra. Vamos probando distintos números de grupos y nos quedamos con
el número que nos da la silueta media máxima.
¿Cuándo podemos decir que hay estructura de grupos en los datos que estamos
analizando? Experiencias con datos sugieren la tabla 4.2.
75
ruspini.pam <- pam(ruspini, 4)
summary(silhouette(ruspini.pam))
plot(silhouette(ruspini.pam))
1 : 20 | 0.73
2 : 23 | 0.75
3 : 17 | 0.67
4 : 15 | 0.80
76
## 11 12 11 4
## 0.5254 0.4158 0.3751 0.5815
## Individual silhouette widths:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0113 0.3480 0.5220 0.4530 0.6000 0.6700
plot(silhouette(cz.km$cluster, dist(cz.data)))
library("ALL")
data("ALL")
77
table(ALL$mol.biol)
##
## ALL1/AF4 BCR/ABL E2A/PBX1 NEG NUP-98 p15/p16
## 10 37 5 74 1 1
Nos quedamos con las muestras (columnas) que corresponden a esa biologı́a mo-
lecular.
No vamos a trabajar con todos los genes. En lugar de ello vamos a filtrar aten-
diendo a criterios basados en sus niveles de expresión. Quizás podrı́amos decir que
filtramos de acuerdo con criterios estadı́sticos. Obviamente otro filtraje de genes
podrı́a basarse en criterios biológicos atendiendo a algún conocimiento previo sobre
los mismos.
En concreto los criterios estadı́sticos serán que el nivel medio de expresión sea
mayor que un cierto valor mı́nimo tanto en un tipo de biologı́a molecular como en
el otro. Podemos utilizar la función apply para calcular las medias. Notemos que
la matriz que usamos son las expresiones de ALLs exprs(ALLs) y consideramos
las columnas donde se verifica ALLs$mol.bio == "ALL1/AF4", es decir, donde la
biologı́a molecular es la primera de las consideradas.
Ahora podemos considerar qué filas son tales que esta media (calculada para cada
gen) es mayor que el valor log2 (100).
table(s1)
## s1
## FALSE TRUE
## 9186 3439
table(s2)
## s2
## FALSE TRUE
## 9118 3507
78
Podemos ver la tabla de contingencia en donde mostramos el número de genes
que verifican las dos condiciones, solamente una o bien ninguna.
table(s1, s2)
## s2
## s1 FALSE TRUE
## FALSE 8863 323
## TRUE 255 3184
A partir de ahora nos quedamos con los genes que verifican los dos criterios.
Notemos que s1 es TRUE cuando se verifica la primera condición y s2 es TRUE
cuando se verifica la segunda. Mediante el signo | indicamos la intersección, esto
es, ha de darse la primera y la segunda.
Podemos ver el número de filas y columnas de ALLs para comprobar que vamos
bien.
dim(ALLs)
## Features Samples
## 3762 15
Y vamos bien.
Vamos a considerar también que los niveles de expresión sean suficientemente
variables. En concreto la condición será que la desviación absoluta respecto de la
mediana (o simplemente mad) supere un cierto valor. Primero hemos de calcular la
desviación absoluta respecto de la mediana de cada fila.
En concreto nos quedamos con los genes que tienen un valor de la desviación
absoluta respecto de la mediana superior a 1.4.
dim(ALLs)
## Features Samples
## 58 15
79
Height
0 5 10 15
1065_at
34583_at
40468_at
32184_at
41401_at
38037_at
41779_at
1118_at
31472_s_at
35127_at
38413_at
33358_at
36873_at
37558_at
37283_at
931_at
37809_at
36575_at
547_s_at
plot(muestras.ag, which = 2)
37251_s_at
34721_at
41470_at
1150_at
41577_at
37701_at
33274_f_at
41827_f_at
80
39929_at
exprs(ALLs)
32111_at
40615_at
33219_at
36511_at
35995_at
32035_at
35961_at
40936_at
38052_at
6 8 10 12 14 16 18 20
04006
26008
15004
16004
31007
19005
24005
81
28028
28032
t(exprs(ALLs))
63001
08018
28003
LAL5
36001
82
Capı́tulo 5
Análisis discriminante o de
cómo clasificar con muestra
de entrenamiento
Discriminar es clasificar. Es una palabra mal vista. Cuando una persona le dice a
otra: “Usted me discrimina” está indicando algo negativo en la medida en que piensa
que lo está separando para perjudicarle. Se asume la discriminación como algo que
se realiza en un sentido negativo. Pues no. El análisis discriminante simplemente se
refiere al problema de clasificar en distintos grupos un conjunto de observaciones
vectoriales. Clasificar y discriminar se usan como sinónimos.
Tenemos distintos conjuntos de datos multivariantes. ¿Qué quiere que tenemos
grupos y qué pretendemos hacer con ellos? Una bióloga ha recogido una serie de
animales y ha observado en cada uno unas caracterı́sticas numéricas. Esta bióloga
ha podido clasificar a los animales en distintas especies utilizando las variables x
de las que dispone y, posiblemente, algunas otras cuya consecución ya no es tan
simple y, en ocasiones, ni posible. Está interesada en diseñar un procedimiento que,
partiendo de las variables de las que siempre dispone x, le permita decidir la especie
a la que pertenece un animal futuro del cual solamente tiene las caracterı́sticas x.
Tiene esta persona un problema de clasificación que pretende hacer bien y clasificar
a cada animal en su especie con un esfuerzo pequeño.
Otro ejemplo puede ser el siguiente. Una persona ha pasado una enfermedad
(como la hidatidosis) y por lo tanto guarda en su organismo anticuerpos frente al
virus que lo infectó y le causó la enfermedad. A este individuo se le controla a lo
largo de los años. Cuando se le aplica un procedimiento diagnóstico el resultado
puede ser positivo debido a dos razones: el individuo ha recaı́do en la enfermedad y
por lo tanto ha de ser tratado. Sin embargo, si el procedimiento es muy sensible el
resultado positivo del test puede ser simplemente producidos por los anticuerpos que
la persona conserva. Diferenciar una situación de la otra supone otra exploración
(placas del tórax) y, por ello, una complicación adicional. En la realización del test
se han recogido la presencia o ausencia de una serie de aminoácidos. Tenemos que
nuestro vector de caracterı́sticas son variables binarias o dicotómicas y pretendemos
poder decidir a partir de ellas si la persona está sana sin anticuerpos, sana con
anticuerpos o finalmente enferma utilizando la presencia o ausencia de los distintos
anticuerpos. Este es un segundo problema de interés a tratar aquı́.
Pretendemos clasificar a un individuo dado utilizando algunas caracterı́sticas
del mismo. Pero para poder hacerlo tenemos que conocer para una muestra, que
podemos llamar muestra de entrenamiento (training sample), en qué grupo está ca-
da individuo con los que trabajamos. Esto hace bastante natural el nombre más
83
utilizado en el contexto de la Informática de clasificación supervisada.
library(foreign)
x <- read.spss(file = "../data/cristal.sav", to.data.frame = T)
x[x == -1] <- NA
cc <- complete.cases(x)
x <- x[cc, ]
head(x)
summary(x)
84
Nota de R 23 (Diabetes) Los datos corresponden a una serie de personas de
las cuales conocemos información que previsiblemente nos permitirá predecir si son
diabéticos o no. Incluso dentro de los diabéticos pretendemos discriminar (distin-
guir) entre diabetes clı́nica y diabetes manifiesta. La variable tipo nos indica en
qué grupo está la persona observada de los tres grupos indicados. El resto de varia-
bles nos describen al paciente: peso es el peso relativo, gpb es la glucosa plasmática
en ayunas, garea el área bajo la curva de la glucosa, iarea el área bajo la curva de
insulina y sspg la glucosa plasmática en estado estacionario. Pretendemos clasificar
a un individuo en uno de los tres grupos posibles teniendo en cuenta las variables
consideradas.
library(foreign)
x <- read.spss(file = "../data/diabetes.sav", to.data.frame = T)
head(x)
summary(x)
El capı́tulo está organizado del siguiente modo. Empezamos (sección 5.1) recor-
dando el teorema de Bayes con un ejemplo muy simple de urnas (no funerarias).
De este modo vemos la idea básica del método de clasificación basado en probabi-
lidades a posteriori. Consideramos, en la sección 5.2, el caso (de interés puramente
académico) de dos poblaciones normales univariantes con la misma varianza y con
los parámetros conocidos 1 . En la sección 5.3 abordamos la situación con dos pobla-
ciones normales multivariantes. Allı́ consideramos tanto el caso en que las matrices
de covarianzas son la misma como cuando son distintas. En la sección 5.4 nos plan-
teamos la estimación de los vectores de medias y las matrices de covarianzas y
vemos la implementación práctica del método. El problema de la reducción de la
dimensión dentro del problema de la clasificación es considerado en la sección 5.7
1 En datos reales los parámetros no son conocidos.
85
5.1. Un problema de probabilidad sencillo
Veamos un problema de probabilidad básico que nos servirá para introducir el
procedimiento de clasificación que vamos a utilizar. No le falta ningún detalle y
muchos lo hemos resuelto. Tenemos dos urnas. En la primera de ellas hay una bola
blanca y dos negras mientras que en la segunda urna hay dos bolas blancas y una
negra. Elegimos al azar una urna (no sabemos cuál es la elegida). Posteriormente de
la urna elegida, elegimos a su vez una bola. Resulta que la bola elegida es blanca.
La pregunta que nos hacemos es: ¿De qué urna la hemos elegido? La solución es una
aplicación del teorema de Bayes (ver 1.2.3). Denotamos Bi el suceso consistente en
que la bola ha sido extraı́da de la i-ésima urna y por el A el suceso de que la bola
es blanca. A priori, antes de realizar el experimento, las dos urnas tenı́an la misma
probabilidad (elegimos al azar una de las urnas) y por tanto la probabilidad (previa
o a priori) de los sucesos Bi serı́an P (Bi ) = 1/2. No sabemos si la urna elegida ha
sido la primera o la segunda pero nos podemos plantear qué probabilidad tenemos
de que sea blanca si efectivamente es la urna 1 la elegida y lo mismo para la dos.
Es obvio que P (A | B1 ) = 1/3 y P (A | B2 ) = 2/3. Esta información se puede
combinar aplicando el teorema de Bayes para determinar la probabilidad de que sea
la primera o la segunda urna la elegida sabiendo (teniendo pues una información
adicional sobre el experimento) que ha salido blanca. En concreto tenemos que
P (Bi | A) = PkP (A|B i )P (Bi )
P (A|B )P (B )
. Finalmente podemos comprobar que P (B1 | A) =
j=1 j j
86
Finalmente nos hemos quedado con la población i tal que tenı́a un valor de π(i | x)
mayor, aquella que, una vez observado el valor de X = x, hacı́a más probable la
población.
f (x | µ1 , Σ)
=
f (x | µ2 , Σ)
1 1
exp − (x − µ1 )0 Σ−1 (x − µ1 ) + (x − µ2 )0 Σ−1 (x − µ2 ) =
2 2
1
exp (µ1 − µ2 )0 Σ−1 x − (µ1 − µ2 )0 Σ−1 (µ1 + µ2 ) . (5.1)
2
87
π(2)
Notemos que la ecuación D(x) = log π(1) nos define un hiperplano que separa las
dos poblaciones.
¿Qué ocurre si no asumimos que tenemos una misma matriz de covarianzas? En
este caso se tiene que:
f (x | µ1 , Σ1 )
Q(x) = log =
f (x | µ2 , Σ2 )
1 |Σ2 | 1 1
log − (x − µ1 )0 Σ−1 0 −1
1 (x − µ1 ) + (x − µ2 ) Σ2 (x − µ2 ) =
2 |Σ1 | 2 2
1 |Σ2 | 1 0 −1
log − x (Σ1 − Σ−1 2 )x − 2x0
(Σ−1
1 µ1 − Σ −1
2 µ2 . (5.3)
)
2 |Σ1 | 2
π(2)
Q(x) > log .
π(1)
π(2)
Notemos que ahora Q(x) = log π(1) no es un hiperplano sino que tenemos una
superficie no plana.
88
Si asumimos una matriz de covarianza común a ambas poblaciones entonces
asignamos x a la primera población si
π(2)
Ds (x) > log , (5.6)
π(1)
donde
1
Ds (x) = λ̂0 (x − (x̄1· + x̄2· ) (5.7)
2
y
λ̂ = S−1
p (x̄1· − x̄2· ). (5.8)
La función Ds recibe el nombre de función discriminante lineal. La razón es obvia:
clasificamos en uno o en otro grupo utilizando una función lineal de las distintas
variables.
En el caso particular en que π(1) = π(2), esto es, consideramos a priori igual-
mente probables ambos grupos entonces la regla de clasificación propuesta serı́a:
clasificamos en la población o clase 1 si,
1 0
λ̂0 x > (λ̂ x̄1· + λ̂0 x̄2· ).
2
Es es el procedimiento que propuso R.A. Fisher en 1936.
Notemos que las probabilidades de pertenencia a posteriori a cada una de las
poblaciones pueden ser estimadas mediante
π(i)f (x|x̄i· , Sp )
π̂(i|x) = . (5.9)
π(1)f (x|x̄1· , Sp ) + π(2)f (x|x̄2· , Sp )
Una vez tenemos las probabilidades a posteriori estimadas el individuo es clasificado
en el grupo que tiene una mayor probabilidad a posteriori.
En la situación más general no asumiremos una misma matriz de covarianzas
en las dos poblaciones. En este caso estimamos la matriz Σi mediante la matriz Si
dada en la ecuación 5.5. Las probabilidades a posteriori las estimamos como
π(i)f (x|x̄i· , Si )
π̂(i|x) = . (5.10)
π(1)f (x|x̄1· , S1 ) + π(2)f (x|x̄2· , S2 )
Nota de R 24 Vamos a trabajar con los datos de cristales en la orina. Esta nota
es un ejemplo de análisis discriminante lineal con dos grupos. Consideramos dos
casos. En el primero las probabilidades a priori de cada grupo se asumen iguales
entre sı́ y, por lo tanto, iguales a 0,5. En el segundo caso, las probabilidades a priori
coinciden con las proporciones observadas dentro de la muestra de cada una de las
poblaciones o clases. Leemos los datos.
library(foreign)
x <- read.spss(file = "../data/cristal.sav", to.data.frame = T)
Eliminamos del estudio todos los casos en los que hay algún dato faltante.
cc <- complete.cases(x)
attach(x[cc, ])
89
library(MASS)
z <- lda(GRUPO ~ CALCIO + CONDUC + GRAV + OSMO + PH + UREA, prior = c(1, 1)/2)
attributes(z)
## $names
## [1] "prior" "counts" "means" "scaling" "lev" "svd" "N" "call"
## [9] "terms" "xlevels"
##
## $class
## [1] "lda"
z$prior
z$counts
z$means
z <- lda(GRUPO ~ CALCIO + CONDUC + GRAV + OSMO + PH + UREA, prior = c(1, 1)/2, CV = TRUE)
attributes(z)
## $names
## [1] "class" "posterior" "terms" "call" "xlevels"
head(z$posterior)
90
y las clasificaciones para cada los distintos casos.
head(z$class)
head(z1$posterior)
91
Pg
donde n = i=1 ni . Sea Si la matriz de varianzas o de dispersión de la clase i, es
decir, Pni
j=1 (xij − x̄i· )(xij − x̄i· )0
Si = . (5.14)
ni − 1
El vector µi es estimado mediante µ̂i = x̄i· . En cuanto a la estimación de las matrices
Σi se utilizan dos estimadores. En el caso en que asumamos que todas son iguales
entonces el estimador de Σ = Σ1 = . . . = Σg es Σ̂ = Sp donde
Pg
(ni − 1)Si
Sp = i=1 .
n−g
Si no asumimos que las distintas matrices de varianzas son iguales entonces cada
Σi es estimada mediante Si .
Es claro que el procedimiento indicado en la ecuación 5.5 no es aplicable pues
no conocemos los parámetros. Veamos como queda el procedimiento en las dos
situaciones posibles: asumiendo igualdad de las matrices de covarianzas y asumiendo
que son distintas.
Bajo la hipótesis de matriz de covarianza común tendremos que
1
log[π(i)f (x|x̄i· , Sp )] = log π(i) + c − (x − x̄i· )0 S−1
p (x − x̄i· ).
2
Le quitamos a log[π(i)f (x|x̄i· , Sp )] la parte que no depende de i dada por c− 21 x0 S−1
p x
y obtenemos la función
1
Li (x) = log π(i) + x̄0i· S−1
p (x − x̄i· ).
2
Asignamos x al grupo que tiene un valor mayor de la función Li (x). Estas funciones
reciben el nombre de funciones discriminantes. Observemos que las diferencias entre
distintas funciones Li son hiperplanos y por ello se habla de análisis discriminante
lineal.
En el caso en que no se asume una matriz de varianzas común entonces
la regla de clasificación consiste en clasificar donde es máxima la siguiente función
92
de clasificación. Tendremos para cada data, yi , el grupo al que pertenece e yi∗ el
grupo en el que lo clasificamos. Podemos considerar una valoración del resultado de
la clasificación la siguiente cantidad,
n
X δyi ,y∗ i
I= , (5.16)
i=1
n
Nota de R 25 (Los datos iris de Fisher) Consideremos los datos iris tratados
originalmente por Fisher. Vemos cómo se utiliza una muestra para estimar las ma-
trices de covarianzas y los vectores de medias mientras que clasificamos a los indi-
viduos no utilizados en la estimación de los parámetros. Se utilizan los datos iris
de Fisher.
library(MASS)
data(iris3)
Iris <- data.frame(rbind(iris3[, , 1], iris3[, , 2], iris3[, , 3]), Sp = rep(c("s", "c", "v"),
rep(50, 3)))
Tomamos una muestra y con esta muestra estimamos los vectores de medias y
la matriz de covarianzas.
93
train <- sample(1:150, 75)
table(Iris$Sp[train])
z <- lda(Sp ~ ., Iris, prior = c(1, 1, 1)/3, subset = train)
Con los estimadores podemos ahora clasificar los demás datos de la muestra.
## [1] s s s s s s s s s s s s s s s s s s s s s s s s s s c c c c c c c c c c c c c c c v c
## [44] c c c c c c v v v v v v v v v v v v v v v v v v c v v v v v v v
## Levels: c s v
library(foreign)
x <- read.spss(file = "../data/cristal.sav", to.data.frame = T)
x[x == -1] <- NA
cc <- complete.cases(x)
x <- x[cc, ]
attach(x)
table(GRUPO, z1$class)
##
## GRUPO ausencia de cristales presencia de cristales
## ausencia de cristales 42 2
## presencia de cristales 14 19
library(MASS)
x <- read.table(file = "../data/spambase_data", sep = ",")
attach(x)
xnam <- paste("V", 1:57, sep = "")
(fmla <- as.formula(paste("y ~ ", paste(xnam, collapse = "+"))))
y <- x[, 58]
94
Realizamos el análisis discriminante lineal.
table(V58, z$class)
##
## V58 0 1
## 0 2625 163
## 1 265 1548
##
## V58 0 1
## 0 2086 695
## 1 86 1723
table(y[entrenamiento])
##
## 0 1
## 1207 793
##
## 0 1
## 0 1149 108
## 1 58 685
95
table(predict(z, x[-entrenamiento, ])$class, y[-entrenamiento])
##
## 0 1
## 0 1486 162
## 1 95 858
##
## 0 1
## 1220 780
##
## 0 1
## 0 1155 112
## 1 65 668
##
## 0 1
## 0 1687 190
## 1 101 978
y
g X
X ni g
X
B= (x̄i· − x̄·· )(x̄i· − x̄·· )0 = ni (x̄i· − x̄·· )(x̄i· − x̄·· )0 (5.18)
i=1 j=1 i=1
Notemos que
W
Sp = (5.19)
n−g
96
Estas matrices reciben el nombre de matrices intra grupos y entre grupos respec-
tivamente. Son las versiones matriciales de las sumas de cuadrados intra y entre
grupos habituales en análisis de la varianza.
Es claro que cuando más agrupados estén los datos dentro de los grupos y más
separados estén para grupos distintos tendremos que la magnitud de W ha de ser
menor que la de B. Supongamos que reducimos las observaciones multivariantes xij
a datos univariantes mediante tomando zij = c0 xij . Las sumas de cuadrados intra
y entre vendrı́an dadas por c0 W c y c0 Bc. El cociente Fc = c0 Bc/c0 W c nos compara
la variabilidad intra con la variabilidad entre. Fisher (1936) introdujo el análisis
discriminante lineal buscando el vector c tal que el cociente Fc sea el mayor posible.
Ese fue su objetivo inicial.
La matriz W es suma de matrices semidefinidas positivas por lo que es defi-
nida positiva y consideramos su descomposición de Cholesky dada por W = T 0 T .
Tomamos b = T c. Se tiene
c0 Bc b0 (T 0 )−1 BT −1 b b0 Ab
Fc = 0
= 0
= 0 = a0 Aa, (5.20)
c Wc bb bb
donde a = b/ k b k, esto es, a tiene módulo unitario y A = (T 0 )−1 BT −1 . Se nos
plantea el problema de maximizar a0 Aa con la restriccion de k a0 a k= 1. Por re-
sultados estándar del álgebra lineal se tiene que a1 es el vector propio de A con el
mayor propio λ1 verificando que λ1 = a01 Aai . Hemos encontrado una combinación
lineal que, en el sentido que hemos indicado, es óptima a la hora de separar los
grupos. Parece lógico buscar la siguiente combinación lineal que verifique el mis-
mo criterio de optimalidad pero que el vector correspondiente sea ortogonal al ya
calculado. Nos planteamos pues maximizar a0 Aa con la restriccion de k a k= 1 y
que sea ortogonal con el anterior. La solución viene dada por el vector propio de
A asociado a su segundo valor propio por orden de magnitud, λ2 (Aa2 = λ2 a2 por
lo que λ2 = a02 Aa2 ). Procedemos del mismo modo obteniendo k direcciones ortogo-
nales que nos dan las combinaciones óptimas que separan a los grupos. El valor de
k es el mı́nimo entre el número de grupos menos uno, g − 1 y el número de datos
n, k = mı́n g − 1, n. Notemos que los sucesivos ar constituyen una base ortonormal
tales que
(T 0 )−1 BT −1 ar = Aar = λr ar ,
con λ1 ≥ λ2 ≥ . . . ≥ λk . Si multiplicamos por la izquierda por la matriz T −1 (n −
g)1/2 se deduce que
W −1 Bcr = λr cr ,
donde cr = (n − g)1/2 T −1 ar . En consecuencia W −1 B tiene valores propios λr y
vectores propios cr con r = 1, . . . , k. Además los vectores ar = T cr (n − g)−1/2
constituyen una base ortonormal. Consideremos la matriz C que tiene por fila r-
ésima el vector cr . Sea zij = Cxij . Estos valores reciben el nombre de coordenadas
discriminantes. Vemos que estas coordenadas pretenden destacar las diferencias
entre los grupos con un orden decreciente de relevancia. Tenemos que decidir cón
cuantas de ellas nos quedamos. Es habitual estudiar los cocientes
Pj
i=1 λi
Pk (5.21)
i=1 λi
97
donde δrs = 1 si r = s y cero en otro caso. Tenemos pues que CSp C 0 = Ik .
Asumiendo que las matrices de dispersión son iguales para los distintos grupos
tendremos que cov(c0r xij , c0s xij ) = c0r Σcs y reemplazando Σ por Sp tenemos que los
zij tienen covarianzas muestrales nulas y varianzas muestrales unitarias.
plot(z)
0.8
0.4
0.0
−2 −1 0 1 2 3 4
−2 −1 0 1 2 3 4
Para los datos de las diabetes podemos tendremos dos variables discriminantes
canónicas. Mostramos dos posibles representaciones gráficas.
plot(z)
98
4
diabetes manifiesta
diabetes manifiesta
diabetes manifiesta
diabetes manifiesta
diabetes manifiesta
diabetes manifiesta
control
2
control
diabetes manifiesta
diabetes
diabetes manifiesta
manifiesta control
diabetes control
control
control
diabetes manifiesta diabetesmanifiesta
manifiesta control
control
control
control
control
control
control
control
control
control control
diabetes manifiesta control
diabetes manifiestadiabetes manifiesta
diabetes manifiesta controlcontrolcontrol
control
control
control
control
control control
control
control
control
control
control
control
control control
control
control
control
control
diabetes manifiesta diabetes control
quimica control
control
control control
control
diabetes manifiesta diabetes manifiesta
diabetes diabetes
manifiesta quimica control
control
control
control
control control
control
control control
diabetes manifiesta
diabetes manifiesta diabetes quimicacontrol
control
control control
0
LD2
diabetes quimica
diabetes quimica
diabetes quimica
−4
−6 −4 −2 0 2
LD1
pairs(z)
99
−4 −2 0 2
4
control
control
control
control
control
control
control
control
control
control
controlcontrol
control
controlcontrol
control
control
control
control
control control
control
control
control
control
control control
control
control
control
control
control
control
control
control control
control
control
control
control
control
control
control
control
control
control
controlcontrol
control
control
control
control control
control
control
control
control
2
control
control control
control
control
diabetes
control
control control
control
control quimica
diabetes
control control
quimica
control diabetes
diabetes
diabetes quimica
diabetes
quimica
quimica
control
diabetes
diabetes quimica
quimica
quimica manifiesta
diabetes control
quimica diabetes
diabetes quimica diabetes
diabetes
diabetes
diabetes
diabetes
diabetes quimica
quimica
diabetes
quimica
quimica
quimica quimica
diabetes
quimica quimica
diabetes quimica diabetes
diabetes
diabetes
diabetes quimica diabetes
quimica
quimica
quimica
diabetes quimica quimica
diabetes diabetes
diabetes quimica
quimica manifiesta
diabetes manifiesta
0
diabetes quimica
diabetes diabetes
quimica quimica
diabetes quimica
diabetes
diabetes quimica
quimica
diabetes
diabetes diabetes
quimica
manifiesta manifiesta
diabetes quimica
−2
diabetes manifiesta
diabetes manifiesta
diabetes
diabetes manifiesta
manifiesta
diabetes manifiesta
diabetes manifiesta
diabetes
diabetes manifiesta
manifiesta
diabetes manifiesta
diabetes
diabetes manifiesta
manifiesta
diabetes diabetes
manifiesta manifiesta
diabetes manifiesta diabetes manifiesta
−4
diabetes manifiesta
diabetesdiabetes manifiesta
manifiesta
diabetes manifiesta diabetes manifiesta
diabetes manifiesta
diabetes manifiesta diabetes manifiesta
diabetes manifiesta
−6
diabetes manifiesta
diabetes manifiesta
diabetes
diabetes manifiesta
manifiesta
diabetes manifiesta
diabetes manifiesta
diabetes manifiesta
diabetes manifiesta control
2
diabetes manifiesta
diabetes
diabetes
diabetes
diabetes
manifiesta
diabetes
diabetes
diabetes
manifiesta
diabetes
manifiesta
diabetes
manifiesta
manifiesta
diabetes
diabetes
diabetes
quimica
quimica
diabetes
manifiesta
diabetes diabetes
control
quimica
quimica
diabetes
quimica
diabetes
quimica
control
quimica
control
control
control
quimica control
control
quimica
control
control
control
control
control
quimica
quimica
LD2
diabetes
diabetesquimica
quimica
diabetes manifiesta diabetes
diabetes
diabetesquimica
quimica
quimica
control
control
diabetes
diabetes quimica
diabetes quimica
quimica
diabetes
diabetes diabetes
quimica
diabetes
manifiesta
diabetes quimica
quimica
quimica
diabetes diabetes
manifiesta
diabetes manifiesta
diabetes quimica quimica
−2
diabetes quimicacontrol
diabetes
diabetes
diabetes quimica
quimica
quimica
diabetes quimica
diabetes
diabetes quimica
quimica
diabetes quimica
−4
−6 −4 −2 0 2 4
library(MASS)
x <- read.table(file = "../data/wasp.dat", header = T)
attach(x)
plot(z)
100
0.4
0.2
0.0
−4 −2 0 2 4
group Q
0.4
0.2
0.0
−4 −2 0 2 4
group W
Los histogramas muestran que los valores de la variable discriminante son cla-
ramente distintos en cada grupo. La tabla de clasificación es la siguiente.
##
## caste Q W
## Q 49 1
## W 1 49
library(faraway)
library(MASS)
attach(wbca)
101
wbca.lda <- lda(Class ~ Adhes + BNucl + Chrom + Epith + Mitos + NNucl + Thick + UShap + USize
CV = T)
table(Class, wbca.lda$class)
##
## Class 0 1
## 0 219 19
## 1 7 436
##
## 0 1
## 0 36 53
## 1 65 91
102
Capı́tulo 6
Regresión
El problema que se trata en este tema es básico. Estudiar relaciones entre una
variable que llamaremos variable respuesta y una (o más de una) variable que lla-
maremos variables predictoras. También se utilizan las denominaciones de variable
dependiente para la variable respuesta y variables independientes en lugar en pre-
dictoras.
library(MASS)
attach(cats)
names(cats)
Empezamos representando el peso del corazón frente al peso del cuerpo para las
hembras.
103
13
12 ●
●
11
●
● ●
●
● ●
Hwt[Sex == "F"]
● ●
● ● ●
10
●
●
● ●
●
● ●
●
● ●
9
●
● ● ● ●
● ●
●
●
●
●
8
●
●
● ●
●
●
●
7
Bwt[Sex == "F"]
104
●
20
18
●
●
16
●
●
●
Hwt[Sex == "M"]
● ●
● ●
● ● ●
14
●
●
● ●
●
● ● ●
● ● ●
● ● ●
● ● ● ●
● ● ●
12
● ● ● ●
● ● ●
● ● ●
● ● ● ●
● ●
● ● ●
● ● ●
● ● ●
●
10
● ● ● ●
● ●
● ● ●
● ● ● ●
● ● ● ●
●
● ●
●
●
8
● ● ●
● ●
● ●
●
6
Bwt[Sex == "M"]
Nuestro problema es intentar predecir el peso del corazón a partir del peso del
cuerpo. Además parece razonable plantearse si esta relación es similar para machos
y hembras.
require(stats)
105
120 ●
100
●
●
● ●
80 ●
Stopping distance (ft)
●
●
●
●
60 ●
● ●
● ●
●
●
●
● ●
●
40 ● ●
● ●
● ●
● ● ●
● ●
● ● ● ●
●
●
20 ●
● ●
● ●
●
● ●
●
●
0
5 10 15 20 25
Speed (mph)
106
los hijos de un mismo padre miden lo mismo. No tiene ningún sentido asumir una
relación funcional entre la estatura de un padre y la de un hijo.
Tan tontos no son los estadı́sticos (que no estadistas). De hecho, lo que se mode-
liza es la relación entre el valor x y el valor medio de la variable Y dado ese valor x.
Siguiendo con el ejemplo de Galton. Si consideramos un padre de estatura X = 178
centı́metros. Supondremos que la media de la variable Y que nos da la estatura
aleatoria de un hijo es la que se relaciona con x. Denotemos por E[Y | x] esta media
(estatura media de todos los hijos de un padre con estatura 178 centı́metros). He-
mos de admitir que además de lo que mide el padre, algo tendrá que decir la madre,
y también otros muchos factores que todos podemos imaginar. De modo que Y ,
conocida la estatura del padre, sigue siendo una cantidad aleatoria. De hecho, se
asume que la distribución de Y es normal cuya media depende de Y , E[Y | x], pero
cuya varianza no depende de x, es decir, es una cantidad constante que denotaremos
por σ 2 . En resumen, estamos asumiendo que
Y ∼ N (E[Y | x], σ 2 ). (6.1)
En el modelo de regresión más simple con el que se trabaja se asume que la media
condicionada E[Y | x] es una función lineal de x, en otras palabras, se asume que
E[Y | x] = β0 + β1 x. (6.2)
Las hipótesis asumidas en 6.1 y 6.2, podemos expresarlas conjuntamente diciendo
que la variable respuesta Y se puede expresar como
Y = β0 + β1 x + , (6.3)
donde
∼ N (0, σ 2 ). (6.4)
En la formulación de 6.3 expresamos el valor aleatorio de Y como suma de una
parte que sistemáticamente depende de x (la componente sistemática del modelo)
y un término aleatorio con distribución normal, un término de error o desajuste del
modelo. En esta variable normal con media cero y varianza constante σ 2 estamos
incluyendo todas las posibles causas que influyen el valor de Y y que no vienen
dadas por la variable predictora.
No consideramos un solo valor aleatorio de Y dado un valor fijo de x. Realmente,
tenemos n valores observados cuyos valores son independientes entre sı́ pero no
tienen la misma distribución. Hemos de pensar que cad a Yi tiene una variable
predictora distinta que influye en la distribución de Yi . Tenemos pares (xi , Yi ) donde
la xi viene dada y consideramos la distribución de Yi condicionada a xi , es decir,
Yi | xi .
Resumiendo, estamos asumiendo que Yi ∼ N (β0 +β1 xi , σ 2 ) y que los distintos Yi
son independientes entre si. Utilizando propiedades de la distribución normal multi-
variante tenemos que estas hipótesis las podemos expresar conjuntamente diciendo
que
Y ∼ Nn (Xβ, σ 2 In×n ), (6.5)
donde
Y1 1 x1
β
Y = ...
.. ..
X = . β= 0
. β1
Yn 1 xn
Si consideramos que
1
..
=.
n
107
donde los i ∼ N (0, σ 2 ) e independientes entre si. Entonces el modelo dado en 6.5
lo podemos reescribir como
Y = Xβ + , (6.6)
con ∼ Nn (0, σ 2 In×n ).
Este modelo probabilı́stico es conocido como el modelo de regresión lineal
simple. No lo estudiaremos en más detalle porque nos vamos a ocupar de la situa-
ción más general en que tenemos más de una variable predictora. No es más que
un caso particular y sin mucha dificultad adicional se puede estudiar el situación
general de regresión lineal múltiple.
Y = f (x1 , . . . , xn ) + , (6.7)
Y = Xβ + . (6.8)
6.3. Estimación de β
¿Cómo estimamos los parámetros β? Nuestros datos son (yi , xi1 , . . . , xi,p−1 )
con i = 1, . . . , n. Nuestro objetivo es estimar los coeficientes β de modo que Xβ
esté próximo a y. En concreto vamos a minimizar
n
X
2i = 0 = (y − Xβ)0 (y − Xβ). (6.9)
i=1
108
y
Residuo
Espacio
engendrado
por X
Valor ajustado
Figura 6.1: Expresamos la observación y como suma ortogonal de una parte sis-
temática más un residuo.
X 0 X β̂ = X 0 y. (6.10)
β̂ = (X 0 X)−1 X 0 y, (6.11)
ŷ = Hy = X β̂. (6.13)
También tenemos los residuos, esto es, las diferencias entre los valores observados
originalmente y las predicciones que de ellos hacemos. Los residuos en términos de
la matriz H vienen dados por
ˆ = y − Hy = (I − H)y. (6.14)
109
Veamos una interpretación geométrica que nos ayude a entender qué son los estima-
dores mı́nimo cuadráticos que utilizamos. Estamos minimizando (y −Xβ)0 (y −Xβ).
Si vemos la figura 6.1 el valor de β que nos da el mı́nimo coincide con el punto que
nos da la proyección ortogonal de y sobre el plano que viene engendrado por las
columnas de la matriz X. De este modo es claro que
(y − ȳ1n )0 (y − ȳ1n ) = (y − X β̂)0 (y − X β̂) + (ŷ − ȳ1n )0 (ŷ − ȳ1n ). (6.17)
o de otro modo la ecuación anterior la podemos expresar como
n
X n
X n
X
(yi − ȳ)2 = (yi − yˆi )2 + (yˆi − ȳ)2 . (6.18)
i=1 i=1 i=1
110
6.5. Verosimilitud
Dados los datos (xi , yi ) con i = 1, . . . , n la verosimilitud de y = (y1 , . . . , yn )0
vendrı́a dada por
1 1
L(β, σ) = n exp{− 2 (y − Xβ)0 (y − Xβ)} (6.23)
(2π) 2 σ n 2σ
y la logverosimilitud serı́a
n 1
l(β, σ) = log(2π) − n log σ − 2 (y − Xβ)0 (y − Xβ). (6.24)
2 2σ
data(Orange)
attach(Orange)
plot(age, circumference)
lm(circumference ~ age, data = Orange)
##
## Call:
## lm(formula = circumference ~ age, data = Orange)
##
## Coefficients:
## (Intercept) age
## 17.400 0.107
111
●
●
200
● ●
●
●
● ●
●
●
150
●
● ●
circumference
● ●
●
●
● ●
●
●
●
100
●
●
●
●
●
●
50
●
●
●
●
●
age
## $names
## [1] "coefficients" "residuals" "effects" "rank" "fitted.values"
## [6] "assign" "qr" "df.residual" "xlevels" "call"
## [11] "terms" "model"
##
## $class
## [1] "lm"
orange.lm$fitted.values
## 1 2 3 4 5 6 7 8 9 10 11 12
## 30.00 69.08 88.30 124.60 148.83 163.89 186.31 30.00 69.08 88.30 124.60 148.83
## 13 14 15 16 17 18 19 20 21 22 23 24
## 163.89 186.31 30.00 69.08 88.30 124.60 148.83 163.89 186.31 30.00 69.08 88.30
## 25 26 27 28 29 30 31 32 33 34 35
## 124.60 148.83 163.89 186.31 30.00 69.08 88.30 124.60 148.83 163.89 186.31
112
orange.lm$residuals
## 1 2 3 4 5 6 7 8
## 0.001451 -11.076488 -1.295146 -9.597057 -28.833920 -21.888536 -41.310304 3.001451
## 9 10 11 12 13 14 15 16
## -0.076488 22.704854 31.402943 23.166080 39.111464 16.689696 0.001451 -18.076488
## 17 18 19 20 21 22 23 24
## -13.295146 -16.597057 -33.833920 -24.888536 -46.310304 2.001451 -7.076488 23.704854
## 25 26 27 28 29 30 31 32
## 42.402943 30.166080 45.111464 27.689696 0.001451 -20.076488 -7.295146 0.402943
## 33 34 35
## -6.833920 10.111464 -9.310304
library(foreign)
x <- read.spss(file = "../data/venta_casas.sav", to.data.frame = T)
attach(x)
##
## Call:
## lm(formula = precio ~ valterr + valmejor)
##
## Coefficients:
## (Intercept) valterr valmejor
## 767.408 3.192 0.478
113
6.7. Distribución muestral de β̂
Hemos visto que β̂ = (X 0 X)−1 X 0 Y . Aplicando propiedades simples de la media
tenemos que
E β̂ = (X 0 X)−1 X 0 (EY ) = β, (6.25)
o, lo que es lo mismo, que β̂ es un estimador insesgado de β, el estimador tiene
por vector de medias el vector de parámetros que estima. Es una buena propiedad.
La matriz de covarianzas del error se obtiene fácilmente como
ar(β̂) = (X 0 X)−1 σ̂ 2 .
vd (6.29)
Nota de R 35 Una vez realizado el ajuste con la función summary podemos ob-
servar los valores estimados de σ (etiquetado como Residual standard error y los
errores estándar de β̂i .
Veamos el resumen básico del ajuste de regresión donde la respuesta es el precio
de la vivienda y los predictores son el valor del terreno y el valor de las mejoras.
summary(casas.lm)
##
## Call:
## lm(formula = precio ~ valterr + valmejor)
##
## Residuals:
## Min 1Q Median 3Q Max
## -153634 -10451 -576 8690 356418
##
## Coefficients:
114
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.67e+02 1.29e+03 0.59 0.55
## valterr 3.19e+00 5.34e-02 59.78 <2e-16 ***
## valmejor 4.78e-01 2.55e-02 18.73 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 28100 on 2437 degrees of freedom
## Multiple R-squared: 0.676,Adjusted R-squared: 0.675
## F-statistic: 2.54e+03 on 2 and 2437 DF, p-value: <2e-16
El ajuste que estamos realizando se supone que será tanto mejor cuanto más pe-
queña sea SS(Error). Tampoco serı́a natural que SS(Error) fuera nula pues serı́a
tanto como asumir que los distintos valores aleatorios son iguales a su media. No-
temos que SS(T otal) es una cuantificación de la variabilidad de los distintos yi sin
tener en cuenta las variables predictoras mientras que SS(Error) nos cuantifica la
variación residual después de utilizar las variables predictoras. Es de esperar que
un mejor ajuste vaya acompañado de un valor de SS(Error) pequeño en relación
con SS(T otal). Esa es la idea del coeficiente de determinación. Toma valores entre
0 y 1 y cuanto más cerca de 1 mejor es el ajuste.
Tiene un pequeño inconveniente y es que no tiene en cuenta el número de va-
riables predictoras que estamos utilizando para predecir la variable respuesta. Una
pequeña modificación de R2 para incorporar esta información es el coeficiente de
determinación ajustado que podemos denotar R2 -ajustado y se define como
Pn
(yi − ŷi )2 /(n − p)
R2 − ajustado = 1 − Pi=1
n 2
, (6.34)
i=1 (yi − ȳ) /(n − 1)
115
6.9. Valoración de las hipótesis del modelo
Un modelo de regresión lineal múltiple supone, como hemos visto, varias hipóte-
sis. Es necesario valorar lo razonables, lo asumibles que son estas hipótesis. Las
hipótesis del modelo que vamos a valorar son las siguientes:
1. ¿Tenemos errores independientes, con la misma varianza y con distribución
normal? Esto es, nos preguntamos si es asumible la hipótesis ∼ Nn (0, σ 2 In×n ).
2. Asumimos que E[Yi | xi ] = β0 + β1 xi1 + . . . + βp−1 xi,p−1 .
Los errores no son directamente observables. Observamos los residuos ˆ = y − ŷ
que no es lo mismo. Las propiedades de ambos vectores son distintas. En particular,
estamos asumiendo que var() = σ 2 In×n . Sin embargo, esta afirmación no es cierta
para los residuos observados ˆ. Notemos que
De modo que
Homogeneidad de la varianza
La mera observación de los residuos sin considerar su posible asociación con
otra variable no nos proporciona información sobre si la varianza de los mismos
es constante. Hemos de considerarlos en relación con otras variables. Es habitual
considerar un diagrama de puntos de los residuos ˆ como función de las predicciones
ŷ. Cuando la varianza es constante debemos de observar los residuos dispersos de
un modo aleatorio respecto del eje de abscisas. También podemos ver un compor-
tamiento no aleatorio alrededor del eje de abscisas cuando la parte estructural del
modelo no es lineal, es decir, cuando no se verifica que EY = Xβ.
Nota de R 36 Los datos que vamos a utilizar para valorar las hipótesis del modelo
son los datos savings contenido en la librerı́a faraway (?). Se pretende estudiar la
relación que liga la fracción de ahorro con la proporción de población menor de
15 años, mayor de 75 y las variables dpi y ddpi. El siguiente diagrama de puntos
muestra en abscisas las predicciones y en ordenadas los residuos. No parece en
principio que no podamos asumir una varianza constante. Vemos también que nos
indica los tres paı́ses con los residuos más extremos: Chile, Filipinas y Zambia.
library(faraway)
data(savings)
attach(savings)
116
savings.lm <- lm(sr ~ pop15 + pop75 + dpi + ddpi, savings)
plot(savings.lm, which = 1)
Residuals vs Fitted
10
Zambia ●
●Philippines
●
● ●
●
5
● ●
●
●
● ● ●
● ●
Residuals
●
●
● ● ●
● ● ● ●
0
● ●
● ● ● ●
●
● ● ●
● ●
● ● ● ●
● ● ●
● ●
●
−5
● ● ●
Chile ●
−10
6 8 10 12 14 16
Fitted values
lm(sr ~ pop15 + pop75 + dpi + ddpi)
Cuando no tenemos una varianza constante una opción es transformar las varia-
bles. Si y es la variable original y h(y) la transformada queremos determinar h de
modo que la transformada tenga varianza constante. Transformaciones habituales
que podemos valorar son la raı́z cuadrada o el logaritmo de la variable respuesta.
¿Qué tipo de representación cabe esperar cuando la varianza no es constante?
Veamos distintas representaciones de los residuos frente a los valores ajustados
correspondiendo a varianza constante, varianzas no constantes y situaciones en que
no hay linealidad.
117
● ●
● ● ● ● ●
● ● ●●
● ●
1
● ● ● ● ●
●
1
● ● ● ● ● ●●
● ● ● ●●
● ● ● ●
● ● ●
●● ●●
rnorm(50)
rnorm(50)
●
0
● ● ● ●
● ●● ● ● ●● ●
0
●
● ● ● ●●
● ● ● ● ●
● ● ● ● ●
● ●● ●
● ●
−1
● ●● ● ● ●
● ●● ●
●●
−1
● ● ●
● ● ●
●
●
●
−2
−2
● ●
0 10 20 30 40 50 0 10 20 30 40 50
1:50 1:50
2
● ●
●
2
● ● ●
● ● ● ● ●
● ● ● ●
1
● ●
● ●
1
● ● ● ●
rnorm(50)
rnorm(50)
● ● ● ●
● ● ●●
● ● ● ●
● ● ● ● ●
● ● ●●● ● ● ● ● ●
0
● ● ● ● ●
● ●● ●
0
● ● ● ● ●
● ● ● ● ●
● ● ●
● ● ● ●
●
●● ●
●
●
●
●●
● ●
−1
−1
● ●
● ● ●
●
● ● ●
● ●
−2
● ●
0 10 20 30 40 50 0 10 20 30 40 50
1:50 1:50
118
100
● ●
60
● ●
● ● ●
●
50
(1:50) * rnorm(50)
(1:50) * rnorm(50)
● ● ●
● ● ●
20
●
● ●● ● ● ● ●
●
● ● ●
● ●● ● ●● ● ●
● ● ● ● ●●
● ●●●
●●●● ● ●● ●●
0
● ●●● ●●
● ● ● ● ● ● ●● ●● ● ●
● ●●
● ● ●● ●
−20
● ●
● ●
−50
● ● ● ● ●
● ● ●
●
● ●
●
●
−60
−100
● ●
● ●
0 10 20 30 40 50 0 10 20 30 40 50
1:50 1:50
100
● ●
20 40 60
● ●
50
(1:50) * rnorm(50)
(1:50) * rnorm(50)
● ●
● ● ●
●
● ●● ●
● ●
● ● ●
● ● ● ● ●●
● ●
●
●●●● ● ●● ● ● ● ● ●● ● ●
● ● ●
0
● ● ●● ● ●
●● ● ●●●●●●●● ●
−20 0
● ● ● ● ●
● ● ● ● ●● ● ●
● ● ●
● ●
● ● ●●
−50
● ● ●
● ● ● ● ● ●
● ●
●
−60
−100
● ●
0 10 20 30 40 50 0 10 20 30 40 50
1:50 1:50
√ √ √
En la siguiente figura los valores por los que multiplicamos son 1, 2, 3, . . . , 50
por lo que las varianzas se incrementan muy menos de una abscisa a la siguiente.
119
10 15 20
● ●
10 ●
sqrt((1:50)) * rnorm(50)
sqrt((1:50)) * rnorm(50)
● ●●
●● ●
● ●
● ●●
5
● ●● ● ● ● ●
● ● ●
● ● ● ●
●
5
● ● ●
● ●● ●● ● ● ● ● ●
● ● ● ●
0
●●● ● ● ●● ● ● ●
● ● ● ●
0
● ●● ● ●
●● ●● ● ●● ●
● ● ● ●
●● ● ● ● ●
−5
● ●
−5
● ● ● ●●
● ● ●
●
● ●
●
●
−10
−15
● ●
0 10 20 30 40 50 0 10 20 30 40 50
1:50 1:50
20
● ●
●
10 ●
●
sqrt((1:50)) * rnorm(50)
sqrt((1:50)) * rnorm(50)
●
15
●●
● ●
5
● ●
10
● ●● ● ●
● ● ● ●
● ● ● ●
● ●●
0
● ●● ● ●
● ● ●●● ● ●
●●
5
● ●● ●
● ●
● ●
● ●●
−5
● ● ●● ●
●●●● ● ● ● ● ●●
● ● ● ● ●
0
● ● ●
● ●
● ●
● ●● ●
● ● ● ●
● ● ● ● ● ●
−5
● ●
●
●
−15
● ●
0 10 20 30 40 50 0 10 20 30 40 50
1:50 1:50
120
● ●●●
cos((1:50) * pi/25) + rnorm(50)
2
●
●
●
3
● ●
●
1
● ●
● ●
● ● ● ●
2
● ● ●
●●● ● ● ● ●
● ● ● ●
●
0
●● ● ●
1
● ● ● ● ● ●
● ● ●
● ● ● ●
● ● ●
−1
●●
0
● ● ● ● ●
●● ● ●
● ●● ●● ●
● ● ● ● ●
● ● ● ●● ● ● ●
−2
● ● ●
● ●● ●● ●
●●
−2
●
● ●
● ●
−3
0 10 20 30 40 50 0 10 20 30 40 50
1:50 1:50
3
● ●
cos((1:50) * pi/25) + rnorm(50)
● ●
2
●
●
2
● ● ●
● ● ● ● ●
● ●
1
● ● ●●
● ●
1
● ● ● ●● ●
● ● ●● ●●
● ● ●
● ● ● ● ●
● ● ● ● ●
● ● ● ●
0
●
0
● ●●●
● ●
● ● ● ● ●● ●● ●
●●
● ● ● ● ●● ●●
●
−1
●●● ● ●
−1
● ●
● ●
●● ●
● ●
−2
● ●
−2
● ●
● ●
● ●
0 10 20 30 40 50 0 10 20 30 40 50
1:50 1:50
Normalidad
plot(savings.lm, which = 2)
121
Normal Q−Q
3
Zambia ●
2
Philippines
● ●
●
●
●
Standardized residuals
●● ●
1
●
●●●
●●
●
●
●
●●
●●●●
0
●●
●●●●
●●
●●
●●
●
●●●
● ● ●●
−1
●
●
● ● ●
−2
● Chile
−2 −1 0 1 2
Theoretical Quantiles
lm(sr ~ pop15 + pop75 + dpi + ddpi)
En la siguiente figura aparece un dibujo q-q utilizando las funciones qqnorm que
construye el dibujo y qqline que añade una lı́nea uniendo el primer y tercer cuartil.
Como vemos es el mismo dibujo.
122
Normal Q−Q Plot
10
●
● ●
●
● ●
5
●
●●
●
●●●
●●
●
Residuos
●
●
●●
●●●●
0
●●
●
●●●
●
●
●●
●●
●●●
● ● ●●
● ●
●
−5
● ● ●
−2 −1 0 1 2
Theoretical Quantiles
Hemos visto cómo es una dibujo q-q cuando tenemos normalidad. Pero: ¿y
qué pasa cuando no tenemos normalidad. Esto es lo interesante saber qué tene-
mos que buscar para detectar que los residuos no siguen una distribución normal.
123
0.4
0.6
0.3
dlnorm(x)
0.4
dnorm(x)
0.2
0.2
0.1
0.0
0.0
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
x x
1.0
0.8
0.25
dcauchy(x)
0.6
dunif(x)
0.15
0.4
0.2
0.05
0.0
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
x x
En la figura que sigue tenemos nueve dibujos q-q realizados con datos simulados
con una distribución normal.
124
Normal Q−Q Plot Normal Q−Q Plot
2
● ● ● ●
●
●● ● ●
● ●●●
●
●●
1
●●
1
●● ●●●
●
Sample Quantiles
Sample Quantiles
●●
●● ●●●
●●
●●●● ●●
●● ●●●
●
0
●●●
●●● ●●
●●●●●
0
●
●● ●●●
● ●●●●●
●●● ●●●●
●● ●●
●●●●
−1
−1
● ●
●● ●
●● ●
●
−2
−2
●
● ●
● ●
−2 −1 0 1 2 −2 −1 0 1 2
● ●
3
●
● ● ●
●
2
●
2
Sample Quantiles
Sample Quantiles
●●●
●● ●●
●●
● ●●
●●●
1
●●● ●●●
●
●●● ●●●
●● ●●●●
●●●
● ●
●
0
● ●
●●
●
0
●●●●
●● ●
●●●●●● ●
●●●●●● ●●●●●
−1
●●
● ●●●
●● ●
−1
●●
●●●●
−2
● ●●
●
●
−2
● ●
−2 −1 0 1 2 −2 −1 0 1 2
La figura que sigue muestra el dibujo q-q con datos simulados correspondientes
a la distribución lognormal.
125
Normal Q−Q Plot Normal Q−Q Plot
6
● ●
10
5 ●
● ●
●
Sample Quantiles
Sample Quantiles
8
●
4
●●
6
3
●
● ●
4
●●
2
● ●
●● ●●
●●● ●
●●
●●●● ●●
2
●
●●
●● ●●
1
●●●
● ●●●●●
●●●●● ●●
●●●●●●●●●
● ●●●
●●●
●● ●●●●●●●
● ● ●● ● ● ● ●●●●●●●●●●●●
0
0
−2 −1 0 1 2 −2 −1 0 1 2
8
● ●
20
●
Sample Quantiles
Sample Quantiles
6
15
●
●●●
●●
4
●
10
●
●●
●
2
●●
5
● ●●
●● ● ●●●
●●●● ●●
● ●
●●●
●●●●●
● ●
●●●●●●●●●
●
●
●●●●
●●● ●
●●●●● ●●●●●
● ● ● ●●●●●●●●●●●●●●●●● ● ● ● ●●●●●
0
−2 −1 0 1 2 −2 −1 0 1 2
La figura que sigue muestra el dibujo q-q con datos simulados correspondientes
a la distribución de Cauchy.
126
Normal Q−Q Plot Normal Q−Q Plot
● ● ● ●
●●●
●●●●●●●●●●●●●●●●
40
●
0
●
●●●●
●●●●●●●●● ●●
●●
● ●●●●●●
●
Sample Quantiles
Sample Quantiles
30
●
−20
20
−40
10
●
●
●●●●
●●●●●
−60
●●●
●● ●
●●
● ●●●
●●●
●●●
0
●
●●●●●●●●●
●●●●
● ●●
−10
● ●
−2 −1 0 1 2 −2 −1 0 1 2
● ●
10 20 30 40
5
●
●●
●
●●●●●
●
●●●●●●
Sample Quantiles
Sample Quantiles
●
●●●
●●●
●●
0
●●
●●●●●●●●
●●●●●●●●●
●
●●
−10 −5
●
●
● ●
●
●●●●●●●●●●●●●●●●●●●
0
●
●●●●● ●
●●
●●●●●●●●●●●●
●
●●
●
−20
−20
● ●
−2 −1 0 1 2 −2 −1 0 1 2
La figura que sigue muestra el dibujo q-q con datos simulados correspondientes
a la distribución de uniforme.
127
Normal Q−Q Plot Normal Q−Q Plot
1.0
1.0
● ● ●
●
●● ●●
● ●
●●●●
●●
0.8
0.8
●● ●
Sample Quantiles
Sample Quantiles
●
●●●
●● ●●●
●●● ●●●●●
●
0.6
0.6
● ●●
●●● ●●●
●
●
●
●
0.4
●●
0.4
●
●
●●● ●●●●
●
●●
●●● ●
● ●
0.2
●●
0.2
●
●● ●●●●
●●● ●●
● ●●
●●●●
●● ● ●
● ●●
0.0
0.0
● ●
−2 −1 0 1 2 −2 −1 0 1 2
1.0
● ● ● ● ●
●●● ●
●
●●
●●●
0.8
0.8
● ●●●
Sample Quantiles
Sample Quantiles
●●
●●●
●●● ●●
●● ●
●●
0.6
0.6
●●
●
● ●●●
●● ●
● ●
●●●
●
0.4
●
0.4
●●
●
●●● ●
●●●● ●●
●● ●●
●● ●●
0.2
0.2
●
●●● ●●
●●● ●●●
●●● ●●
● ●
0.0
●●
● ● ● ● ● ●●
0.0
−2 −1 0 1 2 −2 −1 0 1 2
residuals(savings.lm)
128
## -8.2422 2.5360 -1.4517 5.1251 5.4002 -2.4056
## Finland France Germany Greece Guatamala Honduras
## -1.6811 2.4755 -0.1807 -3.1162 -3.3553 0.7100
## Iceland India Ireland Italy Japan Korea
## -6.2106 0.5087 3.3911 1.9268 5.2815 -6.1070
## Luxembourg Malta Norway Netherlands New Zealand Nicaragua
## -1.6708 2.9749 -0.8718 0.4255 2.2856 0.6464
## Panama Paraguay Peru Philippines Portugal South Africa
## -3.2942 -6.1258 6.5394 6.6750 -0.7684 0.4832
## South Rhodesia Spain Sweden Switzerland Turkey Tunisia
## 1.2914 -0.6712 -4.2603 2.4868 -2.6657 -2.8179
## United Kingdom United States Venezuela Zambia Jamaica Uruguay
## -2.6924 -1.1116 3.6325 9.7509 -3.0185 -2.2638
## Libya Malaysia
## -2.8295 -2.9709
shapiro.test(residuals(savings.lm))
##
## Shapiro-Wilk normality test
##
## data: residuals(savings.lm)
## W = 0.987, p-value = 0.8524
library(lmtest)
dwtest(savings.lm)
##
## Durbin-Watson test
##
## data: savings.lm
## DW = 1.934, p-value = 0.3897
## alternative hypothesis: true autocorrelation is greater than 0
129
Observaciones anómalas y observaciones influyentes
Y las representamos.
plot(savings.lm, which = 5)
130
3 Residuals vs Leverage
● Zambia
1
2
●
●
● Japan
● 0.5
●
Standardized residuals
● ● ●
1
●
● ●
● ● ●
●
●
●
● ●●● ● ●
0
● ●
● ● ●●
● ●
●●
● ●
● ●
●● ● ●
● ●
−1
●
Libya ●
0.5
●●
●
−2
1
●
Cook's distance
Leverage
lm(sr ~ pop15 + pop75 + dpi + ddpi)
Notemos que Libia es el pais que tiene un mayor valor de la influencia.
131
para el punto i-ésimo la siguiente estimación
Puesto que cada uno de los ti sigue una distribución conocida podemos contrastar si
tenemos una observación anómala. En principio el procedimiento serı́a simplemente
fijar un nivel de significación α y determinar el percentil 1 − α2 de una distribución
t de Student con n − p − 1 grados de libertad. Si denotamos el percentil como
tn−p−1,1− α2 entonces residuos que no estén en el intervalo [−tn−p−1,1− α2 , tn−p−1,1− α2 ]
serı́an sospechosos. Esto no es adecuado. Porque estamos analizando n residuos
estudentizados. Con uno sólo sı́ que serı́a aplicable el razonamiento. Tenemos un
problema de muchos tests simultáneamente considerados. Si aplicamos la corrección
de Bonferroni tendrı́amos que corregir el nivel de significación α y trabajar con
α/n. Por tanto, consideramos como sospechosos aquellos residuos estandarizados
que estén fuera del intervalo [−tn−p−1,1− 2n
α ,t α ].
n−p−1,1− 2n
132
## FALSE FALSE FALSE FALSE FALSE FALSE
## United Kingdom United States Venezuela Zambia Jamaica Uruguay
## FALSE FALSE FALSE FALSE FALSE FALSE
## Libya Malaysia
## FALSE FALSE
Nota de R 44 Con los datos savings representamos las distancias de Cook y las
obtenemos utilizando la función Cooks.distance. Vemos Lı́bia, Zambia y Japón son
observaciones que influyen mucho en el ajuste. Habrı́a que valorar el ajuste con y
sin estas observaciones.
plot(savings.lm, which = 4)
Cook's distance
Libya
0.25
0.20
Cook's distance
0.15
Japan
0.10
Zambia
0.05
0.00
0 10 20 30 40 50
Obs. number
lm(sr ~ pop15 + pop75 + dpi + ddpi)
También podemos ver los valores de la distancia de Cook.
133
cooks.distance(savings.lm)
134
y
SS(Error)Ω
∼ χ2n−p
σ 2 (n − p)
además ambas cantidades son independientes. Por ello se verifica que
F > Fr,n−p,1−α
Como segundo caso tendrı́amos la situación en que contrastamos que un solo coe-
ficiente vale cero, es decir, la hipótesis nula H0 : βi = 0 frente a la alternativa
H1 : βi 6= 0. Tenemos que bajo la hipótesis nula indicada
β̂i
ti = ∼ tn−p
SE(β̂i )
donde SE(β̂i ) es el error estándar de β̂i y viene dado en ecuación 6.30. Se tiene, de
hecho, que
F = t2i .
Rechazaremos la hipótesis nula si
o bien si
F = t2i > F1,n−p,1− α2 .
Ambos procedimientos son equivalentes como se puede ver fácilmente.
summary(savings.lm)
##
## Call:
## lm(formula = sr ~ pop15 + pop75 + dpi + ddpi, data = savings)
##
135
## Residuals:
## Min 1Q Median 3Q Max
## -8.242 -2.686 -0.249 2.428 9.751
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 28.566087 7.354516 3.88 0.00033 ***
## pop15 -0.461193 0.144642 -3.19 0.00260 **
## pop75 -1.691498 1.083599 -1.56 0.12553
## dpi -0.000337 0.000931 -0.36 0.71917
## ddpi 0.409695 0.196197 2.09 0.04247 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.8 on 45 degrees of freedom
## Multiple R-squared: 0.338,Adjusted R-squared: 0.28
## F-statistic: 5.76 on 4 and 45 DF, p-value: 0.00079
confint(savings.lm)
## 2.5 % 97.5 %
## (Intercept) 13.753331 43.378842
## pop15 -0.752518 -0.169869
## pop75 -3.873978 0.490983
## dpi -0.002212 0.001538
## ddpi 0.014534 0.804856
136
Supongamos que, en lugar de predecir la media de la variable respuesta para un
conjunto de predictores dados, pretendemos predecir la propia variable respuesta.
Recordemos que según nuestro modelo tenemos
Y = x00 β + .
x00 β̂
pero hay que considerar la varianza añadida por el error de modo que la varianza
al predecir Y dado x0 serı́a
var(x00 β̂) + σ 2
que estimarı́amos como
Nota de R 47 Con los datos savings consideramos cómo obtener las prediccio-
nes, intervalos de confianza para las medias y para las predicciones. Utilizamos los
propios datos que se han utilizado para ajustar el modelo. Con la función predict
obtenemos las predicciones ası́ como los intervalos de confianza para las medias
de las predicciones (predict con la opción interval=confidence) y los intervalos de
confianza para las observaciones (predict con la opción interval=”prediction”).
Primero obtengamos las predicciones para los propios datos.
137
predict(savings.lm, interval = "confidence")
138
Y finalmente obtenemos los intervalos de confianza para la predicción de la ob-
servación.
139
## Jamaica 10.739 2.55827 18.92
## Uruguay 11.504 3.47853 19.53
## Libya 11.720 2.24140 21.20
## Malaysia 7.681 -0.22396 15.59
data(state)
statedata <- data.frame(state.x77, row.names = state.abb, check.names = T)
g <- lm(Life.Exp ~ ., data = statedata)
summary(g)
##
140
## Call:
## lm(formula = Life.Exp ~ ., data = statedata)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.4890 -0.5123 -0.0275 0.5700 1.4945
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.09e+01 1.75e+00 40.59 < 2e-16 ***
## Population 5.18e-05 2.92e-05 1.77 0.083 .
## Income -2.18e-05 2.44e-04 -0.09 0.929
## Illiteracy 3.38e-02 3.66e-01 0.09 0.927
## Murder -3.01e-01 4.66e-02 -6.46 8.7e-08 ***
## HS.Grad 4.89e-02 2.33e-02 2.10 0.042 *
## Frost -5.74e-03 3.14e-03 -1.82 0.075 .
## Area -7.38e-08 1.67e-06 -0.04 0.965
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.745 on 42 degrees of freedom
## Multiple R-squared: 0.736,Adjusted R-squared: 0.692
## F-statistic: 16.7 on 7 and 42 DF, p-value: 2.53e-10
##
## Call:
## lm(formula = Life.Exp ~ Population + Income + Illiteracy + Murder +
## HS.Grad + Frost, data = statedata)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.4905 -0.5253 -0.0255 0.5716 1.5037
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.10e+01 1.39e+00 51.17 < 2e-16 ***
## Population 5.19e-05 2.88e-05 1.80 0.079 .
## Income -2.44e-05 2.34e-04 -0.10 0.917
## Illiteracy 2.85e-02 3.42e-01 0.08 0.934
## Murder -3.02e-01 4.33e-02 -6.96 1.5e-08 ***
## HS.Grad 4.85e-02 2.07e-02 2.35 0.024 *
## Frost -5.78e-03 2.97e-03 -1.94 0.058 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.736 on 43 degrees of freedom
## Multiple R-squared: 0.736,Adjusted R-squared: 0.699
## F-statistic: 20 on 6 and 43 DF, p-value: 5.36e-11
141
g <- update(g, . ~ . - Illiteracy)
summary(g)
##
## Call:
## lm(formula = Life.Exp ~ Population + Income + Murder + HS.Grad +
## Frost, data = statedata)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.4892 -0.5122 -0.0329 0.5645 1.5166
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.11e+01 1.03e+00 69.07 < 2e-16 ***
## Population 5.11e-05 2.71e-05 1.89 0.066 .
## Income -2.48e-05 2.32e-04 -0.11 0.915
## Murder -3.00e-01 3.70e-02 -8.10 2.9e-10 ***
## HS.Grad 4.78e-02 1.86e-02 2.57 0.014 *
## Frost -5.91e-03 2.47e-03 -2.39 0.021 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.728 on 44 degrees of freedom
## Multiple R-squared: 0.736,Adjusted R-squared: 0.706
## F-statistic: 24.5 on 5 and 44 DF, p-value: 1.02e-11
##
## Call:
## lm(formula = Life.Exp ~ Population + Murder + HS.Grad + Frost,
## data = statedata)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.471 -0.535 -0.037 0.576 1.507
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.10e+01 9.53e-01 74.54 < 2e-16 ***
## Population 5.01e-05 2.51e-05 2.00 0.052 .
## Murder -3.00e-01 3.66e-02 -8.20 1.8e-10 ***
## HS.Grad 4.66e-02 1.48e-02 3.14 0.003 **
## Frost -5.94e-03 2.42e-03 -2.46 0.018 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.72 on 45 degrees of freedom
## Multiple R-squared: 0.736,Adjusted R-squared: 0.713
## F-statistic: 31.4 on 4 and 45 DF, p-value: 1.7e-12
142
g <- update(g, . ~ . - Population)
summary(g)
##
## Call:
## lm(formula = Life.Exp ~ Murder + HS.Grad + Frost, data = statedata)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.502 -0.539 0.101 0.592 1.227
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 71.03638 0.98326 72.25 <2e-16 ***
## Murder -0.28307 0.03673 -7.71 8e-10 ***
## HS.Grad 0.04995 0.01520 3.29 0.002 **
## Frost -0.00691 0.00245 -2.82 0.007 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.743 on 46 degrees of freedom
## Multiple R-squared: 0.713,Adjusted R-squared: 0.694
## F-statistic: 38 on 3 and 46 DF, p-value: 1.63e-12
data(state)
statedata <- data.frame(state.x77, row.names = state.abb, check.names = T)
g <- lm(Life.Exp ~ ., data = statedata)
step(g)
## Start: AIC=-22.18
## Life.Exp ~ Population + Income + Illiteracy + Murder + HS.Grad +
## Frost + Area
##
## Df Sum of Sq RSS AIC
## - Area 1 0.00 23.3 -24.2
## - Income 1 0.00 23.3 -24.2
## - Illiteracy 1 0.00 23.3 -24.2
143
## <none> 23.3 -22.2
## - Population 1 1.75 25.0 -20.6
## - Frost 1 1.85 25.1 -20.4
## - HS.Grad 1 2.44 25.7 -19.2
## - Murder 1 23.14 46.4 10.3
##
## Step: AIC=-24.18
## Life.Exp ~ Population + Income + Illiteracy + Murder + HS.Grad +
## Frost
##
## Df Sum of Sq RSS AIC
## - Illiteracy 1 0.00 23.3 -26.2
## - Income 1 0.01 23.3 -26.2
## <none> 23.3 -24.2
## - Population 1 1.76 25.1 -22.5
## - Frost 1 2.05 25.3 -22.0
## - HS.Grad 1 2.98 26.3 -20.2
## - Murder 1 26.27 49.6 11.6
##
## Step: AIC=-26.17
## Life.Exp ~ Population + Income + Murder + HS.Grad + Frost
##
## Df Sum of Sq RSS AIC
## - Income 1 0.0 23.3 -28.2
## <none> 23.3 -26.2
## - Population 1 1.9 25.2 -24.3
## - Frost 1 3.0 26.3 -22.1
## - HS.Grad 1 3.5 26.8 -21.2
## - Murder 1 34.7 58.0 17.5
##
## Step: AIC=-28.16
## Life.Exp ~ Population + Murder + HS.Grad + Frost
##
## Df Sum of Sq RSS AIC
## <none> 23.3 -28.2
## - Population 1 2.1 25.4 -25.9
## - Frost 1 3.1 26.4 -23.9
## - HS.Grad 1 5.1 28.4 -20.2
## - Murder 1 34.8 58.1 15.5
##
## Call:
## lm(formula = Life.Exp ~ Population + Murder + HS.Grad + Frost,
## data = statedata)
##
## Coefficients:
## (Intercept) Population Murder HS.Grad Frost
## 7.10e+01 5.01e-05 -3.00e-01 4.66e-02 -5.94e-03
Utilizamos stepAIC de la librerı́a MASS ?.
library(MASS)
data(state)
statedata <- data.frame(state.x77, row.names = state.abb, check.names = T)
g <- lm(Life.Exp ~ ., data = statedata)
144
stepAIC(g)
## Start: AIC=-22.18
## Life.Exp ~ Population + Income + Illiteracy + Murder + HS.Grad +
## Frost + Area
##
## Df Sum of Sq RSS AIC
## - Area 1 0.00 23.3 -24.2
## - Income 1 0.00 23.3 -24.2
## - Illiteracy 1 0.00 23.3 -24.2
## <none> 23.3 -22.2
## - Population 1 1.75 25.0 -20.6
## - Frost 1 1.85 25.1 -20.4
## - HS.Grad 1 2.44 25.7 -19.2
## - Murder 1 23.14 46.4 10.3
##
## Step: AIC=-24.18
## Life.Exp ~ Population + Income + Illiteracy + Murder + HS.Grad +
## Frost
##
## Df Sum of Sq RSS AIC
## - Illiteracy 1 0.00 23.3 -26.2
## - Income 1 0.01 23.3 -26.2
## <none> 23.3 -24.2
## - Population 1 1.76 25.1 -22.5
## - Frost 1 2.05 25.3 -22.0
## - HS.Grad 1 2.98 26.3 -20.2
## - Murder 1 26.27 49.6 11.6
##
## Step: AIC=-26.17
## Life.Exp ~ Population + Income + Murder + HS.Grad + Frost
##
## Df Sum of Sq RSS AIC
## - Income 1 0.0 23.3 -28.2
## <none> 23.3 -26.2
## - Population 1 1.9 25.2 -24.3
## - Frost 1 3.0 26.3 -22.1
## - HS.Grad 1 3.5 26.8 -21.2
## - Murder 1 34.7 58.0 17.5
##
## Step: AIC=-28.16
## Life.Exp ~ Population + Murder + HS.Grad + Frost
##
## Df Sum of Sq RSS AIC
## <none> 23.3 -28.2
## - Population 1 2.1 25.4 -25.9
## - Frost 1 3.1 26.4 -23.9
## - HS.Grad 1 5.1 28.4 -20.2
## - Murder 1 34.8 58.1 15.5
##
## Call:
## lm(formula = Life.Exp ~ Population + Murder + HS.Grad + Frost,
## data = statedata)
##
145
## Coefficients:
## (Intercept) Population Murder HS.Grad Frost
## 7.10e+01 5.01e-05 -3.00e-01 4.66e-02 -5.94e-03
## y ~ V1 + V2 + V3 + V4 + V5 + V6 + V7 + V8
##
## Call:
## lm(formula = fmla, data = x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.3791 -0.1317 -0.0159 0.1112 0.8043
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.34118 0.02691 49.83 < 2e-16 ***
## V1I -0.09249 0.00945 -9.78 < 2e-16 ***
## V1M 0.00893 0.00769 1.16 0.2461
## V2 0.53305 0.16700 3.19 0.0014 **
## V3 1.42358 0.20560 6.92 5.1e-12 ***
## V4 1.20663 0.14181 8.51 < 2e-16 ***
## V5 0.60825 0.06696 9.08 < 2e-16 ***
## V6 -1.65705 0.07545 -21.96 < 2e-16 ***
## V7 -0.83550 0.11942 -7.00 3.1e-12 ***
## V8 0.60681 0.10382 5.84 5.5e-09 ***
## ---
146
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.203 on 4167 degrees of freedom
## Multiple R-squared: 0.599,Adjusted R-squared: 0.598
## F-statistic: 692 on 9 and 4167 DF, p-value: <2e-16
x <- x[-2052, ]
attach(x)
## y ~ V1 + V2 + V3 + V4 + V5 + V6 + V7 + V8
##
## Call:
## lm(formula = fmla, data = x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.3473 -0.1308 -0.0165 0.1104 0.8001
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.30893 0.02699 48.51 < 2e-16 ***
## V1I -0.08984 0.00938 -9.58 < 2e-16 ***
## V1M 0.00823 0.00763 1.08 0.2811
## V2 0.47852 0.16580 2.89 0.0039 **
## V3 1.25015 0.20504 6.10 1.2e-09 ***
## V4 2.37198 0.19937 11.90 < 2e-16 ***
## V5 0.59652 0.06644 8.98 < 2e-16 ***
## V6 -1.62479 0.07495 -21.68 < 2e-16 ***
## V7 -0.89038 0.11866 -7.50 7.6e-14 ***
## V8 0.51045 0.10366 4.92 8.8e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.201 on 4166 degrees of freedom
## Multiple R-squared: 0.605,Adjusted R-squared: 0.605
## F-statistic: 710 on 9 and 4166 DF, p-value: <2e-16
147
##
## Call:
## lm(formula = fmla, data = x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.3473 -0.1308 -0.0165 0.1104 0.8001
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.30893 0.02699 48.51 < 2e-16 ***
## V1I -0.08984 0.00938 -9.58 < 2e-16 ***
## V1M 0.00823 0.00763 1.08 0.2811
## V2 0.47852 0.16580 2.89 0.0039 **
## V3 1.25015 0.20504 6.10 1.2e-09 ***
## V4 2.37198 0.19937 11.90 < 2e-16 ***
## V5 0.59652 0.06644 8.98 < 2e-16 ***
## V6 -1.62479 0.07495 -21.68 < 2e-16 ***
## V7 -0.89038 0.11866 -7.50 7.6e-14 ***
## V8 0.51045 0.10366 4.92 8.8e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.201 on 4166 degrees of freedom
## Multiple R-squared: 0.605,Adjusted R-squared: 0.605
## F-statistic: 710 on 9 and 4166 DF, p-value: <2e-16
Ajustamos el modelo.
##
## Call:
## lm(formula = agua ~ temperatura + produccion + dias + personas)
##
## Residuals:
## Min 1Q Median 3Q Max
## -445.0 -131.5 2.6 109.0 368.5
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
148
## (Intercept) 6360.3373 1314.3916 4.84 0.00041 ***
## temperatura 13.8689 5.1598 2.69 0.01975 *
## produccion 0.2117 0.0455 4.65 0.00056 ***
## dias -126.6904 48.0223 -2.64 0.02165 *
## personas -21.8180 7.2845 -3.00 0.01117 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 249 on 12 degrees of freedom
## Multiple R-squared: 0.767,Adjusted R-squared: 0.689
## F-statistic: 9.88 on 4 and 12 DF, p-value: 0.000896
##
## Call:
## lm(formula = agua ~ temperatura + poly(produccion, 3) + dias +
## personas)
##
## Residuals:
## Min 1Q Median 3Q Max
## -435.9 -103.8 29.4 123.9 388.4
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 8734.09 2393.47 3.65 0.0045 **
## temperatura 14.52 6.52 2.23 0.0502 .
## poly(produccion, 3)1 2742.29 851.98 3.22 0.0092 **
## poly(produccion, 3)2 208.89 337.56 0.62 0.5499
## poly(produccion, 3)3 -108.68 357.64 -0.30 0.7675
## dias -138.47 66.88 -2.07 0.0652 .
## personas -18.69 9.87 -1.89 0.0875 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 266 on 10 degrees of freedom
## Multiple R-squared: 0.779,Adjusted R-squared: 0.647
## F-statistic: 5.88 on 6 and 10 DF, p-value: 0.00736
plot(a.lm, which = 1)
149
Residuals vs Fitted
400
6●
15 ●
●
200
●
●
●
● ●
Residuals
●
0
●
●
●
●
−200
●
−400
● 14
Fitted values
lm(agua ~ temperatura + produccion + dias + personas)
plot(a.lm, which = 2)
150
2 Normal Q−Q
6●
●
1
●
Standardized residuals
●
●
● ●
●
0
● ●
●
−1
● 17
● 14
−2
−2 −1 0 1 2
Theoretical Quantiles
lm(agua ~ temperatura + produccion + dias + personas)
plot(a.lm, which = 3)
151
Scale−Location
1.4 ● 14
6●
1.2
17 ●
●
● ●
1.0
●
Standardized residuals
●
●
0.8
●
0.6
● ●
●
0.4
●
●
0.2
●
0.0
Fitted values
lm(agua ~ temperatura + produccion + dias + personas)
plot(a.lm, which = 4)
152
Cook's distance
1
0.20
0.15
Cook's distance
4
16
0.10
0.05
0.00
5 10 15
Obs. number
lm(agua ~ temperatura + produccion + dias + personas)
plot(a.lm, which = 5)
153
Residuals vs Leverage
2
1
●
●
0.5
●
1
16 ●
Standardized residuals
●
● ●
●
●
0
● ●
1●
−1
●4
0.5
●
1
●
−2
Cook's distance
Leverage
lm(agua ~ temperatura + produccion + dias + personas)
plot(a.lm, which = 6)
154
Cook's dist vs Leverage hii (1 − hii)
21.5 1 0.5
1●
0.20
0.15
Cook's distance
●4
16 ●
●
●
0.10
●
●
0.05
●
●
●
●
0.00
● ●
● ● 0
Leverage hii
lm(agua ~ temperatura + produccion + dias + personas)
Intervalo de confianza para observaciones.
155
Intervalo de confianza para la media.
Variable Description
M percentage of males aged 1424
So indicator variable for a southern state
Ed mean years of schooling
Po1 police expenditure in 1960
Po2 police expenditure in 1959
LF labour force participation rate
M.F number of males per 1000 females
Pop state population
NW number of nonwhites per 1000 people
U1 unemployment rate of urban males 1424
U2 unemployment rate of urban males 3539
GDP gross domestic product per head
Ineq income inequality
Prob probability of imprisonment
Time average time served in state prisons
Crime rate of crimes in a particular category per head of population
156
##
## Call:
## lm(formula = Crime ~ M + So + Ed + Po1 + Po2 + LF + M.F + Pop +
## NW + U1 + U2 + GDP + Ineq + Prob + Time)
##
## Residuals:
## Min 1Q Median 3Q Max
## -395.7 -98.1 -6.7 113.0 512.7
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -5984.288 1628.318 -3.68 0.00089 ***
## M 8.783 4.171 2.11 0.04344 *
## So -3.803 148.755 -0.03 0.97977
## Ed 18.832 6.209 3.03 0.00486 **
## Po1 19.280 10.611 1.82 0.07889 .
## Po2 -10.942 11.748 -0.93 0.35883
## LF -0.664 1.470 -0.45 0.65465
## M.F 1.741 2.035 0.86 0.39900
## Pop -0.733 1.290 -0.57 0.57385
## NW 0.420 0.648 0.65 0.52128
## U1 -5.827 4.210 -1.38 0.17624
## U2 16.780 8.234 2.04 0.05016 .
## GDP 0.962 1.037 0.93 0.36075
## Ineq 7.067 2.272 3.11 0.00398 **
## Prob -4855.266 2272.375 -2.14 0.04063 *
## Time -3.479 7.165 -0.49 0.63071
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 209 on 31 degrees of freedom
## Multiple R-squared: 0.803,Adjusted R-squared: 0.708
## F-statistic: 8.43 on 15 and 31 DF, p-value: 3.54e-07
##
## Call:
## lm(formula = Crime ~ M + Ed + Po1 + U2 + Ineq + Prob)
##
## Residuals:
## Min 1Q Median 3Q Max
## -470.7 -78.4 -19.7 133.1 556.2
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -5040.50 899.84 -5.60 1.7e-06 ***
## M 10.50 3.33 3.15 0.0031 **
## Ed 19.65 4.48 4.39 8.1e-05 ***
## Po1 11.50 1.38 8.36 2.6e-10 ***
## U2 8.94 4.09 2.18 0.0348 *
## Ineq 6.77 1.39 4.85 1.9e-05 ***
## Prob -3801.84 1528.10 -2.49 0.0171 *
157
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 201 on 40 degrees of freedom
## Multiple R-squared: 0.766,Adjusted R-squared: 0.731
## F-statistic: 21.8 on 6 and 40 DF, p-value: 3.42e-11
anova(crime.lm, crime.lm2)
158
Capı́tulo 7
De cómo usar R en un
tiempo razonable (no fácil,
no)
En este capı́tulo se incluyen algunos consejos prácticos para trabajar con R. Las
posibilidades son enormes. Sin embargo, de tantas que tiene lo más probable es que el
usuario ocasional no llegue a conocer ninguna de ellas. Antes lo habrá abandonado.
Y con razón. Si llevas años utilizándolo con unas pocas lı́neas de código haces lo
que con programas basados en menú te cuesta horas (y cuando lo vuelves a repetir
te vuelve a costar horas porque tu aprendizaje no te ahorra tiempo futuro lo que en
R no ası́). Pero lo de años usando algo es una utopı́a que sólo se pueden permitir
unos cuantos profesores universitarios sin nada mejor que hacer y muchos horas que
llenar de su importante tiempo.
En este capı́tulo he ido incluyendo distintas cuestiones básicas para el uso del
programa. Desde el cómo conseguirlo o instalarlo hasta cómo trabajar con él. Mucho
de lo que sigue se basa en mi propia experiencia. De hecho, muchos estudiantes a
los que sugieres formas de trabajo, utilizan otros trucos que les resultan más útiles.
Mi edad (y cerrazón mental) me impiden cada vez más adaptarme a nuevas ideas.
Es importante darse cuenta de que es un programa abierto y que, fácilmente, lo
puedes integrar con otras herramientas informáticas. La idea es: elige el editor que
quieras. Genera las figuras en formatos distintos y utiliza el procesador de textos
que se quiera. En fin, de esto vamos a tratar.
159
7.1. Instalación y cómo trabajar con R
La dirección básica es http://cran.r-project.org. Allı́ se tienen tanto las
fuentes como versiones compiladas para Windows, Mac y Linux.
7.1.1. R y Windows
Los puntos a seguir para una instalación son los siguientes:
1. a) Traer la distribución base de cran.
b) El programa se instala simplemente ejecutándolo.
c) Una vez instalado en el menú principal teneis una herramienta que per-
mite seleccionar el espejo desde traer los paquetes adicionales cómoda-
mente.
2. Una vez instalado el programa la opción más cómoda es utilizar el programa
Tinn-R. Vamos escribiendo el código en su editor y tiene muchas herramientas
para interactuar con R. Es, sin duda, la mejor opción para Windows.
3. Una segunda opción es utilizar RWinEdt. Para poder usarlo hay que tener
instalado Winedt. Es un programa shareware muy útil para escribir en LATEX.
Una vez instalado WinEdt cargamos el paquete RWinEdt ?.
7.1.2. R y Linux
Es mi opción personal de trabajo. La recomiendo definitivamente. Por Linux y
porque el trabajo con R es muy cómodo. 1
Instalación 1. Para Linux hay distintas versiones compiladas que puedes encon-
trar en cran.
2. No es complicado compilar R a partir de las fuentes. Hay que tener la
precaución de tener gfortran.
3. Cuando instalamos R en Linux hemos de instalar previamente la librerı́a
BLAS.
Edición con Emacs y ESS En Linux sin duda la mejor opción de trabajo
es utilizar Emacs con el paquete Emacs Speaks Statistics (ESS) 2 .
¿Cómo trabajamos con Emacs y ESS?
1. Abrimos el fichero R con emacs.
2. Abrimos una nueva ventana (mejor separada) con CTRL x 52.
3. En la nueva ventana marcamos el icono de R.
4. Utilizamos la ventana donde está el código para editar y podemos
usar los distintos controles que nos dá el menú ESS de emacs pode-
mos trabajar muy cómodamente.
pueda sonreir después de los lloros continuos usando esa cosa llamada Windows (que no sistema
operativo).
2 La mejor opción es acudir a la página de los paquetes binarios y buscar en la distribución
160
7.3. ¿Cómo fijar el directorio de trabajo?
Empezamos una sesión de R y todo nuestro trabajo (datos, código R) lo tenemos
en un directorio. Hemos de tener un acceso cómodo a estos ficheros. ¿Cómo hacerlo?
En Linux no hay problema. Simplemente con la cónsola nos vamos al directorio
correspondiente y ejecutamos R. Automáticamente hemos fijado el directorio de
trabajo como aquél en que iniciamos el programa.
En Windows lo recomendable es utilizar el menú y cambiar el directorio al de
trabajo. Yo recomiendo una vez hecho esto ejecutar:
getwd()
Nos devuelve todo el camino hasta dicho directorio. Lo que nos devuelve esta función
(por ejemplo C: Mis documentos ad prog) lo ponemos entre comillas dobles y
ejecutamos
setwd("C:\ Mis documentos\ ad\ prog")
De este modo hemos fijado el directorio de trabajo.
library(Hmisc}
label(datos$x) = "Ejemplo de etiqueta"
7.5.1. Sweave
Es conveniente consultar esta página. Un documento de gran utilidad dónde ver
la utilización de Sweave es este tutorial.
7.6. R y Octave/Matlab
Es frecuente que un usuario de Octave/Matlab utilice R. En este enlace y en
este teneis tablas de equivalencia entre los comandos en ambos programas.
También se puede encontrar en http://mathesaurus.sourceforge.net/matlab-python-
xref.pdf una tabla de equivalencias entre Matlab/Octave, Python y R.
161
162
Bibliografı́a
J. Verzani. Using R for Introductory Statistics. Chapman & Hall / CRC, 2005.
163