Beruflich Dokumente
Kultur Dokumente
Transformacin Raz Cuadrada Si las observaciones tiene una distribucin de Poisson debe
usarse yij o 1 yij
Transformacin Logartmica (para respuestas positivas) Si los datos tiene una distribucin
Lognormal ( ln Yij ~ Normal ), entonces la transformacin es logartmica ln Yij .
Transformacin Seno Inverso Para datos binomiales expresado en fracciones se debe usar
la transformacin seno inverso sen 1 yij
Ejemplos:
1.- Auhtry(1948) presenta los siguientes datos sobre la simbiosis del cruce de Medicago
sativa(53) M. Falcata(50) cruzados con la cepa B. Los datos son porcentajes de plantas
con ndulos de un total de 20 por celda. El experimento fue realizado como un diseo de
bloques completos al azar.
Padres
Bloques
1
2
3
53
11
16
6
50
65
67
76
F1
53 50
47
32
40
Lotes de F2 de cada F1
114-1 114-2 114-3 114-4
31
22
16
70
40
16
19
63
27
20
20
52
Como los datos estn expresados en porcentajes se origina de una distribucin Binomial,
Por tanto la transformacin ms adecuada es arco seno inverso. Para realizar estas
transformaciones se divide primero entre 100 y luego se aplica la transformacin sen 1 yij
. El cual es realizado con el paquete R que transforma a radianes.
simb<-read.table("genes.txt",header=T)
y<-simb[,1]
bloques<-as.factor(simb[,2])
genes<-as.factor(simb[,3])
y1<-asin((y/100)^.5)
modg1<-lm(y1~bloques+genes)
anva1<-aov(modg1)
summary(anva1)
Df
bloques
2
genes
6
Residuals
12
--Signif. codes:
Sum Sq
0.00439
1.07779
0.06140
Mean Sq
0.00219
0.17963
0.00512
F value
0.4287
35.1061
Pr(>F)
0.661
6.246e-07 ***
par(mfrow=c(2,2))
plot(modg1)
ri1<-rstandard(modg1)
shapiro.test(ri1)
Shapiro-Wilk normality test
data: ri1
W = 0.9459, p-value = 0.2846
p = 0.3575487
Y
Se desea determinar la transformacin de Y que produzca una variancia constante. Se
supone que la transformacin es una potencia de los datos originales, Esto es
Y* Y
Entonces se puede demostrar que:
Y Y 1
Se puede observar claramente que para que los datos transformados sea una constante,
1 . En la siguiente tabla se resumen algunas de las transformaciones ms usadas
para estabilizar la variancia. Ntese en este caso si 0 , la transformacin es logartmica:
Relacin entre Y y
Y constante
Y 1/ 2
Y
0
1/2
1
Y 3/ 2
3/2
Y 2
1
1
1/2
0
-1/2
-1
Transformacin
Ninguna
Raz cuadrada
Logartmica
Recproca de la Raz cuadrada
Recproca
Por lo tanto, una grfica de ln yi contra ln i sera una lnea recta con pendiente .
Puesto como no se conoce yi y i puede sustituirse estimaciones razonables como la
desviacin estndar ( Si ) y la media ( yi ) de las observaciones para el tratamiento i en lugar
de yi y i , respectivamente
Ejemplo: Un ingeniero civil est interesado en determinar si cuatro mtodos diferentes para
estimar la frecuencia de las inundaciones producen estimaciones equivalentes de la
descarga pico cuando se aplican a la misma cuenca. Cada procedimiento se usa seis veces
en la cuenca, y los datos de las descargas resultantes (en pies cbicos por segundo) se
muestran en la siguiente tabla:
Mtodo de
Estimacin
1
2
3
4
Observaciones
0.34
0.91
6.31
17.15
0.12
2.94
8.37
11.82
1.23
2.14
9.75
10.95
0.70
2.36
6.09
17.20
1.75
2.86
9.82
14.35
descarga<-read.table("descarga.txt",header=T)
y<-descarga[,1]
metodo<-as.factor(descarga[,2])
mod1<-lm(y~metodo)
anova(mod1)
Analysis of Variance Table
Response: y
Df Sum Sq Mean Sq F value
Pr(>F)
metodo
3 708.35 236.12 76.067 4.111e-11 ***
Residuals 20 62.08
3.10
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
par(mfrow=c(2,2))
plot(mod1)
0.12
4.55
7.24
16.82
> library(car)
> ncvTest(mod1)
Non-constant Variance Score Test
Variance formula: ~ fitted.values
Chisquare = 9.604614
Df = 1
p = 0.001940891
> bartlett.test(y~metodo)
Bartlett test of homogeneity of variances
data: y by metodo
Bartlett's K-squared = 8.9958, df = 3, p-value = 0.02935
Entonces no existe homogeneidad de variancias en cuanto a las descargas entre los cuatro
mtodos de evaluacin.
yp<-tapply(y,metodo,mean)
0.0
lsi
0.5
1.0
si<-tapply(y,metodo,sd)
lyp<-log(yp)
lsi<-log(si)
plot(lyp,lsi)
0.0
0.5
1.0
1.5
2.0
2.5
lyp
> mod<-lm(lsi~lyp)
> mod
Call:
lm(formula = lsi ~ lyp)
Coefficients:
(Intercept)
-0.2781
lyp
0.4465
par(mfrow=c(2,2))
plot(mod2)
bartlett.test(yt~metodo)
Bartlett test of homogeneity of variances
data: yt by metodo
Bartlett's K-squared = 0.5247, df = 3, p-value = 0.9134
library(car)
ncvTest(mod2)
Non-constant Variance Score Test
Variance formula: ~ fitted.values
Chisquare = 0.1582841
Df = 1
ri<-rstandard(mod2)
shapiro.test(ri)
p = 0.6907412
Y 1
, si 0
t Y
ln Y , si =0
n
L ln( SCE / n) ( 1) ln Yi
2
donde SCE es la suma de cuadrado residual cuando t (Y ) es la variable respuesta. Se
puede calcular maximizando L , pero usualmente L es maximizado sobre una
malla de valores tales como 2, 1, 1/ 2, 0,1/ 2,1, 2 . Esto asegura que se elija el valor
de de manera que sea ms fcilmente de interpretar. Por ejemplo si 0.46 , podra
usarse mejor la transformacin de
Nota Importante: Una vez transformado los datos todo el proceso de inferencia se realiza
con los datos transformados.
Con los datos del ejemplo anterior se tiene:
library(MASS)
boxcox(y~metodo)
ytb<-(y^0.5-1)/.5
mod3<-lm(ytb~metodo)
anova(mod3)
Analysis of Variance Table
Response: ytb
Df Sum Sq Mean Sq F value
Pr(>F)
metodo
3 130.737 43.579 81.049 2.296e-11 ***
Residuals 20 10.754
0.538
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
par(mfrow=c(2,2))
plot(mod3)
bartlett.test(ytb~metodo)
Bartlett test of homogeneity of variances
data: ytb by metodo
Bartlett's K-squared = 0.5247, df = 3, p-value = 0.9134
ri<-rstandard(mod3)
shapiro.test(ri)
Shapiro-Wilk normality test
data: ri
W = 0.9588, p-value = 0.4141
ncvTest(mod3)
Non-constant Variance Score Test
Variance formula: ~ fitted.values
Chisquare = 0.1582841
Df = 1
p = 0.6907412