Sie sind auf Seite 1von 50

Introducción a la estructura multinivel de datos 35

Por otro lado, el grupo de lugares situados centrado cada individuo en posición relativa en X dentro
de su agrupación. En nuestro ejemplo la escuela, utilizando la media del grupo de valores
centrados en el análisis del vocabulario significaría que estamos investigando la relación entre
la puntuación de vocabulario relativo de un estudiante en su escuela y su puntuación de
lectura. Por el contrario, el uso de gran centrador media sería examinar la relación entre la
posición relativa de un estudiante en la muestra en su conjunto en el vocabulario y la
puntuación de la lectura. Esta última interpretación sería conceptualmente equivalente (pero no
matemáticamente camente) para el uso de la puntuación bruta, mientras que la media del
grupo centrado no lo haría. A lo largo del resto de este libro, utilizaremos gran media de
centrado de forma predeterminada en base a las recomendaciones hechas por Hox (2002),
entre otros. A veces, sin embargo,

2.5 Fundamentos de la estimación de parámetros con MLMs

Hasta ahora, nuestros debates de estimación de parámetros del modelo han sido en el contexto de los
mínimos cuadrados-una técnica que proporciona bases de mínimos cuadrados ordinarios (MCO) y
modelos lineales relacionados. Sin embargo, a medida que avanzamos a partir de estos bastante simples
aplicaciones a modelos más complejos, OLS no suele ser el enfoque óptimo para la estimación de
parámetros. En su lugar, vamos a confiar en la estimación de máxima verosimilitud (MLE) y máxima
verosimilitud restringida (REML). En las siguientes secciones, se revisan estos enfoques para la
estimación de un punto de vista conceptual, se centra generalmente en la forma en que trabajan, lo que
suponen sobre los datos, y en qué se diferencian el uno del otro. Para los detalles técnicos nos referimos
a los lectores interesados ​a Bryk y Raudenbush (2002) y De Leeuw y Meijer (2008), ambos de los cuales
son excelentes recursos para los que desean una cobertura más profunda de estos métodos. Nuestro
propósito es proporcionar al lector una comprensión conceptual que ayudará a su aplicación de técnicas
de MLM en la práctica.

2.5.1 Estimación de máxima verosimilitud

MLE tiene como principal objetivo la estimación de los parámetros del modelo de población que maximicen la
probabilidad de obtener la muestra que, de hecho, obtiene. En otras palabras, los valores de los parámetros
estimados deben maximizar la probabilidad de nuestra muestra particular. Desde una perspectiva práctica, la
identificación de tales valores de la muestra se lleva a cabo mediante una comparación de los datos observados
con los datos predichos por el modelo asociado con los valores de los parámetros. Cuanto más cerca de los
valores observados y los predichos son uno al otro, mayor es la probabilidad
36 Multilevel Modelado Uso de R

que los datos observados surgieron de una población con parámetros similares a los utilizados para generar los
valores previstos. En la práctica, MLE es una metodología iterativo en el que el algoritmo de búsqueda para
valores de los parámetros que maximicen la probabilidad de los datos observados (es decir, producir valores
predichos que están tan cerca como sea posible a los valores observados). MLE puede ser en capacidad de
computación aliado intensivo, particularmente para modelos complejos y grandes muestras.

2.5.2 restringido estimación de máxima verosimilitud

Una variante de MLE conocida como estimación de máxima verosimilitud restringida (REML) ha demostrado
ser más precisa que la estimación de la varianza MLE para los pará- metros (Kreft & De Leeuw, 1998). En
particular, los dos métodos difieren con respecto al cálculo de grados de libertad en la estimación de varianzas.
Como un ejemplo PLE sim-, una varianza de la muestra se calcula normalmente dividiendo la suma de las
diferencias al cuadrado entre los valores individuales y la media por el número de observaciones menos 1 para
producir una estimación no sesgada. Esta es gemela de la varianza de una estimación REML.

En contraste, la varianza MLE se calcula dividiendo la suma de las diferencias al cuadrado


por el tamaño total de la muestra, lo que lleva a una estimación de la varianza menor que
REML y, de hecho, uno sesgado en muestras finitas. En el contexto de modelado tilevel multi-,
REML representa el número de parámetros que se aparearon estimación en un modelo de la
determinación de los grados de libertad apropiados para la estimación de los componentes
aleatorios tales como los ances parámetro variabilidad descritos anteriormente. Por el contrario,
MLE no da cuenta de éstos, lo que lleva a una subestimación de las variaciones que no ocurre
con REML. Por esta razón, REML es generalmente el método preferido para la estimación de
los modelos multinivel, aunque para los parámetros de las pruebas de varianza (o cualquier
efecto aleatorio), es necesario utilizar MLE (Snijders y Bosker, 1999).

2.6 Supuestos subyacentes MLMs

Como con cualquier modelo estadístico, el uso apropiado de MLM requiere que varias suposiciones
acerca de los datos son válidos. Si estas suposiciones no se cumplen, las estimaciones de los
parámetros modelo no pueden ser digno de confianza, como sería el caso con la regresión lineal
estándar revisado en el Capítulo 1. En efecto, mientras que los supuestos para MLM difieren algo de los
de modelos de un solo nivel, las suposiciones subyacentes MLM son similares a los de los modelos más
simples. Esta sección presenta estos supuestos y sus implicaciones para los investigadores que utilizan
MLM. En los capítulos siguientes, se describen los métodos para comprobar la validez de estos
supuestos dados un conjunto de datos.
Introducción a la estructura multinivel de datos 37

En primer lugar, se supone que el nivel 2 residuos son independientes entre clusters. En
otras palabras, la suposición es que la intersección aleatoria y la pendiente (s) en el nivel 2 son
independientes uno de otro a través de clusters. En segundo lugar, el nivel 2 intercepta y
coeficientes se supone que son independientes de los de nivel 1 los residuos, es decir, los
errores para las estimaciones de nivel de clúster no están relacionados con errores a nivel
individual. En tercer lugar, los residuos de nivel 1 son normalmente dis- tribuido y tienen
variaciones constantes. Esta suposición es muy similar a la que hacemos sobre los residuos en
el modelo de regresión lineal estándar. En cuarto lugar, el Nivel 2 origen y la pendiente (s)
tienen una dis- tribución normal multivariante con una matriz de covarianza constante. Cada
uno de estos supuestos se puede evaluar directamente para una muestra, como veremos en
los próximos capítulos. En efecto,

2.7 Visión general de MLMs de dos niveles

Hemos descrito las condiciones específicas de MLM, incluyendo los niveles 1 y 2 de efectos aleatorios y los
residuos. Vamos a cerrar este capítulo sobre MLM al considerar ejemplos de dos y de tres niveles MLM y el
uso de MLM con los datos longitudinales. Esta discusión debe preparar al lector para los capítulos
subsiguientes abarcan aplicaciones de R para las estimaciones de MLMs específicos. En primer lugar,
consideramos que el MLM de dos niveles, algunas de cuyas partes se describió anteriormente en este
capítulo. En la ecuación (2.16), se consideró que el modelo pendientes al azar

y ij = γ 00 + γ 10 X ij + T 0 j + T 1 j X ij + ε ij

en el que la variable dependiente y ij ( el rendimiento en lectura) fue una función de una variable
independiente X ij ( puntuación de vocabulario prueba) y de error también al azar, tanto a nivel de
estudiantes y escolares. Podemos extender este modelo un poco más allá, incluyendo múltiples
variables independientes, tanto a nivel 1 (estudiante) y Nivel 2 (escuela). Así, por ejemplo, además
de determinar la relación entre el vocabulario de un individuo y los niveles de lectura, también
podemos determinar el grado en que la puntuación media del vocabulario en la escuela en su
conjunto se relaciona con la puntuación de lectura de un individuo. Este modelo esencialmente tiene
dos partes: (1) uno explicar la relación entre el vocabulario nivel individual ( X ij) y leer y (2) una
explicación de los coeficientes en el nivel 1 como una función del nivel 2 o predictor puntuación
media vocabulario ( z j).

Las dos partes de este modelo se expresan como

Nivel 1: y ij = β 0 j + β 1 j X ij + ε ij (2,18)

Nivel 2: β HJ = γ h 0 + γ h 1 z j + T HJ (2,19)
38 Multilevel Modelado Uso de R

La pieza adicional de la ecuación (2.19) es γ h 1 z j, que representa la pendiente para ( γ h 1), y el valor de la
puntuación media de vocabulario para la escuela ( z j). En otras palabras, el rendimiento medio escolar está
directamente relacionado con el coeficiente de vincular la puntuación vocabulario individual a la puntuación de
lectura individual. Para nuestro ejemplo específico, podemos combinar las ecuaciones (2.18) y (2.19) para
producir una única ecuación para la de dos niveles MLM.

y ij = γ 00 + γ 10 X ij + γ 01 z j + γ 1001 X ij z j + T 0 j + T 1 j X ij + ε ij (2,20)

Cada uno de estos términos modelo se ha definido anteriormente en este capítulo: γ 00 es la intersección o
gran media para el modelo, γ 10 es el efecto fijo de la variable
X ( Vocabulario) sobre los resultados, T 0 j representa la variación aleatoria para la intersección entre los
grupos, y T 1 j representa la variación aleatoria para la pendiente entre los grupos.

Las piezas adicionales de la ecuación (2.13) son γ 01 y γ 11. los γ 01 representa el efecto fijo de
Nivel 2 variables z ( vocabulario promedio) en el resultado y
γ 11 representa la pendiente y el valor de la puntuación media de vocabulario para la escuela. El nuevo
término en la ecuación (2.20) es la interacción a nivel de cruz γ 1001 X ij z j.
Como el nombre implica, la interacción a nivel de cruz es simplemente una interacción de nivel 1
y nivel 2 predictores. En este contexto, se representa la interacción entre la puntuación de
vocabulario de un individuo y la puntuación media de vocabulario para su escuela. El coeficiente
de este término de interacción, γ 1001, evalúa el grado en que la relación entre la puntuación de
vocabulario del estudiante es moderado por la media para asistió a la escuela. Un gran valor
significativo para este coeficiente indicaría que la relación entre la puntuación de prueba de
vocabulario de un individuo y el logro de lectura en general depende del nivel de logro
vocabulario en su escuela.

2.8 Visión general de MLM de tres niveles

Es completamente posible utilizar tres o más niveles de estructuras de datos con MLMs. Debemos tener en
cuenta, sin embargo, que los modelos de cuatro niveles y más grandes son poco frecuentes en la práctica.
Para nuestro rendimiento en la lectura de datos en la que el segundo nivel fue en la escuela, un posible tercer
nivel podría ser el distrito en el que se encuentra la escuela. En ese caso, tendríamos múltiples ecuaciones a
considerar cuando se expresa la relación entre las puntuaciones de vocabulario y de rendimiento de lectura,
comenzando en el nivel individual:

y ijk = β 0 jk + β 1 jk X ijk + ε ijk (2,21)

el subíndice k representa la agrupación de nivel 3 al que pertenece el individuo.


Introducción a la estructura multinivel de datos 39

Antes de formular el resto del modelo, hemos de evaluar si las pistas y intercepta son al azar
en ambos niveles 2 y 3 o sólo a nivel 1, por ejemplo. Esta decisión debe estar siempre basado
en la teoría que rodea a las preguntas de investigación, lo que se espera en la población, y lo
que se revela en los datos empíricos. Vamos a proceder con el resto de esta discusión bajo el
supuesto de que el nivel 1 intercepta y las pendientes son aleatorios para ambos niveles 2 y 3
con el fin de proporcionar una descripción completa de los más complejos modelo posible
cuando tres niveles de estructura de datos están presentes. Cuando los coeficientes de nivel 1
no son al azar en ambos niveles, los términos en los siguientes modelos para los cuales esta
aleatoriedad no está presente simplemente serían retirados.

Nivel 2: β 0 jk = γ 00 k + T 0 jk

β 1 jk = γ 10 k + T 1 jk

Nivel 3: γ 00 k = δ 000 + V 00 k

γ 10 k = δ 100 + V 10 k (2,22)

Podemos entonces utilizar la sustitución sencilla de obtener la expresión para el Nivel 1 origen y la pendiente
tanto en términos de parámetros de nivel 2 y de nivel 3.

β 0 jk = δ 000 + V 00 k + T 0 jk

β 1 jk = δ 100 + V 10 k + T 1 jk (2,23)

A su vez, estos términos se pueden sustituir en la ecuación (2.15) para proporcionar el MLM completo de tres
niveles.

y ijk = δ 000 + V 00 k + T 0 jk + ( δ 100 + V 10 k + T 1 jk) X ijk + ε ijk (2,24)

Hay una suposición implícita en esta expresión de la ecuación (2.24) que no hay interacciones a nivel de
cruz, aunque ciertamente se pueden mo- ELED en los tres niveles o para cualquier par de niveles. La
ecuación (2.24) expresa las puntuaciones de los individuos en la prueba de rendimiento en la lectura
como una función de azar y los elementos fijos de la escuela que asisten, el distrito en el que se
encuentra la escuela, y sus propios resultados de las pruebas vocabulario y las variaciones aleatorias
asocian únicamente con ellos. Aunque no se incluye en la ecuación (2.24), también es posible incluir
variables en ambos niveles 2 y 3, similar a lo que se describe para el modelo de estructura de dos
niveles.
40 Multilevel Modelado Uso de R

2.9 Resumen de modelos longitudinales y su relación


con MLM

Por último, vamos a explicar brevemente cómo los diseños longitudinal se puede expresar como MLM. diseños
de investigación longitudinales simplemente implican la recogida de datos de los mismos individuos en
múltiples puntos de tiempo. Por ejemplo, podemos tener logros lectura calificaciones de estudiantes
examinados en el otoño y la primavera del año escolar. Con un diseño tal, que sería capaz de inves- aspectos
de puerta de los puntajes de crecimiento y cambios en resultados a largo plazo. Tales modelos se pueden
colocar en el contexto de un MLM donde los repre- senta estudiante la 2 (cluster) variable de nivel, y la
administración de ensayo individual está en el nivel 1. tendríamos entonces simplemente aplicar el modelo de
dos niveles descrito anteriormente, incluyendo estudiante las variables -level que sean apropiados para explicar
el rendimiento en lectura. Del mismo modo, si los estudiantes están anidados dentro de las escuelas,
tendríamos un modelo de tres niveles, con la escuela que sirve como el tercer nivel. Podríamos aplicar la
ecuación (2.24) de nuevo con lo que las variables de los estudiantes-o nivel escolar eran pertinentes al
problema de investigación.

Un aspecto único de datos longitudinales encajar en el contexto MLM es que los términos de error
potencialmente pueden tomar formas específicas que no son comunes en otras aplicaciones de análisis
multinivel. Estos términos de error reflejan la manera en la que las mediciones realizadas con el tiempo se
relacionan entre sí y son típicamente más compleja que la estructura de error básico descrito hasta el
momento. en el capítulo
5, consideraremos ejemplos de tales modelos longitudinales de ajuste con R y centrar nuestra atención en
estas estructuras de error, cuando cada uno es apropiado y la forma en que se interpretan. Además, este tipo
de MLM no necesita tomar formas lineales. Ellos se pueden adaptar para adaptarse a las tendencias no
lineales de segundo grado, cúbicos, o de otro tipo con el tiempo. Estos temas se discuten en el Capítulo 5.

Resumen

El objetivo de este capítulo fue la introducción de los fundamentos teóricos básicos de los modelos
multinivel, pero no para proporcionar una exhaustiva dis- cusión técnica de estas cuestiones. Una
serie de recursos útiles bales puede proporcionar detalles sivos y se enumeran en las referencias al
final del libro. Sin embargo, la información de este capítulo debe ser adecuada a medida que
avanzamos con el modelado multinivel utilizando el software R. Le recomendamos que haga uso
liberal de la información aquí proporcionada durante la lectura de los capítulos siguientes. Esto debe
proporcionarle una comprensión completa de la salida gene- ado por R que vamos a examinar. En
particular, al interpretar la salida de R, puede ser útil para que usted regrese a este capítulo para
revisar precisamente lo que significa cada parámetro del modelo.
Introducción a la estructura multinivel de datos 41

En los dos capítulos siguientes, vamos a tomar la información teórica de este capítulo y aplicarlo a los conjuntos
de datos reales utilizando dos bibliotecas de investigación diferentes,
nlme y lme4, ambos de los cuales fueron desarrollados para la realización de análisis multinivel con las
variables de resultado continuas. En el capítulo 5, vamos a examinar cómo estas ideas se pueden aplicar a
los datos longitudinales. Los capítulos 7 y 8 discutirán los modelos multinivel para variables dependientes
categóricas. en el capítulo
9, vamos a divergir de los enfoques basados ​en la verosimilitud que aquí se describen y explican
los modelos multinivel en el marco bayesiano, centrándose en las aplicaciones y el aprendizaje
cuando este método puede ser apropiado y cuando no.
3
Modelos de ajuste de dos niveles en R

En el capítulo anterior, se introdujo a lo largo del enfoque de modelado de múltiples niveles para el
análisis de datos anidada con notaciones y definiciones de intercepta al azar y los coeficientes
relevantes. Vamos a dedicar este capítulo a la introducción de los paquetes de R para los modelos
multinivel de ajuste. En el capítulo 1, proporcionamos una visión general de la lm () función para los
modelos de regresión lineal. Como será evidente, la estimación de los modelos multinivel en la que R es
muy similar a la estimación de los modelos lineales de un solo nivel. Después de proporcionar una
breve discusión de los dos paquetes de R primarias para modelos multinivel de ajuste para los datos
continuos, vamos a dedicar el resto del capítulo a los ejemplos extendidos que aplican los principios
introducidos en el capítulo 2 usando R.

3.1 Los paquetes y funciones de niveles múltiples Modelización en R

En la actualidad, las dos principales bibliotecas de investigación para la elaboración de los modelos multinivel son

nlme y lme4, ambos de los cuales pueden ser utilizados para modelos multinivel básico y avanzado de
montaje. los lme4 paquete es ligeramente más nueva y proporciona una sintaxis más concisa y más
flexibilidad. Utilizando la nlme paquete, la llamada de función para los modelos multinivel resultado
continuas que son lin- oído en sus parámetros es LME (), mientras que la llamada a la función de lme4 es

LMER ().
En los siguientes apartados de este capítulo, vamos a demostrar y proporcionar ejemplos del uso de
estos dos paquetes para ejecutar modelos básicos multinivel en R. A continuación se presenta la sintaxis
básica para estas dos funciones. Los detalles relativos a su uso y diversas opciones se proporcionan en los
ejemplos.

LME (fijo, los datos, al azar, de correlación, pesos, subconjunto, método,


na.action, control, contrasta = NULL, keep.data = TRUE)

LMER (fórmula, datos, familia = NULL, REML = TRUE,


Control = list (), start = NULL, verbosa = FALSO, doFit = TRUE, subconjunto,
pesos, na.action, offset, contrasta = NULL, modelo = TRUE, x = TRUE, ...)

Para modelos multinivel lineales simples, los únicos subcomandos R necesarias para las
funciones son la fórmula (que consta de efectos fijos y aleatorios)

43
44 Multilevel Modelado Uso de R

y datos. Los subcomandos restantes se pueden utilizar para personalizar los modelos y para proporcionar una
salida adicional. Este capítulo se centra en primer lugar en la definición de los modelos multinivel simples y
luego demuestra opciones para el modelo tomization cliente central y la asunción de cheques.

3.2 La nlme Paquete

3.2.1 simples (Intercepción Sólo) Utilización de los modelos multinivel nlme

Para demostrar el uso de R para modelos multinivel de ajuste, volvemos al ejemplo presentado en el capítulo 2.
Específicamente, un investigador desea para deter- minar la medida en que las puntuaciones de vocabulario se
pueden usar para predecir el rendimiento en lectura general. Dado que los estudiantes se anidan dentro de las
escuelas, los modelos de regresión lineal estándar no son las adecuadas. En este caso, la escuela es un efecto
aleatorio y puntuaciones de vocabulario son fijos. El primer modelo que vamos a encajar es el modelo nulo que
no tiene una variable independiente. Este modelo es útil para las estimaciones de ING obtain- de la varianza
residual y la intersección cuando sólo se considera la agrupación por la escuela, como en la ecuación (2.11). los LME
sintaxis necesaria para estimar el modelo nulo aparece a continuación.

Mo del3.0 <- LME (fijo = geread ~ 1, al azar ~ = 1 | escuela, datos =


Lograr)

Podemos obtener una salida de este modelo escribiendo Resumen (Model3.0).

Lineal de efectos mixtos modelo de ajuste por REML de datos:


Lograr
AIC BIC logLik
46.274,31 46.296,03 -23.134,15

Efectos aleatorios:
Fórmula: ~ 1 | colegio
(Intercepción) DesviaciónEstándar
residual: 0,6257119 2,24611

Los efectos fijos: 1 ~ geread


valor Std.Error DF t-valor p-valor
(Intercepción) 4,306753 0,05497501 10160 78.3402 0

Estandarizado dentro de los grupos residuales:


min Q1 Medicina Q3 Max
- 2.3229469 0.2849664 3.8811630 -0.6377948 -0.2137753

Número de observaciones: 10320 Número de


grupos: 160
Modelos de ajuste de dos niveles en R 45

Aunque se trata de un modelo nulo en el que no hay una variable independiente, se proporciona
alguna información útil que le ayudará a entender la estruc- tura de los datos. En particular, los
valores de AIC y BIC que son de interés principal en este caso serán útiles en la comparación de este
modelo con otros que incluyen una o más variables independientes, como veremos a continuación.
Además, el modelo nulo también proporciona estimaciones de la varianza entre los indivi- duos σ 2 y
entre los grupos τ 2. A su vez, estos valores se pueden utilizar para estimar

ρ Ι ( ICC), como en la ecuación (2.5). En este caso, el valor sería

0.6257119
ρ l= =
0.6257119 0.2178797
+ 2.24611

Interpretamos este valor en el sentido de que la correlación de la lectura de resultados de las pruebas entre los
estudiantes dentro de las mismas escuelas es de 0,22 si redondeamos nuestro resultado. Para ajustar el modelo con el
vocabulario como la variable independiente usando LME, presentamos la siguiente sintaxis en R.

Model3.1 <- LME (fijo = geread ~ gevocab, al azar ~ = 1 | escuela,


datos = Lograr)

En la primera parte de la llamada de función, definimos la fórmula para el modelo de efectos fijos, muy
similar a la definición del modelo de regresión lineal usando lm (). La declaración = fijos geread ~ gevocab en
esencia dice que la puntuación de lectura se predijo con el vocabulario anotar efectos fijos. los aleatorio parte
de la llamada de función define los efectos aleatorios y la estructura de anidación. Si sólo se desea una
intersección aleatoria, la sintaxis para el intercepto es 1. En este ejemplo,

= aleatorios ~ 1 | escuela indica que sólo un modelo intercepta al azar será utilizada y que la intersección
aleatoria varía dentro de la escuela. Esto corresponde a la estructura de datos de los estudiantes anidados
dentro de las escuelas. Montaje de este modelo, que se guarda en el objeto de salida Model3.1, obtenemos
la siguiente salida mediante la introducción del nombre del objeto de salida.

Model3.1
Lineal de efectos mixtos modelo de ajuste por REML de datos:
Lograr
Log-verosimilitud restringida: -21568.6 fijo: geread ~
gevocab (Intercepción)
gevocab
2.0233559 0.5128977

Efectos aleatorios:
Fórmula: ~ 1 | colegio
(Intercepción) DesviaciónEstándar
residual: 0.3158785 1.940740

Número de observaciones: 10320 Número de


grupos: 160
46 Multilevel Modelado Uso de R

La salida de la LME () función proporciona estimaciones de los parámetros para los efectos fijos y
desviaciones estándar para los efectos aleatorios junto con un resumen de la cantidad de unidades de nivel
1 y el nivel 2 en la muestra. Al igual que con la salida de la lm () función, sin embargo, la salida de la LME () función
proporciona información limitada. Si deseamos obtener información más detallada sobre el modelo,
incluyendo pruebas de significación de las estimaciones de los parámetros y estadísticas de ajuste modelo,
podemos solicitar un resumen del modelo. los resumen() comando proporcionar lo siguiente:

Resumen (Model3.1)
Lineal de efectos mixtos modelo de ajuste por REML de datos:
Lograr
AIC BIC logLik
43.145,2 43.174,17 -21568.6

Los efectos aleatorios: Fórmula: ~ 1


| colegio
(Intercepción) DesviaciónEstándar
residual: 0,3158785 1,940740

Los efectos fijos: geread ~ gevocab


valor Std.Error DF t-valor p-valor
(Intercepción) 2,0233559 0,04930868 10,159 41,03447 0
gevocab 0.5128977 0.00837268 10159 61.25850 0
Correlación:
(Intr)
gevocab -0.758

Estandarizado dentro de los grupos residuales:


min Q1 Medicina Q3 Max
- 3.0822506 0.3206692 4.4334337 -0.5734728 -0.2103488

Número de observaciones: 10320 Número de


grupos: 160

De este resumen se obtiene AIC, BIC y el registro de información de probabilidad de que se puede utilizar
para las comparaciones de modelos, además de las pruebas de significación parámetro. También
podemos obtener una correlación entre el efecto de la pendiente fija y el efecto de intercepción fijo, así
como un breve resumen del modelo residu- ALS incluyendo el mínimo, máximo, y primero, segundo
(mediana, denotado Med), y el tercer cuartil.

La correlación de los efectos fijos representa la correlación estimada si hubiéramos repetido


muestras de los dos efectos fijos (es decir, el origen y la pendiente para gevocab). A menudo, esta
correlación no es particularmente interesante. A partir de este resultado, podemos ver que gevocab es
un predictor significativo de
geread ( t = 61.258, p < 0.05), y que como vocabulario de puntuación se incrementa en 1 punto, la lectura se
incrementa de habilidades un 0,513 puntos. Podemos comparar el ajuste
Modelos de ajuste de dos niveles en R 47

para este modelo con la del modelo nulo haciendo referencia a la AIC y BIC estadísticas. Recordemos que los
valores más pequeños reflejan mejor ajuste del modelo. Para el modelo 3.1, el AIC y BIC son 43.145,2 y
43.174,17, respectivamente. Para el modelo 3.0, la AIC y BIC fueron 46.274,31 y 46.296,03. Debido a que los
valores para ambos estadísti- cas son más pequeños para el modelo 3.1, llegaríamos a la conclusión de que
proporciona un mejor ajuste a los datos. En cuanto al fondo, esto significa que debemos incluir la variable
predictora geread, el cual los resultados de la prueba de hipótesis también compatibles.

Además de los efectos fijos en el Modelo 3.1, también podemos determinar el grado de variación en geread
está presente en todas las escuelas. Específicamente, la salida muestra que después de considerar el
impacto de gevocab, la estimación de la variación en las intersecciones entre las escuelas es 0.3158785,
mientras que la variación dentro de la escuela se estima como 1.940740. Podemos relacionar estas fibras No.
de orden directamente de vuelta a nuestra discusión en el capítulo 2, donde 02

τ = 0.3158785
y σ 2 = 1,940740. Además, la intersección fijo general denota como γ 00 en el capítulo 2 es
2,0233559, que es la media de geread cuando el gevocab
puntuación es de 0.

Por último, es posible estimar la proporción de la varianza en la variable de resultado contabilizado


en cada nivel del modelo. En el capítulo 1 vimos que con los modelos OLS de un solo nivel de
regresión, la proporción de respuesta de la varianza explicada por variables del modelo se expresa
como R 2. En el contexto de un modelo multinivel, R 2 Los valores se pueden calcular para cada nivel del
modelo (Snijders y Bosker, 1999). Para el Nivel 1, se puede calcular

2 2
METRO
1 METRO
1
R1
12 =-σ+τ 2
σ METRO
+ 1τ
2
METRO
1

+
= -1 1.940740 0.3158785
2,24611 0,6257119
+

= -1 2.2566185 =- =
2.8718219 1 0.7857794 0.2142206

Este resultado nos dice que el nivel 1 del modelo 3.1 explica aproximadamente el 21% de la variación en la
puntuación de lectura por encima y más allá de eso en cuenta en el modelo nulo. También podemos calcular
un nivel 2 R 2 valor:

/ /cama
2 2
METRO
1 +Τ METRO
1
R 22 = -1 σ 2
σ 2
METRO
0 + τ METRO
y desayuno
0

dónde segundo es el tamaño medio de las unidades de nivel 2 (escuelas en este caso). R pro porciona el
número de individuos en la muestra (10320) y el número de escuelas (160), de modo que podamos calcular segundo
como 10320/160 = 64,5. Ahora podemos estimar
48 Multilevel Modelado Uso de R

/ /cama
2 2
METRO
1 +Τ METRO
1
R 22 = -1 σ σ
+ Τ METRO
=0
2 2
METRO
0 y desayuno

2 2
METRO
1 METRO
1
R 12 = -1σ + τ 2
σ METRO
+ 0τ
2
METRO
0

+
= -1 1.940760 0.3167654
2,24611 0,6257119
+

= -1 2.2575254 =- =
2.8718219 1 0.7860952 0.2139048

El modelo en el ejemplo anterior era bastante simple y clasificación incorpora un solo nivel 1
predictor. En muchas aplicaciones, los investigadores utilizan variables de predicción, tanto a nivel 1
(estudiante) y nivel 2 (escuela). Incorporación de los predictores en los niveles más altos de análisis
es ward straightfor- en R y se maneja exactamente de la misma manera que la incorporación de Nivel
1 predictores. Por ejemplo, supongamos que, además de realización de la prueba el vocabulario de
un estudiante, un investigador quiere también para deter- minar si el tamaño de la matrícula escolar ( senroll)
también produce un impacto camente estadísticamente significativa en la puntuación global de la
lectura. En ese caso, la adición de la matrícula escolar de nivel 2 predictor daría lugar a la sintaxis de
I siguiente:

Model3.2 <- LME (fijo = geread ~ gevocab + senroll, al azar =


~ 1 | escuela, los datos Lograr =)

Resumen (Model3.2)
Lineal de efectos mixtos modelo de ajuste por REML de datos:
Lograr
AIC BIC logLik
43.162,1 43.198,31 -21.576,05

Los efectos aleatorios: Fórmula: ~


1 | colegio
(Intercepción) DesviaciónEstándar
residual: 0,3167654 1,940760

Los efectos fijos: geread ~ gevocab + senroll


valor Std.Error DF t-valor p-valor
(Intercepción) 2,0748819 0,11400758 10,159 18,19951 0.0000
gevocab 0.5128708 0.00837340 10159 61.25000 0.0000
senroll - 0.0001026 0.00020511 158 -0.50012 0.6177
Correlación:
(Intr) gevocb
gevocab -0.327
senroll -0.901 -0.002
Modelos de ajuste de dos niveles en R 49

Estandarizado dentro de los grupos residuales:


min Q1 Medicina Q3 Max
- 3.0834462 0.3212091 4.4335881 -0.5728938 -0.2103480

Número de observaciones: 10320 Número de


grupos: 160

Cabe destacar que en esta llamada de función específica, senroll, se incluye sólo en la parte fija del modelo y
no en la parte aleatoria. Por tanto, esta variable tiene sólo un efecto fijo (promedio) y es el mismo en todas
las escuelas. Veremos más adelante cómo incorporar un coeficiente de azar en este modelo. A partir de
estos resultados se puede observar que la inscripción no tenía una relación estadísticamente significativa
con el rendimiento en lectura. Además, notar algunos cambios menores en las estimaciones de los otros
parámetros del modelo y un bastante grande cambio en la correlación entre el efecto fijo de gevocab pendiente
y el efecto fijo de la intersección. La pendiente para senroll y la intersección fueron fuertemente
correlacionada negativamente y las laderas de los efectos fijos mostró prácticamente ninguna correlación.
Como se señaló anteriormente, estas correlaciones no suelen ser muy útiles para explicar la variable
dependiente y rara vez se discuten en detalle en los informes de los resultados del análisis. los R 2 valores
para los niveles 1 y 2 aparecen a continuación.

2 2
METRO
1 METRO
1
R1
12 =-σ+τ 2
σ METRO
+ 0τ
2
METRO
0

+
= -1 1.940760 0.3167654
2,24611 0,6257119
+

= -1 2.2575254 =- =
2.8718219 1 0.7860952 0.2139048

/ /cama
2 2
METRO
1 +Τ METRO
1
R 22 = -1 σ 2
σ 2
METRO
0 + τ METRO
y desayuno
0

+
= -1 1.940760 / 64,5 0,3167654
+
2,24611 / 64.5 0.6257119

= -1 0.34685 =- =
0,66053 0,52378 0,474884 1

3.2.2 Uso de modelos de coeficientes aleatorios nlme

En el capítulo 2, se describe el modelo de coeficientes aleatorios en los que se permite que el


impacto de la variable independiente sobre la dependiente a variar a través del Nivel 2 efectos. En
el contexto del problema de la investigación actual, esto significaría que permitimos que el impacto
de gevocab en geread a variar de un centro a otro. La incorporación de tales efectos coeficientes
aleatorios
50 Multilevel Modelado Uso de R

en un modelo de niveles múltiples utilizando LME ocurre en el aleatorio parte de la sintaxis modelo. Al definir
efectos aleatorios, como se mencionó anteriormente, 1 representa el punto de intersección, por lo que si todo
lo que deseamos es un modelo intercepta al azar como en el ejemplo anterior, la sintaxis ~ 1 | escuela es
suficiente. Sin embargo, si queremos permitir una pendiente de Nivel 1 para variar al azar, vamos a cambiar
esta parte del impuesto syn (recordemos que gevocab ya está incluido en la parte fija del modelo). Volvamos
a la 3.1 Modelo escenario, pero esta vez permitir que tanto la pendiente y la intersección de gevocab para
variar aleatoriamente de una escuela a otra. La sintaxis de este modelo ahora se convertiría

Model3.3 <- LME (fijo = geread ~ gevocab, al azar =


~ Gevocab | escuela, los datos Lograr =)

Este modelo se diferencia del modelo 3.1 sólo en que la 1 en la línea de azar se sustituye por el nombre de
la variable cuyo efecto queremos ser al azar. Observe que hemos estado ya no explícitamente una
intersección aleatoria en la especificación. Después de definir una pendiente aleatoria, al azar se convierte en
el punto de intersección implícita por lo que ya no tenemos que especificar que (es decir, que se incluye por
defecto). Si no queremos que la intersección aleatoria mientras se modela el coeficiente de azar, que incluiría
una -1 inmediatamente antes de gevocab. La sintaxis pendiente y la intersección aleatoria generará el siguiente
resumen del modelo:

Resumen (Model3.3)
Lineal de efectos mixtos modelo de ajuste por REML de datos:
Lograr
AIC BIC logLik
43.004,85 43.048,3 -21496,43

Efectos aleatorios:
Fórmula: ~ gevocab | colegio
Estructura: general definida positiva, Log-Cholesky
parametrización
DesviaciónEstándar Corr
(Intercepción) 0,5316640 (Intr) gevocab
0.1389372 -0.858
Residual 1.9146629

Los efectos fijos: geread ~ gevocab


Valor Std.Error DF t-valor p-valor
(Intercepción) 2,0057073 0,06108846 10,159 32,83283 0
gevocab 0.5203554 0.01441502 10159 36.09815 0
Correlación:
(Intr)
gevocab -0.866

Estandarizado dentro de los grupos residuales:


min Q1 Medicina Q3 Max
- 3.7101835 -0.5674382 - 0.2074307 0.3176354 4.6774104
Modelos de ajuste de dos niveles en R 51

Número de observaciones: 10320 Número de


grupos: 160

Un examen de los resultados muestra que gevocab se cativamente estadísticamente signifi- relacionada
con geread en todas las escuelas. El coeficiente estimado 0.5203554 corresponde a γ 10 del capítulo 2, y
se interpreta como el impacto promedio del predictor de los resultados en todas las escuelas. Además,
el valor 0.1389372 representa la estimación de 12

τ del capítulo 2, y refleja la variación en coef-


ficients entre escuelas. Un valor relativamente mayor de esta estimación indica que el coeficiente varía de
una escuela a otra; es decir, la relación de las variables independientes y dependientes difiere a través de
las escuelas. Al igual que antes, también tenemos las estimaciones de 02

τ ( 0.5316640) y σ 2 ( 1.9146629). Tomados en conjunto estos


Los resultados muestran que la mayor fuente de variación aleatoria en geread es la variación entre los
estudiantes dentro de las escuelas, con la menor variación de las diferencias en la media condicional (el
origen) y el coeficiente de gevocab en todas las escuelas. Un modelo con dos pendientes al azar se puede
definir de la misma manera como la definición de una sola pendiente. A modo de ejemplo, supongamos que un
investigador está interesado en determinar si la edad de un estudiante también afecta la lectura de su
rendimiento óptimo y quiere permitir que este efecto de variar de una escuela a otra. Tal incorporación de dos
pendientes al azar puede ser modelada como:

Model3.4 <- LME (fijo = geread ~ gevocab + edad,


al azar = ~ + gevocab edad | escuela, los datos Lograr =)

Resumen (Model3.4)
Lineal de efectos mixtos modelo de ajuste por REML de datos:
Lograr
AIC BIC logLik
43.015,77 43.088,18 - 21.497,88

Efectos aleatorios:
Fórmula: ~ + gevocab edad | colegio
Estructura: general definida positiva, Log-Cholesky
parametrización
DesviaciónEstándar Corr
(Intercepción) 0,492561805 (Intr) gevocb gevocab
0.137974552 -0.073
años 0.006388612 -0.649 -0.601
Residual 1,914030323

Los efectos fijos: geread ~ + gevocab edad


valor Std.Error DF t-valor p-valor
(Intercepción) 2,9614102 0,4151894 7,13267 10,158 0.0000
gevocab 0.5191491 0.0143562 10158 36.16205 0.0000
años - 0.0088390 0.0038396 10158 -2.30208 0,0214
Correlación:
(Intr) gevocb gevocab
-0,095 edad
- 0,989 -0,032
52 Multilevel Modelado Uso de R

Estandarizado dentro de los grupos residuales:


min Q1 Medicina Q3 Max
- 3.6805437 0.3180592 4.6850568 -0.5686992 -0.2091111

Número de observaciones: 10320 Número de


grupos: 160

Aquí vemos que la edad está significativamente relacionado con geread ( p = 0,0214), con un coeficiente negativo
indica que los alumnos mayores tenían puntuaciones más bajas. Otras medidas, además, la variación aleatoria
de los coeficientes de esta variable a través de las escuelas (0,006388612) es mucho menor que la de gevocab ( 0,137974552),
que nos lleva a la conclusión de que la relación del vocabulario en la lectura varía más en todas las escuelas
que lo hace el impacto de la edad.

3.2.3 Interacciones y Cross-Nivel Interacciones Uso nlme

Las interacciones entre las variables de predicción, en particular de las interacciones a nivel transversal, pueden
ser muy importantes en la aplicación de modelos multinivel. interacciones nivel cruzadas se producen cuando el
impacto de una variable de nivel 1 en un resultado (por ejemplo, la puntuación de vocabulario) difiere en función
del valor del Nivel 2 predictor (por ejemplo, la matrícula escolar). Interacciones, ya sea dentro del mismo nivel o
en todos los niveles, son simplemente los productos de dos predictores. De este modo, incor- poración de las
interacciones y las interacciones entre los diferentes niveles en los modelos multinivel se lleva a cabo de la
misma manera que hemos visto para el lm () función en el Capítulo 1. Los siguientes son ejemplos para el
montaje de un modelo de interacción para dos variables de nivel 1 (Modelo 3.5) y una interacción a nivel de cruz
que implica nivel 1 y nivel 2 variables (Modelo 3.6).

Model3.5 <- LME (fijo = geread ~ gevocab + edad + gevocab * edad,


al azar = ~ 1 | escuela, los datos Lograr =)

Model3.6 <- LME (fijo = geread ~ gevocab + senroll +


gevocab * senroll, al azar ~ = 1 | escuela, los datos Lograr =)

Modelo 3.5 define un modelo de niveles múltiples en el que dos 1 (nivel de estudiante) predictores Nivel
interactúan entre sí. Modelo 3.5 define un modelo de niveles múltiples con una interacción a nivel de cruz en
el que un nivel 1 (nivel de estudiante) y Nivel 2 (nivel de la escuela) interactúan predictor. Tenga en cuenta
que no existe ninguna diferencia en el tratamiento de las variables en los diferentes niveles cuando se
calculan las interacciones.

Resumen (Model3.5)
Lineal de efectos mixtos modelo de ajuste por REML de datos:
Lograr
AIC BIC logLik
43.155,49 43.198,94 -21.571,75
Modelos de ajuste de dos niveles en R 53

Efectos aleatorios:
Fórmula: ~ 1 | colegio
(Intercepción) DesviaciónEstándar
residual: 0,3142524 1,939708

Los efectos fijos: geread ~ gevocab + edad + gevocab * edad


valor Std.Error DF t-valor p-valor
(Intercepción) 5.187208 0.8667857 10157 5,984418 0.0000
gevocab - 0.028078 0.1881452 10157 -0.149233 0.8814
años - 0.029368 0.0080348 10157 -3.655077 0,0003
gevocab: edad 0.005027 0.0017496 10157 2.873204 0,0041
Correlación:
(Intr) gevocb años
gevocab - 0,879
años - 0,998 0,879
gevocab: -0.999 -0.879 0.877 años

Estandarizado dentro de los grupos residuales:


min Q1 Medicina Q3 Max
- 3.0635106 0.3190991 4.4467448 -0.5706179 -0.2108349

Número de observaciones: 10320 Número de


grupos: 160

Podemos ver en la salida del modelo 3.5 que tanto la edad ( t = -3,65, p < 0,01) y la interacción ( gevocab:
edad) entre la edad y el vocabulario ( t = 2,87,
p < 0.01) son predictores significativos de la lectura. Centrándose en la interacción, el signo del
coeficiente es positivo. Esto indica un efecto potenciador: a medida que aumenta la edad, la
relación de la lectura y el vocabulario se vuelve más fuerte.

Resumen (Model3.6)
Lineal de efectos mixtos modelo de ajuste por REML de datos:
Lograr
AIC BIC logLik
43.175,57 43.219,02 -21.581,79

Efectos aleatorios:
Fórmula: ~ 1 | colegio
(Intercepción) DesviaciónEstándar
residual: 0.316492 1.940268

Los efectos fijos: geread ~ gevocab + + senroll gevocab * senroll


valor Std.Error DF t-valor p-valor
(Interceptar) 1.7477004 0.17274011 10158 10.117513 0.0000
gevocab 0.5851202 0.02986497 10158 19.592189 0.0000
senroll 0.0005121 0.00031863 158 1.607242 0.1100
gevocab: senroll -0.0001356 0,00005379 10158 -2.519975 0,0118
54 Multilevel Modelado Uso de R

Correlación:
(Intr) gevocb senrll
gevocab - 0,782
senroll - 0,958 0,735
gevocab: senroll 0.752 -0.960 - 0,766

Estandarizado dentro de los grupos residuales:


min Q1 Medicina Q3 Max
- 3.1228018 0.3187827 4.4358936 -0.5697103 -0.2090374

Número de observaciones: 10320 Número de


grupos: 160

La salida del modelo 3.6 tiene una interpretación similar. Cuando se utiliza la matrícula escolar en lugar de
la edad como un factor de predicción, el efecto principal de vocabulario ( t = 19.59, p < 0,001) y la
interacción entre el vocabulario y ment enroll- escuela ( t = -2.51, p < 0,05) son predictores significativos de
rendimiento en lectura. Centrándose en la interacción, ya que el signo del coeficiente es negativo
llegaríamos a la conclusión de que hay un búfer o el efecto inhibitorio. En otras palabras, a medida que
aumenta el tamaño de la escuela, la relación entre el vocabulario y el rendimiento en lectura se vuelve
más débil.

3.2.4 Centrado predictores

Sobre la base de las discusiones en el capítulo 2, puede ser ventajoso para centrar predictores,
especialmente cuando se incorporan interacciones. predictores de centrado pueden proporcionar
interpretación ligeramente más fácil de los términos de interacción y también ayudar a aliviar
multicolinealidad resultantes de la inclusión de ambos efectos principales y las interacciones en el mismo
modelo. Recordemos que el centrado de una variable implica la resta de un valor medio de cada
puntuación en la variable. Centrado de predictores se puede lograr a través de R por la creación de
nuevas variables. Por ejemplo, volviendo al modelo 3.5, centrado gran media gevocab y

años las variables se pueden crear con la siguiente sintaxis:

Cgevocab <- Lograr $ gevocab - media (Lograr $ gevocab) Jaula <- Lograr la edad $ -
media ($ Lograr edad)

Después se crean versiones centrada medios de los predictores, que se pueden incorporar en el
modelo de la misma manera utilizada anteriormente.

Model3.5.C <- LME (fijo = geread ~ Cgevocab + Jaula +


Cgevocab * Cage,
al azar = ~ 1 | escuela, los datos Lograr =)

Resumen (Model3.5.C)
Lineal de efectos mixtos modelo de ajuste por REML de datos:
Lograr
AIC BIC logLik
43.155,49 43.198,94 -21.571,75
Modelos de ajuste de dos niveles en R 55

Los efectos aleatorios: Fórmula: ~


1 | colegio
(Intercepción) DesviaciónEstándar
residual: 0,3142524 1,939708

Los efectos fijos: geread ~ Cgevocab + + jaula Cgevocab * Jaula


Valor Std.Error DF t-valor p-valor
(Interceptar) 4.332326 135.12403 0.03206185 10157 0.0000
Cgevocab 0.512480 0.00837950 10157 61.15878 0.0000
Jaula - 0.006777 0.00391727 10157 - 1,72999 0,0837
Cgevocab: Jaula 0.005027 0.00174965 10157 2,87320 0,0041
Correlación:
(Intr) Cgevcb Jaula
Cgevocab 0,008
Jaula 0,007 0,053
Cgevocab: Jaula 0,043 0,021 0,205

Estandarizado dentro de los grupos residuales:


min Q1 Medicina Q3 Max
- 3.0635106 0.3190991 4.4467448 -0.5706179 -0.2108349

Número de observaciones: 10320 Número de


grupos: 160

En primer lugar, observe el modelo idéntico ajuste (compárese con la AIC, BIC, y la probabilidad log) de
los modelos centrados y no centrados. Esta es una buena manera de asegurar que el centrado trabajó.
Mirando ahora a los efectos fijos del modelo, vemos algunos cambios en su interpretación. Estas
diferencias se deben probablemente a problemas de multicolinealidad en el modelo original, sin centro. La
interacción es todavía significativa ( t = 2,87, p < 0,05), pero ahora vemos un efecto significativo del
vocabulario ( t = 61.15, p < 0,01). La edad ya no es un predictor significativo ( t = -1.73

pag > 0,05). Centrándose en la interacción, recordemos que cuando se centran predictores, una interacción puede
ser interpretado como el efecto de una variable mientras se mantiene la segunda constante variable. Dado que el
signo de la interacción es positiva, el vocabulario tiene un efecto positivo en la capacidad de lectura si se
mantienen constantes edad.

3.3 La lme4 Paquete

3.3.1 Modelos aleatorios interceptar utilizando lme4

La discusión anterior se centró en el uso de la LME función de la nlme


biblioteca para adaptarse a los modelos multinivel en R. Como se indicó anteriormente en este capítulo, una segunda función
para el montaje de tales modelos, llamado lme4, está disponible en el LMER
biblioteca. Veremos que en algunos aspectos de la sintaxis y la salida de estas dos funciones son
prácticamente idénticos. Sin embargo, presentan algunos fundamental
56 Multilevel Modelado Uso de R

diferencias que hay que tener en cuenta que los aplicamos. Nos centraremos en algunas de estas
diferencias y sus implicaciones para la práctica. En particular, la
lme4 paquete ofrece una sintaxis ligeramente más ágil para los modelos multinivel de ajuste.
También proporciona un marco más flexible para la definición de modelos complejos. En lme4, nos
ajustados al modelo 3.1 con la siguiente sintaxis:

Model3.7 <- LMER (geread ~ gevocab + (1 | escuela), los datos Lograr =)

El modelo se define de la misma manera que se definió el LME ción fun-, donde la variable de resultado
es la suma lineal o combinación de todos los efectos fijos y aleatorios. La única diferencia en el
tratamiento de los efectos fijos y aleatorios es que los efectos aleatorios requieren información sobre la
estructura de anidación (estudiantes dentro de las escuelas en este caso) para el parámetro dentro de
los cuales varían. La principal diferencia en la sintaxis de modelo entre LME y LMER es que el efecto
aleatorio se denota por su apariencia dentro de paréntesis, en lugar de a través de asignación explícita
usando el aleatorio declaración. Esta sintaxis producirá el siguiente resultado:

Model3.7
Linear modelo mixto ajuste por REML
Fórmula: geread ~ gevocab + (1 | escuela)
Datos: Lograr
AIC BIC logLik desviación REMLdev 43145 43174 -21569
43124 43137
Efectos aleatorios:
Nombre de los grupos Diferencia Std.Dev.
la escuela (Intercepción) 0.099779 0.31588
Residual 3.766470 1.94074
Número de obs: 10320, grupos: escuela, 160

Los efectos fijos:


Estimar Std. Error valor de t
(Intercepción) 2.023343 0.049305 41.04
gevocab 0.512901 0.008373 61.26

La correlación de efectos fijos:


(Intr)
gevocab -0.758

A partir de este resultado podemos ver uno de los beneficios obvios de la lme4 paquete es que toda la
información importante se presenta sin requerir el uso de una
resumen declaración. La llamada a la función por sí sola es suficiente para proporcionar estadísticas de ajuste
del modelo, las estimaciones de parámetros, pruebas de significación de los parámetros, las correlaciones de
parámetros de estimación, los residuos y los resúmenes de muestra. También podemos ver que la lme4 paquete
incluye la desviación y REML ues de desviación estimada Val- en las estadísticas de ajuste modelo, además de
la AIC, BIC, y probabilidad log informó en el nlme paquete. Que lme4 paquete no incluye son

pag valores de coeficientes del modelo.


Modelos de ajuste de dos niveles en R 57

En la comparación de los resultados de LME y LMER, nos damos cuenta de que mientras tanto
t valores y de acompañamiento pag Los valores se registran en el nlme paquete, sólo el t valores
de efectos fijos se presentan en la lme4. La razón de esta discrepancia en los resultados
reportados, y específicamente para la falta de pag los valores es algo complejo y no está dentro
del alcance de este libro. Sin embargo, hay que señalar que el enfoque estándar para la
búsqueda
pag valores basados ​en el uso de la referencia t distribución, lo que parece ser el paso
intuitivamente correcto, de hecho no dió valores correctos en muchos casos. Por lo tanto,
algunos enfoque alternativo para su obtención es necesario.

Douglas Bates, el desarrollador de lme4, recomienda el uso de Monte Carlo (MCMC) métodos de la
cadena de Markov para obtener pag valores para los efectos del modelo mixtos. Revisamos MCMC con
mayor detalle en el capítulo 9, de modo que los lectores pueden obtener una comprensión de cómo
funciona este método. Podemos decir en este punto que el método MCMC-intensiva equipo se basa en la
generación de una distribución a posteriori para cada parámetro del modelo, a continuación, utilizando las
distribuciones para obtener pag los valores y los intervalos de confianza para cada estimación del parámetro.
Para obtener MCMC pag los valores y los intervalos de confianza para LME objetos, hay que instalar el coda y
languageR paquetes y luego usar la siguiente secuencia de comandos para obtener las estadísticas
deseadas para el modelo 3.7.

biblioteca (coda) biblioteca


(languageR)
del3.7.pvals Mo <-pvals.fnc (Model3.7, nsim = 10.000, withMCMC =
CIERTO)

Estos comandos primero se cargan los dos bibliotecas que necesitamos. entonces se crea un objeto
que contiene el pag los valores y los intervalos de confianza para los diversos términos en 3.7 Modelo
de objeto Model3.7.pvals. La función real que utilizamos es pvals.fnc, que es parte de la languageR biblioteca.
A su vez, esta función se llama a la mcmcsamp función de la coda biblioteca. Tres elementos se incluyen
en esta llamada de función, incluyendo el nombre de la LMER objeto que contiene los resultados del
modelo de ajuste ( Model3.7), el nú- mero de conjuntos de datos simulados que queremos muestrear
utilizando MCMC ( nsim), y si queremos resultados de cada uno de estos 10000 MCMC llega a ser salvo
( withMCMC = TRUE). Al establecer esta última condición a CIERTO No es necesario, ya que estamos
interesados ​sólo en las estadísticas de resumen. Podemos obtener la información relevante para las
partes fijas y aleatorios del modelo escribiendo los siguientes comandos.

Model3.7.pvals $ fijos

Estimación MCMCmean HPD95lower HPD95upper pMCMC Pr (> | t |)


(Intercepción) 2,0233 2.0218 1.9243 2,118 0,0001 0
gevocab 0.5129 0.5134 0.4966 0,530 0,0001 0
58 Multilevel Modelado Uso de R

Model3.7.pvals $ aleatoria

grupos Nombre Std.Dev. MCMCmedian MCMCmean HPD95lower HPD95upper


1 escuela (Intercepción) 0.3159 0.3065 0.3074 0.2532 0.3637
2 residual 1.9407 1.9413 1.9413 1.9134 1.9665

A partir de estos resultados, podemos determinar que la puntuación de vocabulario fue estadística- mente significativa
relacionada con la puntuación de la lectura, y que los efectos aleatorios
colegio y Residual, eran ambos diferentes de 0, así, ya que ninguno de sus intervalos de confianza
incluyen 0. Volviendo a modelar definición usando LMER (), se introducen de nuevo múltiples
predictores en cualquier nivel y las interacciones entre los predictores a cualquier nivel en el modelo
de la misma manera como el uso de la lm () o LME () funciones. La siguiente es la sintaxis para ajuste
del modelo 3.8 usando LMER.

Model3.8 <- LMER (geread ~ gevocab + senroll + (1 | escuela), los datos =


Lograr)
Model3.8
Linear modelo mixto ajuste por REML
Fórmula: geread ~ gevocab + senroll + (1 | escuela)
Datos: Lograr
AIC BIC logLik desviación REMLdev 43162 43198 -21576
43124 43152
Efectos aleatorios:
Nombre de los grupos Varianza Std.Dev.
la escuela (Intercepción) 0.10034 0.31676
Residual 3.76655 1.94076
Número de obs: 10320, grupos de escuela, 160

Los efectos fijos:


Estimar Std. valor de error t
(Intercepción) 2,0748764 0.1139915 18.20
gevocab 0.5128742 0.0083733 61.25
senroll - 0.0001026 0.0002051 - 0.50

La correlación de efectos fijos:


(Intr) gevocab gevocb
-0.327
senroll -0.901 -0.002

Model3.8.pvals <-pvals.fnc (Model3.8, nsim = 10.000, withMCMC =


CIERTO)
Model3.8.pvals $ fijos

Estimación MCMCmean HPD95lower HPD95upper pMCMC Pr (> | t |)


(Intercepción) 2,0749 2.0752 1.8493 2,2950 0,0001 0.0000
gevocab 0.5129 0.5133 0.4970 0,5295 0,0001 0.0000
senroll - 0,0001 -0,0001 - 0,0005 0,0003 0,5960 0.6169
Modelos de ajuste de dos niveles en R 59

Model3.8.pvals $ aleatoria

grupos Nombre Std.Dev. MCMCmedian MCMCmean HPD95lower HPD95upper


1 escuela (Intercepción) 0.3168 0,3076 0,3085 0.2501 0.3633
2 residual 1.9408 1,9415 1,9415 1.9140 1.9673

3.3.2 Uso de modelos de coeficientes aleatorios lme4

La definición de efectos aleatorios para pendientes en lme4 es muy similar a la de nlme. La única
diferencia real es que de nuevo, como en el modelo intercepta al azar, los efectos aleatorios se definen
en paréntesis, como una combinación lineal de efectos. Volviendo al modelo 3.3, que puede expresar
el mismo modelo multinivel usando LMER como:

Model3.9 <- LMER (geread ~ gevocab + (gevocab | escuela), los datos =


Lograr)
Model3.9
Linear modelo mixto ajuste por REML
Fórmula: geread ~ gevocab + (gevocab | escuela)
Datos: Lograr la AIC
BIC logLik desviación REMLdev 43005 43048
-21496 42981 42993
Efectos aleatorios:
Nombre de los grupos Diferencia Std.Dev. Corr
la escuela (Intercepción) 0.282692 0.53169
gevocab 0.019305 0.13894 - 0,859
Residual 3.665937 1.91466
Número de obs: 10320, grupos de escuela, 160

Los efectos fijos:


Estimar Std. Error valor de t
(Intercepción) 2.00570 0.06109 32.83
gevocab 0.52036 0.01442 36.09

La correlación de efectos fijos:


(Intr)
gevocab -0.867

Debemos señalar aquí que el método MCMC para la obtención de resultados de la prueba de hipótesis para los
modelos calcula utilizando LMER todavía no está disponible para modelos de coeficientes dom ran-.

Aunque, en su mayor parte, la sintaxis de lme4 es bastante similar a la de


LME para los modelos relativamente simples, la incorporación de múltiples pistas de azar en modelos
multinivel usando lme4 es algo diferente. Los efectos aleatorios discutidos para la nlme paquete de asumir
niveles correlacionados o anidados. Los efectos aleatorios en lme4 puede ser correlacionada o no
correlacionados. En este sentido, lme4
proporciona una mayor flexibilidad de modelado. Esta diferencia en la especificación del modelo
60 Multilevel Modelado Uso de R

se comunica a través de una sintaxis modelo diferente. Como un ejemplo, consulte Modelos 3.10 y 3.11,
cada uno de los cuales tiene los mismos efectos fijos y aleatorios. Sin embargo, las pistas al azar en
Modelo 3.10 se tratan como correlacionados entre sí; Modelo en 3.11, que se especifican como no
correlacionados. Esta falta de correlación en el Modelo 3.11 se expresa por tener términos de efecto
aleatorio separadas ( gevocab | escuela) y ( edad | escuela). En contraste, Modelo 3.10 incluye tanto
efectos aleatorios en un solo término ( gevocab + edad | escuela).

Model3.10 <- LMER (geread ~ gevocab + edad + (+ gevocab edad | escuela),


Lograr)

Model3.11 <- LMER (geread ~ gevocab + edad + (gevocab | escuela) +


edad | escuela), alcance)

Model3.10
Linear modelo mixto ajuste por REML
Fórmula: geread ~ gevocab + edad + (+ gevocab edad | escuela)
Datos: Lograr la AIC
BIC logLik desviación REMLdev 43015 43088
-21498 42974 42995
Los efectos aleatorios:
Grupos Nombre Diferencia Std.Dev. Corr
la escuela (Intercepción) 1.8361e-02 0,135503
gevocab 1.9026e-02 0,137936 0,465
años 2.4641e-05 0,004964 - 0,197 - 0,960
Residual 3.6641e + 00 1,914182
Número de obs: 10320, grupos de escuela, 160

Los efectos fijos:


Estimar Std. Error valor de t
(Intercepción) 2.965272 0.413052 7.18
gevocab 0.519278 0.014351 36.18
años - 0.008881 0.003822 - 2.32

La correlación de efectos fijos:


(Intr) gevocb
gevocab -0.081 edad
- 0,989 - 0,047

Model3.11
Linear modelo mixto ajuste por REML
Fórmula: geread ~ gevocab + edad + (gevocab | escuela) + (edad |
la escuela)
Datos: Lograr la AIC
desviación BIC logLik REMLdev
43017 43089 -21498 42975 42997
Los efectos aleatorios:
Nombre Grupos Diferencia Std.Dev. Corr
la escuela (Intercepción) 2.1436e-01 0,46299441
gevocab 1.9194e-02 0,13854364 - 0,976
Modelos de ajuste de dos niveles en R 61

la escuela (Intercepción) 2.2262e-02 0,14920466


años 8.8027e-07 0,00093822 1,000
Residual 3.6649e + 00 1,91439622
Número de obs: 10320, grupos de escuela, 160

Los efectos fijos:


Estimación Std. valor de error t
(Intercepción) 2.973619 0.414551 7.17
gevocab 0.519191 0.014397 36.06
años - 0.008956 0.003798 - 2.36

La correlación de efectos fijos:


(Intr) gevocb
gevocab -0.159 edad
- 0,989 0,033

Nótese la diferencia en la forma de efectos aleatorios se expresan en LMER Modelos entre 3.10 y 3.11. La
producción en 3.10 Modelo proporciona estimaciones idénticas a las de la nlme M Odel 3.4. Con efectos
aleatorios, R informa estimaciones de la variabilidad de la intersección aleatoria, la variabilidad para cada
pendiente azar, y las correlaciones entre la intersección aleatoria y de las pistas al azar. La producción en
Modelo 3.11, sin embargo, los informes de dos conjuntos diferentes de efectos aleatorios no correlacionados.

La primera informes conjunto variabilidad para el intercepto aleatorio y variabilidad para la pendiente
al azar para el vocabulario y la correlación entre la intersección aleatoria y la pendiente azar para
vocabulario. El segundo conjunto de efectos aleatorios informa variabilidad de una segunda intersección
aleatoria, la variabilidad en la pendiente aleatoria para la edad, y la correlación entre la intersección
aleatoria y la pendiente aleatoria para la edad. La pendiente al azar para el vocabulario y la pendiente
aleatoria para la edad no pueden correlacionar. Por último, podemos obtener

pag  los valores y los intervalos de confianza para cada término modelo utilizando el pvals.fnc
función basada en el enfoque de MCMC revisado anteriormente en este capítulo.

3.4 Opciones Adicionales

R ofrece varias opciones adicionales para la aplicación de los modelos multinivel a través de ambos nlme y
lme4 paquetes.

3.4.1 Método de estimación de parámetros

Ambos nlme y lme4 por estimación del defecto del uso restringido de máxima verosimilitud (REML). Sin
embargo, cada paquete también permite el uso de la estimación de máxima campana bilidad (ML) en su
lugar. Modelo 3.12 demuestra sintaxis para ajustar un modelo multinivel usando ML en el nlme paquete.
Para cambiar la estimación
62 Multilevel Modelado Uso de R

método en el nlme, es la llamada method = "ml". Modelo 3.13 representa apropiado del mismo modelo
multinivel usando el lme4 paquete. La convocatoria para designar el uso de la ML a utilizar es REML =
FALSE.

Model3.12 <- LME (fijo = geread ~ gevocab, al azar ~ = 1 | escuela,


datos = Lograr, method = "ml")

Model3.13 <- LMER (geread ~ gevocab + (1 | escuela), los datos = lograr,


REML = FALSE)

3.4.2 Controles de estimación

A veces un modelo correctamente especificado no llegará a una solución (convergen) en la configuración


predeterminada para la convergencia del modelo. Este problema a menudo se puede solucionar cambiando
los controles de estimación por defecto utilizando el controlar opción. problemas de convergencia se pueden
fijar con frecuencia cambiando el límite de iteración del modelo ( maxiter) o cambiando el modelo
optimizador ( optar). Para especificar qué controles se cambió, R debe dar una lista de los controles y sus
nuevos ues Val-. Por ejemplo, Control = lista (maxiter = 100, opt = "Optim")

cambiará el número máximo de iteraciones a 100 y que el optimizador


Optim. Estas opciones de control se colocan en el código R de la misma manera como la elección del
método de estimación (separados del resto de la sintaxis por una coma). Ellos son los mismos tanto
para el nlme y lme4 paquetes. Ver Modelos 3.14 y 3.15 a continuación. Una lista completa de los
controles de estimación se puede encontrar en el R ayudar? LME y? lme4 páginas.

Model3.14 <- LME (fijo = geread ~ gevocab, al azar ~ = 1 | escuela,


datos = Lograr, method = "ml", control = lista (maxiter = 100, opt =
"optim"))

Model3.15 <- LMER (geread ~ gevocab + (1 | escuela), los datos = lograr,


REML = FALSE, control = lista (maxiter = 100, opt = "optim"))

3.4.3 Chi cuadrado para comparar Ajuste del modelo

anteriormente hemos explicado cómo los ataques de varios modelos se pueden comparar con el AIC y BIC
índices de información. Sin embargo, estas estadísticas son de naturaleza descriptiva de modo que no hay
hipótesis sobre el ajuste del modelo en relación pueden ser probados formalmente. Por lo tanto, si el AIC para
un modelo es 1000,5 y 999 por otros modelos, no podemos saber si la aparentemente pequeña diferencia en
el ajuste dentro de la muestra es verdaderamente representativo de una diferencia en la forma en la población
general. Por lo tanto, cuando trabajamos con modelos anidados y uno es un modelo (es decir, más simple)
versión más limitada de otro, es posible que desee probar si ajuste global de los dos modelos es diferente.
Dicha prueba de hipótesis es po- sible mediante la prueba de chi-cuadrado diferencia en base a la desviación
estadística. Cuando se comparan los ataques de modelos anidados, la diferencia de chi-cuadrado
Modelos de ajuste de dos niveles en R 63

valores para cada modelo de desviación se pueden utilizar para comparar el ajuste del modelo. Después de cada
uno de los modelos en cuestión ha sido en forma, la diferencia en los valores de chi-cuadrado se puede obtener
utilizando la anova () Llamada de función. Para los modelos funcionan mediante el nlme paquete, el anova () comando
pro- comparaciones precisas vide sólo si se utiliza la estimación de máxima verosimilitud. Para los modelos de
ejecución mediante lme4, la anova () comando funcionará tanto para la máxima verosimilitud y máxima verosimilitud
restringida. Cuando se utiliza de máxima verosimilitud, tanto fijos como de efectos aleatorios se comparan
simultánea- mente. Cuando se usa máxima verosimilitud restringida, se comparan sólo efectos aleatorios. El
siguiente es un ejemplo de la comparación en forma con la estadística de diferencia de chi-cuadrado para los
modelos de 3.1 y 3.2 que se discutieron en detalle anteriormente.

Model3.1 <- LME (fijo = geread ~ gevocab, al azar ~ = 1 | escuela,


datos = Lograr, method = "ml")

Model3.2 <- LME (fijo = geread ~ gevocab + senroll, al azar =


~ 1 | escuela, datos = Lograr, method = "ML")

anova (Model3.1, Model3.2)

anova (Model3.1 Model3.2)

Model3.1 1
4 43.132,43 43.161,40 -21562,22
Mo del3.2 2 5 43.134,18 43.170,39 -21562,09 1 vs 2 0,2550617
0.6135

3.4.4 Intervalos de confianza para Estimaciones de los parámetros

Los lectores que estén familiarizados con los modelos multinivel pueden haber notado que ni nlme ni lme4 salida
proporciona pruebas de significación estadística de la varianza de efectos aleatorios. Como se indica en el
capítulo 2, la significación estadística de los efectos aleatorios proporciona información muy útil sobre la
variabilidad de los grupos en estudio. Usando el ejemplo de este capítulo, la significación de la intersección
aleatoria indica variaciones en la capacidad de lectura entre las escuelas de la muestra; es decir, diferentes
escuelas exhiben significativamente diferentes puntuaciones medias lectura. Del mismo modo, una pendiente
aleatoria significativa para el vocabulario indicaría una variación significativa en el impacto del vocabulario de
la capacidad a través de las escuelas de la lectura. Esto es a menudo una información muy útil por los puntos
de vista de ING provid- sobre los factores que contribuyen a marcar diferencias. Sin embargo, los paquetes
actuales no proporcionan una opción para probar la importancia de los efectos aleatorios.

Todavía es posible, sin embargo, para obtener información acerca de la significación de los efectos
aleatorios mediante la creación de intervalos de confianza. Con el nlme paquete, la llamada de función intervalos
() puede ser utilizado para generar intervalos de confianza del 95% para los efectos fijos y las varianzas de
los efectos aleatorios. Los intervalos de confianza obtenidos para las varianzas de los efectos aleatorios
puede
64 Multilevel Modelado Uso de R

ser utilizado para determinar la importancia de los efectos aleatorios. Por ejemplo, volviendo al modelo 3.3
cubierto anteriormente en este capítulo, se determinó que el vocabulario era un predictor significativo de
la capacidad de lectura. Sin embargo, no hemos podido determinar a partir de la salida del Modelo 3.3 si
la variabilidad en la intersección aleatoria o pendiente aleatoria fue significativamente diferente de 0. Si no
es diferente, el resultado indicaría que la media logro de la lectura y / o la relación de la puntuación de
vocabulario para el rendimiento en lectura no fue diferente entre las escuelas. Para determinar la
importancia de los efectos aleatorios que podemos utilizar la intervalos () Llamada de función.

intervalos (Model3.3)

los intervalos de confianza de 95% aproximados

Los efectos fijos:


inferior est. Superior
(Intercepción) 1,8859621 2.0057064 2.1254506
gevocab 0.4920982 0.5203554 0.5486126
attr ( "etiqueta")
"Efectos fijos:" [1]

Efectos aleatorios:
Nivel:
inferior est. Superior
sd ((Intercepción)) 0.4250700 0.5316531 0.6649611
sd (gevocab) 0.1153701 0.1389443 0.1673356
cor ((Intercepción), gevocab) -0,9178709 - 0.8585096 - 0.7615768

Dentro de los grupos error estándar:


inferior est. Superior
1.888327 1.914663 1.941365

Para la intersección, el intervalo de confianza del 95% se encuentra entre 0.425 y 0.665. Por lo tanto, tenemos
un 95% de confianza de que el componente de varianza real para el intercepto fue entre estos dos valores.
Asimismo, la confianza del 95% inter- val para la variación de pendiente aleatoria fue entre 0.115 y 0.167. A
partir de estos valores, podemos ver que 0 no estaba en el intervalo de cualquiera de estos efectos al azar,
interceptar o pendiente. Por lo tanto, podemos concluir que tanto la intersección aleatoria y la pendiente
aleatoria fueron significativamente diferentes de 0.

Resumen

En este capítulo se puso a trabajar los conceptos aprendidos en el capítulo 2 de trabajo utilizando R. Hemos aprendido los
conceptos básicos de los modelos de dos niveles de ajuste cuando una variable dependiente es continua utilizando la LME
y LMER paquetes. Dentro de este multinivel
Modelos de ajuste de dos niveles en R sesenta y cinco

marco, hemos aprendido cómo encajar la hipótesis nula, interceptar al azar, y los modelos de pistas al
azar. También cubrimos variables independientes, tanto a nivel de datos y aprendimos cómo comparar los
ataques de los modelos entre sí. Este último punto resultar especialmente útil, ya que participar en el
proceso de selec- ción el modelo más parsimonioso (simple) que también explica la variable depen- mella
de manera adecuada. De mayor importación en este capítulo, sin embargo, es la capacidad de adaptarse
a los modelos multinivel utilizando tanto LME y lme4 en R e interpretar correctamente la salida resultante. Si
usted ha dominado las habilidades, usted está listo para pasar al capítulo 4, donde se amplía el modelo
para incluir un tercer nivel en la jerarquía. Como veremos, el montaje real de los modelos de tres niveles
es muy similar a los modelos de dos niveles de ajuste estudiados en el capítulo.
4
Modelos de tres o más niveles

Los capítulos 2 y 3 introdujeron el marco de modelos multinivel y demostraron el uso de la nlme y lme4 R
paquetes en los modelos de dos niveles de ajuste. En el Capítulo 4, vamos a ampliar este marco
básico de dos niveles mediante el ajuste de modelos con niveles adicionales de estructura de datos.
Como se describe en el capítulo 2, se puede concebir que una unidad de nivel 1 como estudiante para
anidarse en unidades de nivel superior, tales como el aula. Por lo tanto, de acuerdo con nuestros
ejemplos, podemos suponer que al menos una parte del rendimiento de un estudiante en una prueba
de ING lectura se debe al aula en la que él o ella aprende. Cada clase puede tener un contexto único
de aprendizaje que pueden contribuir a Mance estudiante perfor-, por ejemplo, la calidad del maestro,
la presencia de los alumnos problemáticos, y la hora del día cuando los estudiantes están en la clase,
entre otros. Por otra parte, como hemos visto en los capítulos anteriores, los impactos de efectos fijos
sobre una variable dependiente puede variar entre unidades de nivel 2,

Veremos que es posible estimar modelos con tres o más niveles de una estructura anidada
utilizando R y aprender que el R comandos para definir y ajustar estos modelos son muy similares
a los utilizados en el caso de dos niveles. Dentro de nlme y lme4 paquetes, la misma función se
llama a que hemos utilizado para los modelos de dos niveles se pueden utilizar para definir los
modelos con tres o más niveles:

LME (fijo, los datos, al azar, de correlación, pesos, subconjunto, método,


na.action, control, contrasta = NULL, keep.data = TRUE)

LMER (fórmula, datos, familia = NULL, REML = TRUE,


Control = list (), start = NULL, verbosa = FALSO, doFit = TRUE, subconjunto,
pesos, na.action, offset, contrasta = NULL, modelo = TRUE, x = TRUE, ...)

En este capítulo, vamos a seguir trabajando con los datos descritos en el Capítulo 3. Los
ejemplos en este capítulo incluyen dos niveles de estructuras de datos (los estudiantes dentro de las
escuelas y los predictores asociados de rendimiento en lectura en cada nivel). Ahora vamos a añadir
un tercer nivel de la estructura, el aula, que está anidado dentro de las escuelas. En este contexto, anidado

simplemente significa que los estudiantes dentro de un salón de clases todos asisten a la misma escuela. Por lo tanto, los
estudiantes están anidados dentro de las clases que a su vez están anidados dentro de las escuelas.

67
68 Multilevel Modelado Uso de R

4.1 La nlme Paquete

4.1.1 Los modelos simples de tres niveles

La sintaxis R para definir y modelos de ajuste que incorporen más de dos niveles de estructuras de datos es
muy similar a la de los modelos de dos niveles que ya hemos visto. Comenzamos definiendo un modelo nulo
para la predicción de rendimiento en la lectura de los estudiantes en la que regresores pueden incluir
características a nivel de los estudiantes, las características a nivel de aula, y las características a nivel escolar.
La sintaxis para adaptarse a un modelo nulo de tres niveles aparece a continuación con los resultados
almacenados en el objeto Model4.1.

Model4.1 <- LME (fijo = geread ~ 1, al azar ~ = 1 | escuela / clase,


datos = Lograr)

Podemos ver que la sintaxis para ajustar un modelo intercepta al azar con tres niveles es muy similar
a la para el mismo modelo con dos niveles. Para definir un modelo con más de dos niveles, hay que
incluir las variables que denotan los niveles superiores de las estructuras de anidación: colegio ( influencia
a nivel escolar) y
clase ( influencia clase de nivel) y designar la estructura de anidación de los niveles (alumnos
dentro de las aulas en las escuelas). La estructura anidada en
LME se define como A / B donde A es la unidad de datos de nivel superior (por ejemplo, escuela) y B es la unidad
inferior (por ejemplo, sala de clase). Para ver la salida resultante, se utiliza el
resumen comando en el objeto modelo ajustado, como se hace en los capítulos anteriores.

Resumen (Model4.1)

Lineal de efectos mixtos modelo de ajuste por REML de datos:


Lograr
AIC BIC logLik
46154 -23073 46.182,97

Los efectos aleatorios: Fórmula: ~ 1


| colegio
(Intercepción)

DesviaciónEstándar: 0.558397

Fórmula: ~ 1 | la clase% en la escuela%


(Intercepción) DesviaciónEstándar
residual: 0,5221697 2,201589

Los efectos fijos: 1 ~ geread


Valor Std.Error DF t-valor p-valor
(Intercepción) 4.308059 0.05499197 9752 78.33979 0

Estandarizado dentro de los grupos residuales:


min Q1 Medicina Q3 Max
- 2.3052011 - 0.6289598 - 0.2093700 0.3049100 3.8673251
Modelos de tres o más niveles 69

Número de observaciones: 10320 Número de


grupos:
clase de la escuela en la escuela%%
160 568

Como se trata de un modelo de sólo intersección aleatoria, no hay mucho más allá de la interpretación se
requiere el ajuste del modelo (AIC, BIC, y la probabilidad log). Sin embargo, deben tenerse en cuenta algunas
piezas de información. Por ejemplo, vemos dos conjuntos diferentes de efectos aleatorios: (1) efectos aleatorios
para ~ 1 | escuela para modelar la intersección de variar entre escuelas y (2) los efectos aleatorios para ~ 1 | clase%
en la escuela%
para modelar la intersección a variar a través de aulas en las escuelas. Recuerda de nuestra discusión en el
capítulo 2 que también podemos interpretar estas intercepciones aleatorias como medios de la variable
dependiente (lectura) que varía entre los distintos niveles de los efectos aleatorios (aulas y escuelas).
También hay que señalar que al final de la salida, R resume el tamaño de la muestra para cada una de las
unidades de mayor nivel. Este es un buen lugar para comprobar para asegurarse de que un modelo se
define adecuadamente y se utilicen los datos apropiados. Por ejemplo, varios salones de clase existen
dentro de cada escuela, por lo que tiene sentido tener un menor número de escuelas ( escuela = 160) y un
mayor número de clases ( la clase% en la escuela = 568%).

Por último, podemos utilizar el intervalos componente en función de la nlme


biblioteca para obtener intervalos de confianza para nuestros efectos aleatorios.

intervalos (Model4.1)

los intervalos de confianza de 95% aproximados

Los efectos fijos:


inferior est. Superior
(Interceptar) 4.200265 4.30806 4.415855
attr ( "etiqueta")
"Efectos fijos:" [1]

Efectos aleatorios: Nivel:

inferior est. Superior


sd ((Intercepción)) 0.4702517 0.5583923 0.6630533
Nivel: Clase
inferior est. Superior
sd ((Intercepción)) 0.4545912 0.5221676 0.5997895

Dentro de los grupos error estándar:


inferior est. Superior
2.170908 2.201589 2.232704

Sobre la base de estos intervalos, podemos inferir, por ejemplo, que la escuela un estudiante asiste tiene
un impacto en su puntuación de lectura debido a que el intervalo de confianza del 95% para la desviación
estándar no incluye 0. Nos gustaría llegar
70 Multilevel Modelado Uso de R

una inferencia similar para una clase anidada dentro de una escuela, porque una vez más, el intervalo de
confianza del 95% no incluye 0.
Puesto que ahora sabemos cómo definir una estructura de datos de alto nivel, podemos añadir predictores a
la parte fija de un modelo multinivel con tres o más niveles exactamente de la misma manera que para un
modelo de dos niveles. Por ejemplo, podemos desear extender el modelo de sólo intersección descrito
anteriormente para incluir varias variables inde- pendientes como la puntuación prueba de vocabulario de un
estudiante ( gevocab), el tamaño de la clase de lectura ( clenroll), y el tamaño de la escuela ( cenroll). En

LME, el comando R para el montaje de este modelo y la visualización de la salida resultante es

Model4.2 <- LME (fijo = geread ~ gevocab + clenroll + cenroll,


al azar = ~ 1 | escuela / clase, los datos Lograr =)

Resumen (Model4.2)

Lineal de efectos mixtos modelo de ajuste por REML de datos:


Lograr
AIC BIC logLik
43.144,87 43.195,56 -21.565,43

Los efectos aleatorios: Fórmula: ~ 1


| colegio
(Intercepción)
DesviaciónEstándar: 0.2766194

Fórmula: ~ 1 | la clase% en la escuela%


(Intercepción) DesviaciónEstándar
residual: 0,3007871 1,922991

Los efectos fijos: geread ~ gevocab + + clenroll cenroll


Valor Std.Error DF t-valor p-valor
(Intercepción) 1,6751266 0,20809604 9751 8.04978 0.0000
gevocab 0.5075566 0.00842654 9751 60.23313 0.0000
clenroll 0.0189860 0.00955860 407 1.98628 0,0477
cenroll - 0.0000037 0.00000364 158 - 1.02193 0.3084
Correlación:
(Intr) gevocb clnrll
gevocab -0.124 -0.961
clenroll - 0,062
cenroll -0.134 0.025 -0.007

Estandarizado dentro de los grupos residuales:


min Q1 Medicina Q3 Max
- 3.2211629 - 0.5672782 - 0.2079045 0.3183508 4.4736276

Número de observaciones: 10320 Número de


grupos:
clase de la escuela en la escuela%%
160 568
Modelos de tres o más niveles 71

Al interpretar la salida, primero queremos saber si INCLUYENDO las variables de predicción genera un
modelo de mejor ajuste. Como vimos en el capítulo 3, podemos comparar los modelos mediante el examen
de los valores BIC AIC y para cada variable (valores más bajos indican un mejor ajuste). Para el modelo
nulo original, estos valores fueron 46.154 y 46.182,97, respectivamente, que son tanto más grande que el
AIC y BIC para el Modelo 4.2. Por lo tanto, llegamos a la conclusión de que este último modelo que incluye
una variable predictor único en cada nivel que proporciona un ajuste ter BET a los datos, y por lo tanto es
preferible que el modelo nulo sin predictores. Podemos ver en la salida para el modelo 4.2 puntuación que
el vocabulario de un estudiante ( t = 60.23, p < 0,001), y el tamaño de la clase ( t = 1.99, p <. 05) son
predictores estadísticamente significativamente positivos del estudiante que lee el puntaje logro, pero el
tamaño de la escuela ( t = - 1.02, p = 0,308) no predicen significativamente el rendimiento ing lectura.

Como nota al margen, la relación positiva significativa entre el tamaño de la clase y el rendimiento en
lectura puede parecer un poco confuso, lo que sugiere que los estu- diantes en las aulas más grandes logran
resultados de las pruebas de lectura logro más altos. Sin embargo, en este caso aulas grandes con mucha
frecuencia incluyen múltiples ayudantes del profesor, de manera que la proporción real de adulto a estudiante
puede haber sido más bajos que los resultados para las clases con menos estudiantes. Además, las
estimaciones para las intercepciones aleatorias de clase anidada en la escuela y la escuela disminuyeron en
valor a las del modelo nulo, lo que sugiere que cuando tomamos en cuenta los tres efectos fijos, algunas de
las diferencias medias entre escuelas y entre las aulas se contabilizan. Utilizando la intervalos comando,
podemos obtener los intervalos de confianza tanto para los efectos fijos y aleatorios en el modelo como se
muestra a continuación.

los intervalos de confianza de 95% aproximados

Los efectos fijos:


inferior est. Superior
(Intercepción) 1.267215e + 00 1.675127e + 00 2.083038e + 00
gevocab 4.910389e-01 5.075566e-01 5.240744e-01
clenroll 1.956547e-04 1.898604e-02 3.777642e-02
cenroll - 1.091387e-05 -3.721429e-06 3.471016e-06
attr ( "etiqueta")
"Efectos fijos:" [1]

Efectos aleatorios: Nivel:

inferior est. Superior


sd ((Intercepción)) 0,2173971 0.2766194 0.3519749
Nivel: Clase
inferior est. Superior
sd ((Intercepción)) 0,2409209 0.3007871 0.3755294

Dentro de los grupos error estándar:


inferior est. Superior
1.896210 1.922991 1.950151
72 Multilevel Modelado Uso de R

En términos de los efectos fijos, los intervalos de confianza del 95% demuestran que la puntuación de
vocabulario y tamaño de las clases son estadísticamente predictores significativos de los niveles de lectura, pero
el tamaño de la escuela no lo es. Además, se observa que aunque la variación en intercepta al azar para
escuelas y aulas anidados en las escuelas disminuyó con la inclusión de los efectos fijos, todavía a la conclusión
de que los términos de intersección aleatoria son diferentes de 0 en la población, lo que indica que quiere decir
puntuaciones de lectura difieren en todas las escuelas y en las aulas anidadas dentro de las escuelas. los R 2 valor
para el Modelo 4.2 se puede calcular como

2 2
METRO
1 METRO
1
R1
12 =-σ+τ 2
σ METRO
+ 0τ
2
METRO
0

+
= -1 1.922991 0.3007871
2.201589 0.5221697
+

= -1 2.2237781 =- =
2.7237587 0.1835628 1 0.81643726

A partir de este valor, vemos que la inclusión de las variables de clase y Ment enroll- la escuela, junto con
decenas de vocabulario del estudiante resulta en un modelo que explica aproximadamente el 18% de la
variación en la puntuación de lectura por encima y más allá del modelo nulo. Utilizando LME, es muy fácil
para incluir tanto de un solo nivel y las interacciones a nivel transversal de un modelo si la estructura de nivel
superior se entiende. Por ejemplo, podemos tener una hipótesis que indica que el impacto de la puntuación
de vocabulario sobre el rendimiento en lectura varía en función del tamaño de la escuela que asiste el
estudiante. Para probar esta hipótesis, debemos incluir la interacción entre la puntuación y el tamaño de la
escuela, el vocabulario como en el modelo 4.3.

Model4.3 <- LME (fijo = geread ~ gevocab + clenroll + cenroll + gevoca


b * cenroll, al azar ~ = 1 | escuela / clase, los datos Lograr =)

Resumen (model4.3)

Lineal de efectos mixtos modelo de ajuste por REML de datos:


Lograr
AIC BIC logLik
43.167,75 43.225,69 - 21.575,88

Los efectos aleatorios: Fórmula: ~ 1


| colegio
(Intercepción)

DesviaciónEstándar: 0.274096

Fórmula: ~ 1 | la clase% en la escuela%


(Intercepción) DesviaciónEstándar
residual: 0,2975919 1,923059
Modelos de tres o más niveles 73

Los efectos fijos: geread ~ gevocab + + clenroll cenroll + gevocab


* cenroll
valor Std.Error DF t-valor p-valor
(Interceptar) 1.7515430 0.20999285 9750 8.34096 0.0000
gevocab 0.4899998 0.01168332 9750 41.94013 0.0000
clenroll 0.0188007 0.00951172 407 1,97659 0,0488
cenroll - 0.0000132 0.00000563 158 -2,33721 0,0207
gevocab: cenroll 0.0000023 0.00000107 9750 2,18957 0,0286
Correlación:
(Intr) gevocb clnrll cenrll
gevocab - 0,203
clenroll - 0,949 - 0,041
cenroll - 0,212 0,542 0.000
gevocab: 0,166 cenroll - 0,693 - 0,007 - 0,766

Estandarizado dentro de los grupos residuales:


min Q1 Medicina Q3 Max
- 3.1901563 - 0.5682666 - 0.2060729 0.3183307 4.4723839

Número de observaciones: 10320 Número de


grupos:
clase de la escuela en la escuela%%
160 568

En este ejemplo podemos ver que, aparte de que incluye una estructura ing Nest- más alto nivel en la línea
de efectos aleatorios, definiendo una interacción a nivel de cruz en un modelo con más de dos niveles no
es diferente de la aproximación para los modelos de dos niveles cubiertos en capítulo 3. el primer resultado
que buscamos es si o no el modelo que incluye la interacción proporciona un mejor ajuste a los datos que
el modelo 4.2, sin interacción. Una vez más, vamos a tomar esta decisión basándose en los valores BIC
AIC y.

Debido a que estos índices son más grandes de información para el modelo 4.3, se concluye que la inclusión
de la interacción de puntuación de vocabulario y tamaño de la escuela no produce un modelo de mejor ajuste. En
cuanto a los resultados de las pruebas de hipótesis, el vocabulario del estudiante ( t = 41.94, p < 0,001) y el tamaño
de clase ( t = 1.98,
pag  <0,05) siguen siendo predictores positivos estadísticamente significativos de la lectura abil- dad. Además,
tanto la interacción a nivel de cruce entre el vocabulario y tamaño de la escuela ( t =   2.19, p <. 005) y el impacto
del tamaño de la escuela por sí sola ( t = -2.34,
p < 0,05) son también predictores estadísticamente significativos de la puntuación de lectura. El término de
interacción estadísticamente significativa indica que el impacto de la puntuación de vocabulario de los
estudiantes en el logro de lectura depende en cierta medida del tamaño de la escuela. Así, los principales
efectos para la escuela y vocabulario no pueden interpretarse en forma aislada y deben ser considerados
a la luz de la otra. El lector interesado puede consultar Aiken y West (1991) para más detalles sobre la
interpretación de las interacciones en la regresión. Debemos tener en cuenta que aunque esta interacción
es estadísticamente significativa, su inclusión no dió un modelo de mejor ajuste general. Por lo tanto, un
investigador debe decidir
74 Multilevel Modelado Uso de R

si el objetivo principal de este análisis es el desarrollo de un modelo de manera óptima accesorio o explorar las
relaciones en los datos. Modelo 4.2 es una mejor opción para el desarrollo de un modelo apropiado de manera
óptima. Sin embargo, si el objetivo es determinar los factores relacionados con el logro de lectura en una población
más amplia, Modelo 4.3 sería preferible porque se encontró que la interacción entre los diferentes niveles para ser
estadísticamente significativa. Finalmente, el R 2 para el modelo 4.3 aparece a continuación:

2 2
METRO
1 METRO
1
R1
12 =-σ+τ 2
σ METRO
+ 0τ
2
METRO
0

+
= -1 1.923059 0.2975919
2.201589 0.5221697
+

= -1 2.2206509 =- =
2.7237587 1 0.81528914 0.18471086

Con la inclusión de la interacción de la clase y tamaño de la escuela, terminamos con un modelo que
explica aproximadamente el 18,5% de la varianza en el resultado. Este valor es muy similar a la porción
de la varianza explicada por el modelo sin la interacción, lo que sugiere, además, que su inclusión
contribuye poco al análisis de la lectura de resultados de las pruebas.

4.1.2 Los modelos simples con más de tres niveles

Para este punto en este capítulo, discutimos el uso de R para los modelos tilevel ples de montaje con tres
niveles de estructuras de datos. En algunos casos, SIN EMBARGO, podemos desear para adaptarse a los
modelos multinivel de más de tres niveles. los
LME función en R se puede utilizar para adaptarse a tales modelos de nivel superior en mucho la misma
manera se explicó anteriormente. Como un simple ejemplo de este tipo de modelos de orden superior,
volveremos a adaptarse a un modelo nulo predecir el rendimiento en lectura, esta vez incorporando cuatro
niveles de datos: los estudiantes anidados dentro de las aulas anidadas dentro de las escuelas anidado
dentro de corporaciones escolares (o distritos). Al igual que con los ejemplos anteriores, la parte del código
que refleja la estructura de datos multinivel aparece en la azar = línea. Para representar los tres niveles más
altos de influencia, esta línea será al azar = ~ 1 | corp / escuela / clase en el Modelo 4.4. Además de ajustar
el modelo y obtain- ing un resumen de los resultados, también vamos a solicitar intervalos de confianza del
95% para los parámetros del modelo.

Model4.4 <- LME (fijo = geread ~ 1, al azar ~ = 1 | corp / escuela /


clase, los datos = Lograr)
Resumen (Model4.3) intervalos
(Model4.3)
Modelos de tres o más niveles 75

Para asegurar que el conjunto de datos es leído por R como creemos que debería ser, podemos examinar en
primer lugar la última línea de la salida donde se encuentra un resumen de los tamaños de las muestras para
los diferentes niveles de datos. Hubo 10320 estudiantes anidados en 568 aulas ( la clase% en% en%% escuela
Corp) anidado dentro de 160 escuelas ( la escuela% en% Corp) anidado dentro de 59 corporaciones escolares;
esto coincide con lo que sabemos acerca de los datos. Por lo tanto, podemos proceder con la interpretación de
los resultados. Debido a que estamos trabajando con un modelo nulo sin predictores fijos, nuestro enfoque
principal está en las estimaciones de intercepción para los efectos dom ran- y sus intervalos de confianza
asociados. Podemos ver en los resultados a continuación que cada nivel de los datos resultantes de las
intersecciones que eran signifi- cativamente diferente de 0 (0 dado que no aparece en ninguno de los intervalos
de confianza), lo que indica que significan las puntuaciones de rendimiento de lectura difieren entre las aulas, la
escuelas, y las corporaciones escolares.

Lineal de efectos mixtos modelo de ajuste por REML de datos:


Lograr
AIC BIC logLik
46.113,22 46.149,43 -23.051,61

Los efectos aleatorios: Fórmula:


~ 1 | corp
(Intercepción)
DesviaciónEstándar: 0.4210368

Fórmula: ~ 1 | la escuela% en% corp


(Intercepción)
DesviaciónEstándar: 0.2957739

Fórmula: ~ 1 | la clase% en% en%% escuela corp


(Intercepción) DesviaciónEstándar
residual: 0,5247664 2,201589

Los efectos fijos: 1 ~ geread


Valor Std.Error DF t-valor p-valor
(Interceptar) 4.325832 0.0719804 9752 60.09736 0

Estandarizado dentro de los grupos residuales:


min Q1 Medicina Q3 Max
- 2.2995182 -0.6304798 -0.2130699 0.3028559 3.9448301

Número de observaciones: 10320 Número de


grupos:
corp% escuela en la clase% corp% en% en%% escuela corp
59 160 568

los intervalos de confianza de 95% aproximados

Los efectos fijos:


inferior est. Superior
(Interceptar) 4.184738 4.32583 4.466923
76 Multilevel Modelado Uso de R

attr ( "etiqueta")
"Efectos fijos:" [1]

Efectos aleatorios: Nivel:


corp
inferior est. Superior
sd ((Intercepción)) 0.321723 0.4209979 0.5509065
Nivel:
inferior est. Superior
sd ((Intercepción)) 0.2003532 0.295833 0.4368144
Nivel: Clase
inferior est. Superior
sd ((Intercepción)) 0.4578135 0.5247746 0.6015295

Dentro de los grupos error estándar:


inferior est. Superior
2.170912 2.201587 2.232695

4.1.3 Los modelos con coeficientes aleatorios tres o más niveles

Capítulo 2 discutió la coeficientes aleatorios modelo multinivel en el que se permite que el impacto de
uno o más efectos fijos a variar a través de los nive- les de un efecto aleatorio. Así, por ejemplo,
podríamos evaluar si la relación de la puntuación de prueba de vocabulario en el logro de lectura
difiere en la escuela. En el capítulo 3 hemos aprendido cómo encajar tales coeficientes aleatorios mo-
els utilizando tanto LME y LMER. Basado en la similitud relativa en la sintaxis para los modelos de dos y
de tres niveles de ajuste, como se puede esperar a la definición de modelos de coeficientes aleatorios
en el contexto de tres niveles con LME es muy parecida a la de los modelos de dos niveles. Como
ejemplo, considere un modelo destinado a determinar si las puntuaciones medias de lectura difieren
entre hombres y mujeres, mientras que representa la relación entre el vocabulario y la lectura.
Además, creemos que la relación de género a la lectura puede ser diferente entre las escuelas y en
las aulas, lo que conduce a un modelo en el que se permite que el coeficiente de género a variar a
través de ambos efectos aleatorios en un modelo de tres niveles. abajo esta el LME secuencia de
comandos para el montaje de este modelo.

Model4.5 <- LME (fijo = geread ~ + gevocab de género,


= ~ aleatoria de género | escuela / clase, los datos Lograr =)

Esta sintaxis permite que el coeficiente de género para variar tanto en la escuela y en el aula. La salida
resultante aparece a continuación. La función de intervalos que no está disponible para su uso con modelos en
los que se permite coeficientes para variar aleatoriamente a través de dos niveles de la estructura de datos.

Resumen (Model4.5)
Lineal de efectos mixtos modelo de ajuste por REML de datos:
Lograr
Modelos de tres o más niveles 77

AIC BIC logLik


43.127,93 43.200,35 - 21.553,97

Efectos aleatorios:
Fórmula: ~ de género | colegio
Estructura: general definida positiva, Log-Cholesky
parametrización
DesviaciónEstándar Corr
(Interceptar) 0.2447898 (Intr)
de género [T.MALE] 0.1099837 0,435

Fórmula: ~ de género | la clase% en la escuela%


Estructura: general definida positiva, Log-Cholesky
parametrización
DesviaciónEstándar Corr
(Interceptar) 0,302866649 (Intr)
de género [T.MALE] 0.001872273 -0.002 residual
1,922520180

Los efectos fijos: geread ~ + gevocab de género


Valor Std.Error DF t-valor p-valor
(Interceptar) 2.0325683 0.05261305 9750 38.63240 0.0000
gevocab 0.5091249 0.00840838 9750 60.54972 0.0000
de género [T.MALE] 0.0175476 0.03929220 9750 0,44659 0,6552
Correlación:
(Intr) gevocb
gevocab - 0,728
de género [T.MALE] - 0,343 0,039

Estandarizado dentro de los grupos residuales:


min Q1 Medicina Q3 Max
- 3.2117008 - 0.5676468 -0.2071997 0.3160768 4.4474378

Número de observaciones: 10320 Número de


grupos:
clase de la escuela en la escuela%%
160 568

La interpretación de estos resultados, observamos en primer lugar hay una relación estadísticamente significativa
entre el efecto de género fijo y el rendimiento en lectura. En otras palabras, a través de aulas y escuelas, la
diferencia en el promedio de logro para machos y hembras lectura no se muestra para ser estadísticamente
significativo en una contabilidad para las puntuaciones de vocabulario. La estimación para el término de
coeficientes aleatorios de género en el ámbito escolar es de aproximadamente 0,11 y aproximadamente 0,002 en
el salón de clases anidadas en el nivel de la escuela. Por lo tanto, parece que la relación de rendimiento en la
lectura de género varía más en todas las escuelas que lo hace en las aulas, al menos de forma descriptiva.

Como se señaló anteriormente en el modelo 4.5, se permitió que los coeficientes para el género variar
aleatoriamente entre ambas clases y escuelas. Sin embargo, en algunos
78 Multilevel Modelado Uso de R

situaciones un investigador puede estar interesado en permitir que el coeficiente para un efecto fijo para variar
por sólo uno de los efectos aleatorios, como clase, por ejemplo. El uso de la sintaxis para el modelo 4.5 se
define el coeficiente azar con ~ de género | escuela / clase, permitiendo de este modo tanto el origen y la
pendiente de variar a través de ambas clases y escuelas. Esta definición del modelo no es lo suficientemente
flexible como para permitir que diferentes estructuras de efectos aleatorios a través de niveles anidados de los
datos, lo que significa que hay que permitir que el coeficiente de género a través varían tanto en la escuela y
en el aula si queremos que varíe en absoluto a través de los efectos aleatorios. Tal vez nos gustaría plantear
la hipótesis de que gobiernan la relación de género y la lectura varía significativamente en las aulas, pero no
en todas las escuelas. Para modelar esta situación, una sintaxis más flexible es necesario para que las
estructuras de diferentes efectos aleatorios se pueden definir para cada nivel. Tal sintaxis modelo para LME aparece
a continuación, seguido por los intervalos de salida y de confianza resultantes.

Model4.6 <- LME (fijo = geread ~ gevocab + género, al azar =


lista (la escuela = ~ 1, class = ~ género), los datos Lograr =)

Resumen (Model4.6) intervalos


(Model4.6)
Lineal de efectos mixtos modelo de ajuste por REML de datos:
Lograr
AIC BIC logLik
43.125,18 43.183,11 -21.554,59

Los efectos aleatorios: Fórmula: ~ 1


| colegio
(Intercepción)
DesviaciónEstándar: 0.2737245

Fórmula: ~ de género | la clase% en la escuela%


Estructura: general definida positiva, Log-Cholesky
parametrización
DesviaciónEstándar Corr
(Interceptar) 0.3020930 (Intr)
de género [T.MALE] 0.1651159 - 0,128
Residual 1.9215119

Los efectos fijos: geread ~ + gevocab de género


Valor Std.Error DF t-valor p-valor
(Interceptar) 2.0319411 0.05357037 9750 37.93031 0.0000
gevocab 0.5090472 0.00841459 9750 60.49580 0.0000
de género [T.MALE] 0.0190565 0.03880625 9750 0,49107 0.6234
Correlación:
(Intr) gevocb
gevocab - 0,716
de género [T.MALE] -0.383 0,039
Modelos de tres o más niveles 79

Estandarizado dentro de los grupos residuales:


min Q1 Medicina Q3 Max
- 3.2117255 - 0.5676850 - 0.2072087 0.3182784 4.4324383

Número de observaciones: 10320 Número de


grupos:
clase de la escuela en la escuela%%
160 568

los intervalos de confianza de 95% aproximados

Los efectos fijos:


inferior est. Superior
(Interceptar) 1.92693202 2.13695011 2.0319411
gevocab 0.49255285 0.52554152 0.5090472
de género [T.MALE] - 0.05701179 0.09512479 0.0190565
attr ( "etiqueta")
"Efectos fijos:" [1]

Efectos aleatorios: Nivel:

inferior est. Superior


sd ((Intercepción)) 0.2147064 0.2737245 0.3489655
Nivel: Clase
inferior est. Superior
sd ((Intercepción)) 0.23347625 0.3020931 0.3908758
sd (género [T.MALE]) 0.04241262 0.1651160 0.6428111
cor ((Intercepción), el género [T.MALE]) -0,52745676 -0,1282554 0,3173376

Dentro de los grupos error estándar:


inferior est. Superior
1.894364 1.921512 1.949049

El uso de esta sintaxis R, podemos definir con mayor flexibilidad modelos con términos anidados permitiendo
al mismo tiempo diferentes estructuras de datos de efectos aleatorios en cada nivel. Es importante cuando se
utiliza esta sintaxis para recordar que R infiere la estructura ing Nest- Del orden de los efectos aleatorios en
una lista. Por lo tanto, la primera variable de agrupación en una lista debe ser la unidad de nivel superior
(escuelas en este caso), y la segunda variable de agrupación debe ser la unidad de nivel inferior (aulas).

Los resultados del análisis revelan que el coeficiente aleatorio para género a través de aula anidado
en las escuelas es de aproximadamente 0,02, que es mayor que el resultado cuando el coeficiente
también se dejó variar por la escuela, como en el modelo 4.5. Además, el término coeficiente aleatorio
probablemente difiere de 0 en la población puesto que su intervalo de confianza del 95% oscila desde
0,04 hasta 0,64 y no incluye 0. A partir de estos resultados, se concluye que nuestra hipótesis se ha
indicado anteriormente se apoya, a saber, que la relación de de género y el logro ing lectura varía entre
las clases anidadas dentro de las escuelas.
80 Multilevel Modelado Uso de R

4.2 lme4 de tres o más niveles

Como veremos más adelante, la definición y los modelos de tres niveles de ajuste utilizando lme4 es muy similar en
la mayoría de las formas de hacerlo con LME y también está estrechamente alineada con los modelos de dos niveles
de ajuste con lme4. En esta sección, vamos a demostrar la sintaxis y la salida de lme4 usando los ejemplos descritos
anteriormente con
nlme. Para ajustar el modelo nulo incluyendo sólo la intersección aleatoria, clase anidada en la escuela, y la
escuela con la lectura como la variable dependiente, usaríamos la siguiente sintaxis. Tenga en cuenta que al
igual que con LME, especificamos la estructura de datos anidadas clase de la escuela, que se denota como
un efecto aleatorio por su inclusión en los paréntesis.

Model4.7 <- LMER (geread ~ 1 + (1 | escuela / clase), los datos Lograr =)

Para examinar los productos resultantes de nuestro análisis, vamos a utilizar el resumen
mando.

Resumen (Model4.7)
Linear modelo mixto ajuste por REML
Fórmula: geread ~ 1 + (1 | escuela / clase)
Datos: Lograr
AIC BIC logLik desviación REMLdev 46154 46183
-23073 46142 46146
Los efectos aleatorios:
Grupos Nombre Varianza Std.Dev.
clase: la escuela (Intercepción) 0.27265 0.52216 escuela
(Intercepción) 0,31181 0,55840
Residual 4.84700 2.20159
Número de obs: 10320, grupos: clase: escuela, 568; escolares, 160 efectos fijos:

Estimar Std. Error valor de t


(Interceptar) 4.30806 0.05499 78.34

Con la excepción de errores de redondeo, estos resultados son esencialmente identi- cal a los obtenidos
utilizando LME. Específicamente, la varianza asociada con clase anidada en la escuela es 0,273, mientras
que la asociada con la escuela es 0,312, y la varianza residual es 4.847. También podemos obtener
intervalos de confianza para los efectos dom ran- en el modelo utilizando el método MCMC discutido en el
capítulo 3.

Model4.7.pvals <-pvals.fnc (Model4.7, nsim = 10.000, withMCMC = TRUE) Model4.7.pvals $ aleatoria

grupos Nombre Std.Dev. MCMCmedian MCMCmean HPD95lower HPD95upper


1 clase: la escuela (Intercepción) 0.5222 0.4574 0,4572 0.3926 0.5235
2 la escuela (Intercepción) 0.5584 0.5399 0.5416 0.4550 0.6310
3 Residual 2.2016 2.2094 2.2095 2.1786 2.2406

Debido a que los intervalos de confianza para cada término excluyen 0, podemos concluir de estos resultados que
cada uno de los términos incluidos en el modelo estaba relacionada con
Modelos de tres o más niveles 81

la variable de resultado. En otras palabras, no se observaron diferencias en las puntuaciones de lectura a través
de las aulas en las escuelas y en las propias escuelas. Ahora que vemos cómo encajar los modelos de tres
niveles utilizando LMER, podemos ajustar un modelo más complejo que incluye las variables predictoras de
vocabulario (estudiante gevocab), el tamaño de la clase del estudiante ( clenroll), y el tamaño de la escuela del
estudiante ( cenroll) como efectos fijos. Continuamos para ajustar el modelo de tres niveles con la clase anidada
en la escuela como antes. La sintaxis para el montaje de este modelo en LMER y la obtención de la salida
resultante es

Model4.8 <- LMER (geread ~ gevocab + + clenroll cenroll + (1 | escuela /


clase), los datos = Lograr)

Resumen (Model4.8)
Linear modelo mixto ajuste por REML
Fórmula: g ~ eread gevocab + + clenroll cenroll + (1 | escuela /
clase)
Datos: Lograr la AIC
BIC logLik desviación REMLdev 43145 43196
-21565 43087 43131
Los efectos aleatorios:
Grupos Nombre Diferencia Std.Dev.
clase: la escuela (Intercepción) 0.090473 0.30079
colegio (Interceptar) 0.076518 0.27662
Residual 3.697895 1.92299
Número de obs: 10320, grupos: clase: escuela, 568; escuela, 160

Los efectos fijos:


Estimar Std. Error valor de t
(Interceptar) 1.675e + 00 2.081e-01 8.05
gevocab 5.076e-01 8.426e-03 60.23
clenroll 1.898e-02 9.558e-03 1.99
cenroll - 3.721e-06 3.641e-06 - 1.02

La correlación de efectos fijos:


(Intr) gevocb clnrll
gevocab - 0,124
clenroll -0.961 - 0,062
cenroll - 0,134 0,025 - 0,007

En la interpretación de estos resultados, primero vamos a considerar si este modelo más complejo se
ajusta a los datos mejor que el modelo nulo más simple que no incluye los tres predictores fijos. Los
valores de AIC y BIC para el modelo 4.8 son 43145 y 43196, respectivamente. Ellos son inferiores a las de
la modelo nulo (Modelo 4.7) -46154 y 46183. Como señalamos anteriormente, los valores más bajos de
estos índices de información indican un mejor ajuste, lo que nos lleva a la conclusión de que el modelo que
incluye los efectos fijos proporciona un ajuste superior. Ahora vamos a examinar los parámetros estimados
para los tres efectos fijos. Vemos que el tamaño del vocabulario y la clase son tanto positivamente
relacionada con la lectura
82 Multilevel Modelado Uso de R

anota, por lo que los valores más altos de cada predictor están asociados con las puntuaciones de lectura más
elevados. En contraste, el tamaño de la escuela se asocia negativamente con la puntuación de la lectura. Como se
indica anteriormente, LMER no provee pag valores para las pruebas de hipó- tesis de estimaciones de los parámetros
del modelo. Por lo tanto, si queremos identificar qué parámetros en una población es probable que sea diferente de 0
(estadísticamente significativa camente), debemos usar el método MCMC se describe en el Capítulo 3.

Model4.8.pvals <-pvals.fnc (Model4.8, nsim = 10.000, withMCMC = TRUE) Model4.8.pvals $ fijo

Estimar MCMCmean HPD95lower HPD95upper pMCMC Pr (> | t |)


(Interceptar) 1.6751 1.6654 1.2420 2.0506 0,0001 0.0000
gevocab 0.5076 0.5087 0.4920 0.5246 0,0001 0.0000
clenroll 0,0190 0,0192 0,0005 0,0372 0,0416 0,0470
cenroll 0.0000 0.0000 0.0000 0.0000 0.2992 0.3068
Model4.3b.pvals $ aleatoria
grupos Nombre Std.Dev. MCMCmedian MCMCmean HPD95lower HPD95upper
1 clase: la escuela (Intercepción) 0.3008 0.2534 0.2519 0.1789 0.3201
2 la escuela (Intercepción) 0.2766 0.2792 0.2800 0,2152 0.3416
3 Residual 1.9230 1.9274 1.9275 1.8996 1.9544

Usando este método, vemos que tanto el vocabulario y la puntuación de inscripción en clase tienen una
relación estadísticamente significativa con la puntuación de lectura, mientras que el tamaño de la escuela no
lo hace. Este resultado coincide con nuestros hallazgos usando LME. Además, la cantidad de varianza en las
puntuaciones de lectura asociados con los efectos aleatorios, en particular para la clase anidada en la
escuela y la escuela, se redujo en valor desde el modelo nulo. Este resultado sugiere que algunas de las
variaciones asociado a estos efectos aleatorios en el modelo nulo surge de los tamaños de aula y escuela,
respectivamente. Finalmente, LMER proporciona una matriz de correlación para los efectos fijos. Los valores
bajos en el resultado indican claramente muy poca relación entre las estimaciones de los efectos fijos.

Un investigador puede estar interesado en la inclusión de una interacción en el modelo. En particular, él


o ella puede hipotetizar que la relación entre el vocabulario y la lectura es a su vez afectada por el tamaño
de la escuela. Esta interacción a nivel de cruz está incluido en el Modelo 4.9 a continuación.

Model4.9 <- LMER (geread ~ gevocab + clenroll + + cenroll gevocab *


cenroll + (1 | escuela / clase), los datos Lograr =)

Resumen (Model4.9)
Linear modelo mixto ajuste por REML
Fórmula: geread ~ gevocab + + clenroll cenroll + gevocab *
cenroll + (1 | escuela / clase) Datos: Lograr la
AIC
BIC logLik desviación REMLdev 43168 43226
-21576 43083 43152
Los efectos aleatorios:
Grupos Nombre Varianza Std.Dev.
clase: la escuela (Intercepción) 0.088561 0.29759
colegio (Intercepción) 0.075129 0.27410
Residual 3.698156 1.92306
Número de obs: 10320, grupos: clase: escuela, 568; escuela, 160
Modelos de tres o más niveles 83

Los efectos fijos:


Estimación Std. valor de error t
(Interceptar) 1.752e + 00 2.100e-01 8.34
gevocab 4.900e-01 1.168e-02 41.94
clenroll 1.880e-02 9.511e-03 1.98
cenroll - 1.316e-05 5.628e-06 - 2.34
gevocab: cenroll 2.340e-06 1.069e-06 2.19

La correlación de efectos fijos:


(Intr) gevocb clnrll cenrll
gevocab - 0,203
clenroll - 0,949 - 0,041
cenroll - 0,212 0,542 0.000
gevcb: 0,166 cnrll - 0,693 - 0,007 - 0,766

En términos de modelo de comparación en forma, la AIC y BIC para el modelo 4.9 son 43168 y 43226.
Son más grandes que los obtenidos para el modelo no incluyendo la interacción de vocabulario y tamaño
de la escuela (43145 y 43196). Por lo tanto, llegamos a la conclusión de que el modelo que incluye la
interacción no se ajusta a los datos, así como el modelo sin ella. Nos próxima desee obtener los
resultados de las pruebas de hipótesis MCMC.

Model4.9.pvals <-pvals.fnc (Model4.9, nsim = 10.000, withMCMC = TRUE) Model4.9.pvals $ fijo

Estimar MCMCmean HPD95lower HPD95upper pMCMC Pr (> | t |)


(Interceptar) 1.7516 1.7492 1.3560 2,1617 0,0001 0.0000
gevocab 0.4900 0.4904 0.4677 0,5128 0,0001 0.0000
clenroll 0,0188 0,0188 0,0002 0,0371 0,0462 0,0481
cenroll 0.0000 0.0000 0.0000 0,0000 0,0164 0,0194
gevocab: cenroll 0.0000 0.0000 0.0000 0,0000 0,0228 0,0286
Model4.9.pvals $ aleatoria
grupos Nombre Std.Dev. MCMCmedian MCMCmean HPD95lower HPD95upper
1 clase: la escuela (Intercepción) 0.2976 0.2511 0.2495 0,1778 0,3165
2 la escuela (Intercepción) 0.2741 0.2771 0.2773 0.2128 0.3387
3 Residual 1.9231 1.9280 1.9278 1.8991 1.9537

Vemos que la puntuación del vocabulario de los estudiantes, el tamaño de la clase, tamaño de la escuela, y la
interacción de tamaño puntuación y la escuela vocabulario fueron todas estadísticamente sig- signifi-. Además,
se sabe que ambos efectos aleatorios fueron significativamente diferentes de 0, porque los intervalos de
confianza para estas condiciones no incluían 0. Por último, las estimaciones de los parámetros para el término
de interacción fueron correlacionados con las estimaciones tanto para el vocabulario y la matrícula escolar.
Estos parámetros no fueron fuertemente correlacionados en el modelo no incluyendo la interacción, lo que
sugiere que la interacción induce las relaciones entre las diversas estimaciones. Al igual que con LME, es
posible ajustar los modelos con más de tres niveles utilizando

LMER. En el siguiente ejemplo, nos ajustamos un modelo de cuatro niveles en los que los estudiantes se anidan en las
clases anidadas en las escuelas anidados en las corporaciones escolares. Usando este modelo, se puede estimar la
cantidad de varianza en las puntuaciones de las pruebas de lectura del estudiante asociados a cada nivel de la estructura
de datos anidada. los comandos
84 Multilevel Modelado Uso de R

para estimar este modelo y obtener la salida aparecen a continuación. Vemos que la estructura anidada de cuatro
niveles es simplemente una ampliación de la estructura de tres niveles en la que los niveles más altos aparecen
primero en la lista, separados por barras (/).

Model4.10 <- LMER (geread ~ 1 + (1 | corp / escuela / clase), los datos =


Lograr)
Resumen (Model4.10)

Linear modelo mixto ajuste por REML


Fórmula: geread ~ 1 + (1 | corp / escuela / clase)
Datos: Lograr la AIC
BIC logLik desviación REMLdev 46113
46149 -23052 46100 46103
Los efectos aleatorios:
Grupos Nombre Diferencia Std.Dev.
clase: (escuela: corp) (Intercepción) 0.275399 0.52478
la escuela: corp (Interceptar) 0.087452 0.29572
corp (Interceptar) 0.177256 0.42102
Residual 4.846993 2.20159
N umber de obs: 10.320, grupos: clase: (escuela: corp), 568; la escuela: corp, 160; corp, 59

Los efectos fijos:


Estimación Std. Error valor de t
(Interceptar) 4.32583 0.07196 60.11

Sobre la base de estos resultados, se concluye que clase anidada dentro de la escuela dentro de las
cuentas Corporación para la mayor parte de la varianza puntuación, seguido por la corporación, y
finalmente la escuela anidado dentro corporación. Los intervalos de confianza al azar efectos MCMC de
hipótesis para este modelo aparecen a continuación. El hecho de que no se incluye a 0 indica que en cada
nivel de los datos, hubo diferencias entre-cluster en el rendimiento de lectura promedio.

Model4.10.pvals <-pvals.fnc (Model4.10, nsim = 10.000, withMCMC = TRUE) Model4.10.pvals $ aleatoria

grupos Nombre Std.Dev. MCMCmedian MCMCmean HPD95lower HPD95upper


1 clase: (escuela: corp) (Intercepción) 0.5248 0,4606 0,4605 0.3943 0.5281
2 la escuela: corp (Intercepción) 0.2957 0,2999 0,2984 0.1895 0.4054
3 corp (Intercepción) 0,4210 0,4203 0,4235 0.3147 0.5327
4 Residual 2.2016 2,2086 2,2086 2.1791 2.2405

Utilizando LMER, es posible estimar un modelo laderas aleatorio en el que se permite que el coeficiente de la
vinculación de un efecto fijo para la variable de resultado de variar según el nivel del efecto aleatorio. En el caso
de una estructura de datos de tres niveles, podemos ajustar un modelo laderas aleatoria de tal manera que se
permite que el coeficiente de variar tanto para los efectos aleatorios simultáneamente. En el ejemplo actual, esto
significaría que permite el coeficiente para un efecto fijo (por ejemplo, género) para variar por aula anidado en la
escuela y por la escuela. La secuencia de comandos R para el montaje de un modelo con una intersección
aleatoria, y un coeficiente aleatorio para género, utilizando

LMER aparece a continuación.

Das könnte Ihnen auch gefallen