Beruflich Dokumente
Kultur Dokumente
MODELOS JERARQUICOS
LINEALES
IWI
editorial
LA MURALLA, S. A.
JOSE LUIS GAVIRIA SOTO
MARiA CASTRO MORERA
MODELOS JERARQUICOS
LINEALES
I~I
editorial
LA MURAUA, SA
CUADERNOS DE ESTADiSTlCA
Direcci6n: Juan Etxeberria Murgiondo
Francisco J. Tejedor Tejedor INDICE
se articulan los datos, estando cada subnivel representado por su ra ninglin parecido entre alumnos de la misma clase, la informacion
propio modelo (Draper, 1995). Cada uno de estos submodelos ex- de 10 alumnos de una clase es igual a la informacion de 10 alum-
presa la relacion entre las variables dentro de un determinado ni- nos de 10 clases distintas.
vel y especifica como las variables de ese nivel influyen en las rela- Las consecuencias de no tener en cuenta la autocorrelacion son
ciones que se establecen en otros niveles. Es decir, constituyen una importantes:
estrategia analftica que permite la formulacion jerarquica de las
fuentes de variacion y con capacidad para dar cuenta de esta es- a) no se tiene tanta informacion del nivel individual como pa-
tructura. El amilisis multinivel es una metodologia para el amilisis de rece,
datos con patrones complejos de variabilidad, enfocada a fuentes anidadas b) se afirma la existencia de resultados significativos cuando no
de variabilidad. los hay,
Una jerarquia consiste en un nivel basico de observaciones ani-
dadas 0 agrupadas dentro un nivel de agrupamiento de orden su- c) se construyen modelos innecesariamente complejos y
perior (estudiantes dentro de escuelas, trabajadores dentro de d) los errores tfpicos son demasiado pequenos.
centros de trabajo, medidas repetidas anidadas en personas 0 ins-
tituciones ... ). El nivel basico se suele denominar micro-nivel 0 pri- Las inferencias probabilfsticas que se realizan en los paquetes
mer nivel y el nivel de orden superior, macro-nivel. Los macro-nive- estadfsticos habituales asumen que los datos son independientes
les suelen denominarse tam bien grupos 0 de modo mas general, (que los residuos estan distribuidos igualmente e independiente-
contextos. Por supuesto, cabe mas de un nivel macro (estudiantes mente (IDD)).
agrupados en clases, agrupados en escuelas, agrupados en munici- Lo caracterfstico de los modelos multinivel es que permiten es-
pios 0 comunidades autonomas). pecificar afirmaciones 0 proposiciones causales que son hipotesis de
El grado de homogeneidad de los contextos viene expresado relaciones entre variables, procedentes del mismo 0 de diferentes
por la correlacion intraclase 0 autocorrelaci6n (Lc.e.), que habitual- niveles (Tacq, 1986). En cada nivel de la jerarqufa se pueden defi-
mente es ignorada por los modelos estadfsticos clasicos. La corre- nir variables referidas a las unidades de analisis de cada uno de los
lacion intraclase es una medida de la homogeneidad interna de los niveles. Atendiendo al nivel al que pertenezcan las variables ten-
grupos. Es una medida de la similitud de las unidades del nivel in- dremos proposiciones macro, micro 0 interniveles.
dividual y de las diferencias entre las unidades de nivel macro. Yes Imaginemos una investigacion en la que tenemos escuelas, como
muy importante para la determinacion del tamano de la muestra macro-nivel, que son grandes, pequenas, privadas, publicas, con me-
en el muestreo por conglomerados, en estudios longitudinales y en jores 0 peores resultados medios. Y tambien tenemos alumnos, como
la determinacion de la diferencia entre a nominal y a real (Bar- micro-nivel, con mayores 0 menores ingresos, que son chic os 0 chi-
cikowski, 1981; Kreft & de Leeuw, 1998). Si no existiese la correla- cas, con mejores 0 peores resultados. ~Que proposiciones hipoteti-
cion intraclase, no estarfamos interesados en los modelo multini- cas podrfamos plantear?
vel (Skinner, 1989). Se podrfa pensar en el estudio de la influencia del clima insti-
Cuando los datos estan naturalmente agrupados las unidades de tucional (Z) sobre el rendimiento medio del centro (Y). Se plantea
analisis del mismo grupo tienden a parecerse entre sf, como y'a he- entonces una proposicion macro (Figura 1.1a), puesto que se esta-
mos dicho. Por tanto, la informacion proporcionada por dos alum- blece una relacion entre dos variables definidas en el nivel macro
nos procedentes de la misma clase es menor que la proporcionada (escuela). Ahora bien, si se trata de estudiar la relacion entre el es-
por el mismo numero de alumnos procedentes de clases distintas. tatus ocupacional (x) e ingresos en sujetos de un vecindario (y), se
Si todos los alumnos de la misma clase fueran exactamente iguales, plantearfa entonces una proposicion micro (Figura 1.lb), don de las
la informacion que proporcionarfan 1000 alumnos serfa igual a la variables que intervienen en la investigacion pertenecen todas al ni-
informacion de un unico alumno. En el otro extremo, si no hubie- vel del alumno. Sin embargo, es posible establecer proposiciones in-
16 MODELOS JEAARQUICOS LINEALES EL TRATAMIENTO ESTADISTICO DE LA JERARQUlA 17
terniveles, estableciendo relaciones cruzadas entre las variables del cion en Ciencias Sociales consiste en estudiar como las ca-
nivel micro y macro. Tal es el caso de la investigacion que quisiera racteristicas del grupo afectan a los distintos tip os de indi-
estudiar la influencia del clima institucional (Z) en el rendimiento viduos. Esta consideracion de 14s diferencias contextuales se
individual (y) (Figura 1.1 c). 0 tambien de aquella que controla ade- concreta en:
mas el nivel socio-economico del alumno (x) (Figura 1.1 d). Y de
aquella que propone que la titularidad (Z) (publica 0 privada) del • Consideracion de la heterogeneidad: los efectos de los
centro afecta a la relacion entre nivel socio-economico del alumno contextos pueden potencialmente ser muy complejos,
(x) y su rendimiento academico (y) (Figura LIe). Es precisamente con relaciones que varian en distintos sentidos. Es nece-
este ultimo tipo de relacion la que solo puede estudiarse adecua- sario estudiar quien eres en relacion con donde estas.
damente con los modelos que aqui se presentan. • Interaccion entre individuos y contextos: ya que hay que
tener en cuenta la posibilidad de que un individuo in-
teractue con su contexto proximo de forma diferente a
NivelMacro Z~Y
z ..... z ..... Z"--
la que 10 hace su grupo social de referencia. 0 10 que es
Nivel Micro x~y "'y x~y x~y 10 mismo, las diferencias entre contextos deben ser exa-
minadas en relacion con las caracteristicas de los indivi-
a b c d e
duos en combinacion con las caracteristicas sociales de
FIGURA 1.1. Proposiciones posibles dentro del esquema multinivel. aquellos.
• Inclusion de conductas interrelacionadas: las diferencias
son importantes, pero hay que estudiarlas pentro del con-
1.1. VENTAJAS CONCEPTUALES DE LOS MODELOS MULTINIVEL
texto de otras conductas relacionadas. Por ejemplo, el es-
tudio del rendimiento academico y los habitos de estudio
Parece claro que se requieren herramientas estadisticas que se individuales, no puede considerarse de forma separada
ocupen de cuidar la heterogeneidad existente entre contextos (es- de los habitos de lectura 0 de numero de horas viendo la
cuelas, centros de trabajo, comunidades autonomas) y entre indi- television.
viduos simultaneamente. En definitiva, supone no tratar a los con- • Consideracion de multiples contextos: Es posible que no
textos como un todo homogeneo con una unica y comun influencia exista un unico contexto. Por ejemplo, en el caso del ren-
sobre la variable de respuesta. Ahora bien, tampoco seria muy ra- dimiento academico, los resultados pueden estar influi-
zonable ni muy parsimonioso la busqueda de cientos de ecuacio- dos por el centro al que asisten, pero tambien por el con-
nes particulares que ajusten separadamente para cada contexto. Se texto familiar.
busca, por tanto, una estrategia que permita dar una respuesta es-
pecifica y general al mismo tiempo. Que permita atender tanto a 2. Permite analizar simultaneamente contextos y heterogeneidad indi-
10 comun como a la diferencia. En este sentido, la aportacion de vidual, ya que no solo se deben considerar las diferencias en-
los modelos multinivel esta en que: tre contextos, por ejemplo (siguiendo a Coleman) las per-
sonas de nivel sociocultural bajo no solo pueden diferir en
1. Permite considerar las diferencias contextuales: los individuos la media de rendimiento academico, sino que tambien pue-
producen diferencias y los contextos producen diferencias. den ser mas 0 menos variables en sus puntuaciones.
Luego se precisan modelos que no reduzcan a los indivi-
duos a agregaciones estadisticas y que no limiten los con- 3. Permite combinar la investigaci6n intensiva con la extensiva 0 10
textos a vagas generalizaciones. Gran parte de la investiga- que es 10 mismo, cualidad y cantidad. Las conductas y las
18 MODELOS jEAARQUICOS LINEALES EL TRATAMIENTO ESTADISTICO DE lAjERARQUiA IV
/~ \ -/\ /\
vo (cuanto, como de frecuente ... en el macro nivel). Ambos
elementos deben considerarse simultaneamente. La inves-
tigacion extensiva permite identificar patrones, pero al mis-
mo tiempo permite identificar grupos especificos que ne- Alumnos 1 2 3 4 1 2 1 234 1 2 3
cesitan estudios intensivos. No se debe olvidar que un mismo
fenomeno estudiado en el nivel micro 0 en el nivel macro FIGURA 1.3. Estructura de dos niveles, diseiio desequilibrado.
por separado presenta relaciones a veces contradictorias, tal
y como muestran Kreft et al. (1995) en su estudio sobre los Las estructuras de tres 0 mas niveles son la extension logica y mas di-
ingresos de los trabajadores industriales en relacion con su recta de la anterior: alumnos en clases en escuelas, pacientes en cli-
formacion. nicas en provincias, votantes en vecindarios en ciudades son ejem-
plos de ella. Como en el caso anterior, en cada nivel podemos tener
variables referidas a las unidades de analisis de ese nivel.
1.2. ALCUNAS ESTRUCTURASjEAARQUICAS Las estructuras polietapicas son otro ejemplo de estructura jerar-
quica. En un muestreo aleatorio simple, todos los sujetos tienen la
Hasta ahora se han presentado ejemplos de estructuras jerar- misma probabilidad de formar parte de la muestra. En cambio, en
quicas muy sencillas. Sin embargo la situacion de anidamiento en un muestreo aleatorio por conglomerados, la probabilidad de for-
los datos se encuentra en muy distintos tipos de investigacion. Va- mar parte de la muestra depende de la estructura y representacion
mos a presentar a continuacion algunas estructuras jerarquicas fre- de los conglomerados. Por ejemplo, se muestrean ciudades, codi-
cuentes en la investigacion en Ciencias Sociales. gos postales dentro de la ciudad, edificios, hogares e individuos den-
Las estructuras jerarquicas a las que nos hemos referido hasta el tro de los hogares.
momenta son las estructuras de dos niveles. Ejemplos clasicos de este Otra estructurajerarquica se corresponde con los estudios longi-
tipo de agrupamiento jerarquico son alumnos en escuelas, pacien- tudinales, que tratan de estudiar cambios a 10 largo del tiempo. Los
tes en clinicas, votantes en distritos, casas en vecindarios, individuos estudios de medidas repetidas son un exponente de ello. Se pueden
en sectores economicos, etc. diferenciar aquellos estudios en los que las medidas estan repetidas
Con estas estructuras se presentan dos tipos de disenos: equi- en los mismos individuos (estudios de panel), por ejemplo el estu-
librados y desequilibrados. Los primeros tienen el mismo numero dio del cambio de la tendencia de voto de los sujetos. Los niveles
de unidades de nivel uno en cada agrupamiento de nivel dos (Figu- macro corresponden a las agrupaciones por region, distrito electo-
ra 1.2.). Los segundos muestran un tamano muestral distinto para ral e individuo. Y el nivel micro estaria representado por el voto en
cada contexto (Figura 1.3). las sucesivas consultas electorales. Algunas aplicaciones tipicas serian
los estudios de medida del cambio y de curvas de crecimiento. Tam-
bien se encuentran estudios con medidas repetidas en niveles ma-
Escuela 1 2 3 4 cro de agrupamiento, por ejemplo el estudio del cambio del voto
Alumnos 1
/\ /\ /\ /\
2 3 1 2 3 123 1 2 3
en distritos. Los niveles macro definidos podrian ser las regiones, el
distrito electoral y el ano de la consulta. Anidados en estos se en-
cuentra el nivel micro compuesto por los votos individuales de los
sujetos. Son medidas repetidas en el mismo distrito, pero no en los
mismos individuos. Estos estudios se denominan cross-sectional. Yuna
FIGURA 1.2. Estructura de dos niveles, diseiio equilibrado. aplicacion tipica seria el estudio de diferentes cohortes de ninos en
20 MODELOS JERAAQUICOS LINEALES EL TRATAMIENTO ESTADISTICO DE LA JERARQUfA 21
las mismas escuelas, 010 que es 10 mismo, el estudio del rendimiento l.3. LA CUESTION DE LA DENOMINACION
de las escuelas y su cambio a 10 largo del tiempo.
Los estudios de estructuras multivariadas tambien responden a un Hablamos de modelos multinivel, pero tambien de modelos je-
patr6n jerarquico de datos. Las diferentes respuestas estan ani- rarquicos lineales, modelos de efectos mixtos, modelos contextua-
dadas dentro de los mismos individuos. Por ejemplo, la ingesta de les, de coeficientes aleatorios, de crecimiento, de curva latente ... La
diversas sustancias por un mismo sujeto (tabaco, alcohol, dieta gra- lista de denominaciones no es infinita, pero sf extensa. ~Son todas
sa), sus habitos de vida (ejercicio y tipo de vida) y los niveles de co- estas denominaciones equivalentes? ~A que se debe tal variedad? La
lesterol en sangre constituyen las variables de respuesta, que a su vez variaci6n en la denominaci6n se debe al aspecto sobre el que f~e
estan anidada en el propio sujeto y en diversas comunidades. mos nuestro interes del modelo.
Un caso particular del anterior son las estructuras de medida. Un Hablamos de modelos jerarquicos por la dependencia jerarqui-
ejemplo clasico son las respuestas a un cuestionario. Todas las res- ca que se establece entre los parametros que representan al nivel
puestas de un individuo a las preguntas de un cuestionario son uni- micro y al macro, siendo los primeros variables aleat~ria~ en ~l rna-
dades que estan anidadas en el propio individuo, que es la unidad delo que representa al nivel macro. La estructuraJerarqUlca ~e
de nivel inmediatamente superior. A su vez los individuos pueden los datos no define necesariamente lajerarqufa en el modelo, sm
estar anidados en clases, etc. embargo ambas jerarquias sue len ir juntas (Raudenb~s~l, 2001).
Las estructuras meta-analiticas, que suponen la sfntesis cuantitati- La caracterizaci6n ademas de lineales se debe a la relaCIon que se
va de un gran mimero de resultados de investigaci6n. La estructura establece entre la variable criterio y las variables predictoras en
jerarquica tambien es clara. Los sujetos estin anidados dentro de los cualquiera de los niveles definidos. El modelo sera multinivel por-
estudios, que tienen diversas caracterfsticas. que describe datos que varian en dos niveles (ent~e sujetos y ~ntre
Tambien las estructuras de clasificaci6n cruzadas, tan familiares contextos). La denominaci6n de modelo de coeficzen:tes aleatorzos se
a quienes hacen uso del analisis factorial de varianza, pueden en- debe a que la parte micro del modelo incluye coeficientes que va-
tenderse como estructuras de anidamiento. En las estructuras de cla- riaran aleatoriamente en la parte macro del modelo. El modelo
sificaci6n cruzada el nivel macro es doble. Los sujetos estan anidados sera calificado de curva latente porque los parametros describen una
simultaneamente en dos tipos de agrupamiento. Por ejemplo, los trayectoria que es inobservable, dependiendo de las variables no
alumnos estin anidados en escuelas y vecindarios. Escuelas y vecin- observables incluidas en el modelo. Sera un modelo latente de cre-
darios son agrupamientos de nivel superior en las que algunas uni- cimiento cuando incluya una funci6n incremental monot6nica de
dades individuales coinciden pero otras no, como se ilustra en la Fi- esa trayectoria que representa al crecimiento. El mod~lo pue~e ser
gura 1.4. tambien denominado mixto, al incorporar efectos flJos asoCIados
al impacto de las variables predictoras y efectos aleato~i,os qu~ re-
presentan la variaci6n aleatoria entre contextos. Tamblen sera un
Nive12 Escuelas 1 2 3
modelo de componentes de covarianza al incluir estimaciones de la
Nivel 2 Vecindario
~~ 1 2
mas de una fuente, no debemos olvidar que se trata de un COdlgO
que hay que interpretar. Como todo.c6digo, hay algo de arbitra~
rio en el mismo. Lo que importa es slempre el concepto que esta
detras de la nomenclatura 0 de la notaci6n. En cualquier caso, en
FIGURA 1.4. Estructura de clasificaci6n cruzada. este texto se ha elegido aquella notaci6n que es consistente con la
22 MODELOS JERARQUICOS LINEALES
2
REGRESION EN DOS NIVELES
... . . ... . .
aleatorios (Kreft y de Leeuw, 1998), donde los coeficientes de regre-
sion del primer nivel son tratados como variables aleatorias en el ~
segundo nivel. Esto significa que los coeficientes del primer nivel
son entendidos como los originadores de una distribucion de pro- .* • • • • 1 1
babilidad. Los parametros mas importantes de esta distribucion (me- • • Punt9 de Corte ~f3o)
dia y la varianza) estan entre el conjunto de parametros que deben
ser estimados en el modelo multinivel. AI anadir un segundo nivel
de variables explicativas el modelo de coeficientes aleatorios se hace -2 -1 o 2 N. SociQ'
mas general y, al mismo tiempo, mas util. Esto es a 10 que comun- econ6mico
(2.1)
El rendimiento esperado de los alumnos de nivel socio-econo-
mico medio es 150, y este aumenta en 10 puntos por cada punto del
nivel socio-economico.
26 MODELOS JEAARQUICOS LINEALES REGRESION EN DOS NIVELES 27
Alumnos Yj Xl Y; f
1 170 1 160 10
en este caso concreto, las unidades de rendimiento academico. justifica por la interpretacion, a mas pendiente mayor es el trato no equitativo de la escuela, pues-
to que el rendimiento de sus alumnos es mas dependiente del nivel socio-economico del alum-
La figura 2.2 pone tam bien de manifiesto la posibilidad muy real no y no de la intervencion escolar. El sentido tecnico de este concepto se refiere a la 'eficacia
y muy plausible en much as situaciones de que tanto puntos de cor- diferencial' del centro con respecto a caracterfsticas especfficas de los alumnos.
28 MODELOS JERARQUICOS LINEALES REGRESION EN DOS NIVELES
en las pendientes, y no parece muy pnictico estimar una ecuacion de la ecuacion y en f.10j que es el rendimiento diferencial de la es-
de regresion para cada escuela. Por este motivo, adoptamos una uni- cuela j y representa la parte aleatoria del modelo en el segundo
ca ecuacion para j escuelas. nivel vinculada al punto de corte. •
De modo analogo, f31j tambien puede tenervariabilidad propia,
(2.4) y se descompone en f31 que es el incremento medio en el rendi-
miento por el aumento en el nivel socio-economico en la poblacion
Esta variabilidad en el segundo nivel es la caracterfstica princi- de escuelas, que forma parte de la parte ftia del modelo, y el termi-
pal y definitoria en los modelos multinivel, dando lugar a un mo- no f.11j' que es el incremento diferencial en el rendimiento por el
delo diferente al tradicional modelo de regresion del que hemos aumento en el nivel socio-economico en la escuela j. Es la parte alea-
partido. El modelo que representa las relaciones entre la variable toria del modelo en el segundo nivel vinculada a la pendiente.
de respuesta y los predictores en el micro nivel serfa como el plan- Asf:
teado en la ecuacion 2.4.
Siguiendo con nuestro ejemplo, esta ecuacion representa la re- C( f31 j) = f30 v(f3oj ) = a;o
lacion existente entre el rendimiento academico y el nivel socio-
economico de los alumnos. Como se puede observar, la variable de C(f31j) = f31 v(f3Jj) = a;1
respuesta, Yij' es el rendimiento de un alumno, i, en la escuela j.
Dentro de una escuela dada, la escuela j, la parte sistematica 0 ftia
de este modelo esta representada por (f3o j + f31 j X1ij)' aunque como
veremos, desde una perspectiva macro esos terminos incluyen tan- Es decir, f30 j y f31 j tienen una distribucion normfll bivariada. Y
to parte ftia como aleatoria. El coeficiente f30 j es el rendimiento es- como hemos senalado f30 es la media general para la poblacion de
perado en la escuela j cuando Xl es igual a cero. Yel coeficiente f31 j escuelas. f3I es la pendiente para la poblacion de escuelas. Y aZo' aZI
es el incremento en el rendimiento por cada unidad que aumenta y al-'ol-' 1 son la varianza entre puntos de corte, pendientes y la cova-
el nivel socio-economico del alumno en la escuela j. El ultimo ter- riacion entre punto de corte y pendiente, respectivamente.
mino de la ecuacion 2.4 es la variacion residual del alumno i en la Es evidente que si las escuelas difieren en el punto de corte y
escuela j, es decir, 10 que se aparta del rendimiento esperado segun en la pendiente, las varianzas de estos parametros sera mayor que
su nivel socio-economico. Se asume que tiene una distribucion nor- cero, y esas varianzas, aZo Y aZ se convierten en parametros del
1
,
mal, con media cero y varianza constante, Cij ~ N(O, ai), es decir, modelo.
asumimos que la varianza es homogenea para todas las escuelas. Pero ademas puede intuirse que es posible que los valores de in-
Ahora bien, al ser f30 j y f31j val ores propios de cada escuela, es- tercepto y pendiente en cada escuela pueden estar relacionados. En
tamos suponiendo la variabilidad entre contextos. Esta considera- efecto, es posible que las escuelas mas eficaces (con mayor inter- .
cion exige un desarrollo propio, al convertir a estos coeficientes en cepto) sean tambien las mas equitativas (con menor pendiente). Eso
variables aleatorias en el nivel macro, representado por las ecua- supondrfa una covarianza negativa entre esos dos parametros. Asf,
ciones 2.5 y 2.6. la covarianza entre intercepto y pendiente se convierte en otro pa-
rametro a estimar en el modelo.
f30 j = f30 + f.10j (2.5) La idea de la variacion entre contextos es esencial en el marco
de los modelos multinivel. Si esta variacion no existiera no serfa ne-
f31j = f31 + f.11j (2.6)
cesario el empleo de estos modelos. Las figuras 2.3.a, b, c, dye ilus-
tran el significado de los distintos valores que pueden adoptar aZo'
El coeficiente f30 j se descompone en f30 que es el rendimiento aZI Y al-'ol-'I· En la figura 2.3.a todas las escuelas comparten la mis-
medio en la poblacion de escuelas y representa la parte sistematica rna ecuacion. Es decir, en todas las escuelas la relacion entre el ni-
30 MODELOS JERARQUICOS LINEALES REGRESION EN DOS NIVELES 31
vel socio-econ6mico y el rendimiento es la misma. Comparten la de corte y pendiente negativa, el valor de la covarianza (01'01'1) sera
misma recta de regresi6n y, por tanto, la variaci6n entre puntos de negativo. La ultima figura (figura 2.3.e) muestra la situaci6n en la
corte (0;0), pendientes (0;) y la covarianza entre ambos (01'01'1) que no hay relaci6n entre el punto de corte y la pendiente. Ambos
sera igual a cero. En la figura 2.3.b, todas las escuelas comparten valores pueden variar, por tanto 0;0 y 0;1 adoptan valores mayo-
la misma pendiente, es decir no hay variaci6n en la relaci6n que res que cero. Sin embargo, al no haber relaci6n entre los dos para-
se establece dentro de cada escuela entre la variable criterio y la metros principales, el valor de la covarianza (01'01'1) tendera a cero.
predictora (0;1 = 0). En cambio, los puntos de corte varian de cen-
tro a centro. Por tanto, 0;0 sera mayor que cero. El siguiente caso
(figura 2.3.c) se observa que cuanto mayor es la media de la escue- 2.2. FORMALlZACION DEL MODELO:
la mayor es su pendiente. Ya no hay constancia en ninguno de los MODELO COMPLETAMENTE ALEATORIO Y SUS VARlACIONES
parametros que representan la variaci6n entre centros. Las escue-
las se diferencian en el punto de corte, pero tambien en la pen- A modo de sintesis, el modelo en el micro nivel es:
diente. Luego 0;0 y 0;1 son mayores que cero. Yademas, podemos
comprobar que cuanto mayor es el punto de corte tambien es ma-
yor la pendiente. Por eso la covarianza entre esas dos variables es
positiva. El caso contrario viene representado por la figura 2.3.d, Yel modelo en el macro-nivel es:
donde se observa que cuanto mayor es la media de la escuela, me-
nor es la pendiente. Como en el caso anterior, 0;0 y 0;1 adoptan POj = Po + ''''OJ
valores mayores que cero, en cambio, al ser la relaci6n entre punto
Plj = PI + ""lj
y y y y y Donde, POj y Plj tienen una distribuci6n normal bivariada:
1 ~
i
& ~ 5t2 iI
~
i
~
L L LLL
P. Corte P. Corte P. Corte P. Corte
•
P. Corte
•
Aunque hasta ahora hayamos presentado un modelo subdivido en
dos niveles diferenciados, esto no significa que tengamos dos mode-
los diferenciados, puesto que las ecuaciones 2.5 y 2.6 se pueden susti-
tuir en la ecuaci6n 2.4, dando lugar al modelo general (Ecuaci6n 2.7)
a b c d e que es un modelo unico Hamado modelo completamente aleatorio:
Yel segundo nivel queda escrito como sigue, dado que no hay puesto de homocedasticidad. En efecto, la varianza en rendimiento
variabilidad en el segundo nivel para el coeficiente f3l j : es mayor entre los sujetos que tienen nivel socio-economico mas alto,
y menor en el extremo opuesto. Hemo~ particularizado un alumno
f30 j = f30 + !-lOj (2.8) de una de las escuelas. En este caso, ei , el residuo que corresponde
a ese alumno es, como puede verse, la distancia entre su nivel de
(2.9) rendimiento academico y la recta de regresion.
Er: la Figura 2.6.2. y siguientes tenemos la misma nube de pun-
El modele completo quedarfa: tos, solo que ahora ademas de la regresion comun, (f3o + f3l Xij) te-
nemos representados una recta de regresion especffica para cada
(2.10) escuela. Comprobamos as! que 10 que antes era ei ahora se des-
compone en varios sumandos. Para una escuela dada, su intercep-
Se trata tambien de un modele de covarianza de efectos aleato- to es (f3o + !-lOj)' Por ejemplo, la escuela 1 (rombos) tiene un residuo
~Ol> que es un valor positivo. Sin embargo, la escuela 2 (cuadrados)
rios. Efectivamente, tenemos una covariable, Xl' cuya pendiente es
igual para todos los grupos. Se trata por tanto del supuesto de ho- tiene un valor de su residuo ~02 negativo.
mogeneidad de las pendientes.
En la Figura 2.6.1. vemos la nube de puntos correspondiente a
los alumnos de dos escuelas. Seguimos suponiendo que el predictor
es el nivel socio-economico y el criterio el rendimiento academico. • •
A esa nube de puntos se Ie ha ajustado una recta de regresion sim- ·185
• 185 • •
• 175
165 • • •
-2,50
•
-2,00 -1,50 -1,00 -0,50 0,00 0,50
• 1,00 1,50 2,00 2,50
• ••
2.6.2. Residuos del punta de corte.
• 0,00 0,50
• 1,00
•
1,50 2,00 2,50
FIGURA
•
• •
· 185 165
• • •
155 •
• •
• • •
165 OJ
• •
• •
• • •
• • - 2,50 -2,00 -1 ,50 - 1,00 -0,50 0,00 0,50 1,00 1,50 2,00 2,50
• •
-2,50
•
- 2,00 -1 ,50 -1 ,00 -0,50 0,00 0,50
• 1,00 1,50 2,00 2,50
riables de respuesta de los macro modelos. En los macro model os Yel modelo completo:
se reconoce un segundo nivel de variacion residual no reconoci-
do por los modelos lineales clasicos, que es la variacion entre los (2.16)
contextos.
Por tanto, con los modelos multinivel tratamos de establecer una donde y
relacion general para toda la poblacion, tratamos de estimar la va-
rianza de los interceptos, la varianza de las pendientes, y la cova- El modelo nulo se trata de hecho de un modelo de varianza de
rianza de ambas. Ademas, comprobamos si son significativamente efectos aleatorios. Continuando con las variables del ejemplo an-
distintos de cero todos los parametros, fundamentalmente las va- terior, f30 es el rendimiento medio de todas las escuelas. f.lOj es 10
rianzas. que la media de la escuela j se aparta de la media general, y Cij es
Asi, especificar un modelo jerarquico consiste en determinar tres 10 que el rendimiento del alumno i de la escuela j se aparta de la
elementos distintos: media de su escuela. La varianza a~o es la varianza entre las medias
de las escuelas, ya; es la varianza entre los alum nos dentro de cada
• La media (0 medias): que componen la parte ftia que hay escuela.
que estimar (punto de corte y/0 pendientes) (f3o, f3I> f32 ... ). Si a~o no fuese estadisticamente significativa, querria decir que
las escuelas no difieren entre s1. ~Que significaria el caso hipote-
• Las varianzas alrededor de la media (del punto de corte y/ 0 tico de que a; = 0 y a~o > O? Esto nos indicaria que las escuelas
pendientes, (a;o' a;"a;2... )' (a;). difieren entre sf, pero que cada escuela consigue exactamente el
mismo resultado para todos sus alumnos. ~Y que pas~rfa si a; >0
• La covarianza entre las distribuciones de punto de corte y las y a~o = O? Entonces toda la varianza serfa varianza entre alumnos y
pendientes (al1ol1l ' a 110112, a I11112... ). las escuelas no diferirfan entre s1. En el caso hipotetico de que no
hubiese varianza significativa en ninglin nivel del modelo nulo, no
tendria sentido tratar de introducir variables explicativas en el rna-
2.3. EL MODELO NULO delo, ya que no habria nada que explicar.
Lo habitual, sin embargo es que nos encontremos varianza signi-
Un caso particular del modelo que acabamos de ver es el cona- ficativa tanto en el primer nivel como en el segundo. Entonces todos
cido como modelo nulo. Como se desarrolla en el punto 2.7, el rna- nuestros esfuerzos se orientaran a introducir variables en el modelo
delo nulo es el termino de comparacion de cualquier otro mode- que disminuyan la varianza no explicada. Como veremos mas ade-
10 alternativo. Ademas, en una estrategia metodologica, no tendria lante, precisamente la estrategia del estadfstico de bondad de <yuste
sentido incluir variables explicativas en el modelo en ningun nivel consisten en comparar los modelos alternativos con el modelo nulo.
si no existiese varianza estadisticamente distinta de cero en el mo-
delo nulo.
El modelo nulo es el caso particular en el que no existe ninguna 2.4. AMPLIACION DE LOS MODELOS:
variable predictora. Para el nivel micro: LA INCLUSION DE PREDICTORES EN EL NIVEL MACRO
los alumnos pertenezcan a un nivel socio-economico alto. La media Observese que ahora floj no es la diferencia entre la media de
en rendimiento de esas escuelas tendera por tanto a ser mayor. Por la escuela j y la media general, sino la diferencia entre la media de
eso, al introducir el nivel socio-economico como predictor parte de la escuela j y la media de las escuelas que'son de su mismo tipo (bien
las diferencias entre escuelas disminuyen. publicas, bien privadas).
Pero es posible que otra parte de la diferencia entre las medias El modele completo es el que quedaria expresado en la ecua-
de rendimiento de las escuelas se deba a que cada una de elIas tie- cion 2.19:
ne distintas caracteristicas. Por ejemplo, supongamos que los cen-
tros publicos y privados difieran en la eficacia (distintos puntos de Yij = 1300 + 1301~ + 1310 Xlij + (flljX lij + flOj + Cij ) (2 .19)
corte). Entonces, el modele para el micro nivel seria el que venimos
planteando en la ecuacion 2.4: Se puede ver como se ha ampliado la parte f~a del modele al in-
corporar una variable predictora en el segundo nivel, en este caso
Yij = f30 j + f3l j X ij + Cij' donde Xij es el nivel socio-econo- vinculada al punto de corte.
mico de los alumnos. Sigamos avanzando. Supongamos ahora que los centros publicos
y privados difieran tambien en la inequidad (distintas pendientes)
Sin embargo, el problema que estamos planteando supone la in- ademas de en eficacia. En este caso, la ecuacion 2.18 quedaria plan-
corporacion de un predictor propio del nivel macro, en este caso teada de la siguiente manera:
las escuelas, que es su titularidad, siendo " j = 0, el valor asignado
para los centros de titularidad publica y " j = 1 el valor asignado para (2.20)
los centros privados. Dado que hem os determinado que la titulari-
dad afecta a la media del rendimiento academico, 0 10 que es 10 mis- En la ecuacion 2.20 se ha incorporado un termino ~uevo, f311"j
mo, al punto de corte, el desarrollo del modele en el segundo ni- que representa la influencia de la titularidad del centro en la ine-
vel quedaria como sigue: quidad. Asi, tenemos que 1310 es la in equid ad media para el conjun-
to de escuelas publicas. Y 1311 es la tasa de crecimiento en terminos de
(2.17) inequidad para las escuelas privadas. Como en ocasiones anteriores,
fllj es la variacion residual en la pendiente de la escuela j, respec-
(2.18) to a las escuelas de su mismo tipo de titularidad.
El modele general queda representado en la ecuacion 2.21:
La ecuacion 2.17 incluye un termino nuevo, f3Ol"j, que repre-
senta la influencia de la titularidad del centro en el rendimiento me- Yij = 1300 + f30l ~ + f3lO X ij + 1311 ~Xij + (flljX ij + floj + Cij) (2.21)
dio de cada centro. De modo analogo a como hemos venido dando
significado a los parametros del modelo, 1300 es el rendimiento aca- La parte f~a del modele se amplia. Lo mas interesante es que en
demico medio para la poblacion de escuelas publicas, ya que es el va- el termino 1311 "jx ij se ha creado una variable nueva (Wx i ) que es
lor que toma f30 j cuando " j = 0, 10 que ocurre cuando se trata de una variable de interaccion entre niveles, que represedtaJel efecto
escuelas publicas. conjunto del nivel socio-economico del alumno y de la titularidad
As1, 1301 es la pendiente de esta ecuacion, representando el in- del centro al que asiste. Esta es otra de las principales ventajas de
cremento que se produce en el rendimiento para la poblacion de los modelos multinivel, la posibilidad de probar los efectos entre
escuelas privadas. Por ultimo, floj sigue representando la variacion niveles.
residual para la escuela j. Asi, el valor esperado para las escuelas pri- Ya hemos mencionado la aditividad propia de estos modelos
vadas sera 1300 + 1301. La diferencia en rendimiento medio entre es- en la interpretacion. Si quisieramos saber, por ejemplo, cual es
cuelas publicas y privadas seria f3Ol. el rendimiento academico medio para la poblacion de escuelas
42 MODELOS JERARQUICOS LINEALES REGRESION EN DOS NIVELES
privadas, no tendrfamos mas que sumar f300 Y f301' De modo ana- Usando una notaci6n mas compacta, podrfamos escribir:
logo, si estuvieramos interesados en conocer el impacto que tie-
ne la titularidad privada en la inequidad de los centros, sumarfa-
mos f3IO Y f3ll'
Yij
P
= f30 j + Lf3PjXPij + Cij' donde '
p=1
Gij ~ N(O, an (2 .28)
donde Cij ~ N(O, an. Observese que ai es la varianza dentro de las Tanto en 2.28 como en 2.29, si definimos un par de vectores de
escuelas, Yla suponemos constante para todas las escuelas. unos, XOij = [1,1,1, ... ,1], W;j = [1,1,1, ... ,1], f30 j = f30 j X Oij Yf3po = f3p oWo j ,
Y para el nivel macro: entonces:
P
f30 j = f300 + f301 ~j + f302 ~j + ... + f30L W Lj + floj (2.23) Yij = Lf3PjXPij + Cij (2.30)
p=o
~2.24) L
XViudo
0
0
1
0
0
1
EC C C S V V S
AI ser la relacion no lineal, la variable predictora se tratara como
una variable categorica. X Casado 1 1 0 0 0 0
Cuando los valores del predictor solo denotan categorfas distin-
tas como por ejemplo el estado civil, el sexo, la titularidad del cen- XViudo 0 0 0 1 1 0
46 MODELOS JERARQUICOS LINEALES REGRESION EN DOS NIVELES '17
Si formularamos un modelo en dos niveles, el nivel micro serfa EI modelo entonces quedarfa formulado de la siguiente manera:
el nivel de los individuos y el nivel macro serfa el del grupo familiar.
(2.36)
Asf:
(2.32)
f3s j = f3s + !1-sj (2.37)
(2.34)
(2.39)
(2.35)
Por supuesto, al cambiar la codificacion cambia tambien la sig-
Donde f30 j es el nivel medio de ingreso de los solteros del grupo nificaci6n de los para.metros. Ahora no hay un intercepto comun.
familiar j, f3ej es la diferencia entre el nivel medio de ingreso de los Ahora hay en realidad tres interceptos distintos, uno para cada una
casados y los solteros del grupo familiar j. Y f3Vj es la diferencia en- de las categorfas.
tre el nivel medio de ingreso de los viudos y los solteros del grupo Asf, el nivel medio de ingreso de los solteros del grupo familiar
familiar j. Efectivamente, recuerdese que f30 j es el valor que toma j viene dado por f3s j' el de los casados de un grupo familiar j serfa
Yij cuando los de mas terminos de la ecuacion son cero. Y esto ocu- f3ej yel de los viudos del grupo familiar j sena f3vj' La diferencia en-
rre cuando Xc = 0 y Xv = 0, es decir, cuando el sujeto es soltero. tre los niveles medios de ingresos de solteros y casados sena la dife-
Si quisieramos conocer cual es el nivel medio de ingresos de los rencia entre los valores medios de ambos grupos, es decir (f3s - f3J .
casados del grupo familiar j, no tendrfamos mas que sumar los coe- Si quisieramos conocer cuanto se diferencian los ingresos medios
ficientes f30 j y f3ej' De igual manera, para los viudos, calcularfamos de los solteros del grupo j de los ingresos medios de todos los sol-
f30 j + f3vj' Si quisieramos conocer cuanto se diferencian los ingresos teros, no tendrfamos mas que conocer la estimacion de !1-sj.
medios de los solteros del grupo j, de los ingresos medios de todos Siguiendo la logica de la extension de los modelos, podrfamos
los solteros, no tendrfamos mas que conocer el valor estimado de aiiadir otros predictores, puesto que los grupos ('solteros', 'casados'
!1-0j' La misma situacion se repetirfa para casados y viudos con !1-ej Y 'viudos') no se diferencian unicamente en funcion de su media de
!1-vj respectivamente. ingresos, sino tambien en como otras variables influyen en sus in-
Naturalmente, la diferencia de ingresos entre casados y viu- gresos. Se podna considerar por ejemplo, como la experiencia la-
dos vendrfa dada por la diferencia de los respectivos parametros boral (Xx) influye en los ingresos de solteros, casados y viudos. En
(f3o j + f3ej) - (f3o j + f3v) = f3ej + f3vj' la practica es como si tuvieramos tres ecuaciones separadas, una por
La codificaci6n completa emplea tantas dummies como categorfas cada grupo, solteros, casados, y viudos:
tenga la variable predictora. La codificacion completa del ejemplo
anterior serfa:
(2.40)
TABLA 2.4. Codificaci6n completa para la variable 'estado civil'.
En el ambito de las Ciencias de la Educacion es muy habitual uti- Naturalmente podemos interpretar el intercepto simplemente
Iizar las ecuaciones de regresion para puntuaciones tipificadas. La como una constante sin mas significado, pero serfa mucho mas con-
razon es que muchas de las variables utilizadas son medidas indi- veniente poder interpretar ese paramet,ro en terminos sustantivos,
rectas de constructos inobservables. Estos constructos carecen de como una propiedad real del fenomeno que estamos estudiando.
unas unidades firmemente establecidas y generalmente aceptadas. Una solucion interesante consiste en centrar la variable indepen-
Asi, la utiIizacion de puntuaciones tipificadas convierte a esas varia- diente alrededor de su media. Eso hace que el valor cero de la varia-
bles en magnitudes adimensionales, cuyos valores numericos sim- ble independiente corresponda a la media en altura de los sujetos, y
plemente ponen en relacion a los sujetos con un grupo normativo. sus valores son expresion del numero de centimetros que cada su-
Otra consecuencia importante es que entonces los coeficientes de jeto se aparta por arriba 0 por debajo de la media de altura del gru-
las ecuaciones se convierten en numeros que expresan el grado de po. En este caso el parametro Po se convierte ahora en el numero
asociacion entre cada variable independiente y la variable depen- de kilos que cabe esperar que pese una persona cuya altura coinci-
diente cuando las demas independientes permanecen constantes. da con la altura media. Y PI sera el incremento en el peso espera-
Pero ese numero no tiene unidades, y se interpreta por tanto de un do por cada centimetro que nos apartemos de la media de altura.
modo similar a como se hace con los coeficientes de correlacion. En definitiva, se trata de que antes de comenzar a analizar nues-
Sin embargo la perdida de la escala original de las variables tiene tros datos tenemos que decidir que significado queremos que ten-
algunos inconvenientes importantes. En las ecuaciones con variables gan nuestro parametros, y que codifiquemos las variables adecua-
tipificadas el intercepto es igual a cero. Es perfectamente posible que damente. Por 10 general, esto significa que la decision que tomemos
en un determinado fenomeno sea precisamente el intercepto 10 que dependera de que las variables independientes sean continuas 0 ca-
resulte invariante de un estudio a otro. Y esa informacion se pierde tegoricas.
cuando no trabajamos con las variables originales. Por otra parte, los Con las variables independientes categoricas, suponiendo que
valores de los parametros deben ser interpretados exclusivamente en mantienen una relacion lineal con la variable dependiente, debe-
terminos de incrementos de unidades de desviacion tfpica en la po- mos codificarlas de modo que el valor cero corresponda a la cate-
blacion de referencia. Por ultimo, los parametros pierden significa- gorfa que queremos adoptar como linea de base.
cion sustantiva, convirtiendose simplemente en numeros abstractos Por ejemplo, supongamos una ecuacion en la que la variable de-
que solo para los investigadores resultan expresivos. pendiente, 'Rendimiento en Matemriticas' estuviese en relacion con
El mantenimiento de las escalas originales con sus propias uni- dos variables independientes categoricas, como 'Nivel de estudios de
dades por su parte no deja de tener algunos problemas tambien. la madre' y 'Nivel socioeconomico familiar'. En la Tabla 2.5 presenta-
Supongamos una ecuacion de regresion en la que la variable inde- mos la codificacion original que podrian tener estas variables.
pendiente fuese la altura medida en centimetros y la dependiente
el peso medido en kilogramos. TABLA 2.5. Codificaci6n de las variables.
Valores Nive1 Nivel
originales socioeconomico familiar de estudios de la madre
~CU(il es el significado de los parametros Po y PI? En el caso del 1 Muybajo Sin estudios
segundo, se trata del numero de kilos que aumenta el peso espera- 2 Bajo Primarios incompletos
do por cada centimetro de incremento de la altura. Pero, ~y el otro
3 Medio Certificado de escolaridad
parametro? Su valor sera, por definicion, el valor que adopta el peso
cuando la variable independiente vale cero. En este caso estamos ha- 4 Alto Graduado escolar
blando del numero de kilos que cabe esperar que pese una perso- 5 Muyalto Bachillerato
na cuando su altura sea cero centfmetros. 6 Titulo universitario
50 MODELOS JERA.R.QUICOS LINEALES REGRESION EN DO~ NIVELES !)1
Suponiendo que existiese una relacion lineal de estas variables TABLA 2.6. Codificaci6n modificada de las variables.
con la dependiente, podriamos incluirlas en la ecuacion de regre-
sion. Pero el significado del intercepto entonces seria poco claro. Categona Categoria Categoria Nivel Nivel
Seria el rendimiento esperado de aquellos sujetos cuyo nivel socio- mas baja modal como modal como socio- de estudios
economico fuese cero, y cuyas madres tuviesen nivel de estudios cero. Valores como referencia referencia economico de la madre
Ninguna de esas dos categorias existe, por 10 que ese parametro se originales referencia deSES de EstMad familiar (SES) (EstMad)
convertiria en una referencia ftia respecto de la que las pendientes -3 Muybajo Sin estudios
1 0 -2
se interpretan como incrementos.
La solucion mas inmediata es recodificar estas variables para que Primarios
2 1 -1 -2 Bajo
la categoria de referencia tenga asignado el valor cero. incompletos
Ahora el intercepto se interpretara como el rendimiento espe-
Certificado
rado de los alumnos de nivel socioeconomico muy bajo y cuya ma- 3 2 0 -1 Medio
de escolarid.
dre no tiene estudios.
Cabe la posibilidad de que, aunque ahora los parametros tienen Graduado
una interpretacion sustantiva, esos valores sean muy infrecuentes en 4 3 1 0 Alto
escolar
la poblacion, transmitiendo entonces la ecuacion una impresion
poco acorde con la realidad. En ese caso parece 10 mas convenien- 5 4 2 1 Muyalto Bachillerato
te centrar la variable alrededor del valor modal. Eso quiere decir que
Titulo
el origen, el cero de la escala, correspondera con la categoria de ma- 6 5 2 universitario
yor frecuencia en la poblacion estudiada. Ahora el intercepto co-
rrespondera al valor esperado en rendimiento de los sujetos cuyos
valores en las variables independientes corresponden con la cate-
goria modal. En la Tabla 2.6 siguiente tenemos un ejemplo de la co- corresponde con la media posterior ajustada. Es 10 q~e ~acem~s en
dificacion modificada. el caso particular del analisis de covarianza. En el slgul~nte eJem-
Algo similar ocurre con las variables continuas. Es posible que plo, suponemos que x esta centrada respecto de la medIa general.
aunque la escala comience en cero, ese valor no exista en la reali- En ese caso los valores de f3o ' corresponden con el valor esperado
dad. El caso mas claro coincide con el ejemplo que hemos presen- en y para aquellos sujetos d~l grupo j cuyo valor en la variable i~
tado antes. No hay ninglin individuo que pese cero kilos 0 que mida dependiente coincide con la media general. Es, como ya h~mos. dl-
cero centimetros. En casos como estos conviene utilizar como ori- cho, 10 que en analisis de covarianza se con?ce como medIas.aJus-
gen de las variables independientes un valor central, de modo que tadas. En efecto, observese que estamos asumiendo que la pendiente
el intercepto corresponda con el valor esperado de los sujetos de ca- es la misma para todos los grupos. Es perfectamente po sible que en
racteristicas medias. un grupo determinado no existan sujetos con ese valor central de
Sin embargo, con las variables continuas es posible que el cen- x. Pero la media posterior indica el valor que cabria esperar en el
trado se realice con referencia a la media general, 0 a la media de caso de que los hubiese (Figura 2.10).
cada grupo. La oportunidad de cada una de estas opciones y sus con-
secuencias son muy distintas en cada caso.
En primer lugar, cuando deseamos poder comparar unas uni-
dades de nivel dos con otras, por ejemplo unas escuelas con otras, ~En que condiciones el centrado se realizaria, no respecto de la
utilizaremos como referencia la media general de la variable inde- media general, sino de la media del grupo? ~y que significado ten-
pendiente. En ese caso el valor del intercepto propio de cada escuela drian entonces los parametros?
52 MODELOS JERARQUICOS LINEALES REGRESION EN DOS NIVELES 53
-- ~
10 que es caracteristico de este supuesto caso es que en el pals re-
\ presentado en gris tiene un efecto mucho mayor sobre el poder de
-----/ ---- ...............
.............. compra de los sujetos cad a ano extra de escolaridad respecto de la
escolaridad media que en el pais representado en negro, por 10 que
cabria esperar una actitud mas receptiva a la continuacion de la es-
colaridad en el primero que en el segundo.
2.6. MODELIZACION DE LA HETEROCEDASTICIDAD en la variable dummy Xmij)' la varianza en el primer nivel es la suma
EN EL MICRO-NIVEL de la varianza de los chic os mas la varianza de las chicas. De for-
ma natural surge una pregunta: ~como podemos saber si debemos
Uno de los supuestos mas importantes del modelo es el que es- modelizar varianzas distintas para determinados subgrupos en el
tablece que la varianza entre las unidades de primer nivel dentro de primer nivel? La respuesta es obvia. Si el modelo co~ dos (0 mas)
las unidades de segundo nivel es constante y, por tanto, indepen- varianzas distintas en el primer nivel ajusta igual de bien que el mo-
diente de cualquier predictor. Pero en ocasiones nos encontramos delo con una sola varianza, debemos quedarnos con este Ultimo.
con fenomenos en los que los datos no cumplen con este supuesto. Si el ajuste mejora significativamente, deberemos quedarnos co~
Por ejemplo, es frecuente que dentro de las escuelas las chicas ten- el modelo con mayor numero de parametros. Y eso nos lleva al Sl-
gan rendimientos mas homogeneos que los chicos. Por tanto tene- guiente pun to.
mos que modelizar varianzas de residuos de nivel 1, distintas para
chic os y para chicas. Esto es especialmente importante cuando exis-
te la posibilidad de que algunas escuelas sean solo de chicos 0 solo 2.7. SIGNIFICACION Y AJUSTE DE LOS MODELOS
de chicas. En esas escuelas, la varianza interna, la del primer nivel,
tomara un valor u otro en funcion de si se trata de un tipo u otro La interpretacion de los modelos multinivel pasa, como en
de escuela. En este caso, tendrfamos tres variables predictoras dis- cualquier modelo de regresion, por dos cuestiones: ~~ ~nalisis ?e la
tintas: nivel socio-economico (Xl)' grupo masculino (x h) codifican- significacion de los coeficientes del modelo y el anallsls del aJuste
do 0 para las chicas y 1 para los chicos y grupo femenino (xm) co- global del modelo. La primera cuestion responde ala pregunta ~es
dificandose 0 para los chicos y 1 para las chicas. Conviene en este estadfsticamente significativa la aportaci6n de este pr:edictor? La ~e
caso, como ya se senalo, utilizar la codificacion de contraste para la gunda responde ala pregunta ~aporta este modelo (con x predlC-
parte ftia y completa para parte aleatoria. En este caso concreto el tores) informacion significativa comparado con el modelo nulo
modelo quedarfa como sigue: (modelo que no incluye ningun predictor, en ingles denomina-
do "empty model") 0 con otro modelo alternativo? Amb~s ~ecisio
nes -mantener 0 eliminar un predictor y mantener 0 ellmmar un
modelo- estan fntimamente relacionadas, puesto que no puede
Notese ahora que f30 j representa al rendimiento medio para las haber modelos significativos que incluyan predictores no signifi-
chicas con nivel socio-economico mas bajo. f31 j es el incremento que cativos.
se produce en el rendimiento para las chicas cuando aumenta el ni- La significacion de un predictor viene dada por la ratio e~tre el
vel socio-economico. f3hOj representa el incremento que se produ- estimador del parametro y su error tfpico. Los estimadores slguen
ce en el rendimiento por ser chico. Ypor ultimo, f3hlj es la diferencia una distribucion t con infinitos grad os de libertad. La regIa gene-
entre el incremento del rendimiento por nivel socio-economico de ral para determinar la significacion de un predictor es q~e si el va~
las chicas y el de los chicos. Asf, 10 que aumenta el rendimiento de lor del mencionado cociente es mayor que dos, el coefiClente sera
los chicos en la escuela j para cada unidad de nivel socio-economi- significativo (p < 0,05) . .
co es f31 j ' y 10 que aumenta el de los chicos para cada;unidad del ni- AI considerar la significacion de un modelo, 10 pnmero que se
vel socio-economico es (f31 j + f3hlj). Ahora bien, 10 mas interesante debe destacar, es que este proceso no supone una decision unica-
de este modelo es la estructura aleatoria definida para el micro ni- mente tecnico-estadfstica. Los modelos deben ser coherentes con
vel, que refleja una varianza entre sujetos diferencial para chicos y la teorfa 0 hipotesis que los genera y esta consideracion no se debe
chicas (ae~ y a;"). Se relaja asf el supuesto de que la varianza en el que dar fuera a la hora de determinar su ajuste.
primer nivel es constante y comun para todos los sujetos. Como la El estudio del ajuste se hace siempre comparando dos modelos
codificacion es excluyente (ninglin alumno que es chico tiene un 1 que deben ser anidados. Un modelo esta anidado respecto a un se-
58 MODELOS JEAARQUICOS LINEALES REGRESION EN DOS NIVELES 59
gundo, si el primero puede obtenerse igualando a cero algunos pa- Supongamos que tenemos dos modelos alternativos. El modele
nimetros del segundo. Dicho de otro modo, el primero es un caso Mo con mo parametros y el modele MI con ml parametros. El nu-
particular del segundo. Seglin esto, el modele nulo, 0 modele de mero de parametros que se anaden (p) es ml-mo. Siendo Do Y DI
varianza one-way de efectos aleatorios que vimos en otro punto, esta sus respectivos valores de 'Deviance'. La diferencia en tre ellas se em-
siempre ani dado respecto de cualquier modele alternativo. Si en el plea como prueba estadistica con una distribucion X2 con m1-mo
modele nulo no hay varianza estadisticamente distinta de cero en grados de libertad. Si esa diferencia es significativa, nos quedaremos
los niveles micro y macro, ninglin modele alternativo ajustar<i sig- con M I, y con Mo en el caso contrario.
nificativamente mejor que el nulo. Si un modele no tiene diferen-
cias significativas con el nulo, debe rechazarse.
Es posible que dos modelos distintos tengan diferencias estadis- 2.8. ESTIMACION DE LOS PAAAMETROS
ticamente significativas respecto del modele nulo. Entonces es ne-
cesario compararlos. Por el principio de parsimonia debemos que- En un modele multinivel hay dos tip os de parametros: los para-
darnos con el que tenga menor numero de parametros, por el de metros ftios y los parametros aleatorios. Los parametros ftios co-
mejor .yuste, debemos quedarnos con el que mas varianza explique rresponden a los efectos medios en la poblacion. Se trata del inter-
de modo significativo. Si estan anidados podremos compararlos. Si cepto y de las pendientes. Los parametros aleatorios corresponden
no hay diferencias significativas nos quedaremos con el de menor a las varianzas y covarianzas de todos los niveles. En la literatura a
numero de parametros. Si las hay, nos quedaremos con el de mayor veces se habla de la estimacion de un tercer tipo de valores. Se tra-
numero de parametros. ta de los residuos de nivel superior. Nos referimos a los f3o j , f3lj' ...
Para llevar a cabo la comparacion hacemos uso de la razon de de cada unidad del nivel macro. En realidad, si estimamos los pa-
verosimilitud. rametros ftios, la estimacion de los valores de f3o j , f31~' etc. consiste
La estimacion de los parametros se realiza por maxima verosi- en obtener valores para /-lOj. /-ll j ' etc. Aunque se dice que se esti-
militud. Ll es el valor del maximo de la funcion de verosimilitud man estos valores, en realidad no son parametros del modelo, sino
en la estimacion de los parametros del modele 1. Y L2 es el maxi- variables latentes. Desempenan en este modele el mismo rol que
mo de la funcion de verosimilitud para el modele 2. Este segundo las puntuaciones factoriales en el modele de factor com un. Desde
modele esta anidado en el primero, por tanto la razon de verosi- un pun to de vista cientifico, de estudio de las estructuras genera-
militud es: les de los fenomenos, no interesan mas que los parametros del mo-
delo: las cargas factoriales en el modele de factor comun; los pa-
LI 2
rametros ftios y aleatorios en el modele jerarquico lineal. Desde este
- 21 n--Xp siendo p = Numero de parametros punto de vista no son de tanto interes las puntuaciones que a cada
L2 ' de diferencia. sujeto podamos atribuir a cada factor. Pero cuando queremos for-
mular juicios sobre entidades individuales, sujetos en el modele
de factor comun, 0 escuelas u otra clase de agrupaciones en el mo-
LI
-21n - = -21nLI + 21nL2 (2.42) delo jerarquico lineal, entonces nuestro interes se dirige a las pun-
L2 tuaciones factoriales, en un caso, 0 a los residuos de segundo ni-
vel en el otro. Por eso, aunque estas variables no son estrictamente
En los programas, de forma rutinaria, aparece al final del pro- parametros del modelo, estudiaremos en este capitulo el modo de
ceso de estimacion el valor de este estadistico, al que se Ie denomi- obtencion de valores, que por extension, se suele denominar 'es-
na'Deviance' timacion'.
Debemos distinguir entre metodos de estimacion y algoritmos
Dev = -21n(LI) == -2log{like) (2.43) de estimacion. Un metodo de estimacion consiste en un conjunto
60 MODELOS JEAARQUICOS LINEALES REGRESION EN DOS NIVELES GI
de reglas y principios cuya aplicacion da lugar a una ecuacion 0 sis- ral, todos ellos proporcionan los mismos resultados. En algunos ca-
tema de ecuaciones que ponen en relacion los datos con el para- sos, y en funcion de la naturaleza de los datos, alguno puede ser mas
metro buscado. eficiente, e incluso es posible que alguno no llegue ala convergen-
Los algoritmos de estimacion son metodos de dlculo que, ge- cia mientras que otro sf 10 hace. Pero la naturaleza exaCta de los pro-
neralmente por medio de iteraciones sucesivas, permiten obtener cedimientos de dlculo es algo que va mas alla del alcance de esta
soluciones para esas ecuaciones. obra, y que a efectos practicos no debe preocupar en exceso allec-
Hay tres metodos para obtener estimaciones de los parametros. tor, puesto que no importa cual sea el program a estadfstico del que
El metodo de maxima verosimilitud (ML, Maximun Likelihood), el me- haga uso, el algoritmo implicado producira estimaciones iguales a
todo de maxima verosimilitud restringida (REML, Restricted Maximun las otras alternativas. Solo en el caso en que estructuras muy com-
Likelihood) y la estimacion bayesiana. Los dos primeros metodos son plejas de datos dificulten la convergencia merece la pena plantear-
equivalentes en 10 que se refiere a la estimacion de la parte fija del se probar con otras alternativas.
modele (los coeficientes de regresion). Sin embargo en la estimacion Para una aproximacion intuitiva a la estimacion podemos consi-
de la parte aleatoria, el metodo ML produce una estimacion sesga- derar dos casos distintos: cuando conocemos el valor de las varian-
da debido a que no tiene en cuenta la perdida de grados de libertad zas y el caso, mucho mas frecuente, en el que no conocemos el va-
que se produce cuando simultaneamente se estiman los parametros lor de ningun parametro.
de la parte fija. Por este motivo, siempre que el numero de unidades
del nivel macro sea inferior a 30 es de preferencia el metodo REML.
La estimacion bayesiana por su parte consisten en integrar nues- 2.8.1. Estimaci6n por puntos de los efectos fzjos 2
tros conocimientos previos respecto de los parametros a traves de
la distribucion a priori. La combinacion de esta distribucion con la Supongamos el caso mas simple, un ANOVA de efectos aleatorios,
funcion de verosimiIitud da lugar a la distribucion a posteriori, que y que conociesemos a ; y a~o . EI modele es:
es, de algun modo, la expresion de nuestras creencias respecto a los
val ores de los parametros una vez que hemos asumido la evidencia (2.44)
que proporcionan los datos.
Cuando se desee comparar dos modelos utilizando la razon de (2.45)
verosimilitud, entonces conviene que ambos hayan sido estimados
siguiendo el mismo metodo. Espedficamente, si los modelos que El parametro que tratamos de estimar es /30, que es la media ge-
comparamos difieren en su parte ftia, el metodo de preferencia es neral en la variable de respueSta para el conjunto de la poblacion.
ML. Si es la parte aleatoria en la que difieren entonces haremos uso La situacion de analisis que tenemos supone varias unidades de
de REML. nivel 2, de las cuales conocemos su media y el numero de sujetos.
En cuanto ala estimacion puramente bayesian a, ciertamente ha- Ahora bien, podemos tener dos casos extremos: que los tamanos
bra quien por principio sea la unica que utilice. Pero en cualquier muestrales sean muy distintos entre sf (n) (Figura 2.14) 0 que sean
caso, es el procedimiento mas recomendable cuando tenemos muy iguales, y por tanto nj es igual a n que es una constante (Figura
pocas unidades de nivel superior. Es el procedimiento por defecto 2.13). Estas dos situaciones dan lugar ados estimadores distintos,
utilizado en el programa BUGS. cuyos valores constituyen los lfmites entre los que se encuentra el
Respecto de los algoritmos, podemos decir que los mas impor- que nosotros vamos a utilizar. Comenzamos por el caso de igual nu-
tantes son EM (Expectation-Maximization), Fisher scoring, IGLS (Itera- mero de unidades en cada unidad de segundo nivel.
tive Generalized Least Squares) y RIGLS (Restricted IGLS). Estos meto-
dos se diferencian en la forma concreta en que buscan la solucion
a las ecuaciones establecidas por el metodo elegido. Pero en gene- 2 Puede omitirse este apartado sin perdida de continuidad.
62 MODELOS ]EAARQUICOS LINEALES REGRESION EN DOS NIVELES
I,njYoj
f3~ = ---,-j- -
00000
(2.·17)
I,nj
(2.51) Pero cuando los sujetos dentro de las escuelas son muy pareci-
dos entre si, y casi toda la varianza es vttrianza entre las escuelas,
Donde a;o
es la varianza entre los grupos 0 unidades de nivel 2»_'
all"
a
n. ·
2
dos, y a; /
nj es la varianza dentro de los grupos. Tenemos que a;o J
Entonces: (2.61)
'" nj _
,t..,-2 yoj El intervalo de confianza del 95% sera:
I~iYOj a,
(2.56)
I~jl I
(2.63)
(2.64) (2.73)
(2.66) (2.74)
Observese que ahora I1j es la varianza residual, es decir la va- Para iJo igual que en el caso anterior.
rianza de Y.j dado Wj . Por ejemplo, seria la varianza alrededor de
la media esperada para los centros privados, 0 los centros publicos.
Si todos los grupos fueren de igual tamaiio, los estimadores de 2.8.3. Estimacion conjunta de los ejectos fzjos y las varianzas
minimos cuadrados ordinarios (OLS, Ordinary Least Squares) serian
los de minima varianza: Sup?ngamo~ que t~~emos un modelo de intercepto aleatorio
y dos,lllveles. ~I conoCle~emos los valores de los parametros f~os,
L(~ - W.)(Yo j - Yo.) P?dnamos estlmar la vananza del primer nivel simplemente obte-
(2.68) lllend~ para cada escuela la varianza de los residuos y obteniendo
L(~ - W.)2 la medIa de todas esas varianzas. La diferencia entre el metodo ML
y REM~ en este procedimiento estriba en que en el primer caso el
{J~ = Y•• - iJl W. (2.69) denommador en cada escuela seria nj' el numero de alumnos de
e~a escuela, y en el segundo nj - p -1, donde p es el numero de pa-
En cualquier otro caso, los estimadores de minima varianza son rametros de la parte f~a.
ponderados por la precision, los llamados de minimos cuadrados Y esto .no es mas que un reflejo del hecho de que la estimacion
ponderados (WLS, Weighted Least Squares) : de las vananzas depen.~e de los valores de los parametros f~os. Su-
pongamos que conOCIesemos los val ores de los parametros f~os.
Como los valores de.la variable dependiente son conocidos, podria-
(2.70) mos obtener un resIduo para cada sujeto. Entonces, la varianza de
esos residuos seria una estimacion de la varianza de primer nivel.
68 MODELOS JERARQUICOS LINEALES REGRESI6N EN DOS NIVELES 6U
(2.81)
(2.80)
El termino que multiplica a la media de los residuales brutos, Aj ,
se denomina "shrinkage factor" (factor de encogimien to) dado que
sera siempre menor 0 igual a uno, siendo la magnitud de la esti-
Como es logico Aj puede tomar valores entre 0 y 1. mac ion del residuo siempre menor que la magnitud del residuo bru-
Las siguientes consideraciones nos van a ayudar a entender de to. Conforme aumenta el numero de unidades del primer nivel en
que modo podemos utilizar la fiabilidad. cada uno de los contextos (nj), este termino tiende a uno. Del mis-
72 MODELOS JERARQUICOS LINEALES
REGRESION EN DOS NIVELES 73
mo modo, cuando el numero de unidades individuales en cada con- de las estimaciones y las pruebas de significacion para ellos. Por este
texto desciende, este factor tiende a cero. motivo, se exigen estimaciones de los errores tfpicos de los residuos
El efecto de esta ponderacion sobre la estimacion de f3o·J es muy estimados.
•
mteresante. En efecto,
2.9.
POj = Po + PO j = Po + Ajr.j = Po + Aj(y.j - Po) = EXPLICACION DE LA VARlANZA
En los dos apartados siguientes desarrollamos estas ideas para En esta expresi6n (a~. + a;) A es la varianza en el modele alter-
cada uno de los casos mencionados. nativo, el que incluye los predictores. Y (a~. + a;) N es la varianza
del modele nulo.
76 MODELOS JERARQUICOS LINEALES REGRESION EN DOS NIVELES 77
2.9.2. Prediccion de un valor grupal (nivel2) Y entonces la varianza de error de prediccion es:
La media seria:
(2.97) N
(2.102)
Una de las decisiones mas criticas que hay que adoptar en un es-
tudio multinivel es la determinacion de los tamanos muestrales. En
los estudios mas sencillos, los de dos niveles, es preciso determinar
dos tamanos muestrales diferentes: el tamano de la muestra de mi-
cro-unidades dentro de cada macro-unidad (nj) y el tamano de la
muestra de las macro-unidades (j). El tamano total de la muestra
J
en un estudio multinivel viene dado por Inj.
j=1
jos y aleatorios. Esta situacion se puede complicar con el diseiio. Pen- En general, se recomienda (Snijders y Bosker, 1993, 1999; Mok,
semos por ejemplo en diseiios de clasificacion cruzada donde hay 1995) muestrear un numero amplio de macro unidades con un me-
varios coeficien tes aleatorios 4 . nor numero de micro unidades en ca.da una de ellas, que 10 con-
Un problema que se plantea en estos estudios es que los tamaiios trario. Sin embargo, es necesario seiialar que, aunque esta decision
de muestra que son buenos para estudiar la interaccion interniveles afecta positivamente a la estimacion de los efectos ftios de la pobla-
no son necesariamente optimos para estimar otras cosas, como la co- cion y la estimacion de la relacion entre variables, no tiene el mis-
rrelacion intraclase. Trabajos especfficos sobre este asunto son los mo efecto necesariamente para la estimacion de los efectos indivi-
de Snijders y Bosker (1993, 1999), Mok (1995), Cohen (1998), Rau- duales y la estructura de la varianza.
denbush (1997),0 Hedeker, Gibbons y Waternaux (1999). Ahora
bien, Goldstein (1995) seiiala que hay muy poco trabajo teorico y
poca evidencia empirica en cuestiones relacionadas con el diseiio 3.1.1. Tamafio de la muestra en diseiios por conglomerados
de modelos multinivel.
Por 10 general, el tamaiio de la muestra en el nivel mas alto es La determinacion del tamaiio de la muestra en un estudio mul-
elemento mas restrictivo en el diseiio. Por ejemplo, en un diseiio tinivel esta muy condicionado por el hecho de que los sujetos estan
de dos niveles, diez unidades en el macro nivel es tan poco con- agrupados en unidades de segundo nivel. Asi pues, el problema se
vincente como un estudio tradicional con diez sttietos. Del mismo convierte en esencia en la realizacion de un muestreo por conglome-
modo, los requisitos respecto al tamaiio de la muestra de las uni- rados. En 10 que sigue veremos como se resuelve el caso mas sencillo
dades del nivel mas alto con q variables explicativas en ese nivel, que corresponde a un diseiio con dos niveles. Para otros casos pue-
son equivalentes a los del tamaiio de la muestra de un estudio de de consultarse Gaviria (2000) y Scheaffer, Mendenhall y Ott (1987).
un solo nivel con q variables explicativas. Asi, es necesario asegurar La logica del muestreo por conglomerados es como sigue. En pri-
la variabilidad entre unidades, tanto en el nivel micro como en el mer lugar, si extrajesemos una muestra de individuos al azar, sin te-
nivel macro. ner en cuenta que estan agrupados en conglomerados, podriamos
La cuestion que se plantea es la eleccion de los tamaiios mues- obtener una muestra de un cierto tamaiio, pongamos n. Cada uno
trales adecuados para asegurar una potencia deseada dada una hi- de estos sujetos podria estar en un conglomerado distinto, 10 que
potesis relevante determinada y un determinado nivel de significa- implicaria que tendriamos que desplazarnos n veces, con el coste
cion. El aumento de la potencia de los contrastes 0 el descenso de que eso supone. Ahora bien, ya que los sujetos estan agrupados de
los errores tipicos de estimacion estan relacionados con el tamaiio b en b, podriamos decidir que en cada desplazamiento tomamos
de la muestra, sabiendo que el error tipico de estimacion es inver- los datos de b sujetos en lugar de uno solo. De ese modo solo rea-
samente proporcional a la raiz cuadrada del tamaiio de la muestra, lizariamos nib desplazamientos. Sin embargo esta decision plan-
aproximadamente, puesto que estamos trabajando con diseiios de tea un problema. Yese problema tiene que ver con el nivel de ho-
datos anidados. mogeneidad de los sujetos dentro de los conglomerados. En efecto,
El investigador ha de decidir si utilizar un numero pequeiio de sup on gam os que nuestras escuelas fuesen tan eficaces que para una
unidades de segundo nivel (por ejemplo, escuelas, barrios, hospi- misma escuela todos los sujetos obtuviesen la misma puntuacion en
tales) con un gran numero de unidades de primer nivel en cad a una un test. En ese caso, la varianza observada se deberia solo a la dife-
de ellas (por seguir con el ejemplo, alumnos, vecinos 0 pacientes), rencia entre las medias de las esc~elas. Pero entonces la informacion
o bien muestrear un gran numero de unidades de segundo nivel con que proporcionan los b alumnos de una escuela es la misma que
pocas unidades de primer nivel en cada una de ellas. la que proporciona uno solo, ya que todos son iguales. Asi, para con-
seguir suficiente informacion, tendriamos que seleccionar mas su-
4 Este tipo de disenos, por requerir un tratamiento algo mas especializado, sera expuesto
jetos. De hecho, un sujeto por cada escuela nos daria la misma in-
en un volumen posterior de esta misma colecci6n. formacion que todos los sujetos de todas las escuelas.
82 MODELOS JEAARQUICOS LINEALES DISENO Y SUPUESTOS DE LOS MODELOS MULTINlVEL
2
En el extrema contrario, si los sujetos fuesen tan distintos unos 196
de otros dentro de una escuela como con respecto a los de las otras 50.000 - ' - 2
escuelas, una muestra de n sujetos de una sola escuela me daria tan- En nuestro caso, n = _ _ _....-9_,_1---;;- '" 381
ta informacion como n sujetos de n escuelas distintas.
. 1 962
50.000 + - '-2-
El grado en que los alumnos se parecen un os a otros dentro de 0,1
las escuelas viene dado por la correlacion intraclase 0 autocorre-
lacion. Ahora bien si estos alumnos estuviesen agrupados en aula de
El procedimiento entonces se resume en establecer como seria 25 alumnos c~da una, y por anteriores investigaciones conocies~'
el tamaiio de la muestra en un muestreo aleatorio simple, y luego mos el dato de que la autocorrelacion fuese p = 0,20, el efecto di-
determinar cuanto hay que aumentar la muestra debido a la corre- seiio vendria dado par:
lacion intraclase.
Por ejemplo, supongamos que dados nuestros intereses determi- F=l+ (B-1)p= 1 +(25-1)0,2 = 5,8 (3.2)
namos que el tamaiio de la muestra por muestreo aleatorio simple
ha de ser de 200 sujetos. Para evitarnos realizar 200 desplazamien- o sea que el tamaiio de la muestra debiera ser 5,8 veces mas gran-
tos decidimos muestrear a todos los sujetos de cada conglomerado. de.
La autocorrelacion podria obligarnos a tomar 1.500 alumnos en lu- n' = nF = 381 * 5,8 '" 2210
gar de 200. Pero, suponiendo que cad a conglomerado tuviese 20
alumnos, aunque son mas alumnos, solo significaria 75 desplaza- Aunque efectivamente se trata de casi ~eis veces, mas de alu~
mientos en lugar de los 200 originales. Esa diferencia entre el ta- nos, como estan agrupados de 25 en 25, solo tendnamos que VlSi-
maiio de la muestra inicial y la del muestreo por conglomerados se tar 88 escuelas, en lugar de las 381 originales, aunque en cada una
llama 'efecto diseiio'. de elIas debemos tomar datos de todos los alumnos, en lugar de uno
Veamos un caso concreto. Supongamos que tenemos una po- cada vez.
blacion de 50.000 alumnos, y queremos extraer una muestra para En la practica, la dificultad estriba en que no todos los conglo-
estimar la media de dicha poblacion. Queremos que el error mues- merados tienen el mismo numero de sujetos, y en que a veces no
tral no sea mayor que 0,1 veces la desviacion tipica y que el nivel conocemos el valor de la autocorrelacion. Para el primer problema,
de confianza sea del 95 %. Segun estos datos, por muestreo aleato- una solucion puede consistir en utilizar la media armonica de los
rio simple deberiamos extraer una muestra cuyo tamaiio n vendria tamaiios de conglomerado como B en la ecuacion 3.2. En cuanto
dado por: a la autocorrelacion, si no disponemos de datos procedentes de
estudios anteriores, conviene adoptar el criterio del caso peor, es
K2 decir, asumir que la homogeneidad es muy alta dentro de los con-
N-2e glomerados y calcular el tamaiio ?e la muestra de ese modo. Para
n = ---=---2- (3.1)
N+.L mas informacion vease las obras Cltadas.
e2
(3.7)
p02
0 2
1'0
= --'-
1 y
-p
Igualando las expresiones, Por ejemplo, si p = 0,40 Yse desea obtener una fiabilidad de 0,80
para cada medida individual, ~de cuantos sujetos debera contar cada
muestra como minimo?
pO; Ao(1- p) 0,8(1- 0,4)
(1- p) -;--~:--- =6
(1- Ao)p (1-0,8)0,4
de donde obtenemos,
3.2. SUPUESTOS DE LOS MODELOS MULTINIVEL
pO; p
Ai=---------
0 2 1 Los supuestos propios de los modelos multinivel son comparti-
-i (1 - p) + pO;
1
~(1-p)+p
1 dos basicamente con los supuestos de los modelos de regresion tra-
dicionales.
Ahora, si deseamos una fiabilidad determinada, Ao, dado un va- En primer lugar, se espera que el modelo este bien especificado.
lor de p, despejamos nj en 3.3 y tenemos, Que por ahora supone que la relacion entre la variable de respues-
DlSENO Y SUPUESTOS DE LOS MODELOS MlII:IINIVI I.
86 MODELOS JERARQUICOS LINEALES
ta y los predictores sea lineal, que no hayan quedado fuera del mo-
delo predictores importantes, y que tampoco hayan sido incluidos
en el modelo predictores irrelevantes.
En segundo lugar, se espera que las variables esten medidas sin
error.
El tercer conjunto de condiciones hace referencia a las caracte-
risticas de los errores aleatorios. Yaqui es donde se plantean las prin-
cipales diferencias con los modelos tradicionales de regresion.
Inicialmente, hemos asumido que los errores en el primer nivel
se distribuyen normalmente y tienen varianza constante. Sin em-
bargo este supuesto se puede relajar, ya que la heterocedasticidad
puede ser una condicion real en nuestros datos.
En principio, en los modelos que hemos presentado, se asume
la homocedasticidad dentro de cada unidad de nivel 2. No asi en
el conjunto total de los datos. Efectivamente, retomemos el mode-
10 general de coeficientes aleatorios: Xo
Como es 16gico en el nivel 1 no puede haber covarianza entre Esta secci6n esta dedicada al desarrollo practico y operativo de
los Cm y Cm, ya que nadie es al mismo tiempo chico y chica. un estudio multinivel. El interes principal esta puesto en el proceso
Si al incluir estas variables dummies mejora significativamente de obtenci6n e interpretaci6n de resultados. En es~ secc~6n s.~ pre-
el ~uste, 10 consideramos una prueba de la existencia de hetero- sentan y discuten algunos analisis basados en una mvesogaClon ~
cedasticidad en el nivel 1. nanciada con cargo al Concurso Nacional de Proyectos de Inveso-
L6gicamente la varianza 'de nivel 1 tiene que seguir siendo la mis- gaci6n Educativa del Ministerio ?e Educaci6n y Cultura (199~~000).
rna. Esto qui ere decir que si ponderamos la varianza de las chicas Se realiz6 un analisis secundano de los datos de la evaluaClon del
por el numero de chicas, y la varianza de los chicos por el numero rendimiento academico en matematicas de los escolares espanoles
de chicos, la sum a de esas dos cantidades tiene que coincidir con la de 16 an os en el ano 1997. En esta evaluaci6n, adem~ del nivel de
cantidad de varianza de nivel 1 que tenfamos anteriormente. dominio academico se recogi6 otro tipo de variables relacionadas
En resumen, nos parece conveniente la gufa de preguntas acer- con el estatus sociocultural y familiar de los individuos. Tambien se
ca de los supuestos de los modelos que plantean Snijders y Bosker recogieron datos de las escuelas, de los profesores y de los directores
(1999) que pasamos brevemente a resumir: de las escuelas. En este caso concreto, los datos de la evaluaci6n se
refieren a tres niveles distintos: individuos, escuelas y comunidades
a) ~Contiene la parte ftia del modelo los predictores adecuados? aut6nomas. Si bien, s610 presentaremos resultados de un modele
multinivel de dos niveles (alumnos y escuelas).
b) ~Contiene la parte aleatoria del modele los predictores ade-
cuados? La existencia de varianza dentro de las escuelas indica que los su-
jetos se diferencian entre ellos dentro de las escuelas. La exis.t~nci~
c) ~Estan los residuos del primer nivel distribuidos normal- de varianza en el segundo nivel indica que las escuelas tam.bl~n dl-
mente? fieren en el rendimiento medio de cada una de elIas. El obJetlvo es
d) ~Estan los coeficientes aleatorios del segundo nivel normal- entonces explicar la maxima cantidad de varianza en todos los ni-
mente distribuidos? veles, a partir de las variables incluidas en el modelo. _
e) ~Tienen los coeficientes aleatorios del segundo nivel una ma- Estamos hablando de la poblaci6n de comunidades autono~as
triz constante de varianza-covarianza? (17) y de una muestra de 917 escuelas y 2l.272 alumnos. L~_vana
ble de respuesta (rendimiento en matematicas) es la puntuac.lOn ob-
Para obtener informaci6n detallada sobre los procedimientos tenida en la prueba de matematicas y los va~or.e~ fueron e.somados
para la comprobaci6n de los supuestos del modelo se recomienda mediante procedimientos de Maxima Veroslml~ltud Margmal de la
consul tar Mosteller y Tuckey (1977); Bryk Y Raudenbush (1992) y TRI (mediante Bimain), en una escala normahzada con u~ rang?
Snijders y Bosker (1999). de 200 a 1000. Las variables predictoras fueron para el pnmer lll-
vel: nivel de estudios de la madre (' estmad') , sexo del alumno (' sexo')
90 MODELOS JEMRQUICOS LINEALES EL PROCESO DE MODELIZACION MULTINIVEL
y tasa de repeticion (' repetir'). Y para el segundo nivel fueron varia- un conocimiento mas detallado, recomendamos el manual del, ro-
bles descriptivas del proceso educativo como es la frecuencia de la grama (Goldstein et ai., 1998). En el Apendice de esta monografia
evaluacion (,ctrperio') 0 descriptivas del centro como la titularidad se puede encontrar una ilustracion del pI"oceso de modelizacion de-
(' Tituiaridad'). sarrollado con MLwin.
EI proceso de analisis dentro de la estructura multinivel res- El interface del program a MLwin es actualmente bastante ama-
ponde a un patron complejo de construccion y prueba de modelos ble, ya que permite la formulacion y construcci6n de modelos de
sucesivos. 0 10 que es 10 mismo, supone una estrategia de modeli- una manera muy intuitiva y accesible. De ahi que el dominio de
zacion. los supuestos y las caracteristicas de los modelos multinivel sea
La recomendacion mas general seiiala que sea la teorfa existen- esencial.
te sobre el tema de estudio en cuestion quien guie la seleccion de El MLwin comparte muchas de las caracterfsticas comunes a otras
variables que se deben incluir en el modelo. Sin embargo, es fre- aplicaciones informaticas como procesadores de texto 0 paquetes es-
cuente la realizacion de estudios exploratorios preliminares que ayu- tadisticos mas generalizados. Por tanto, la apertura y almacenamien-
den en la seleccion de los mejores predictores en ausencia de evi- to de ficheros, asi como la edicion de datos sigue pautas estindars.
dencias de tipo teorico. EI uso de los distintos menus es tambien caracteristico, sin embargo
Todos los manuales recomiendan que los modelos amplios y el programa permite distintas y equivalentes formas de especificar
complejos pueden parecer mas realistas, a cambio de un precio: la modelos.
inestabilidad del modele (pequeuos cam bios en el modele produ- MLwin tiene dos componentes principales. El primero es un mo-
cen grandes cambios en los resultados de los analisis, debido, por dulo de computacion, guiado por un conjunto de comandos que
e~emplo a la multicolinealidad). Las recomendaciones y precau- operan bajo la superficie del interface. El programa Nanostat esti
Clones para la construccion de modelos, por ejemplo causales 0 de en la base de MLwin. EI segundo es el interface graficD que aporta
regresion multiple, son tambien aqui de utilidad, puesto que es re- la posibilidad de formular model os especificos, analizar resultados,
lativamente facil elaborar modelos 'ad-hoc' para un determinado editarlos, presentar la informacion graficamente, evitando la sinti-
conjunto de datos. Y entramos en el tema realmente central, la elec- xis del Nanostat.
cion del mejor modelo. Esta decision no se debe tomar unicamen- La estructura de almacenamiento de los datos sigue las pautas de
te con relacion al modelo que mejor ajuste a los datos. El 'mejor mo- una hoja de calculo, donde las columnas representan a las variables
delo' en terminos absolutos no existe, el mejor modele 10 es para y las filas corresponden al nivel mas bajo de la jerarquia. Por defec-
un determinado proposito. Dado que diferentes modelos producen to el program a establece 400 columnas iniciales y cinco niveles de
diferentes resultados, esta es una decision muy importante, basada anidamento. El tamaiio de la hoja de dlculo, el numero de para-
en la teoria sustantiva y en el conocimiento del modo en el que han metros y el numero de niveles puede ser definido dinamicamente.
sido recogidos los datos. Habitualmente, en nuestros analisis de datos cada fila corresponde
a un caso observado. Sin embargo, MLwin permite leer los datos en
columnas independientes en una nueva hoja de trabajo, definien-
4.1. ALCUNAS NOTAS SOBRE EL usa DEL PROCRAMA MLWIN do una columna para cada campo, sin necesidad de que tengan la
misma longitud. Las columnas estin numeradas (Cl, C2, etc.) 0 pue-
En este epigrafe se ofrecen unas notas introductorias sobre el uso den nombrarse.
del programa MLwin, que desde nuestro punto de vista, es el mas Antes de ajustar el modele a los datos hay algunos puntos que
versatil y com pIe to de los que actualmente se encuentran en el mer- hay que tener en cuenta:
cado. No pretendemos elaborar un manual de este programa, sino
simplemente una breve aproximacion que permita al lector acer- a. Hay que ordenar los datos de acuerdo con su estructura je-
carse a la obtencion de resultados utilizando este programa. Para rarquica. Siguiendo con nuestro ejemplo de dos niveles de
92 MODELOS JERARQUICOS LINEALES EL PROCESO DE MODELIZACION MULTINIVEL
alumnos y escuelas, los alumnos de la primera escuela deben Este modele se establece como linea base para la evaluacion com-
estar ordenados en primer lugar, seguidos de los de la se- parada de modelos. Es importante porque aporta la particion basi-
gunda escuela, y asi sucesivamente. ca de la variabilidad de los datos en dos 0 mas niveles. Ypermite eva-
b. Solo se permiten datos numericos, los datos alfa-numericos luar la adecuacion del uso de los modelos multinivel, ya que si no
deben codificarse numericamente. se comprobara variacion aleatoria significativa en los niveles supe-
c. En el caso de tener valores perdidos, es recomendable usar riores, no tendria sentido utilizar este tipo de modelos.
el mismo valor para codificar estos casos en todas las varia- El modele nulo en el programa MLwin se representa como mues-
bles. tra la figura 4.1. Se puede ver como la variable de respuesta tiene
tambien una distribucion normal. Se puede constatar como el coe-
EI MLwin es un software bastante cerrado para la comunicacion ficiente f30 j esta multiplicado por una 'variable', Xo, que realmen-
con otros paquetes estadisticos 0 incluso con procesadores de tex- te es una constante, un vector ftio de unos introducidos para dar el
to. No incluye facilidades para la importacion de ficheros de datos mismo tratamiento al pun to de corte que a las distintas pendientes
procedentes de otras aplicaciones como SAS, STATA, 0 SPSS. Sin del modelo. Queda reflejada asimismo la estructura de variacion en
embargo es posible pasar los datos desde EXCEL muy facilmente dos niveles. La parte aleatoria del primer y segundo nivel (alumnos,
usando la opcion 'copiar' y 'pegar' de ambos programas. Para el res- eOij' yescuelas, fl.oj' respectivamente) del modele se presenta con
to de los datos, el manual sugiere que tanto para construir la base su propia distribucion, asumiendo los supuestos distribucionales
de datos 0 exportar los datos se utilice formato Ascii. planteados en las secciones precedentes.
Existe una macro de SPSS elaborada por Jurgen Iedema y tra-
ducida por Tom Snijders que permite pasar los datos desde SPSS a
MLWIN, utilizando las capacidades de macros de MLWIN. Puede ob-
tenerse esa utilidad en la URL: stat/gamma.rug.nl/Snijders/
La especificacion de un modele se puede hacer de distintas ma-
neras, si bien la mas directa y sencilla es operar b;:yo la representa-
cion algebraica del modele en la ventana de 'Equations'. Es espe-
cialmente util si se desea aiiadir 0 eliminar predictores. La estimacion
del modele construido se inicia con el comando 'star' yen cuanto [UOjJ - N(O, Qu) Qu = [a~oJ
el modelo converge los resultados se muestran en la representacion
algebraica con la que hemos estado trabajando.
A continuacion presentaremos la interpretacion de diversas sa-
~OijJ - N(O, Q,) : Qf = [a;oJ
lidas con esta estructura provenientes del marco de investigacion
-2*loglikelihood(IGLS) = 215844,000(21272 of 21272 cases in use)
que hemos definido para esta ilustracion.
La pauta 0 estrategia de modelizacion multinivel comienza con A partir de este punto se procede a la expansion del modelo, que
el modele nulo, que es aquel donde los puntos de corte son alea- supone basicamente la incorporacion de predictores (tanto de ni-
torios y no incluye, por tanto, ningun predictor. vel micro como de niveles macro) a la parte fija del modele y tam-
bien en dejar variar estos predictores aleatoriamente en niveles su-
periores.
94 MODELOS JERARQUICOS LINEALES
EL PROCESO DE MODELIZACION MULTINIVEL
nu = [ 794,294(40,005)J
4.3. EXPANSION DE LA PARTE FIJA Y ALEATORIA DEL MODELO
(b)
- N(O, n,) : n, [ 1331,738(13,200)J El siguiente paso consiste en ir incorporando predictores tanto de
primer como de segundo nivel a la parte fija y aleatoria del modelo.
-2*loglikelihood(IGLS) = 215844,000(2127~ of 21272 cases in use) } (c) En primer lugar, se incorpora al modelo la variable predictora
del primer nivel sexo del alumno ('sexo') que ha sido definida del
siguiente modo: 0= Chicos Y 1 = Chicas. Hacemos que este para-
FIGURA 4.2. Modelo nulo.
metro sea aleatorio en el segundo nivel, obteniendo asf un modelo
EL PROCESO DE MODELIZACION MULTINlVEL 97
96 MODELOS ]EillQUICOS LINEALES
u
771,841 (39,761) 1 UO j ]
-2*loglikelihood(IGLS) =215327,100(21272 of 21272 cases in use) -2*loglikelihood(IGLS) =215070,800(21272 of 21272 cases in use)
FIGURA 4.4. Modelo Dos: expansion del modelo con variables del primer nivel.
FIGURA 4.3. Modelo Uno: expansion del modelo con variables del primer nivel.
98 MODELOS JEAARQUICOS LINEALES EL PROCESO DE MODELIZACION MULTINIVEL
99
En este modelo se observa una disminucion en el valor del pun- dimiento en matematicas se refiere a aquellos chicos, cuyas madres
to de corte, ya que ahora se refiere al rendimiento medio en mate- no han estudiado, pero que no han repetido ningUn curso. Vemos
maticas de aquellos alumnos cuyas madres nunc a fueron a la escuela. ademas que el impacto que tiene en el -rendimiento la repeticion es
En cuanto a la parte aleatoria del modelo, se observa un incre- de 20,7 puntos menos para aquellos alumnos que repiten alguna vez.
mento en la varianza explicada por este modelo con respecto al mo- Con respecto a la parte aleatoria del modelo, nos gustarfa desta-
delo nulo, cerca de un 4%. Se observa tambien una pequeiia re- car. como la varianza vinculada a 'repetir', a~5' es altamente signifi-
duccion de la varianza entre individuos (ai), aunque ahora no se catIva. Lo que muestra las variaciones que existen entre centros en
observan grandes cam bios en la varianza entre centros. la relacion que se establece entre la repeticion y el rendimiento en
La ultima variable del nivel de alum nos que vamos a introducir ~atema.ticas. Ademas, la covarianza entre el punto de corte y la pen-
es repeticion (,repetir'), siendo codificados con cero aquellos alum- d~ente vmculada a 'repetir', a pop " es significativa y negativa. Esto sig-
nos que no han repetido nunc a y con uno aquellos que han repe- mfica que cuanto mayor es la media en matematicas de una escue-
tido al menos una vez. Este modelo consigue explicar un 5,6% mas la, menor es la pendiente de la repeticion. Es decir, que los centros
de varianza que el modelo nulo (Figura 4.5). con mayor rendimiento son tambien aquellos en los que mas se pe-
Ahora no dejamos variar en el segundo nivel a la variable 'estmad'. naIiza la repeticion de curso.
El motivo es que al introducir la variable 'repetir' no se encuentran Nos interesa ahora comparar la razon de verosimilitud de los cua-
diferencias significativas entre centros vinculadas a los estudios de tro modelos que hemos construido, para evaluar su aJuste relativo.
la madre. Por tanto, se elimina de la parte aleatoria del modelo. Esta estrategia nos lleva a comparar los modelos construidos con
Se observa tambien como el valor del punto de corte aumenta con el modelo nulo. La regIa aproximada seiiala que la diferencia entre
respecto al modelo anterior. Esto es debido a que la media en el ren- las razones de verosimilitud de los modelos comparados debe ser al
~enos el dobl: de grande que la diferencia entre el riumero de pa-
rametros que mcluyen uno y otro modelo. Asf, para los cuatro mo-
delos que hemos construido,
THETAM;j - N(XB, n)
THETAM;j = .Bo;jCONSTANT + .BljSEXO;j + 2.572(O,198) ESTMAD;j + .B3j REPETIR ;j TABLA 4.1. Evaluacion del ajuste global de los modelos.
.Bo;j = 259,7000,073) + U Oj + eO;j Diferencia entre razones Diferencia entre el numero
.Bl j = 11,985(0,610) + u 1j de verosimilitud de parametros
M. Nulo vs. M. Uno 516,9 2
.B3j = -20,776(0,639) + u 3j
M. Nulo vs. M. Dos 773,2 4
UOj ] [ 671,725(36,398) ] M. Nulo vs. M. Tres 2030,7 6
U1j - N(O, nul : nu = 0 74,215(14,234)
[U
3j -135,68509,264) 0 61,400(16,486) ~e observa que los tres modelos realizan una aportacion signifi-
catIva con respecto al modelo nulo. En ese sentido, el modelo mas
[eOij J - N (0, n,) : n, = [ 1199,254 (12,316) ] completo serfa, el modelo tercero, puesto que es el que mas para-
metros incluye.
-2*loglikelihood(IGLS) = 213813,300(21272 of 21272 cases in use) Tambien las diferencias entre los modelos anidados son estadfs-
ticamente significativas (1257,5 con gl =2 para la comparacion del
modelo dos con el uno, y 256,3 con gl = 2 para la comparacion del
FIGURA 4.5. Modelo Tres: expansion del modelo con variables del primer nivel. tres con el dos) .
100 MODELOS JERARQUICOS LINEALES EL PROCESO DE MODELIZACION MULTINIVEL 101
La expansion del modelo supone la inclusion de variables tam- Es interesante com pro bar como, a pesar de no existir efectos
bien referidas al segundo nivel, las escuelas (figura 4.6). Una varia- principales significativos asociados a la 'Titularidad', sf existe una
ble de nivel 2 de mucha importancia es la titularidad del centro. interaccion entre esta variable y el nivel de estudios de la madre.
Parece por tanto logico que sea la primera variable de nivel 2 cu- En efecto, por cada escalon que aumenta el nivel de estudios de la
yos efectos estudiemos. En la figura 4.6 podemos comprobar que madre, la diferencia entre centros privados y publicos aumenta en
el efecto ftio obtenido, 2,77, tiene un error tipico asociado de 1,813, 1,241 puntos. Dado que la variable 'Estmad' (estudios de la madre)
por 10 que resulta no significativo. toma valores entre cero y cinco, la maxima diferencia es de 6,20
puntos entre alumnos cuyas madres tienen estudios universitarios
respecto de aquellos cuyas madres no tienen estudios.
thetamij ~ N(XB, Q)
11,98)(0.609) + u I }
[ ::~] ~
.8lj =
670
N(O, Qu) : Q = [0 ,978(36,341) 73,182(14,181) ] .83j = -20.764(0,639) + u 3}
u
U j
3
-137.251 (19,288) 0 61.165(16.525)
UOj ] [ 676,026(36,573) ]
[e Oij ] ~N(O, Q ,) : Q, = [ 1199,40402.317)J
u lj ~ N(O, Qu) : Q u = 0 73,097(14,174)
[ U j -138.463(19,332) 0 61.401(16,474)
3
-2*loglikelihood(IGLS) =213810,900(21272 of 21272 cases in use)
[eOij ] ~N(O, Q,) : Q , = [ 1198,683(12,310)J
FIGURA 4.6. Modelo CuatTO: modelo con variables de segundo nivel.
-2*loglikelihood(IGLS) =213801,300(21272 of 21272 cases in use)
Pl j = 11,966(0,609) + u 1j
267
P 3j = -20,467(0,640) + u 3j
UO j ] [ 592,425(32,654) ]
263
u1 · - N(O, nul : nu = 0 73,502(14,106)
[ U3~ -118,180(\8,159) 0 61,404(16,483)
. 259
0.0 1.3 2.6 3.9 5.2
[e Oij ] - N(O, n,) : n, = [ 1198,72802,308)J
teristicas. 60
Observese que esto no significa que estas escuelas sean la de me- 40
nor y mayor rendimiento medio respectivamente, sino las de men or
20
y mayor residuo respecto del valor esperado. De alguna forma estos
residuos son indicadores de 'valor aiiadido'.
La figura 4.12 muestra una grafica bastante util. Se trata de los -20
residuos ordenados ascendentemente con el intervalo de 99% de -40
confianza. Se muestran los 917 residuos de las escuelas incluidas en
-60
la muestra de este estudio. Las escuelas cuyo intervalo de confianza
se encuentra por encima del valor cero en la constante son aquellas -80
0 230 460 690
escuelas que estin por encima de la linea predicha por el parame- 920
rank
tro ftio f3o, que en este caso representan aproximadamente al 25%
de las escuelas de esta muestra. Y del mismo modo obtenemos in-
formaci6n respecto de las que se encuentran por debajo de su valor FIGURA 4.12. Residuos del punto de corte, f-lOj' y su intervalo
esperado correspondiente. de conjianza.
108 MODELOS JERARQUICOS LINEALES
vel representado por su propio modelo. Es una estrategia analitica que varian entre contextos y del valor de X li que varia ell .
que permite la formulacionjer;irquica de las fuentes de variacion y tre individuos. De ahi que el modelo de regre~ion clasico sea
con capacidad para dar cuenta de esta estructura. inapropiado para esta situacion puesto que exige los su-
Las aportaciones de caracter tecnico estadistico de los modelos puestos de independencia y de homocedasticidad.
multinivel son muy variadas:
g) Realizan estimaciones adecuadas en presencia de correla-
a) Mejoran la estimacion de los efectos de las unidades indi- ciones intragrupos (autocorrelacion), es decir, cuando las
viduales apoyandose en estimaciones similares que existen observaciones no son independientes (parece claro que los
para otros. sujetos que comparten el mismo contexto son similares en-
tre si). La no independencia no se considera un fallo de los
b) Formulan y prueban hipotesis sobre los efectos cruzados en-
datos, sino su caracteristica, por 10 tanto es esperada y mo-
tre niveles. La posibilidad de interacciones entre-niveles en-
delada. Cuando se us an los estadisticos de contraste ordina-
tre las variables definidas en distintos niveles de lajerarquia
rio, que usan al individuo como unidad de analisis, suele vio-
es una cuestion importante, ya que de no considerarse pue-
larse el supuesto de independencia de los errores. Incluso
den llevar a inferencias inadecuadas (usar datos del nivel de
pequenos valores de correlacion intraclase conllevan errores
contexto para inferencias individuales y que las variables pue-
de tipo I mayores que el nivel del alpha nominal.
den tener diferentes significados en niveles distintos). Los
modelos multinivel resuelven este problema.
Las ventajas conceptuales y metodologicas de los modelos mul-
c) Realizan la particion de componentes de varianza y cova- tinivel han sido ya expuestas a 10 largo de estas paginas. Nos parece
rianza entre niveles. ahora que es el momento para hacer alguna consideracion sobre el
uso adecuado y sobre el abuso de los modelos multinivel.
d) Ofrecen una estructura explicita dentro de la cual expresar Los modelos multinivel son una herramienta metodologica des-
la similitud de juicios, destinados a combinar informacion tinada a facilitar el conocimiento y la comprension de fenomenos
entre unidades para producir mejores estimaciones y pre- complejos como los que acontecen en el ambito de las Ciencias So-
dicciones a partir de las observaciones realizadas. ciales y Biomedicas. La versatilidad de estos modelos y su capacidad
e) Permiten la posibilidad de incorporar efectos aleatorios, al para la construccion de model os isomorfos con la realidad objeto
asumir un muestreo aleatorio entre individuos en contextos de estudio es una de sus principales potencialidades. El tratamien-
tam bien aleatorios, afectando al nivel de generalizacion de to simultaneo de distintas fuentes de variabilidad situadas en los dis-
las conclusiones. tintos niveles de lajerarquia es una aportacion muy notable de es-
tos modelos.
f) Realizan una adecuada estimacion de los terminos de error Ahora bien, el uso teoricamente ciego de estos modelos estadis-
del modelo. La parte aleatoria en un modelo multinivel esta ticos (y cualquier otro) constituye una practica muy cuestionable y
compuesta por elementos, (flljX ij + floj + CiJ, que represen- con much as limitaciones cientificas. La toma de decisiones sobre
tan respectivamente la variacion residual entre pendientes, el mejor modelo responde a un patron complejo que ha de estar
entre puntos de corte y la variacion individual. Por tanto es- guiado por una teoria de fondo. Casi cualquier conjunto de datos,
tamos ante una estructura aleatoria que es dependiente en adecuadamente 'sobre-tratado' , puede llegar a producir un mode-
el macro nivel, ya que los componentes fllj y floj son co- 10 significativo. El problema es el significado del modelo, no su sig-
munes para todos los individuos del mismo contexto. Y en nificacion estadistica. En esta linea puede entenderse tambien la
el que las varianzas no son iguales (heterocedasticidad) idea de Garrison (1986) cuando mantiene el principio de la inde-
puesto que (flljX ij + flo) depende de los val ores de fllj y floj terminacion de la teoria respecto de la experiencia.
112 MODELOS JERARQUICOS LINEALES
GAVIRIA,]. L.; MARTINEZ-ARrAs, R Y CAsTRO, M. (2004, Mayo 5): Un Estudio MOK, M. (1995): Sample size requirements for 2-level designs in educatio-
Multinivel Sobre los Factores de Eficacia Escolar en Paises en Desarro- nal research. Multilevel Modelling Newsletter, 7 (2), 11-15.
llo: El Caso de los Recursos en Brasil. Education Policy Analysis Archives, MOSTELLER, F. Y TUCKEY,]. W. (1977): Data-analysis and regression. Reading,
12(20). Retrieved [Mayo 17] from http://epaa.asu.edu/epaa/v12n20/. Mass, Addison-Wesley.
GOLDSTEIN, H. (1986): Multilevel mixed linear models analysis using itera- PEDHAZUR, E.]. (1982): Multiple regression in behavioral research. 2 nd edition.
tive generalized least squares. Biometrika, 73, 43-56. Holt, Rinehart and Winston, New York.
GoLDSTEIN, H. (1995): Multilevel statistical models (2 nd edition). Edward Ar- RAUDENBUSH, S. W. (1997): Statistical analysis and optimal design for clus-
nold, London. ter randomized trials. Psychological Methods, 2, 173-185.
GOLDSTEIN, H. (1996): Consistent estimators for multilevel generalised li- RAUDENBUSH, S. W. (2001): Toward a coherent framework for comparing
near models using an estimated bootstrap. Multilevel Modelling Newslet- trajectories of individual change. En L. M. COLLINS YA. G. SAYER (eds.).
ter, 8 (1), 3-6. New methods for the analysis ofchange. American Psychological Association,
GOLDSTEIN, H.; RABASH,].; PLEWIS, 1.; DRAPER, D.; BROWNE, W.; YAN, M.; Washington.
WOODHOUSE, G. YHEALY, M. (1998): A user's guide to MlwinN Multilevel RAUDENBUSH, S. W. Y BRYK, A. (2002): Hierarchical linear models. Applications
Models Project, Institute of Education. University of London, London. and data analysis methods (2 nd edition). Sage, London.
HAYS, W. L. (1973): Statistics. Holt, Rinehart and Winston, New York. ROBINSON, W. S. (1950): Ecological correlations and the behavior of indi-
HEDEKER, D.; GIBBONS, R D. Y WATERNAUX, C. (1999): Sample size esti- viduals. American Sociological Review, 15,351-357.
mation for longitudinal designs with attrition: comparing time-related SCHEAFFER, R L.; MENDENHALL, W. Y OTT, L. (1987): Elementos de muestreo.
contrasts between two groups. Journal of Educational and Behavioral Grupo Editorial Iberoamericano, Mexico.
Statistics, 24, 70-93. SKlNNER, c.]. et al. (eds.) (1989): The analysis of data from complex survey. John
KEEVES, ]. P. Y MCKENZIE, P. A. (1999): Research in Education: Nature: Needs, Wiley, Chichester.
and Priorities. En JOHN KEEVES YGABRIELE LAKOMSKl (eds.) . Issues In Edu- SNUDERS, T. A. B. Y BOSKER, R.]. (1993): Standard errors and sample sizes
cational Research. Pergamon, Amsterdam. for two-level research. Journal of Educational Statistics, 18, 237-259.
KREFT, 1. G. G.; DE LEEUW,]. YVAN DER LEEDEN, R. (1994): Review office SNUDERS, T. A. B. Y BOSKER, R]. (1999): MultilevelAnalysis. An Introduction
multilevel analysis programs: BMDP-5V, GENMOD, HLM, ML3, VARCL. to basic and advanced multilevel modelling. Sage Publications, London.
American Statistician, 48, 324-335.
TAcQ,]. (1986): Van multiniveau probleem naar multiniveau analyse. Depart-
KREFT, 1. G. G. YDE LEEUW,]. (1998): Introducing multilevel modelling. Sage ment of Research Methods and Techniques. Erasmus University, Rot-
Publications, London. terdam.
KREFT, I. G. G.; DE LEEUW,]. Y AIKEN, L. (1995): The effect of difIerentforms VERMEULEN, C.]. Y BOSKER, R]. (1992): De omvang en gevolgen van deeltijd
of centering in hierarchical linear models. Multivariate Behavioral Re- arbeid en wolledige inzetbaarheid in het basisonderwijs. University of Twente,
search, 30, 1-22. Enschede.
KREFT, 1. G. G.; DE LEEUW,]. Y KIM, K. S. (1990): Comparing Four Different
Statistical Pockages for Hierarchical Linear Regression. GENMOD,
HLM, MLZ & VARCL (CSE Technical Report # 310). CA, University of
California Press, Los Angeles.
LINDLEY, D. V. YSMITH, A. F. M. (1972): Bayes estimates for the linear mo-
del. Journal of the Royal Statistical Society, Series B, 34, 1-41.
LONGFORD, N. (1987): A fast scoring algorithm for maximun likehood es-
timation in unbalanced models with nested random effects. Biometrika,
74 (4), 817-827.
7
BIBLIOGRAFlA COMENTADA
Open worksheet
Save worksheet 'Iiew or edit data
Save worksheet As .•. Command Irterfac.
ASCll text file Input rocodo
Sort
ASCll text file oUtput
LIstWise
New Macro Jon
Open Macro Morgo(roplic••)
Save Macro ....epIc••
Generate vector
Save MIICroas
Select or omit cases
Print Window Image SpIt Rocords
SpIt cokJnn
Exit Multl.eveI data ~
Gr"'4'S
FIGURA A.2. SubmenUs de la opci6n FILE.
=- Names 1_ irQ/ x i
B...... ", IULbo .. M -
Qv..... --- 1 Jgrupo IBerresh ['8Iegorles I 'I Help I
b).,....,..... "-me n mieelng min nwa
! blE~dniY)
,b.)'_3("""') 1 t!li!iil. 21212 2 2
1&iiI(rbW) 2 cod
3 tltu
21212
21272
21841.
1
5,2IMHE+(
2
4 c .....o 21212 3 6
..'"
5 cOfJlWlida 21212 1 15
• Ioca 21272 1
1 alumno
• thet.cl
21212
21212
•
134,. 314,11
M,Pe
t thet.1t 21212 153,st .2,13
I 11 thetam 21212 144,1' 312,13
Nombo., IE_I :::I c::::!EJ 11 pljpj
12_
21212
21212
0,1113411 3,3411431
.......... ,ed r"" rl_-:-:",...-.::r-...-:;",- "':;;"7)------:::I-.
· c.nco&oo I 13 ...... 21212
0 1
4
r Atwrcorno.ctJvodts6lokIc:Ua
14 ....... 21272 1 4
15._
,. repetlr
21212
21212
•
0
5
1
FIGURA A.3. Selecci6n de un archivo de datos. 11 8lItrae•• 21212 0 (;
,. hor....at 21212 0 (;
,. horaatv 21212 0 6
21 aepiracl 21212 0 9
Una vez realizada esa operaci6n, aparentemente nada ha cam- 21 eatmed 21212 0 (;
La especificaci6n del modelo en MLWIN es muy facil. En el ejem- En primer lugar, debemos especificar la variable dependiente y
plo que nos ocupa, tomaremos como variable dependiente el ren- los niveles que tendnl nuestro modelo. Esto se hace picando sobre
dimiento en matematicas, recogido en la variable 'Thetam', mientras la variable y. Aparece entonces una v.entana con dos cuadros ex-
que como variable independiente vamos a utilizar la variable 'Sexo'. tensibles, en los que podemos seleccionar la variable dependiente
y el numero de niveles de nuestro modelo. (Figura AS).
Ealilllalion
Main Effects and Interactions control..
Predictions
y = f30 x n ... Y variable ~
Hierarchy lli'ewer
Estinate tables y:
Trajectories N Ievek:
Residuals
Multivariate
Variance function
Intervals and tests
Constr ai1 Parameters
Weights
Subscripts
FIGURA A8. Cuadra de dialogo de la variable de respuesta.
y-N(XB,n)
y = f3oxo
y = /3");,,
y:
N Ievek:
A continuaci6n pulsamos en la flecha derecha del segundo cua- no' tiene la identificaci6n de los sujetos, mientras que la variable 'es-
dro, y seleccionamos la opci6n 2-ij, que indica que nuestro mode- cuela' identifica el centro al que pertenece cada uno de enos. (Figuras
10 tendni 2 niveles, y que los subindices seran i para los sujetos, y A.12, A.13 YA.14).
j para las macrounidades, escuelas en nuestro caso. (Figura A.lO).
Y ~ N(XB, Q)
Y ~ N(XB, Q)
Y = fJoxo
Iii Y variable- -"~ " (gJ
Iii Y variable ~
y:
y: Jiiletam n
N levels:
N levels: mm~al Jeve12(j):
(_.] Jewll(i):
l-i
J - ijk
4- ijkl
5-1
FIGURA Al O. Determinacion del numero de niveles.
FIGURA A12. Seleccion del indicador de nivel 2.
AI elegir 2 niveles, automaticamente se modifica la ventana de
la variable y y aparecen otros dos cuadros extensibles. En ell os te-
nemos que seleccionar las variables de identificaci6n de las unida-
des de cada nivel. (Figura A.ll). En nuestro nivel, la variable 'alum- Yj ~ N(XB, Q)
Yj = fJoxo Iii Y variable lEJ
Y ~ N(XB, Q)
leve12(j) :
Y = fJoxo
y: Jlheta.. ::!OJ levell(i) : jiB'---3
N levels: flijjH "3 -----1::0
(none] A
FIGURA All. Cuadra de seleccion de indicadores de nivel. FIGURA A13. Seleccion del indicador del nivell.
126 MODELOS JERARQUICOS LINEALES APENDICE 127
""
_ .~
done
_ _ _ _ _ ..... _.J Yij - N(XB, Q)
Yij = (30.\;0
FIGURA A.14. Aparici6n de los subindices en la variable de respuesta.
~~~
Esti.ation
deletelerm control..
Q.one
[ UOj] - N(O, nul : nu ~ [ o,OO~(o.~oO'O) ] FIGURA A18. Resultado de la estimacion del modelo nulo.
~taJl M.ore ~lop IGlS ._ _ . _ _ E::::t 1_______ _ FIGURAA20. Especificaci6n de la variable 'Sexo'.
Comprobamos que ha disminuido el valor del intercepto. Esto se rianza covarianza del nivel dos, dos nuevos terminos: uno para la
debe a que ahora ese parametro ya no es la media de todos los alum- varianza de la pendiente de 'Sexo', y otro para la covarianza de esta
nos de todas las escuelas, sino la media de todos los alumnos para los variable con el intercepto. (Figura A. 2'3 ).
que la variable 'Sexo' toma el valor cero (en este caso las chicas).
El parametro asociado al sexo tom a un valor de 11,989, que es .. MLwiN C:\Documents and SeltingsUOS[ LUIS\Mis docllmentos\1.ibro de MlIlIinivel\[
la diferencia entre el rendimiento medio de las chicas y los chicos. 0.' File Edit Options Model EstilMtion Ma ManiptJatlon BasIc St&istlcs Graphs Wi1dow Help
Comparando los valores del estadfstico de verosimilitud de este
modelo y el del modelo nulo, obtenemos 215844 - 215372 = 472. ~~ I _________ _
Como ya hemos vis to este valor tiene una distribuci6n chi cuadra-
do con 1 grado de libertad, que es la diferencia en el numero de
parametros de uno y otro modelo. Se trata por tanto de una dife-
rencia estadfsticamente significativa. Luego es preferible nuestro
modelo alternativo al modelo nulo. (30ij = _~~~,-~~~{~,-~~~L + U Oj + eOij
Una extensi6n natural de este modelo permite la variaci6n del
(31j = !}-,~~_3_(~,!i_~~L + U 1j
predictor 'Sexo' en el nivel 2. Para ella picamos otra vez sobre el
termino correspondiente, y en el cuadro de dialogo que se abre pi-
camos en la casilla de verificaci6n del subfndice j (Escuela). (Figu-
ra A.22). Automaticamente el programa incluye en la matriz de va-
- NO,
( Q u)
r\u
~.:
= [7?}.!7~_~(~~'7}_~t ] 11.
12.
C. Rodriguez Morilla: Analisis de series temporales.
J. Gil, E. GardaJimenez y G. Rodriguez Gomez: Analisis discriminante.
o 89,664(15,975)
--------------- 13. R. Ardanuy y F.J. Tejedor: Tablas estadisticas.
14. J. E. Real Deus: Escalamiento multidimensional.
= U_~~~,§_7_~(I_~,J_~~tJ
15. A. M. Aguilera: Tablas de contingencia bidimensionales.
- N(O, Qe) : Q e
16. R. Clairin y Ph. Brion: Manual de muestreo.
17. A. Hernandez Bastida, M" C. Martel Escobar y F. J. Vazquez Polo: Metodos
-2*loglikelihood(IGLS) =215327,000(21272 of 21272 cases in use) estadisticos en auditona de cuentas.
18. L. Hernandez Encinas: Tecnicas de Taxonomia numerica.
19. Q. Martin Martin: Contrastes de hipotesis.
FIGURA A.24. Resultado de la estimacion del modelo alternativo 3. 20. F. Javier Diaz-Llanos y Sainz-Calleja: El analisis de datos en el cierre de ventas.
21. A. D. Correa Pinero: Analisis logantmico lineal.
22. J. Revuelta y V. Ponsoda: Simulacion de modelos estadisticos en ciencias sociales.
El proceso continuarfa introduciendo en el nivel 1 tantas varia-
23. J. Serrano Angulo: Iniciacion a la estadistica bayesiana.
bles como nuestros datos cuente, y posteriormente continuar el pro- 24. F. J. Tejedor Tejedor: Aplicaciones diversas del analisis de varianza.
ceso introduciendo predictores en el nivel 2, con sus correspon- 25. M" L. Perez Delgado y Q. Martin Martin: Aplicacion de las redes neuronales ar- .
dientes interacciones con las variables de nivel 1. Esta mecanica ya tificiales a la estadistica.
ha sido ilustrada en el capftulo correspondiente, y por ella no se re- 26. P. Morales, B. Urosa y A. Blanco: Construccion de escalas de actitudes tipo Likert.
pite aquf. 27. L. C. Silva Ayc;:aguer eLM" Barroso Utra: Regresion logZstica.
28. J. L. Valencia y F. J. Diaz-Llanos y Sainz-Calleja: Metodos de prediccion en si-
tuaciones limite.
29. J. L. Gaviria Soto y Maria Castro Morera: Modelos jerarquicos lineales.
EN PREPARACION:
M = . ,.
=======t::.
=
=co
co
editorial
U\ MURAllA, 5. A.
- - -"m