(Cuadernos de Estadística 29) Jose Luis Gaviria Soto, María Castro Morera - Modelos Jerárquicos Multinivel-Editorial La Muralla S.A. (2005) PDF

uadernos de Lsta(1lSb (
Jose Luis Gaviria Soto

Maria Castro Morera
MODELOS JERARQUICOS
LINEALES
IWI
editorial
LA MURALLA, S. A.
JOSE LUIS GAVIRIA SOTO
MARiA CASTRO MORERA
MODELOS JERARQUICOS
LINEALES
I~I
editorial
LA MURAUA, SA
CUADERNOS DE ESTADiSTlCA
Direcci6n: Juan Etxeberria Murgiondo
Francisco J. Tejedor Tejedor INDICE
PROLOGO ..................................................... -:-: . !Pag. 7

1. EL TRATAMIENTO ESTADiSTICO DE LAJERARQUiA ................ .. 11
1.1. Ventajas conceptuales de los modelos multinivel ...... 16
1.2. Algunas estructurasjerarquicas ......................... 18
1.3. La cuestion de la denominacion ........................ 21
2. REGRESION EN DOS NIVELES ....................................... 23

2.1. Aproximacion intuitiva a los fundamentos de los mo-
delos multinivel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2. Formalizacion del modelo: modelo completam~nte alea-
torio y sus variaciones .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3. El modelo nulo ........................................... 38
2.4. Ampliacion de los modelos: la inclusion de predictores
en el nivel macro ..................... .. .................. 39
2.5. Naturaleza de los predictores ........................... 43
2.6. Modelizacion de la heterocedasticidad en el micro-ni-
vel.......................................................... 56
2.7. Significaci on y ajuste de los modelos ............... .... 57
2.8. Estimacion de los parametros ........................... 59
2.8.1. Estimaci6n por puntos de los ejectos fzjos ............ 61
2.8.2. Estimaci6n par intervalos de los coeficientes fzjos del
segundo nivel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.8.3. Estimaci6n conjunta de los efectos fzjos y las varian-
zas.................................................. 67
2.8.4. 'Estimaci6n' de los residuos ......................... 69
2.9. Explicacion de la varianza ............................... 73
© 2005 by Edit. LA MURALLA, SA
Constancia, 33. 28002 Madrid 2.9.1. Predicci6n de un valor individual (nivell)......... 75
2.9.2. Predicci6n de un valor grupal (nivel2) ........ . ... . 76
ISBN: 84-7133-747-9 2.9.3. Varianza explicada en modelos de pendientes aleato-
Deposito Legal: M-585-2005 . rias ........ . ........................................ 78
Printed in Spain - Impreso por Lavel, S. A., Industria Gratica (Madnd)
MODELOS JERARQUlCOS LINEALES
6
79
3. DISENO Y SUPUESTOS DE LOS MODELOS MULTINIVEL
3.1. El tarnaiio de la rnuestra ................................ . 79
3.1.1. Tamaiio de la muestra en disenos por conl!lomerados 81
3.1.2. Tamaiio de la muestra y fiabilidad del estzmador .. . 83
3.2. Supuestos de los rnodelos rnultinivel .................. . 85

PROLOGO
4. EL PROCESO DE MODELIZACION MULTINIVEL: OBTENCION E INTER-
PRETACION DE RESULTADOS ..................................... .. 89
4.1. Algunas notas sobre el uso del prograrna ML~n

90 Los modelos estadfsticos son herramientas que nos permiten
adentrarnos en la complejidad de los fenomenos que investigamos. )
4.2. La estrategia de modelizacion y el rnodelo n~ ~ ...... . 92 Las tecnicas que utilizamos en nuestras investigaciones y las que en-
95
4.3. Expansion de la parte f~a y aleatoria del rno e 0 senamos en nuestras clases tienen que permitirnos alcanzar este ob-
4.4. Interpretacion de los residuos ......................... .. 106
jetivo. Ahora bien, no parece facil estudiar fenomenos complejos
109 como los que acontecen en el ambito de las Ciencias Sociales con
5. SiNTESIS Y CONCLUSIONES ........................................ .. modelos estadfsticos sencillos 0 muy restrictivos. No se trata por tan-
6. REFERENCIAS BIBLIOGAAFICAS .................................... . 113 to de usar tecnicas y modelos sofisticados por simple esnobismo 0
por erudicion, sino de que los propios modelos que utilizamos re-
7. BIBLIOGRAFlA COMENTADA ....................................... . 117 produzcan la complejidad del mundo que intentamo~ comprender.
En ese intento de construir modelos isomorfos con la realidad
APENDICE: Estimacion de model os con MLWIN ................... . 119 se encuentran los model os multinivel, que tienen en cuenta esa
complejidad estructural, en este caso, la naturaleza anidada 0 je-
rarquica de muchos datos en Ciencias Sociales. De ahf que los mo-
delos jerarquicos lineales no se presenten solo como un conjunto
de procedimientos novedosos, sino como la consecuencia logica de
ese intento de emplear modelos que permitan un acercamiento real
a los fenomenos a estudiar. Estos modelos permiten tratar adecua-
damente la diferenciacion de la varianza que producen distintos ni-
veles de agregacion. Suponen una solucion estadfstica para tratar
simultaneamente la influencia del contexto y de las diferencias in- .
dividuales.
Este es el objetivo central de esta monograffa, presentar la apor-
tacion que suponen los modelos multinivel para el adecuado trata-
miento estadfstico del contexto y de las diferencias individuales.
Conviene aclarar que los distintos nombres que se han utilizado,
como 'Modelos jerarquicos lineales', 'Modelos multinivel', 'Mode-
los de coeficientes aleatorios' etc., difieren basicamente en el gra-
do de generalidad. De todas estas denominaciones la mas generica
es la de modelos multinivel, que refleja claramente la naturalezaje-
rarquica de los datos, pero no prejuzga la forma de las funciones
8 MODELOS JEAARQUICOS LINEALES PROLOGO
9
que se utilicen. Estamos, conviene decirlo, mas que ante un mode- nes estr~lCtural~s entre variables de cada uno de los niveles
10 estadistico especffico 0 una tecnica de analisis, ante todo un en- en una jerarqUla organizativa 0 de muestreo'
foque de como debe abordarse el analisis de datos. En este sentido, b) los ~odelos jerarquicos proporcionan calibr;ciones de la in-
modelos muy diversos caben bajo esta denominacion. Ciertamen- certldumbre producida en el proceso de estimacion cuan-
te, la mayoria de los modelos propuestos y utilizados son de natu- do hay aut?corr~laci?,n presente en los datos, algo muy na-
raleza lineal, y de una forma u otra estan asociados entre sf. Pero no tural en la mvestIgacIOn socio-educativa'
siempre tiene que ser asl. c) los modelosjera~q~i.cos proporcionan u~ marco expIfcito en
Todos los textos introductorios de estos modelos comienzan in- e~ que exp:esar jUICIOS de similaridad entre las unidades de
dicando que las estructuras jerarquicas 0 anidadas de los datos son llIvel s,:penor, es decir, un marco en el que valorar el su ues-
realmente comunes en los datos de la investigacion en Ciencias So- t~ de :mterca~~iabilidad' de las unidades, en orden a ~om
ciales. Esto es especialmente cierto en la investigacion educativa, en bm~ mfo~m~cIOn d~ unidades de distintos niveles, para pro-
la que los sujetos estan agrupados de forma natural en dases, y las duclr prediccIOnes bIen calibradas de resultados observables.
clases en escuelas, las escuelas en distritos, etc. Lo importante de esta
agrupacion es que no se trata de una entelequia, no son categorfas . , Este ~nfoque ~sta generalizandose de tal modo en la investiga-
con las que organizamos la informacion, como pueden ser las ca- CIon soclo-educauva, que no puede concebirse ya esta sin tener en
tegorfas de votantes de distintos partidos, 0 los miembros de una cla- c~enta q,:e s~ ~aturaleza multinivel es una nota consustancial de la
se social. Se trata de agrupaciones reales de los sujetos que hace que mIsm~',SI tUVlese~os que caracterizar a la investigacion educativa
aquellos que pertenecen al mismo grupo reciben una serie de in- hoy ~I~Iamos que esta es empirica, multidisciplinar, multivariada y
fluencias comunes que reducen la variabilidad natural del grupo, mulullIveI. (Keeves y McKenzie, 1999: 208).
haciendolo en cierta medida mas homogeneo. EsteYbro no es un manual de un programa. Ocupa un nivel in-
Los modelos multinivel se han desarrollado para analizar datos termedIO entr~ las. introducciones puramente teoricas a los mode-
anidados 0 con estructurajerarquica. Es decir, los datos de mas bajo los, (co~o algun lIbro 0 articulo de Goldstein) donde se presenta
nivel, por ejemplo los individuos, se presentan anidados en unida- un~ vanedad muy grande de modelos, 0 en un nivel algo mas ope-
des de nivel superior. Estas a su vez pueden agruparse en otras uni- rauvo, co~~ en ~l manual de Raudenbush y Bryk, pero en donde
dades de tercer nivel, y asi sucesivamente. no se exphclta como llevar esos modelos a la practica, y los nuevos
La extension de su utilizacion ha sido progresiva. Si bien en la man~ales de los programas, donde se presenta cada una de las ins-
decada de los ochenta podian encontrarse algunas publicaciones truccIOnes 0 comandos, pero don de no se sabe que tipo de mode-
en que se refiriera el uso de tales modelos, es a partir del final de los pueden resolverse.
esa decada cuando se produce una gran abundancia de las mismas. ,Es~ monografia quiere ser una primera aproximacion, accesible
Hay ambitos en los que ya es practicamente imposible encontrar un y tecllIca, a !os m~~elos multinivel. Pretendemos ofrecer al lector
u.x: herramlenta utIl ~a:a ace:carse a la construccion e interpreta-
estudio publicado en el que no se presente un modelo jerarquico. a
Revistas como 'Educational Evaluation and Policy Analysis' 0 'Structu- CIOn de modelos. mulullIvel mas senciIIos, los modelos de dos nive-
ralEquationModeling' estan publican do continuamente artfculos de les. Por ello, el hIlo argu~ental que ya vamos a desvelar, mucho an-
este tipo. tes ,de lle~ar:l fi~al, comlenza por introducirnos en la logica de los
Ylajustificacion de esta tendencia va mas aHa de un simple moda. mod~los jerarqUlcos lineales y su adecuacion a la solucion de de-
Las ventajas tecnicas de los modelos jerarquicos, son muchas. Po de- te:~mados p~~blemas de investigacion en Ciencias Sociales y Bio-
mos destacar las tres mas importantes que menciona Draper (1995): medlCas (seccIOn 1): .Continua con la formalizacion e interpretacion
del m~delo de dos llIveles, deteniendonos en cuestiones claves como
a) los modelosjerarquicos proporcionan un entorno natural en los. reslduos, la naturaleza de los predictores 0 la explicacion de 1
el que expresar y comparar las teorias acerca de las relacio- vananza del modelo (seccion 2). Las condiciones de aplicacion y a~
10 MODELOS JERARQUICOS LINEALES
gunas particularidades de los diseiios multinivel estan planteadas en

la seccion 3. Estos tres apartados constituyen el nucleo conceptual
de los modelos multinivel, dejando para un segundo momenta la
expansion y desarrollo de estos modelos. La seccion 4 esta dedica-
da a la presentacion aplicada e interpretativa del proceso de mo-
delizacion dentro del marco multinivel. Para ella utilizaremos el pro- 1
grama mas completo actualmente, MLwin, editado por el Instituto
de Educacion de Londres (Goldstein etal., 1998). Por ultimo, se pre- EL TRATAMIENTO ESTADiSTICO
senta un resumen de las principales aportaciones de estos modelos DE LAJERARQuiA
en la seccion 5,junto con las principales referencias bibliograficas
(seccion 6) Y una seleccion bibliografica comen tada (seccion 7). El
Apendice de la monografia incluye una breve introduccion al uso Es un hecho que la mayo ria de los d
la investigacion en Ciencias S . 1 a~os con los que tratamos en
del programa MLwin con un caso concreto. Los ejemplos, las varia- que los sujetos estan forman~~l~ es prOVIenen de fe~omenos en los
bles, las ilustraciones, etc. proceden todos del ambito de la investi- muchas las situaciones que nos .e mane~a natural Jerarquias. Son
gacion educativa, que constituye nuestra area de trabajo y de inte-
agrupados en escuelas aciente~:nen ~ .a cabeza, como alumnos
. ~.c~~mcas, votantes en distritos
res de nuestras particulares inquietudes cientificas y de aplicacion
electorales, casas en v:cfndari
metodologica.
Este trabajo esta dirigido a todos aquellos que quieran acercarse nomia, etc. Ya Moelleng & TO~~~;n(11~2~~:~~1~~ctores d:; la ec?-
por primera vez a estos modelos de regresion sofisticada. Esta des- da~ humana esta organizada de modelo . an ~ue .la socze-
La Jerarquia responde a la idea se ,g~eral en Jerarq~tas anzdadas".
tinado tanto a aqueUos que quieran obtener una formacion de "usua-
tenecen al mismo grupo Com arte;n a c~allos sUJetos que per-
rios inteligentes e inteligibles" de los modelos multinivel, como a favorece la homogeneidad D p h h un COIlJunto de estimulos que
aquellos que quieran profundizar y obtener un dominio tecnico de
portantes de las Ciencias S~ci:le:~ 0, .~no .de los objetiv?s mas im-
estos modelos. Ciertamente, habra un numeroso grupo de lectores raccion entre las caracteristic . d. a.~l 0 slempre estudlar la inte-
grupo y sus e~ectos sobre las v~~~bll~ d~a;~: y las caracteristicas del
que esten mas in teres ados en la aplicacion de esta metodologia a su
campo sustantivo de investigacion, mas que en los intringulis del cal- En educaclon por· p 1 puesta.
culo 0 la obtencion de estimaciones. Para todos, pero especialmente la clase que de hecho s;Janemu 0, pOdemdos te~er algunas variables de
para esos lectores es esencial la comprension del significado sus- , n resumen e la mform ., d 1
nos. Asl, el nivel sociocultural medio de aCIOn e os alum-
tantivo de los distintos parametros del modelo. Uno de los princi- una caracterfstica de la clase El d.. los alumnos de una clase es
pales objetivos de este libro es precisamente que ellector aprenda lar se ve afectado por el nivei so r.en ~mlenl to de. un alumno particu-
a interpretar los resultados de aquellas investigaciones ajenas que uti- Pero tamb·' . CIOCU tura medIO de la clase.
lizan esta tecnica y que sepa plasmar sus conjeturas en un modele len es poslble que tenga ' .
rresponden a la propia clase ~os carac.tenstIcas que co- .
multinivel cuyos parametros Ie resulten significativos. Logicamente, ejemplo si es un solo profesorc~mo U~l ad de mYel superior. Por
las distintas lecturas que puedan hacerse dependeran de los intere-
si son varios especialistas quienes lqu~ Imparte todas ~as materias, 0
ses e inquietudes del lector. Los autores simplemente esperan haber se. Tambien puede ser im orta t 0 aC,en, es una vanable de la cla-
profesores afectan a los r~sulta~:s v~; ~~sr:~ las caracteristicas de los
facilitado este acercamiento, a un tema que para ellos es apasionante,
puesto que, en coincidencia con Kreft, De Leeuwy Kim (1990), po-
los alumnos comparten a los rofeso umnos. D~d? que todos
demos decir que "una vez que sabes que las jerar:quias existen, tiendes a munes a toda la clase As' 1 P ·1 d res, sus caractenstIcas son co-
verlas por todas partes".
variable del grupo, n~ de;' a~u:~o~ ocente de un profesor es una
Madrid y Murcia, mayo de 2004 Hasta no hace mucho habia do f, .
anidados: desagregacion y agregaci~:.rmas de estudlar estos datos
12 MODELOS JERARQUICOS LINEALES EL TRATAMIENTO ESTADiSTICO DE LAJERARQUlA
13
La primera consiste en desag;regar los valores de las variables d~ extraida que hace referencia al grupo, se la aplicamos a los indivi-
las unidades de contexto 0 grupo y asignar sus valores a cada um- duos 9ue forman parte de ese grupo.
dad individual. De esa forma todos los sujetos de una misma clase Al 19no~ar.la estructura de los datoSI el problema que se produ-
tienen el mismo valor en cada una de las variables de la clase. Por ce es que ehmmamos toda la varianza interna de los grupos que pue-
este procedimiento, las caracterfsticas del profesor de la clase, de la de llegar a ser del 80% 0 del 90%. Asf las relaciones a~areceran
escuela, de la ciudad, etc, son asignados a los sujetos. A continua- como muy fuertes, y pueden ser de hecho muy distintas de los re-
cion se realiza el analisis en el nivel individual, es decir, tomando a sultados con las variables desagregadas.
los sujetos como unidades de analisis. .. Las aproximaciones estadisticas clasicas tienden a realizar ana-
El problema con esta solucion es que todos los alumnos de la mis- IlSls agregad~s, 0 desagregados, como ya hemos dicho. La eleccion
ma clase han com partido gran cantidad de estfmulos y experiencias, de la agregaclOn puede llevarnos ala falacia ecologica al transferir
y sus valores en la variable dependiente seran mas homogeneos. Por los resultados del grupo a los individuos (Robinson 1950) ya los
tanto, no podemos considerar que los datos de los alumnos de la sesgos de agregacion (Roberts y Burstein, 1980) qu: olvidan reca- /
misma clase constituyen observaciones independientes. No se pue- nocer que la conduc~,es un acto esencialmente individual. En el
de asumir el supuesto de independencia entre las observaciones. Si otro extremo, la ~lecclOn de trab'!:iar a un nivel unicamente indivi-
10 hacemos, estamos subestimando el tamano del error. dual pr?duce el nesgo de caer en la falacia atomfstica (Alker, 1969)
En efecto, los alumnos de dos clases distintas seran totalmente que olVlda el contexto en el que la conducta se desarrolla y se ra-
independientes entre sf, pero los de una misma clase comparten va- duce una transferencia de los resultados individuales a los niv~les
lores de muchas variables; seran mas parecidos entre sf que con los de grupo.
alumnos de otra clase. Como posiblemente algunas de esas variables ~or estos motivos, tanto una como otra solucion son insatisfac-
no se mediran, los efectos de esas variables no observadas quedaran tonas (Alker, 1969; Pedhazur, 1982; Aitkin y Longford, 1986; Snij-
recogidos en el error. Por 10 tanto los sujetos de las mismas clases ~ers y Bosker, 1999) . Con una y otra estrategia se elaboran conc1u-
seran mas parecidos, y el error tfpico sera por tanto, aparentemen- SlOnes sobre un deter~inado nivel (individual 0 grupal) que ueden
te mas pequeno. proce~er de obs~rvaclOnes del otro niveJ. Es 10 que se deno!ina in-
Si trataramos de estudiar las diferencias entre grupos, la estrate- ferenCla entre mveles cruzados. Esta igualacion del individu I
gia de desagregacion supone un aumento en el riesgo real de come- ?TUpO hace que las conc1usiones de las investigaciones se des~~~
ter Error de Tipo I, 0 por el contrario, ser demasiado conservador jen, pu.est~ 9ue se puede enmascarar el origen de las diferencias en
al estudiar las diferencias entre individuos (Moerbeek et al., 1997). la exphcacI~~ de la variabilidad de los resultados.
La segunda solucion consiste en ag;regar todos los valores de las En defimuva, 10 que ocurre es que se ignora la estructura basica
variables individuales, es decir, calcular el valor de la media para
?~~O~ datos, 9ue es jerarquica 0 anidada. Las variables asociadas al
cada grupo en las variables a estudiar, tanto dependientes com? m IVldu~ e~tan :laramente anidadas dentro del contexto. Esta es-
independientes. A continuacion, se realiza el analisis con las um- tructura jera:qmca no es respetada por el modelo lineal c1asico ya .
dades de segundo orden, los grupos 0 contextos. Si 10 que nos in- q~e no consldera e.sta articulacion en niveles. Los modelos m~lti
teresa son las macro relaciones, es decir, las relaciones que tienen mveJ resuelven el dIlema entre agregacion 0 l·ndl·Vl·dual. .,
lugar entre las variables de las unidades de segundo nivel, no hay b· d · IzaclOn, tra-
aj<'l;n 0 con ambos mveles simultaneamente.
nada que objetar. Pero si 10 que realmente nos interesa. es 10 que Esta es la aportacion de los llamados modelos jerarquicos linea-
ocurre en el micro-nivel, estaremos tentados de generahzar las re- les, cO,n.t~xtuales 0 multinivel frente a los model os de regresion 0
laciones observadas en el nivel superior a las unidades del nivel de anahsls de covarianza. Los modelos multinivel 0 jerarquicos li-
inferior. Y ese es un error. Este error potencial se conoce con el neales se han desarrollado para analizar datosjerarquicamente es-
nombre de "falacia ecol6gica" y fue acunado por Robinson (1950). ~ructurados. Estos modelos proponen una estructura de analisis
Supone de hecho un cambio de significado, cuando la conclusion entro de la cual se pueden reconocer los distintos niveles en que
14 MODELOS JEAARQUICOS LINEALES EL TRATAMIENTO ESTADISTICO DE LA JERARQUlA 15
se articulan los datos, estando cada subnivel representado por su ra ninglin parecido entre alumnos de la misma clase, la informacion
propio modelo (Draper, 1995). Cada uno de estos submodelos ex- de 10 alumnos de una clase es igual a la informacion de 10 alum-
presa la relacion entre las variables dentro de un determinado ninos de 10 clases distintas.
vel y especifica como las variables de ese nivel influyen en las rela- Las consecuencias de no tener en cuenta la autocorrelacion son
ciones que se establecen en otros niveles. Es decir, constituyen una importantes:
estrategia analftica que permite la formulacion jerarquica de las
fuentes de variacion y con capacidad para dar cuenta de esta es- a) no se tiene tanta informacion del nivel individual como pa-
tructura. El amilisis multinivel es una metodologia para el amilisis de rece,
datos con patrones complejos de variabilidad, enfocada a fuentes anidadas b) se afirma la existencia de resultados significativos cuando no
de variabilidad. los hay,
Una jerarquia consiste en un nivel basico de observaciones ani-
dadas 0 agrupadas dentro un nivel de agrupamiento de orden su- c) se construyen modelos innecesariamente complejos y
perior (estudiantes dentro de escuelas, trabajadores dentro de d) los errores tfpicos son demasiado pequenos.
centros de trabajo, medidas repetidas anidadas en personas 0 ins-
tituciones ... ). El nivel basico se suele denominar micro-nivel 0 pri- Las inferencias probabilfsticas que se realizan en los paquetes
mer nivel y el nivel de orden superior, macro-nivel. Los macro-nive- estadfsticos habituales asumen que los datos son independientes
les suelen denominarse tam bien grupos 0 de modo mas general, (que los residuos estan distribuidos igualmente e independiente-
contextos. Por supuesto, cabe mas de un nivel macro (estudiantes mente (IDD)).
agrupados en clases, agrupados en escuelas, agrupados en munici- Lo caracterfstico de los modelos multinivel es que permiten es-
pios 0 comunidades autonomas). pecificar afirmaciones 0 proposiciones causales que son hipotesis de
El grado de homogeneidad de los contextos viene expresado relaciones entre variables, procedentes del mismo 0 de diferentes
por la correlacion intraclase 0 autocorrelaci6n (Lc.e.), que habitual- niveles (Tacq, 1986). En cada nivel de la jerarqufa se pueden defi-
mente es ignorada por los modelos estadfsticos clasicos. La corre- nir variables referidas a las unidades de analisis de cada uno de los
lacion intraclase es una medida de la homogeneidad interna de los niveles. Atendiendo al nivel al que pertenezcan las variables ten-
grupos. Es una medida de la similitud de las unidades del nivel in- dremos proposiciones macro, micro 0 interniveles.
dividual y de las diferencias entre las unidades de nivel macro. Yes Imaginemos una investigacion en la que tenemos escuelas, como
muy importante para la determinacion del tamano de la muestra macro-nivel, que son grandes, pequenas, privadas, publicas, con me-
en el muestreo por conglomerados, en estudios longitudinales y en jores 0 peores resultados medios. Y tambien tenemos alumnos, como
la determinacion de la diferencia entre a nominal y a real (Bar- micro-nivel, con mayores 0 menores ingresos, que son chic os 0 chi-
cikowski, 1981; Kreft & de Leeuw, 1998). Si no existiese la correla- cas, con mejores 0 peores resultados. ~Que proposiciones hipoteti-
cion intraclase, no estarfamos interesados en los modelo multini- cas podrfamos plantear?
vel (Skinner, 1989). Se podrfa pensar en el estudio de la influencia del clima insti-
Cuando los datos estan naturalmente agrupados las unidades de tucional (Z) sobre el rendimiento medio del centro (Y). Se plantea
analisis del mismo grupo tienden a parecerse entre sf, como y'a he- entonces una proposicion macro (Figura 1.1a), puesto que se esta-
mos dicho. Por tanto, la informacion proporcionada por dos alum- blece una relacion entre dos variables definidas en el nivel macro
nos procedentes de la misma clase es menor que la proporcionada (escuela). Ahora bien, si se trata de estudiar la relacion entre el es-
por el mismo numero de alumnos procedentes de clases distintas. tatus ocupacional (x) e ingresos en sujetos de un vecindario (y), se
Si todos los alumnos de la misma clase fueran exactamente iguales, plantearfa entonces una proposicion micro (Figura 1.lb), don de las
la informacion que proporcionarfan 1000 alumnos serfa igual a la variables que intervienen en la investigacion pertenecen todas al ni-
informacion de un unico alumno. En el otro extremo, si no hubie- vel del alumno. Sin embargo, es posible establecer proposiciones in-
16 MODELOS JEAARQUICOS LINEALES EL TRATAMIENTO ESTADISTICO DE LA JERARQUlA 17
terniveles, estableciendo relaciones cruzadas entre las variables del cion en Ciencias Sociales consiste en estudiar como las ca-
nivel micro y macro. Tal es el caso de la investigacion que quisiera racteristicas del grupo afectan a los distintos tip os de indi-
estudiar la influencia del clima institucional (Z) en el rendimiento viduos. Esta consideracion de 14s diferencias contextuales se
individual (y) (Figura 1.1 c). 0 tambien de aquella que controla ade- concreta en:
mas el nivel socio-economico del alumno (x) (Figura 1.1 d). Y de
aquella que propone que la titularidad (Z) (publica 0 privada) del • Consideracion de la heterogeneidad: los efectos de los
centro afecta a la relacion entre nivel socio-economico del alumno contextos pueden potencialmente ser muy complejos,
(x) y su rendimiento academico (y) (Figura LIe). Es precisamente con relaciones que varian en distintos sentidos. Es nece-
este ultimo tipo de relacion la que solo puede estudiarse adecua- sario estudiar quien eres en relacion con donde estas.
damente con los modelos que aqui se presentan. • Interaccion entre individuos y contextos: ya que hay que
tener en cuenta la posibilidad de que un individuo in-
teractue con su contexto proximo de forma diferente a
NivelMacro Z~Y
z ..... z ..... Z"--
la que 10 hace su grupo social de referencia. 0 10 que es
Nivel Micro x~y "'y x~y x~y 10 mismo, las diferencias entre contextos deben ser exa-
minadas en relacion con las caracteristicas de los indivi-
a b c d e
duos en combinacion con las caracteristicas sociales de
FIGURA 1.1. Proposiciones posibles dentro del esquema multinivel. aquellos.
• Inclusion de conductas interrelacionadas: las diferencias
son importantes, pero hay que estudiarlas pentro del con-
1.1. VENTAJAS CONCEPTUALES DE LOS MODELOS MULTINIVEL
texto de otras conductas relacionadas. Por ejemplo, el es-
tudio del rendimiento academico y los habitos de estudio
Parece claro que se requieren herramientas estadisticas que se individuales, no puede considerarse de forma separada
ocupen de cuidar la heterogeneidad existente entre contextos (es- de los habitos de lectura 0 de numero de horas viendo la
cuelas, centros de trabajo, comunidades autonomas) y entre indi- television.
viduos simultaneamente. En definitiva, supone no tratar a los con- • Consideracion de multiples contextos: Es posible que no
textos como un todo homogeneo con una unica y comun influencia exista un unico contexto. Por ejemplo, en el caso del ren-
sobre la variable de respuesta. Ahora bien, tampoco seria muy ra- dimiento academico, los resultados pueden estar influi-
zonable ni muy parsimonioso la busqueda de cientos de ecuacio- dos por el centro al que asisten, pero tambien por el con-
nes particulares que ajusten separadamente para cada contexto. Se texto familiar.
busca, por tanto, una estrategia que permita dar una respuesta es-
pecifica y general al mismo tiempo. Que permita atender tanto a 2. Permite analizar simultaneamente contextos y heterogeneidad indi-
10 comun como a la diferencia. En este sentido, la aportacion de vidual, ya que no solo se deben considerar las diferencias en-
los modelos multinivel esta en que: tre contextos, por ejemplo (siguiendo a Coleman) las per-
sonas de nivel sociocultural bajo no solo pueden diferir en
1. Permite considerar las diferencias contextuales: los individuos la media de rendimiento academico, sino que tambien pue-
producen diferencias y los contextos producen diferencias. den ser mas 0 menos variables en sus puntuaciones.
Luego se precisan modelos que no reduzcan a los indivi-
duos a agregaciones estadisticas y que no limiten los con- 3. Permite combinar la investigaci6n intensiva con la extensiva 0 10
textos a vagas generalizaciones. Gran parte de la investiga- que es 10 mismo, cualidad y cantidad. Las conductas y las
18 MODELOS jEAARQUICOS LINEALES EL TRATAMIENTO ESTADISTICO DE lAjERARQUiA IV
acciones de los individuos tienen ambos componentes, uno

cualitativo (que ocurre en el micro nivel) y otro cuantitati-
Escuela 1 2 3 4
/~ \ -/\ /\
vo (cuanto, como de frecuente ... en el macro nivel). Ambos
elementos deben considerarse simultaneamente. La inves-
tigacion extensiva permite identificar patrones, pero al mis-
mo tiempo permite identificar grupos especificos que ne- Alumnos 1 2 3 4 1 2 1 234 1 2 3
cesitan estudios intensivos. No se debe olvidar que un mismo
fenomeno estudiado en el nivel micro 0 en el nivel macro FIGURA 1.3. Estructura de dos niveles, diseiio desequilibrado.
por separado presenta relaciones a veces contradictorias, tal
y como muestran Kreft et al. (1995) en su estudio sobre los Las estructuras de tres 0 mas niveles son la extension logica y mas di-
ingresos de los trabajadores industriales en relacion con su recta de la anterior: alumnos en clases en escuelas, pacientes en cli-
formacion. nicas en provincias, votantes en vecindarios en ciudades son ejem-
plos de ella. Como en el caso anterior, en cada nivel podemos tener
variables referidas a las unidades de analisis de ese nivel.
1.2. ALCUNAS ESTRUCTURASjEAARQUICAS Las estructuras polietapicas son otro ejemplo de estructura jerar-
quica. En un muestreo aleatorio simple, todos los sujetos tienen la
Hasta ahora se han presentado ejemplos de estructuras jerar- misma probabilidad de formar parte de la muestra. En cambio, en
quicas muy sencillas. Sin embargo la situacion de anidamiento en un muestreo aleatorio por conglomerados, la probabilidad de for-
los datos se encuentra en muy distintos tipos de investigacion. Va- mar parte de la muestra depende de la estructura y representacion
mos a presentar a continuacion algunas estructuras jerarquicas fre- de los conglomerados. Por ejemplo, se muestrean ciudades, codi-
cuentes en la investigacion en Ciencias Sociales. gos postales dentro de la ciudad, edificios, hogares e individuos den-
Las estructuras jerarquicas a las que nos hemos referido hasta el tro de los hogares.
momenta son las estructuras de dos niveles. Ejemplos clasicos de este Otra estructurajerarquica se corresponde con los estudios longi-
tipo de agrupamiento jerarquico son alumnos en escuelas, pacien- tudinales, que tratan de estudiar cambios a 10 largo del tiempo. Los
tes en clinicas, votantes en distritos, casas en vecindarios, individuos estudios de medidas repetidas son un exponente de ello. Se pueden
en sectores economicos, etc. diferenciar aquellos estudios en los que las medidas estan repetidas
Con estas estructuras se presentan dos tipos de disenos: equi- en los mismos individuos (estudios de panel), por ejemplo el estu-
librados y desequilibrados. Los primeros tienen el mismo numero dio del cambio de la tendencia de voto de los sujetos. Los niveles
de unidades de nivel uno en cada agrupamiento de nivel dos (Figu- macro corresponden a las agrupaciones por region, distrito electo-
ra 1.2.). Los segundos muestran un tamano muestral distinto para ral e individuo. Y el nivel micro estaria representado por el voto en
cada contexto (Figura 1.3). las sucesivas consultas electorales. Algunas aplicaciones tipicas serian
los estudios de medida del cambio y de curvas de crecimiento. Tam-
bien se encuentran estudios con medidas repetidas en niveles ma-
Escuela 1 2 3 4 cro de agrupamiento, por ejemplo el estudio del cambio del voto
Alumnos 1
/\ /\ /\ /\
2 3 1 2 3 123 1 2 3
en distritos. Los niveles macro definidos podrian ser las regiones, el
distrito electoral y el ano de la consulta. Anidados en estos se en-
cuentra el nivel micro compuesto por los votos individuales de los
sujetos. Son medidas repetidas en el mismo distrito, pero no en los
mismos individuos. Estos estudios se denominan cross-sectional. Yuna
FIGURA 1.2. Estructura de dos niveles, diseiio equilibrado. aplicacion tipica seria el estudio de diferentes cohortes de ninos en
20 MODELOS JERAAQUICOS LINEALES EL TRATAMIENTO ESTADISTICO DE LA JERARQUfA 21
las mismas escuelas, 010 que es 10 mismo, el estudio del rendimiento l.3. LA CUESTION DE LA DENOMINACION
de las escuelas y su cambio a 10 largo del tiempo.
Los estudios de estructuras multivariadas tambien responden a un Hablamos de modelos multinivel, pero tambien de modelos je-
patr6n jerarquico de datos. Las diferentes respuestas estan ani- rarquicos lineales, modelos de efectos mixtos, modelos contextua-
dadas dentro de los mismos individuos. Por ejemplo, la ingesta de les, de coeficientes aleatorios, de crecimiento, de curva latente ... La
diversas sustancias por un mismo sujeto (tabaco, alcohol, dieta gra- lista de denominaciones no es infinita, pero sf extensa. ~Son todas
sa), sus habitos de vida (ejercicio y tipo de vida) y los niveles de co- estas denominaciones equivalentes? ~A que se debe tal variedad? La
lesterol en sangre constituyen las variables de respuesta, que a su vez variaci6n en la denominaci6n se debe al aspecto sobre el que f~e
estan anidada en el propio sujeto y en diversas comunidades. mos nuestro interes del modelo.
Un caso particular del anterior son las estructuras de medida. Un Hablamos de modelos jerarquicos por la dependencia jerarqui-
ejemplo clasico son las respuestas a un cuestionario. Todas las res- ca que se establece entre los parametros que representan al nivel
puestas de un individuo a las preguntas de un cuestionario son uni- micro y al macro, siendo los primeros variables aleat~ria~ en ~l rna-
dades que estan anidadas en el propio individuo, que es la unidad delo que representa al nivel macro. La estructuraJerarqUlca ~e
de nivel inmediatamente superior. A su vez los individuos pueden los datos no define necesariamente lajerarqufa en el modelo, sm
estar anidados en clases, etc. embargo ambas jerarquias sue len ir juntas (Raudenb~s~l, 2001).
Las estructuras meta-analiticas, que suponen la sfntesis cuantitati- La caracterizaci6n ademas de lineales se debe a la relaCIon que se
va de un gran mimero de resultados de investigaci6n. La estructura establece entre la variable criterio y las variables predictoras en
jerarquica tambien es clara. Los sujetos estin anidados dentro de los cualquiera de los niveles definidos. El modelo sera multinivel por-
estudios, que tienen diversas caracterfsticas. que describe datos que varian en dos niveles (ent~e sujetos y ~ntre
Tambien las estructuras de clasificaci6n cruzadas, tan familiares contextos). La denominaci6n de modelo de coeficzen:tes aleatorzos se
a quienes hacen uso del analisis factorial de varianza, pueden en- debe a que la parte micro del modelo incluye coeficientes que va-
tenderse como estructuras de anidamiento. En las estructuras de cla- riaran aleatoriamente en la parte macro del modelo. El modelo
sificaci6n cruzada el nivel macro es doble. Los sujetos estan anidados sera calificado de curva latente porque los parametros describen una
simultaneamente en dos tipos de agrupamiento. Por ejemplo, los trayectoria que es inobservable, dependiendo de las variables no
alumnos estin anidados en escuelas y vecindarios. Escuelas y vecin- observables incluidas en el modelo. Sera un modelo latente de cre-
darios son agrupamientos de nivel superior en las que algunas uni- cimiento cuando incluya una funci6n incremental monot6nica de
dades individuales coinciden pero otras no, como se ilustra en la Fi- esa trayectoria que representa al crecimiento. El mod~lo pue~e ser
gura 1.4. tambien denominado mixto, al incorporar efectos flJos asoCIados
al impacto de las variables predictoras y efectos aleato~i,os qu~ re-
presentan la variaci6n aleatoria entre contextos. Tamblen sera un
Nive12 Escuelas 1 2 3
modelo de componentes de covarianza al incluir estimaciones de la
/l~ /\ /\ varianza y la covarianza.

Tambien la notaci6n cambia de un os autores a otros. Aunque
Nivel 1 Alumnos 1 2 3 4 5 6 7 8 es cierto que estas diferencias en la terminologfa y en la notaci6n
pueden resultar en ocasiones desconcertantes para quien ac~d.e a
Nivel 2 Vecindario
~~ 1 2
mas de una fuente, no debemos olvidar que se trata de un COdlgO
que hay que interpretar. Como todo.c6digo, hay algo de arbitra~
rio en el mismo. Lo que importa es slempre el concepto que esta
detras de la nomenclatura 0 de la notaci6n. En cualquier caso, en
FIGURA 1.4. Estructura de clasificaci6n cruzada. este texto se ha elegido aquella notaci6n que es consistente con la
utilizada por los autores del programa MLwin, que es la herra-

mienta estadistica a la que con mas frecuencia se hara referencia
en este texto.
2
REGRESION EN DOS NIVELES
Ya seiialamos en el Pr6logo que la atenci6n de los modelos mul-

tinivel se dirige a tratar estadisticamente la variaci6n originada por
las diferencias tanto individuales como contextuales. En ese senti-
do y de forma tradicional, los modelos contextuales se definen como
aqueHos que contiene dos tipos de variables, unas procedentes de
un nivel individual y, otras, procedentes de un nivel contextual.
La noci6n central es que modelos lineales diferentes para el
micro-nivel deb en ajustarse para cada contexto (macro-nivel). Ha-
bitualmente cada grupo tiene las mismas variables explicativas y la
misma variable de respuesta, pero con diferentes coeficientes de re-
gresi6n. Todos los modelos del primer nivel estan relacionados por
un modelo de segundo nivel en el que los coeficientes de regresi6n
del micro-nivel se regresan en un segundo nivel de variables ex-
plicativas.
La naturaleza del segundo nivel determina la naturaleza del mOo
delo para el conjunto de los datos. Yaqui caben muy diversas po-
sibilidades, incluso que no haya ninguna variable de segundo nivel
que relacione los diversos contextos y se establezca una ecuaci6n de
regresi6n especifica para cada contexto. Sin embargo, esto no aiia-
de nada nuevo desde el punto de vista estadistico, se trata de un ana-
lisis que emplea los coeficientes de regresi6n del primer nivel como
variables de respuesta en el segundo nivel. En este Hamado modew
de pendientes como resultados (Burstein et al., 1978), las regresiones in-
tra y entre grupos no estan conectadas unas con otras. Hay, de he-
cho, analisis separados. La cuestion central es que en este tipo de
modelos los coeficientes son f~os, no aleatorios. Si se analizan los
datos completos (en los dos niveles) estariamos ante un modelo en
el que varian los coeficientes, donde cada grupo es analizado sepa-
radamente y tendria sus propios coeficientes de regresion. Serfa un
modelo poco parsimonioso, que se ocupa solo de las diferencias y
no de los puntos en comun.
24 MODELOS JEAARQUICOS LINEALES
REGRESION EN DOS NIVELES 25
La idea de un amilisis de regresion separado para cada grupo,
seguido por la regresion de los coeficientes del primer nivel en el
segundo no es suficiente para especificar un modelo multinivel. Es
necesario destacar que los modelos multinivel implican la integra-
cion estadistica de los distintos modelos especificados para cada ni-
vel de interes. Suponen una regresion en dos niveles de variacion.
La integracion mas simple se da en el caso del modelo de coeficientes
... . . ... . .
aleatorios (Kreft y de Leeuw, 1998), donde los coeficientes de regre-
sion del primer nivel son tratados como variables aleatorias en el ~
segundo nivel. Esto significa que los coeficientes del primer nivel
son entendidos como los originadores de una distribucion de pro- .* • • • • 1 1
babilidad. Los parametros mas importantes de esta distribucion (me- • • Punt9 de Corte ~f3o)
dia y la varianza) estan entre el conjunto de parametros que deben
ser estimados en el modelo multinivel. AI anadir un segundo nivel
de variables explicativas el modelo de coeficientes aleatorios se hace -2 -1 o 2 N. SociQ'
mas general y, al mismo tiempo, mas util. Esto es a 10 que comun- econ6mico
mente llamamos modelos multinivel, que pas amos a describir de-

talladamen te. FIGURA 2.1. Modelo ctasico de regresi6n para una escuela.
2.1 . APROXIMACION INTUITIVA A LOS FUNDAMENTOS

La Figura 2.1 y ecuacion 2.1 representan la relacion existente en-
DE LOS MODELOS MULTINIVEL
tre la variable criterio (en este caso, rendimiento academico) y la
variable predictora, nivel socio-economico del alumno . .~a i~ter
Podemos entender muy bien la logica de los modelos multinivel pretacion de esta ecuacion responde al m~d~lo de regr~slOn hneal
si comenzamos construyendo su comprension desde el mas simple clasico. La constante /30 representa el rendlmlento medlO de esa es-
modelo de regresion lineal. Eso nos ayudara tambien a concretar la cuela de aquellos alum nos para los que el nivel socio-economico tie-
notacion que vamos a usar. ne el valor cero. Es el punto de corte de la recta de regresion con
Sup on gam os en primer lugar que queremos poner en relacion el eje de ordenadas. El coeficiente /31 es la pend.ie~te de la recta de
dos variables: la variable Xl que representa el nivel socio-economi-
co de los alumnos, y la variable y, que es el rendimiento de esos mis-
regresion, y representa el incremento en el rendlmlento cuando ,:u-
menta el nivel socio-economico de los alumnos en un pun to. El ter- .
mos alumnos en un test de matematicas. Para facilitar las cosas, asu- mino de error, Ei , es 10 que el rendimiento del alumno i se aparta
mimos que Xl es una variable continua que toma val ores entre -2 del rendimiento esperado de los alumnos que tienen su mismo ni-
y +2, donde cero indica nivel socio-economico medio, el valor +2 vel socio-economico.
indica el nivel socio-economico muy alto y -2 muy bajo. Por ejemplo, en una escuela esta ecuacion podrfa ser:
El modelo clasico de regresion aplicado por ejemplo a un solo
contexto, como una escuela concreta, se podria representar asi:
(2.1)
El rendimiento esperado de los alumnos de nivel socio-econo-
mico medio es 150, y este aumenta en 10 puntos por cada punto del
nivel socio-economico.
26 MODELOS JEAARQUICOS LINEALES REGRESION EN DOS NIVELES 27
TABLA 2.1. Ejemplo simulado sobre la estimaci6n de las

puntuaciones individuales de dos alumnos.
Alumnos Yj Xl Y; f
1 170 1 160 10
2 140 1,5 165 -25
Como se ve en la Tabla 2.1, los alumnos 1 y 2, dado el nivel so-

cio-economico de cada uno de enos, tienen un rendimiento espe- • •
rado de 160 y 165 puntos cada uno de enos. Pero el primero rinde
10 puntos por encima de 10 esperado y el segundo 25 por debajo.
Ademas se asume que fj ~ N(O, a;), es decir, los residuos tienen
una distribucion normal, con media cero y varianza finita, aunque
-2 -1 o 2 N. Socio-
econ6mico
desconocida. Implfcitamente ademas se asume 10 que denomina-
mos el supuesto de homocedasticidad. Es decir, el supuesto de que
la varianza de f es siempre la misma e independiente de los valo- FIGURA 2.2. Modelo clasico de regresi6n para dos escuelas.
res de Xl"
Ahora bien, ~que ocurriria si tuvieramos dos escuelas distintas,
la escuela 1 y 2? Pues que tendrfamos dos ecuaciones distintas, una te como pendientes varfen de escuela a escuela, de contexto a con-
para cada una de las escuelas (Figura 2.2): texto. Si consideraramos los puntos de corte como una medida de
la "eficacia" del centro y las pendientes como medida de la "ine-
(2.2) quidad"l del centro, se observa que el centro 1 es mas eficaz que el
centro 2 dado que su valor medio en rendimiento en el origen es
(2.3)
mas alto. Del mismo modo, tam bien podrfamos considerar el cen-
tro 1 como mas equitativo que e12, en tanto que el incremento que
~Que significan ahora /301 y /302?' Y ~/311 Y /3l2?' ~en que unidades se produce en el rendimiento del alumno al aumentar una unidad
estan expresados /30 y /31 en cada caso? en el nivel socio-economico es menor, 10 que significa que el ren-
Los coeficientes ~Ol y ~02 representa el rendimiento esperado dimiento en el centro 1 es menos dependiente de las variaciones del
en cad a una de las escuelas cuando el nivel socio-economico de los nivel socio-economico.
alumnos tiene el valor cero. Los coeficientes J3ll y ~12 son las pen- En la realidad, solemos tener muchas escuelas (muchos contex-
dientes, y de modo analogo al anterior representan el incremento tos) que pueden variar entre sl tanto en los puntos de corte como
en el rendimiento medio cuando aumenta el nivel socio-economi-
co de los alumnos en un punto para cada escuela. Las unidades de
todos los coeficientes son las unidades de la variable dependiente, I La cuestion de la equidad 0 inequidad es una cuestion tecnica. El uso de inequidad se
en este caso concreto, las unidades de rendimiento academico. justifica por la interpretacion, a mas pendiente mayor es el trato no equitativo de la escuela, pues-
to que el rendimiento de sus alumnos es mas dependiente del nivel socio-economico del alum-
La figura 2.2 pone tam bien de manifiesto la posibilidad muy real no y no de la intervencion escolar. El sentido tecnico de este concepto se refiere a la 'eficacia
y muy plausible en much as situaciones de que tanto puntos de cor- diferencial' del centro con respecto a caracterfsticas especfficas de los alumnos.
28 MODELOS JERARQUICOS LINEALES REGRESION EN DOS NIVELES
en las pendientes, y no parece muy pnictico estimar una ecuacion de la ecuacion y en f.10j que es el rendimiento diferencial de la es-
de regresion para cada escuela. Por este motivo, adoptamos una uni- cuela j y representa la parte aleatoria del modelo en el segundo
ca ecuacion para j escuelas. nivel vinculada al punto de corte. •
De modo analogo, f31j tambien puede tenervariabilidad propia,
(2.4) y se descompone en f31 que es el incremento medio en el rendi-
miento por el aumento en el nivel socio-economico en la poblacion
Esta variabilidad en el segundo nivel es la caracterfstica princi- de escuelas, que forma parte de la parte ftia del modelo, y el termi-
pal y definitoria en los modelos multinivel, dando lugar a un mo- no f.11j' que es el incremento diferencial en el rendimiento por el
delo diferente al tradicional modelo de regresion del que hemos aumento en el nivel socio-economico en la escuela j. Es la parte alea-
partido. El modelo que representa las relaciones entre la variable toria del modelo en el segundo nivel vinculada a la pendiente.
de respuesta y los predictores en el micro nivel serfa como el plan- Asf:
teado en la ecuacion 2.4.
Siguiendo con nuestro ejemplo, esta ecuacion representa la re- C( f31 j) = f30 v(f3oj ) = a;o
lacion existente entre el rendimiento academico y el nivel socio-
economico de los alumnos. Como se puede observar, la variable de C(f31j) = f31 v(f3Jj) = a;1
respuesta, Yij' es el rendimiento de un alumno, i, en la escuela j.
Dentro de una escuela dada, la escuela j, la parte sistematica 0 ftia
de este modelo esta representada por (f3o j + f31 j X1ij)' aunque como
veremos, desde una perspectiva macro esos terminos incluyen tan- Es decir, f30 j y f31 j tienen una distribucion normfll bivariada. Y
to parte ftia como aleatoria. El coeficiente f30 j es el rendimiento es- como hemos senalado f30 es la media general para la poblacion de
perado en la escuela j cuando Xl es igual a cero. Yel coeficiente f31 j escuelas. f3I es la pendiente para la poblacion de escuelas. Y aZo' aZI
es el incremento en el rendimiento por cada unidad que aumenta y al-'ol-' 1 son la varianza entre puntos de corte, pendientes y la cova-
el nivel socio-economico del alumno en la escuela j. El ultimo ter- riacion entre punto de corte y pendiente, respectivamente.
mino de la ecuacion 2.4 es la variacion residual del alumno i en la Es evidente que si las escuelas difieren en el punto de corte y
escuela j, es decir, 10 que se aparta del rendimiento esperado segun en la pendiente, las varianzas de estos parametros sera mayor que
su nivel socio-economico. Se asume que tiene una distribucion nor- cero, y esas varianzas, aZo Y aZ se convierten en parametros del
1
,
mal, con media cero y varianza constante, Cij ~ N(O, ai), es decir, modelo.
asumimos que la varianza es homogenea para todas las escuelas. Pero ademas puede intuirse que es posible que los valores de in-
Ahora bien, al ser f30 j y f31j val ores propios de cada escuela, es- tercepto y pendiente en cada escuela pueden estar relacionados. En
tamos suponiendo la variabilidad entre contextos. Esta considera- efecto, es posible que las escuelas mas eficaces (con mayor inter- .
cion exige un desarrollo propio, al convertir a estos coeficientes en cepto) sean tambien las mas equitativas (con menor pendiente). Eso
variables aleatorias en el nivel macro, representado por las ecua- supondrfa una covarianza negativa entre esos dos parametros. Asf,
ciones 2.5 y 2.6. la covarianza entre intercepto y pendiente se convierte en otro pa-
rametro a estimar en el modelo.
f30 j = f30 + f.10j (2.5) La idea de la variacion entre contextos es esencial en el marco
de los modelos multinivel. Si esta variacion no existiera no serfa ne-
f31j = f31 + f.11j (2.6)
cesario el empleo de estos modelos. Las figuras 2.3.a, b, c, dye ilus-
tran el significado de los distintos valores que pueden adoptar aZo'
El coeficiente f30 j se descompone en f30 que es el rendimiento aZI Y al-'ol-'I· En la figura 2.3.a todas las escuelas comparten la mis-
medio en la poblacion de escuelas y representa la parte sistematica rna ecuacion. Es decir, en todas las escuelas la relacion entre el ni-
30 MODELOS JERARQUICOS LINEALES REGRESION EN DOS NIVELES 31
vel socio-econ6mico y el rendimiento es la misma. Comparten la de corte y pendiente negativa, el valor de la covarianza (01'01'1) sera
misma recta de regresi6n y, por tanto, la variaci6n entre puntos de negativo. La ultima figura (figura 2.3.e) muestra la situaci6n en la
corte (0;0), pendientes (0;) y la covarianza entre ambos (01'01'1) que no hay relaci6n entre el punto de corte y la pendiente. Ambos
sera igual a cero. En la figura 2.3.b, todas las escuelas comparten valores pueden variar, por tanto 0;0 y 0;1 adoptan valores mayo-
la misma pendiente, es decir no hay variaci6n en la relaci6n que res que cero. Sin embargo, al no haber relaci6n entre los dos para-
se establece dentro de cada escuela entre la variable criterio y la metros principales, el valor de la covarianza (01'01'1) tendera a cero.
predictora (0;1 = 0). En cambio, los puntos de corte varian de cen-
tro a centro. Por tanto, 0;0 sera mayor que cero. El siguiente caso
(figura 2.3.c) se observa que cuanto mayor es la media de la escue- 2.2. FORMALlZACION DEL MODELO:
la mayor es su pendiente. Ya no hay constancia en ninguno de los MODELO COMPLETAMENTE ALEATORIO Y SUS VARlACIONES
parametros que representan la variaci6n entre centros. Las escue-
las se diferencian en el punto de corte, pero tambien en la pen- A modo de sintesis, el modelo en el micro nivel es:
diente. Luego 0;0 y 0;1 son mayores que cero. Yademas, podemos
comprobar que cuanto mayor es el punto de corte tambien es ma-
yor la pendiente. Por eso la covarianza entre esas dos variables es
positiva. El caso contrario viene representado por la figura 2.3.d, Yel modelo en el macro-nivel es:
donde se observa que cuanto mayor es la media de la escuela, me-
nor es la pendiente. Como en el caso anterior, 0;0 y 0;1 adoptan POj = Po + ''''OJ
valores mayores que cero, en cambio, al ser la relaci6n entre punto
Plj = PI + ""lj
y y y y y Donde, POj y Plj tienen una distribuci6n normal bivariada:
1 ~
i
& ~ 5t2 iI
~
i
~
I iI Dado que Po y PI son constantes, esto es 10 mismo que:

I I I
X X X X x
Pendiente Pendiente Pendiente Pendiente Pendiente
L L LLL
P. Corte P. Corte P. Corte P. Corte
•
P. Corte
•
Aunque hasta ahora hayamos presentado un modelo subdivido en
dos niveles diferenciados, esto no significa que tengamos dos mode-
los diferenciados, puesto que las ecuaciones 2.5 y 2.6 se pueden susti-
tuir en la ecuaci6n 2.4, dando lugar al modelo general (Ecuaci6n 2.7)
a b c d e que es un modelo unico Hamado modelo completamente aleatorio:
FIGURA 2.3. Variaci6n en el macro nivel. (2.7)

Antes de continuar, podemos hacer algunas observaciones a par-
tir de esta expresion. Comparemosla con 2.1. Vemos que es la par-
te aleatoria (10 que en 2.7 esta entre parentesis y £i en 2.1) 10 que
las diferencia. Efectivamente, mientras que en 2.1 asumimos el prin-
cipio de homocedasticidad, en 2.7 la parte aleatoria depende de x,
el predictor. Esto quiere decir que el modelo 2.7 permite representar
aquellos fenomenos en los que la varianza de los residuos cambia
segun el predictor.
Si los datos proceden de escuelas distintas con distintas relacio-
nes en elIas entre predictor y criterio, la nube de puntos que ob-
servarfamos serfa como la de la Figura 2.4. En ella se ha represen-
tado la recta de regresion que se obtendrfa aplicando el modelo
2.1. Podemos ver que la dispersion alrededor de la recta es distinta
en XlO que en xll . Y por tanto no se cumple el supuesto de homo-
cedasticidad. Sin embargo, 2.7 ajusta una recta distinta para cada
escuela. Yvemos que en la Figura 2.5, la dispersion alrededor de la
recta de regresion en cada escuela sf es la misma en XlO yen xll •
FIGURA 2.5. Recta de regresi6n para un modelo completamente aleatorio.
Situaciones como la aquf representada son de hecho muy fre-

cuentes en la investigacion educativa. Lo que nos lleva a pensar que
en todas esas ocasiones es mas adecuado un modelo como el de 2.7
que uno como e12.1.
En la ecuacion 2.7 se explicita la posibilidad de variacion tantp .
en puntos de corte como en pendiente. Sin embargo, hay modelos
mas sencillos y tambien mas complejos.
Tomemos como ejemplo un modelo mas sencillo en el que se
plantee la variacion entre puntos de corte (01-'0 2 )0), pero en el que
no hay variacion entre pendientes (01-',2 = 0) ni, por 10 tanto, cova-
riacion entre el punto de corte y la pendiente (01-'01-" = 0) . Es el ma-
delo de interceptos aleatorios, donde el primer nivel esta representado
por la ecuacion 2.4:
FIGURA 2.4. Recta de regresi6n simple.

MODELOS JERARQUICOS LINEALES
34
Yel segundo nivel queda escrito como sigue, dado que no hay puesto de homocedasticidad. En efecto, la varianza en rendimiento
variabilidad en el segundo nivel para el coeficiente f3l j : es mayor entre los sujetos que tienen nivel socio-economico mas alto,
y menor en el extremo opuesto. Hemo~ particularizado un alumno
f30 j = f30 + !-lOj (2.8) de una de las escuelas. En este caso, ei , el residuo que corresponde
a ese alumno es, como puede verse, la distancia entre su nivel de
(2.9) rendimiento academico y la recta de regresion.
Er: la Figura 2.6.2. y siguientes tenemos la misma nube de pun-
El modele completo quedarfa: tos, solo que ahora ademas de la regresion comun, (f3o + f3l Xij) te-
nemos representados una recta de regresion especffica para cada
(2.10) escuela. Comprobamos as! que 10 que antes era ei ahora se des-
compone en varios sumandos. Para una escuela dada, su intercep-
Se trata tambien de un modele de covarianza de efectos aleato- to es (f3o + !-lOj)' Por ejemplo, la escuela 1 (rombos) tiene un residuo
~Ol> que es un valor positivo. Sin embargo, la escuela 2 (cuadrados)
rios. Efectivamente, tenemos una covariable, Xl' cuya pendiente es
igual para todos los grupos. Se trata por tanto del supuesto de ho- tiene un valor de su residuo ~02 negativo.
mogeneidad de las pendientes.
En la Figura 2.6.1. vemos la nube de puntos correspondiente a
los alumnos de dos escuelas. Seguimos suponiendo que el predictor
es el nivel socio-economico y el criterio el rendimiento academico. • •
A esa nube de puntos se Ie ha ajustado una recta de regresion sim- ·185
ple. Y a simple vista, podemos comprobar que no se cum pIe el su- •
• 185 • •
• 175
165 • • •
-2,50
•
-2,00 -1,50 -1,00 -0,50 0,00 0,50
• 1,00 1,50 2,00 2,50
• ••
2.6.2. Residuos del punta de corte.
• 0,00 0,50
• 1,00
•
1,50 2,00 2,50
FIGURA
-2,50 -2,00 -1,50 -1,00 -0,50
Pero las escuelas tambien difieren en su pendiente. Asf en 2.6.3

vemos que siendo w el angulo que la regresion comun forma con
FIGURA 2.6.1. Residuos en modelos de regresi6n simple. la horizontal, su pendiente es la tangente de w. Es decir, f3l = tagro.
En la escuela 1, la pendiente es mayor. De hecho el angulo que for-
ma con la horizontal es y, por 10 que la pendiente sera tagy. Lue-
go !1-1 = tagy - tagw. •
·185
•
• •
· 185 165
• • •
155 •
• •
• • •
165 OJ
• •
• •
• • •
• • - 2,50 -2,00 -1 ,50 - 1,00 -0,50 0,00 0,50 1,00 1,50 2,00 2,50
• •
• • FIGURA 2,6.4. Residuos en el primer nivel en un modelo multinivel.
-2,50
•
- 2,00 -1 ,50 -1 ,00 -0,50 0,00 0,50
• 1,00 1,50 2,00 2,50
Tambien podrfamos plantear un modelo de p endientes aleatorias,

en el que existirfa variaci6n entre las pendientes (a/-l, 2 > 0) y no
entre los puntos de corte (a/-l o 2 = 0) ni covariaci6n entre ambos
FIGURA 2.6.3, Residuos de la pendiente. (a/-lO/-l 1= 0) . El modelo en el primer nivel mantiene la estructura
de 2.4 yen el segundo nivel quedarfa:
Ahora el residuo de nivel 1, es decir, la distancia entre el ver- (2.11)

dadero rendimiento del sujeto i en la escuela j, y 10 que en esa es-
cuela se espera seglin su nivel socio-econ6mico, (Cij) est<! represen- (2.12)
tado en 2.6.4. Podemos ver que ese residuo ahora es mucho mas
pequeno. De hecho, la varianza de los residuos, que en 2.6.1. esta- Yel modelo completo:
ba toda atribuida a la varianza entre sujetos, ahora hemos visto que
se descompone en varianza entre escuelas (entre los residuos de las (2.13)
escuelas) y varianza entre sujetos dentro de cada escuela. AI mismo
tiempo, entre escuelas, parte de la varianza corresponde a varianza En un modelo multinivel, el modelo micro representa la rela-
entre residuos respecto del intercepto, y otra parte corresponde a ci6n dentro de cada contexto entre la variable de respuesta y la va-
varianza entre residuos respecto a la pendiente. riable predictora. El modelo macro representa la relaci6n entre
contextos, en el que los parametros del micro modelo son las va-
riables de respuesta de los macro modelos. En los macro model os Yel modelo completo:
se reconoce un segundo nivel de variacion residual no reconoci-
do por los modelos lineales clasicos, que es la variacion entre los (2.16)
contextos.
Por tanto, con los modelos multinivel tratamos de establecer una donde y
relacion general para toda la poblacion, tratamos de estimar la va-
rianza de los interceptos, la varianza de las pendientes, y la cova- El modelo nulo se trata de hecho de un modelo de varianza de
rianza de ambas. Ademas, comprobamos si son significativamente efectos aleatorios. Continuando con las variables del ejemplo an-
distintos de cero todos los parametros, fundamentalmente las va- terior, f30 es el rendimiento medio de todas las escuelas. f.lOj es 10
rianzas. que la media de la escuela j se aparta de la media general, y Cij es
Asi, especificar un modelo jerarquico consiste en determinar tres 10 que el rendimiento del alumno i de la escuela j se aparta de la
elementos distintos: media de su escuela. La varianza a~o es la varianza entre las medias
de las escuelas, ya; es la varianza entre los alum nos dentro de cada
• La media (0 medias): que componen la parte ftia que hay escuela.
que estimar (punto de corte y/0 pendientes) (f3o, f3I> f32 ... ). Si a~o no fuese estadisticamente significativa, querria decir que
las escuelas no difieren entre s1. ~Que significaria el caso hipote-
• Las varianzas alrededor de la media (del punto de corte y/ 0 tico de que a; = 0 y a~o > O? Esto nos indicaria que las escuelas
pendientes, (a;o' a;"a;2... )' (a;). difieren entre sf, pero que cada escuela consigue exactamente el
mismo resultado para todos sus alumnos. ~Y que pas~rfa si a; >0
• La covarianza entre las distribuciones de punto de corte y las y a~o = O? Entonces toda la varianza serfa varianza entre alumnos y
pendientes (al1ol1l ' a 110112, a I11112... ). las escuelas no diferirfan entre s1. En el caso hipotetico de que no
hubiese varianza significativa en ninglin nivel del modelo nulo, no
tendria sentido tratar de introducir variables explicativas en el rna-
2.3. EL MODELO NULO delo, ya que no habria nada que explicar.
Lo habitual, sin embargo es que nos encontremos varianza signi-
Un caso particular del modelo que acabamos de ver es el cona- ficativa tanto en el primer nivel como en el segundo. Entonces todos
cido como modelo nulo. Como se desarrolla en el punto 2.7, el rna- nuestros esfuerzos se orientaran a introducir variables en el modelo
delo nulo es el termino de comparacion de cualquier otro mode- que disminuyan la varianza no explicada. Como veremos mas ade-
10 alternativo. Ademas, en una estrategia metodologica, no tendria lante, precisamente la estrategia del estadfstico de bondad de <yuste
sentido incluir variables explicativas en el modelo en ningun nivel consisten en comparar los modelos alternativos con el modelo nulo.
si no existiese varianza estadisticamente distinta de cero en el mo-
delo nulo.
El modelo nulo es el caso particular en el que no existe ninguna 2.4. AMPLIACION DE LOS MODELOS:
variable predictora. Para el nivel micro: LA INCLUSION DE PREDICTORES EN EL NIVEL MACRO
(2.14) AI introducir predictores en el primer nivel, es muy frecuente que

disminuya la varianza residual en el segundo nivel, ademas de en el
El nivel macro es: primero. ~Por que ocurre esto? Es posible que esa variable no ten-
ga la misma distribucion en todas las unidades del segundo nivel.
(2.15) En nuestro ejemplo, puede haber escuelas en las que la mayoria de
40 MODELOS JEAARQUICOS LINEALES REGRESrON EN DOS NIVELES 41
los alumnos pertenezcan a un nivel socio-economico alto. La media Observese que ahora floj no es la diferencia entre la media de
en rendimiento de esas escuelas tendera por tanto a ser mayor. Por la escuela j y la media general, sino la diferencia entre la media de
eso, al introducir el nivel socio-economico como predictor parte de la escuela j y la media de las escuelas que'son de su mismo tipo (bien
las diferencias entre escuelas disminuyen. publicas, bien privadas).
Pero es posible que otra parte de la diferencia entre las medias El modele completo es el que quedaria expresado en la ecua-
de rendimiento de las escuelas se deba a que cada una de elIas tie- cion 2.19:
ne distintas caracteristicas. Por ejemplo, supongamos que los cen-
tros publicos y privados difieran en la eficacia (distintos puntos de Yij = 1300 + 1301~ + 1310 Xlij + (flljX lij + flOj + Cij ) (2 .19)
corte). Entonces, el modele para el micro nivel seria el que venimos
planteando en la ecuacion 2.4: Se puede ver como se ha ampliado la parte f~a del modele al in-
corporar una variable predictora en el segundo nivel, en este caso
Yij = f30 j + f3l j X ij + Cij' donde Xij es el nivel socio-econo- vinculada al punto de corte.
mico de los alumnos. Sigamos avanzando. Supongamos ahora que los centros publicos
y privados difieran tambien en la inequidad (distintas pendientes)
Sin embargo, el problema que estamos planteando supone la in- ademas de en eficacia. En este caso, la ecuacion 2.18 quedaria plan-
corporacion de un predictor propio del nivel macro, en este caso teada de la siguiente manera:
las escuelas, que es su titularidad, siendo " j = 0, el valor asignado
para los centros de titularidad publica y " j = 1 el valor asignado para (2.20)
los centros privados. Dado que hem os determinado que la titulari-
dad afecta a la media del rendimiento academico, 0 10 que es 10 mis- En la ecuacion 2.20 se ha incorporado un termino ~uevo, f311"j
mo, al punto de corte, el desarrollo del modele en el segundo ni- que representa la influencia de la titularidad del centro en la ine-
vel quedaria como sigue: quidad. Asi, tenemos que 1310 es la in equid ad media para el conjun-
to de escuelas publicas. Y 1311 es la tasa de crecimiento en terminos de
(2.17) inequidad para las escuelas privadas. Como en ocasiones anteriores,
fllj es la variacion residual en la pendiente de la escuela j, respec-
(2.18) to a las escuelas de su mismo tipo de titularidad.
El modele general queda representado en la ecuacion 2.21:
La ecuacion 2.17 incluye un termino nuevo, f3Ol"j, que repre-
senta la influencia de la titularidad del centro en el rendimiento me- Yij = 1300 + f30l ~ + f3lO X ij + 1311 ~Xij + (flljX ij + floj + Cij) (2.21)
dio de cada centro. De modo analogo a como hemos venido dando
significado a los parametros del modelo, 1300 es el rendimiento aca- La parte f~a del modele se amplia. Lo mas interesante es que en
demico medio para la poblacion de escuelas publicas, ya que es el va- el termino 1311 "jx ij se ha creado una variable nueva (Wx i ) que es
lor que toma f30 j cuando " j = 0, 10 que ocurre cuando se trata de una variable de interaccion entre niveles, que represedtaJel efecto
escuelas publicas. conjunto del nivel socio-economico del alumno y de la titularidad
As1, 1301 es la pendiente de esta ecuacion, representando el in- del centro al que asiste. Esta es otra de las principales ventajas de
cremento que se produce en el rendimiento para la poblacion de los modelos multinivel, la posibilidad de probar los efectos entre
escuelas privadas. Por ultimo, floj sigue representando la variacion niveles.
residual para la escuela j. Asi, el valor esperado para las escuelas pri- Ya hemos mencionado la aditividad propia de estos modelos
vadas sera 1300 + 1301. La diferencia en rendimiento medio entre es- en la interpretacion. Si quisieramos saber, por ejemplo, cual es
cuelas publicas y privadas seria f3Ol. el rendimiento academico medio para la poblacion de escuelas
privadas, no tendrfamos mas que sumar f300 Y f301' De modo ana- Usando una notaci6n mas compacta, podrfamos escribir:
logo, si estuvieramos interesados en conocer el impacto que tie-
ne la titularidad privada en la inequidad de los centros, sumarfa-
mos f3IO Y f3ll'
Yij
P
= f30 j + Lf3PjXPij + Cij' donde '
p=1
Gij ~ N(O, an (2 .28)
En general, para cualquier numero de variables tendrfamos para

el nivel micro: L
f3Pj = f3p o + Lf3Pl ~j + flpj' donde flj ~ N(O, T) (2.29)
(2.22) 1=1
donde Cij ~ N(O, an. Observese que ai es la varianza dentro de las Tanto en 2.28 como en 2.29, si definimos un par de vectores de
escuelas, Yla suponemos constante para todas las escuelas. unos, XOij = [1,1,1, ... ,1], W;j = [1,1,1, ... ,1], f30 j = f30 j X Oij Yf3po = f3p oWo j ,
Y para el nivel macro: entonces:
P
f30 j = f300 + f301 ~j + f302 ~j + ... + f30L W Lj + floj (2.23) Yij = Lf3PjXPij + Cij (2.30)
p=o
~2.24) L
f3pj = Lf3PI ~j + flpj (2.31)

1=0
(2.25)
con Cij ~ N(O, an

Y flj ~ N(O, T).
A cambio de crear un vector constante, tenemos una forma de
(2.26)
tratar a todos los parametros de forma equivalente como coefi-
cientes. Mas adelante veremos que esto es otra ventaja.
La distribuci6n de la variaci6n entre contextos es:
2.5. NATURALEZA DE LOS PREDICTORES
flOj ° El nivel de medici6n de los predictores Y la relaci6n lineal 0 no

fllj ° que estos establecen con la variable de respuesta afecta a la formu-
laci6n del modelo.
fl2j ° Si el predictor estuviera medido de forma ordinal podrfamos en-
contrarnos ante dos situaciones distintas. Podrfa ocurrir que su ni-
~N (2.27)
vel de medici6n se aproxime al nivel de cuasi-intervalo, es decir, que
el incremento de los valores de la variable de respuesta sea similar
para todos los valores de la variable predictora. Por ejemplo, en la
relaci6n entre el nivel socio-econ6mico del alum no Yel rendimien-
flpj ° to en matematicas podrfamos tener una relaci6n como la de la figura
2.7, que es una relaci6n practicamente lineal. En este caso, se trata
al predictor como una variable de intervalos.
44 MODELOS JERARQUICOS LINEALES REGRESION EN DOS NIVELES '.15
tro 0 cualquier otra similar, es necesario realizar una codificacion

de los distintos valores de la variable. Para eso se utilizan variables
Rto. Matematicas
auxiliares 0 dummies, que sirven para denotar a que categorfa per-
tenece cada sujeto. Por ejemplo, una variable dummy para la cate-
gorfa 'hombre' serfa una variable dicotomica que toma el valor 1
.......
para los hombres y el valor 0 para las mujeres. Una dummy para la
... categorfa 'mujer' tomarfa los valores complementarios, es decir, 1
.......... para las mujeres y 0 para los hombres.
Cuando se utilizan variables dummies pueden codificarse de dos
o 1 2 3 4 5 Nivel socio-economico maneras distintas: a) codificacion de contraste y b) codificacion
completa.
La codificaci6n de contraste utiliza una categorfa como referencia
FIGURA 2.7. Relacion lineal entre el rendimiento matematico
base. Por tanto, los parametros de las demas categorfas indican la
y nivel socio-economico.
diferencia respecto a la base. Tendremos tantas variables dummies
como el numero total de categorfas menos uno.
Ahora bien, tambien podrfa ocurrir que la relacion con la variable Pensemos por ejemplo en un modelo en el que la variable pre-
de respuesta no sea lineal, es decir, que las diferencias entre los valo- dictora es el estado civil (EC) (cuyos niveles son 'soltero', 'casado'
res de la variable de respuesta asociados ados valores consecutivos de y 'viudo') y la variable criterio es el nivel de ingresos (Yij)' Si asu-
la predictora no sean constantes, como se ve en la Figura 2.8: mimos la categorfa de 'soltero' como la base, la codificacion de con-
traste vendrfa dada por: .
TABLA 2.2. Codificacion de contraste para la variable 'estado civil'.

Rto. Matematicas
;.......... Soltero Casado Viudo
/// f····.. ................

..•••..........
XCasado
XViudo
0
0
1
0
0
1
Imaginemos una posible muestra de sujetos con la siguiente dis-

tribucion, ya codificada:
o 1 234 5 Nivel socio-economico
TABLA 2.3. Distribucion hipotetica de sujetos para la variable

FIGURA 2.8. Relacion no lineal entre el rendimiento matematico 'estado civil' codificada con contraste.
y nivel socio-economico.
Sujeto 1 2 3 4 5 6
EC C C S V V S
AI ser la relacion no lineal, la variable predictora se tratara como
una variable categorica. X Casado 1 1 0 0 0 0
Cuando los valores del predictor solo denotan categorfas distin-
tas como por ejemplo el estado civil, el sexo, la titularidad del cen- XViudo 0 0 0 1 1 0
46 MODELOS JERARQUICOS LINEALES REGRESION EN DOS NIVELES '17
Si formularamos un modelo en dos niveles, el nivel micro serfa EI modelo entonces quedarfa formulado de la siguiente manera:
el nivel de los individuos y el nivel macro serfa el del grupo familiar.
(2.36)
Asf:
(2.32)
f3s j = f3s + !1-sj (2.37)
130 j = 1300 + !1-0j (2.33)

f3ej = f3e + !1-ej (2.38)
(2.34)
(2.39)
(2.35)
Por supuesto, al cambiar la codificacion cambia tambien la sig-
Donde f30 j es el nivel medio de ingreso de los solteros del grupo nificaci6n de los para.metros. Ahora no hay un intercepto comun.
familiar j, f3ej es la diferencia entre el nivel medio de ingreso de los Ahora hay en realidad tres interceptos distintos, uno para cada una
casados y los solteros del grupo familiar j. Y f3Vj es la diferencia en- de las categorfas.
tre el nivel medio de ingreso de los viudos y los solteros del grupo Asf, el nivel medio de ingreso de los solteros del grupo familiar
familiar j. Efectivamente, recuerdese que f30 j es el valor que toma j viene dado por f3s j' el de los casados de un grupo familiar j serfa
Yij cuando los de mas terminos de la ecuacion son cero. Y esto ocu- f3ej yel de los viudos del grupo familiar j sena f3vj' La diferencia en-
rre cuando Xc = 0 y Xv = 0, es decir, cuando el sujeto es soltero. tre los niveles medios de ingresos de solteros y casados sena la dife-
Si quisieramos conocer cual es el nivel medio de ingresos de los rencia entre los valores medios de ambos grupos, es decir (f3s - f3J .
casados del grupo familiar j, no tendrfamos mas que sumar los coe- Si quisieramos conocer cuanto se diferencian los ingresos medios
ficientes f30 j y f3ej' De igual manera, para los viudos, calcularfamos de los solteros del grupo j de los ingresos medios de todos los sol-
f30 j + f3vj' Si quisieramos conocer cuanto se diferencian los ingresos teros, no tendrfamos mas que conocer la estimacion de !1-sj.
medios de los solteros del grupo j, de los ingresos medios de todos Siguiendo la logica de la extension de los modelos, podrfamos
los solteros, no tendrfamos mas que conocer el valor estimado de aiiadir otros predictores, puesto que los grupos ('solteros', 'casados'
!1-0j' La misma situacion se repetirfa para casados y viudos con !1-ej Y 'viudos') no se diferencian unicamente en funcion de su media de
!1-vj respectivamente. ingresos, sino tambien en como otras variables influyen en sus in-
Naturalmente, la diferencia de ingresos entre casados y viu- gresos. Se podna considerar por ejemplo, como la experiencia la-
dos vendrfa dada por la diferencia de los respectivos parametros boral (Xx) influye en los ingresos de solteros, casados y viudos. En
(f3o j + f3ej) - (f3o j + f3v) = f3ej + f3vj' la practica es como si tuvieramos tres ecuaciones separadas, una por
La codificaci6n completa emplea tantas dummies como categorfas cada grupo, solteros, casados, y viudos:
tenga la variable predictora. La codificacion completa del ejemplo
anterior serfa:
(2.40)
TABLA 2.4. Codificaci6n completa para la variable 'estado civil'.
XSoltero X C• s• do XViudo En la practica, la codificacion de contraste se usa habitualmen-

Soltero 1 0 0 te para la parte ftia, y la codificacion completa para la parte aleato-
ria, para modelizar la heterocedasticidad. Por ejemplo, la relacion
Casado 0 1 0 entre nivel socio-economico, sexo y rendimiento en matematicas en
Viudo 0 0 1 distintas escuelas (Gaviria, Martfnez Arias y Castro, 2004).
En el ambito de las Ciencias de la Educacion es muy habitual uti- Naturalmente podemos interpretar el intercepto simplemente
Iizar las ecuaciones de regresion para puntuaciones tipificadas. La como una constante sin mas significado, pero serfa mucho mas con-
razon es que muchas de las variables utilizadas son medidas indi- veniente poder interpretar ese paramet,ro en terminos sustantivos,
rectas de constructos inobservables. Estos constructos carecen de como una propiedad real del fenomeno que estamos estudiando.
unas unidades firmemente establecidas y generalmente aceptadas. Una solucion interesante consiste en centrar la variable indepen-
Asi, la utiIizacion de puntuaciones tipificadas convierte a esas varia- diente alrededor de su media. Eso hace que el valor cero de la varia-
bles en magnitudes adimensionales, cuyos valores numericos sim- ble independiente corresponda a la media en altura de los sujetos, y
plemente ponen en relacion a los sujetos con un grupo normativo. sus valores son expresion del numero de centimetros que cada su-
Otra consecuencia importante es que entonces los coeficientes de jeto se aparta por arriba 0 por debajo de la media de altura del gru-
las ecuaciones se convierten en numeros que expresan el grado de po. En este caso el parametro Po se convierte ahora en el numero
asociacion entre cada variable independiente y la variable depende kilos que cabe esperar que pese una persona cuya altura coinci-
diente cuando las demas independientes permanecen constantes. da con la altura media. Y PI sera el incremento en el peso espera-
Pero ese numero no tiene unidades, y se interpreta por tanto de un do por cada centimetro que nos apartemos de la media de altura.
modo similar a como se hace con los coeficientes de correlacion. En definitiva, se trata de que antes de comenzar a analizar nues-
Sin embargo la perdida de la escala original de las variables tiene tros datos tenemos que decidir que significado queremos que ten-
algunos inconvenientes importantes. En las ecuaciones con variables gan nuestro parametros, y que codifiquemos las variables adecua-
tipificadas el intercepto es igual a cero. Es perfectamente posible que damente. Por 10 general, esto significa que la decision que tomemos
en un determinado fenomeno sea precisamente el intercepto 10 que dependera de que las variables independientes sean continuas 0 ca-
resulte invariante de un estudio a otro. Y esa informacion se pierde tegoricas.
cuando no trabajamos con las variables originales. Por otra parte, los Con las variables independientes categoricas, suponiendo que
valores de los parametros deben ser interpretados exclusivamente en mantienen una relacion lineal con la variable dependiente, debe-
terminos de incrementos de unidades de desviacion tfpica en la po- mos codificarlas de modo que el valor cero corresponda a la cate-
blacion de referencia. Por ultimo, los parametros pierden significa- gorfa que queremos adoptar como linea de base.
cion sustantiva, convirtiendose simplemente en numeros abstractos Por ejemplo, supongamos una ecuacion en la que la variable de-
que solo para los investigadores resultan expresivos. pendiente, 'Rendimiento en Matemriticas' estuviese en relacion con
El mantenimiento de las escalas originales con sus propias uni- dos variables independientes categoricas, como 'Nivel de estudios de
dades por su parte no deja de tener algunos problemas tambien. la madre' y 'Nivel socioeconomico familiar'. En la Tabla 2.5 presenta-
Supongamos una ecuacion de regresion en la que la variable inde- mos la codificacion original que podrian tener estas variables.
pendiente fuese la altura medida en centimetros y la dependiente
el peso medido en kilogramos. TABLA 2.5. Codificaci6n de las variables.
Valores Nive1 Nivel
originales socioeconomico familiar de estudios de la madre
~CU(il es el significado de los parametros Po y PI? En el caso del 1 Muybajo Sin estudios
segundo, se trata del numero de kilos que aumenta el peso espera- 2 Bajo Primarios incompletos
do por cada centimetro de incremento de la altura. Pero, ~y el otro
3 Medio Certificado de escolaridad
parametro? Su valor sera, por definicion, el valor que adopta el peso
cuando la variable independiente vale cero. En este caso estamos ha- 4 Alto Graduado escolar
blando del numero de kilos que cabe esperar que pese una perso- 5 Muyalto Bachillerato
na cuando su altura sea cero centfmetros. 6 Titulo universitario
50 MODELOS JERA.R.QUICOS LINEALES REGRESION EN DO~ NIVELES !)1
Suponiendo que existiese una relacion lineal de estas variables TABLA 2.6. Codificaci6n modificada de las variables.
con la dependiente, podriamos incluirlas en la ecuacion de regre-
sion. Pero el significado del intercepto entonces seria poco claro. Categona Categoria Categoria Nivel Nivel
Seria el rendimiento esperado de aquellos sujetos cuyo nivel socio- mas baja modal como modal como socio- de estudios
economico fuese cero, y cuyas madres tuviesen nivel de estudios cero. Valores como referencia referencia economico de la madre
Ninguna de esas dos categorias existe, por 10 que ese parametro se originales referencia deSES de EstMad familiar (SES) (EstMad)
convertiria en una referencia ftia respecto de la que las pendientes -3 Muybajo Sin estudios
1 0 -2
se interpretan como incrementos.
La solucion mas inmediata es recodificar estas variables para que Primarios
2 1 -1 -2 Bajo
la categoria de referencia tenga asignado el valor cero. incompletos
Ahora el intercepto se interpretara como el rendimiento espe-
Certificado
rado de los alumnos de nivel socioeconomico muy bajo y cuya ma- 3 2 0 -1 Medio
de escolarid.
dre no tiene estudios.
Cabe la posibilidad de que, aunque ahora los parametros tienen Graduado
una interpretacion sustantiva, esos valores sean muy infrecuentes en 4 3 1 0 Alto
escolar
la poblacion, transmitiendo entonces la ecuacion una impresion
poco acorde con la realidad. En ese caso parece 10 mas convenien- 5 4 2 1 Muyalto Bachillerato
te centrar la variable alrededor del valor modal. Eso quiere decir que
Titulo
el origen, el cero de la escala, correspondera con la categoria de ma- 6 5 2 universitario
yor frecuencia en la poblacion estudiada. Ahora el intercepto co-
rrespondera al valor esperado en rendimiento de los sujetos cuyos
valores en las variables independientes corresponden con la cate-
goria modal. En la Tabla 2.6 siguiente tenemos un ejemplo de la co- corresponde con la media posterior ajustada. Es 10 q~e ~acem~s en
dificacion modificada. el caso particular del analisis de covarianza. En el slgul~nte eJem-
Algo similar ocurre con las variables continuas. Es posible que plo, suponemos que x esta centrada respecto de la medIa general.
aunque la escala comience en cero, ese valor no exista en la reali- En ese caso los valores de f3o ' corresponden con el valor esperado
dad. El caso mas claro coincide con el ejemplo que hemos presen- en y para aquellos sujetos d~l grupo j cuyo valor en la variable i~
tado antes. No hay ninglin individuo que pese cero kilos 0 que mida dependiente coincide con la media general. Es, como ya h~mos. dl-
cero centimetros. En casos como estos conviene utilizar como ori- cho, 10 que en analisis de covarianza se con?ce como medIas.aJus-
gen de las variables independientes un valor central, de modo que tadas. En efecto, observese que estamos asumiendo que la pendiente
el intercepto corresponda con el valor esperado de los sujetos de ca- es la misma para todos los grupos. Es perfectamente po sible que en
racteristicas medias. un grupo determinado no existan sujetos con ese valor central de
Sin embargo, con las variables continuas es posible que el cen- x. Pero la media posterior indica el valor que cabria esperar en el
trado se realice con referencia a la media general, 0 a la media de caso de que los hubiese (Figura 2.10).
cada grupo. La oportunidad de cada una de estas opciones y sus con-
secuencias son muy distintas en cada caso.
En primer lugar, cuando deseamos poder comparar unas uni-
dades de nivel dos con otras, por ejemplo unas escuelas con otras, ~En que condiciones el centrado se realizaria, no respecto de la
utilizaremos como referencia la media general de la variable inde- media general, sino de la media del grupo? ~y que significado ten-
pendiente. En ese caso el valor del intercepto propio de cada escuela drian entonces los parametros?
Si centramos las variables independientes respecto de las medias

de cada grupo, como primer resultado tendriamos que la media en
los nuevos valores de los predictores para todos los grupos seria cero.
Sin embargo esos valores tienen una referencia totalmente contex-
tual. Una codificacion de este tipo tendria sentido cuando la infor-
macion relevante este concentrada no en el valor absoluto de la va-
riable, sino en la posicion relativa respecto al grupo.
Una representacion grafica de los efectos de la distinta codifi-
cacion puede verse en las figuras 2.9 a 2.12. En la primera de estas
figuras tenemos representadas las relaciones hipoteticas entre una
variable independiente y una variable dependiente en dos escuelas
distintas, identificadas por el color negro y el gris, con los datos en
la metrica original. Comprobamos que tanto el intercepto como la
pendiente es distinta para las dos escuelas.
FIGURA 2.10. Representaci6n de las medias observadas y las medias

ajustadas en un modelo de covarianza.
cuyo significado ya ha sido establecido en un parrafo anterior. En

el caso concreto que se representa, compruebese que aunque la me-
dia observada de la escuela negra es mayor que la de la escuela gris,
los val ores de las medias ,yustadas invierten el orden. Esto quiere
decir que un sujeto con valor medio en la variable independiente
tendria mejor resultado esperado en la escuela gris que en la negra.
En la figura 2.11 vemos el efecto del centrado respecto de la me-
dia de cad a grupo. El efecto es un desplazamiento de las rectas de
regresion a 10 largo del eje de la variable independiente. Se man-
tienen las medias originales en la variable dependiente de cada gru-
po, asi como la pendiente propia de cada escuela. 2Como se inter-
pretarfan estos datos? Demonos cuenta de que solo en algunos casos
tendra sentido esta codificacion. Por ejemplo, imaginemos que los
FIGURA 2.9. Representaci6n de las rectas de regresi6n de dos macro
grupos son en realidad paises distintos, que la variable dependien-
unidades distintas.
te es la renta individual, y que la variable independiente es el nu-
mero de arios de escolarizacion. Si fuese cierto que el efecto de la
En la figura 2.10 vemos el efecto del centrado de la variable in- escolarizacion sobre la renta es diferencial, es decir, que 10 que afec-
dependiente respecto de la media general. Ademas, se asume que ta a la renta de los individuos no es tanto el numero de arios totales
la pendiente de las dos escuelas es la misma, salvo por diferencias de escolarizacion, sino la diferencia entre sus arios de escolarizacion
aleatorias. Por consiguiente se obtiene una pendiente comtin para y los arios de escolarizacion del resto de la poblacion, entonces esta
las dos escuelas, y con esas rectas obtenemos las medias ajustadas, codificacion tendria sentido. En efecto, en el pais representado en
54 MODELOS JEAARQUICOS LINEALES REGRESION EN DOS NIVELES
poder de compra de un dolar en Africa central, por poner dos ca-

sos extremos. En este caso nos interesa comparar de modo que n o
solo la escolaridad esta referida al CQntexto, sino que tambien la
renta esta referida de este modo al contexto. De un modo muy in-
tuitivo es 10 que se presenta en la figura 2.12. Las rectas que com-
paramos son las que se cruzan en el centro de la grafica. De he,cho,
Medias observadas \ - - - - - - - - - - - - - - - - - - - - :.:.;.:.• e':':':':':':' - - - - - - - - - -
-- ~
10 que es caracteristico de este supuesto caso es que en el pals re-
\ presentado en gris tiene un efecto mucho mayor sobre el poder de
-----/ ---- ...............
.............. compra de los sujetos cad a ano extra de escolaridad respecto de la
escolaridad media que en el pais representado en negro, por 10 que
cabria esperar una actitud mas receptiva a la continuacion de la es-
colaridad en el primero que en el segundo.
FIGURA 2.11. Efeeto del eentrado respeeto de la media del grupo.
----:. :.:.~.'.'- ..,.:.~~;.~'~

negro vemos un nivel inicial de escolarizacion media y de renta su-
perior al pais representado en gris. Por las pendientes iniciales ve-
Medias observadas \
\ -- - - - - ------ - --
.' .:.::..........
mos que afecta mas la escolaridad sobre la renta en el segundo que

en el primero.
Ciertamente, segun este modelo el nivel de renta se ve afectado
no tanto por el numero absoluto de anos de escolaridad, como por
la diferencia respecto del entorno. En otras palabras, el estatus so-
cial de una persona con 10 anos de escolaridad en un entorno en
el que la media es 5, puede ser tan alto como 15 anos de escolari-
dad en un pais en el que la media es 10. Con esta codificacion nues-
tra atencion se centra en la comparacion de las pendientes de los FIGURA 2.12. Efeeto del eentrado respeeto de la media del grupo en
dos grupos y los valores absolutos de renta asociados a las escolari- la variable dependiente e independiente.
dad diferencial.
Por otra parte, es posible que tambien la variable dependiente
deba ser centrada respecto de la media para que tenga verdadero Ciertamente la decision ace rca de que tipo de centrado 0 codi-
sentido. Continuando con el ultimo ejemplo, suele ser habitual que ficacion de las variables adoptar depende totalmente del problema
cuando se compara la renta de distintos paises se haga utilizando sustantivo que estemos estudiando. La regIa de oro es que debemos
elllamado 'Purchase Power Parity', 0 'Poder de compra equiparado'. utilizar aquella codificacion que facilite la interpretacion de los pa-
La idea detras de esto es que en paises con distintos niveles de de- rametros obtenidos, en terminos de los conceptos centrales de la teo-
sarrollo, una misma cantidad de dinero puede tener distinto sig- ria en la que nos desenvolvemos. Como siempre, no hay tecnica ni
nificado. El poder de compra de un dolar en USA es menor que el regIa estadistica que sustituya a la teoria y el buen sentido.
2.6. MODELIZACION DE LA HETEROCEDASTICIDAD en la variable dummy Xmij)' la varianza en el primer nivel es la suma
EN EL MICRO-NIVEL de la varianza de los chic os mas la varianza de las chicas. De for-
ma natural surge una pregunta: ~como podemos saber si debemos
Uno de los supuestos mas importantes del modelo es el que es- modelizar varianzas distintas para determinados subgrupos en el
tablece que la varianza entre las unidades de primer nivel dentro de primer nivel? La respuesta es obvia. Si el modelo co~ dos (0 mas)
las unidades de segundo nivel es constante y, por tanto, indepen- varianzas distintas en el primer nivel ajusta igual de bien que el mo-
diente de cualquier predictor. Pero en ocasiones nos encontramos delo con una sola varianza, debemos quedarnos con este Ultimo.
con fenomenos en los que los datos no cumplen con este supuesto. Si el ajuste mejora significativamente, deberemos quedarnos co~
Por ejemplo, es frecuente que dentro de las escuelas las chicas ten- el modelo con mayor numero de parametros. Y eso nos lleva al Sl-
gan rendimientos mas homogeneos que los chicos. Por tanto tene- guiente pun to.
mos que modelizar varianzas de residuos de nivel 1, distintas para
chic os y para chicas. Esto es especialmente importante cuando exis-
te la posibilidad de que algunas escuelas sean solo de chicos 0 solo 2.7. SIGNIFICACION Y AJUSTE DE LOS MODELOS
de chicas. En esas escuelas, la varianza interna, la del primer nivel,
tomara un valor u otro en funcion de si se trata de un tipo u otro La interpretacion de los modelos multinivel pasa, como en
de escuela. En este caso, tendrfamos tres variables predictoras dis- cualquier modelo de regresion, por dos cuestiones: ~~ ~nalisis ?e la
tintas: nivel socio-economico (Xl)' grupo masculino (x h) codifican- significacion de los coeficientes del modelo y el anallsls del aJuste
do 0 para las chicas y 1 para los chicos y grupo femenino (xm) co- global del modelo. La primera cuestion responde ala pregunta ~es
dificandose 0 para los chicos y 1 para las chicas. Conviene en este estadfsticamente significativa la aportaci6n de este pr:edictor? La ~e
caso, como ya se senalo, utilizar la codificacion de contraste para la gunda responde ala pregunta ~aporta este modelo (con x predlC-
parte ftia y completa para parte aleatoria. En este caso concreto el tores) informacion significativa comparado con el modelo nulo
modelo quedarfa como sigue: (modelo que no incluye ningun predictor, en ingles denomina-
do "empty model") 0 con otro modelo alternativo? Amb~s ~ecisio
nes -mantener 0 eliminar un predictor y mantener 0 ellmmar un
modelo- estan fntimamente relacionadas, puesto que no puede
Notese ahora que f30 j representa al rendimiento medio para las haber modelos significativos que incluyan predictores no signifi-
chicas con nivel socio-economico mas bajo. f31 j es el incremento que cativos.
se produce en el rendimiento para las chicas cuando aumenta el ni- La significacion de un predictor viene dada por la ratio e~tre el
vel socio-economico. f3hOj representa el incremento que se produ- estimador del parametro y su error tfpico. Los estimadores slguen
ce en el rendimiento por ser chico. Ypor ultimo, f3hlj es la diferencia una distribucion t con infinitos grad os de libertad. La regIa gene-
entre el incremento del rendimiento por nivel socio-economico de ral para determinar la significacion de un predictor es q~e si el va~
las chicas y el de los chicos. Asf, 10 que aumenta el rendimiento de lor del mencionado cociente es mayor que dos, el coefiClente sera
los chicos en la escuela j para cada unidad de nivel socio-economi- significativo (p < 0,05) . .
co es f31 j ' y 10 que aumenta el de los chicos para cada;unidad del ni- AI considerar la significacion de un modelo, 10 pnmero que se
vel socio-economico es (f31 j + f3hlj). Ahora bien, 10 mas interesante debe destacar, es que este proceso no supone una decision unica-
de este modelo es la estructura aleatoria definida para el micro ni- mente tecnico-estadfstica. Los modelos deben ser coherentes con
vel, que refleja una varianza entre sujetos diferencial para chicos y la teorfa 0 hipotesis que los genera y esta consideracion no se debe
chicas (ae~ y a;"). Se relaja asf el supuesto de que la varianza en el que dar fuera a la hora de determinar su ajuste.
primer nivel es constante y comun para todos los sujetos. Como la El estudio del ajuste se hace siempre comparando dos modelos
codificacion es excluyente (ninglin alumno que es chico tiene un 1 que deben ser anidados. Un modelo esta anidado respecto a un se-
gundo, si el primero puede obtenerse igualando a cero algunos pa- Supongamos que tenemos dos modelos alternativos. El modele
nimetros del segundo. Dicho de otro modo, el primero es un caso Mo con mo parametros y el modele MI con ml parametros. El nu-
particular del segundo. Seglin esto, el modele nulo, 0 modele de mero de parametros que se anaden (p) es ml-mo. Siendo Do Y DI
varianza one-way de efectos aleatorios que vimos en otro punto, esta sus respectivos valores de 'Deviance'. La diferencia en tre ellas se em-
siempre ani dado respecto de cualquier modele alternativo. Si en el plea como prueba estadistica con una distribucion X2 con m1-mo
modele nulo no hay varianza estadisticamente distinta de cero en grados de libertad. Si esa diferencia es significativa, nos quedaremos
los niveles micro y macro, ninglin modele alternativo ajustar<i sig- con M I, y con Mo en el caso contrario.
nificativamente mejor que el nulo. Si un modele no tiene diferen-
cias significativas con el nulo, debe rechazarse.
Es posible que dos modelos distintos tengan diferencias estadis- 2.8. ESTIMACION DE LOS PAAAMETROS
ticamente significativas respecto del modele nulo. Entonces es ne-
cesario compararlos. Por el principio de parsimonia debemos que- En un modele multinivel hay dos tip os de parametros: los para-
darnos con el que tenga menor numero de parametros, por el de metros ftios y los parametros aleatorios. Los parametros ftios co-
mejor .yuste, debemos quedarnos con el que mas varianza explique rresponden a los efectos medios en la poblacion. Se trata del inter-
de modo significativo. Si estan anidados podremos compararlos. Si cepto y de las pendientes. Los parametros aleatorios corresponden
no hay diferencias significativas nos quedaremos con el de menor a las varianzas y covarianzas de todos los niveles. En la literatura a
numero de parametros. Si las hay, nos quedaremos con el de mayor veces se habla de la estimacion de un tercer tipo de valores. Se tra-
numero de parametros. ta de los residuos de nivel superior. Nos referimos a los f3o j , f3lj' ...
Para llevar a cabo la comparacion hacemos uso de la razon de de cada unidad del nivel macro. En realidad, si estimamos los pa-
verosimilitud. rametros ftios, la estimacion de los valores de f3o j , f31~' etc. consiste
La estimacion de los parametros se realiza por maxima verosi- en obtener valores para /-lOj. /-ll j ' etc. Aunque se dice que se esti-
militud. Ll es el valor del maximo de la funcion de verosimilitud man estos valores, en realidad no son parametros del modelo, sino
en la estimacion de los parametros del modele 1. Y L2 es el maxi- variables latentes. Desempenan en este modele el mismo rol que
mo de la funcion de verosimilitud para el modele 2. Este segundo las puntuaciones factoriales en el modele de factor com un. Desde
modele esta anidado en el primero, por tanto la razon de verosi- un pun to de vista cientifico, de estudio de las estructuras genera-
militud es: les de los fenomenos, no interesan mas que los parametros del mo-
delo: las cargas factoriales en el modele de factor comun; los pa-
LI 2
rametros ftios y aleatorios en el modele jerarquico lineal. Desde este
- 21 n--Xp siendo p = Numero de parametros punto de vista no son de tanto interes las puntuaciones que a cada
L2 ' de diferencia. sujeto podamos atribuir a cada factor. Pero cuando queremos for-
mular juicios sobre entidades individuales, sujetos en el modele
de factor comun, 0 escuelas u otra clase de agrupaciones en el mo-
LI
-21n - = -21nLI + 21nL2 (2.42) delo jerarquico lineal, entonces nuestro interes se dirige a las pun-
L2 tuaciones factoriales, en un caso, 0 a los residuos de segundo ni-
vel en el otro. Por eso, aunque estas variables no son estrictamente
En los programas, de forma rutinaria, aparece al final del pro- parametros del modelo, estudiaremos en este capitulo el modo de
ceso de estimacion el valor de este estadistico, al que se Ie denomi- obtencion de valores, que por extension, se suele denominar 'es-
na'Deviance' timacion'.
Debemos distinguir entre metodos de estimacion y algoritmos
Dev = -21n(LI) == -2log{like) (2.43) de estimacion. Un metodo de estimacion consiste en un conjunto
60 MODELOS JEAARQUICOS LINEALES REGRESION EN DOS NIVELES GI
de reglas y principios cuya aplicacion da lugar a una ecuacion 0 sis- ral, todos ellos proporcionan los mismos resultados. En algunos ca-
tema de ecuaciones que ponen en relacion los datos con el para- sos, y en funcion de la naturaleza de los datos, alguno puede ser mas
metro buscado. eficiente, e incluso es posible que alguno no llegue ala convergen-
Los algoritmos de estimacion son metodos de dlculo que, ge- cia mientras que otro sf 10 hace. Pero la naturaleza exaCta de los pro-
neralmente por medio de iteraciones sucesivas, permiten obtener cedimientos de dlculo es algo que va mas alla del alcance de esta
soluciones para esas ecuaciones. obra, y que a efectos practicos no debe preocupar en exceso allec-
Hay tres metodos para obtener estimaciones de los parametros. tor, puesto que no importa cual sea el program a estadfstico del que
El metodo de maxima verosimilitud (ML, Maximun Likelihood), el me- haga uso, el algoritmo implicado producira estimaciones iguales a
todo de maxima verosimilitud restringida (REML, Restricted Maximun las otras alternativas. Solo en el caso en que estructuras muy com-
Likelihood) y la estimacion bayesiana. Los dos primeros metodos son plejas de datos dificulten la convergencia merece la pena plantear-
equivalentes en 10 que se refiere a la estimacion de la parte fija del se probar con otras alternativas.
modele (los coeficientes de regresion). Sin embargo en la estimacion Para una aproximacion intuitiva a la estimacion podemos consi-
de la parte aleatoria, el metodo ML produce una estimacion sesga- derar dos casos distintos: cuando conocemos el valor de las varian-
da debido a que no tiene en cuenta la perdida de grados de libertad zas y el caso, mucho mas frecuente, en el que no conocemos el va-
que se produce cuando simultaneamente se estiman los parametros lor de ningun parametro.
de la parte fija. Por este motivo, siempre que el numero de unidades
del nivel macro sea inferior a 30 es de preferencia el metodo REML.
La estimacion bayesiana por su parte consisten en integrar nues- 2.8.1. Estimaci6n por puntos de los efectos fzjos 2
tros conocimientos previos respecto de los parametros a traves de
la distribucion a priori. La combinacion de esta distribucion con la Supongamos el caso mas simple, un ANOVA de efectos aleatorios,
funcion de verosimiIitud da lugar a la distribucion a posteriori, que y que conociesemos a ; y a~o . EI modele es:
es, de algun modo, la expresion de nuestras creencias respecto a los
val ores de los parametros una vez que hemos asumido la evidencia (2.44)
que proporcionan los datos.
Cuando se desee comparar dos modelos utilizando la razon de (2.45)
verosimilitud, entonces conviene que ambos hayan sido estimados
siguiendo el mismo metodo. Espedficamente, si los modelos que El parametro que tratamos de estimar es /30, que es la media ge-
comparamos difieren en su parte ftia, el metodo de preferencia es neral en la variable de respueSta para el conjunto de la poblacion.
ML. Si es la parte aleatoria en la que difieren entonces haremos uso La situacion de analisis que tenemos supone varias unidades de
de REML. nivel 2, de las cuales conocemos su media y el numero de sujetos.
En cuanto ala estimacion puramente bayesian a, ciertamente ha- Ahora bien, podemos tener dos casos extremos: que los tamanos
bra quien por principio sea la unica que utilice. Pero en cualquier muestrales sean muy distintos entre sf (n) (Figura 2.14) 0 que sean
caso, es el procedimiento mas recomendable cuando tenemos muy iguales, y por tanto nj es igual a n que es una constante (Figura
pocas unidades de nivel superior. Es el procedimiento por defecto 2.13). Estas dos situaciones dan lugar ados estimadores distintos,
utilizado en el programa BUGS. cuyos valores constituyen los lfmites entre los que se encuentra el
Respecto de los algoritmos, podemos decir que los mas impor- que nosotros vamos a utilizar. Comenzamos por el caso de igual nu-
tantes son EM (Expectation-Maximization), Fisher scoring, IGLS (Itera- mero de unidades en cada unidad de segundo nivel.
tive Generalized Least Squares) y RIGLS (Restricted IGLS). Estos meto-
dos se diferencian en la forma concreta en que buscan la solucion
a las ecuaciones establecidas por el metodo elegido. Pero en gene- 2 Puede omitirse este apartado sin perdida de continuidad.
62 MODELOS ]EAARQUICOS LINEALES REGRESION EN DOS NIVELES
I,njYoj
f3~ = ---,-j- -
00000
(2.·17)
I,nj
Como enseguida veremos, entre estos dos valores esta un tercer

estimador que se basa en una ponderacion que utiliza la cantidad
de informacion que tiene cada muestra 0 escuela. Es el estimador
de mfnimos cuadrados ponderados (WLS, Weighted Least Squares Es-
FIGURA 2.13. Distintas unidades de segundo nivel con tamaiios timator). Para definir este estimador tenemos que determinar con
muestrales iguales. cuanta precision la media de cada escuela estima el parametro Po·
En 2.44 y 2.45 esta clara la relacion entre Yoj y f30. En efecto, si ha-
cemos la media en la ecuacion para el primer nivel obtendrfamos:
Yoj = f30 j + eoj , donde eoj - N( 0, ~;)

Si substituimos en esta ultima ecuacion la del segundo nivel ob-
tenemos:
(2.49)
Donde Yoj es el estadfstico con el que queremos estimar f30 que

FIGURA 2.14. Distintas unidades de segundo nivel con tamaiios es el parametro, y (/10 + E;) es el termino de error, que tiene dos
muestrales diferentes. componentes. Yoj es ~n estimador insesgado de Po. Las medias de
las distribuciones de /10j y E;j son iguales a cero.
Naturalmente en cada muestra tenemos un valor de Yoj. Pero no
El proceso para obtener una estimacion puntual de Po para el todos ell os son igual de buenas estimaciones de f30.
caso de tamaiios muestrales iguales es el siguiente. Consideramos La bondad de Yoj como estimador de f30 depende de la varian-
que cada Yoj es una estimacion independiente de Po. Por tanto, una za de cada uno de ellos. Si un estimador tiene mucha varianza, hay
estimacion razonable de f30 es: much a incertidumbre respecto al parametro. La varianza del esta-
dfstico Yoj es:
IJoj
' - -]j -
f3 0- (2.46) (2.50)
ya que f30 es constante, y como /10j y E;j son independientes entre

Para el caso de tamaiios muestrales distintos, partimos de los sf. Entonces:
mismos supuestos al considerar que cada Yoj es una estimacion in-
dependiente de f30. Ahora bien, la estimacion ahora habra de con-
3 Recordemos que cuando una variable tiene una distribuci6n normal, la distribuci6n mues-
siderar los tamaiios muestrales distintos, siendo una estimacion ra-
tral de la media tiene una distribuci6n normal cuya varianza es la varianza de la poblaci6n divi-
zonable: dida por el tarnano muestral.
REGRESrON EN DOS NIVELES 65
(2.51) Pero cuando los sujetos dentro de las escuelas son muy pareci-
dos entre si, y casi toda la varianza es vttrianza entre las escuelas,
Donde a;o
es la varianza entre los grupos 0 unidades de nivel 2»_'
all"
a
n. ·
2
dos, y a; /
nj es la varianza dentro de los grupos. Tenemos que a;o J
es constante para todos los grupos, yen cambio a; / nj varia de un

grupo a otro. ~-:1=_1_ (2.57)
J a Ilo2
a2
2 + - ' a la varianza del estimador.
Llamamos ~.
J
= a Ilo nj (2.52)
I -2
1 -
Y'j
1
-2 LYo,
-
I~iYOj a llo ao
Es claro que la precision puede medirse por el inverso de la va- =f3~ (2.58)
rianza del estimador de cada grupo (~jl), siendo entonces: I~jl 1
I+
a llo
-2.]
a llo
.. , (-)
PreCIsIOn Y'j = T1 = LlA-Ij (2.53)
J
2.8.2 . Estimaci6n par intervalos de los coeficientes fzjos

Si conociesemos cada ~jI, una solucion natural para estimar f30 del segundo nivel
seria ponderar cada Yoj por su precision. Bien, esta ponderacion es
el denominado estimadar de minimos cuadrados ponderados (weighted Si la estimacion se realizara por intervalos, la precision del esti-
least squares estimator): mador $0 es la sum a de las precisiones de sus componentes.
Precision ($0) = I~jl (2.59)

(2.54)
Por tanto, su varianza sera la inversa:

Como ya hemos adelantado, el estimador $0 esta siempre entre
f3~ y f3~. En efecto, cuando todas la medias de las escuelas son igua- (2.60)
les, entonces a;o
= 0, y toda la varianza es varianza entre sujetos-den-
tro de las escuelas.
Yel error tfpico de su distribucion muestral sera la raiz cua-
(2.55) drada:
Entonces: (2.61)
'" nj _
,t..,-2 yoj El intervalo de confianza del 95% sera:
I~iYOj a,
(2.56)
I~jl I
$0 ± 1,96 (I~ir2 (2 .62)

66 REGRESION EN DOS NIVELES
MODELOS JEAARQUICOS LINEALES G7
Con animo didactico vamos a analizar un modelo algo mas com- (2.71)
plejo. Veamos que ocurre en la regresi6n con medias como resul-
tados (regression with means as outcomes). Recordemos que en este
modelo, (2.72)
(2.63)
(2.64) (2.73)
-={Jo +e·.J (2.65) La estimacion por intervalos serfa entonces:

Y'J J
(2.66) (2.74)
Su varianza es: Yel intervalo de confianza del 95%:

I
(2.67) iJI ± 1,96.V(.Blf 2 (2.75)
Observese que ahora I1j es la varianza residual, es decir la va- Para iJo igual que en el caso anterior.
rianza de Y.j dado Wj . Por ejemplo, seria la varianza alrededor de
la media esperada para los centros privados, 0 los centros publicos.
Si todos los grupos fueren de igual tamaiio, los estimadores de 2.8.3. Estimacion conjunta de los ejectos fzjos y las varianzas
minimos cuadrados ordinarios (OLS, Ordinary Least Squares) serian
los de minima varianza: Sup?ngamo~ que t~~emos un modelo de intercepto aleatorio
y dos,lllveles. ~I conoCle~emos los valores de los parametros f~os,
L(~ - W.)(Yo j - Yo.) P?dnamos estlmar la vananza del primer nivel simplemente obte-
(2.68) lllend~ para cada escuela la varianza de los residuos y obteniendo
L(~ - W.)2 la medIa de todas esas varianzas. La diferencia entre el metodo ML
y REM~ en este procedimiento estriba en que en el primer caso el
{J~ = Y•• - iJl W. (2.69) denommador en cada escuela seria nj' el numero de alumnos de
e~a escuela, y en el segundo nj - p -1, donde p es el numero de pa-
En cualquier otro caso, los estimadores de minima varianza son rametros de la parte f~a.
ponderados por la precision, los llamados de minimos cuadrados Y esto .no es mas que un reflejo del hecho de que la estimacion
ponderados (WLS, Weighted Least Squares) : de las vananzas depen.~e de los valores de los parametros f~os. Su-
pongamos que conOCIesemos los val ores de los parametros f~os.
Como los valores de.la variable dependiente son conocidos, podria-
(2.70) mos obtener un resIduo para cada sujeto. Entonces, la varianza de
esos residuos seria una estimacion de la varianza de primer nivel.
68 MODELOS JERARQUICOS LINEALES REGRESI6N EN DOS NIVELES 6U
Lo mismo podria deeirse de las varianzas y covarianzas del se-

gundo nivel. En la practica se desconocen los dos conjuntos de pa- (2.77)
rametros la mayoria de las veces. Pero entonces se hace uso de una
de las propiedades de los estimadores de maxima verosimilitud: si
en cualquier funeion de los parametros sustituimos a estos por los donde p es igual al numero de parametros fuos, en este caso p = 2.
estimadores de maxima verosimilitud, entonces la funeion resultan-
te es a su vez un estimador de maxima verosimilitud, con todas sus
propiedades estadisticas. 2.8.4. 'Estimaci6n'de los residuos
Como consecueneia es faeil concebir un procedimiento iterativo
a partir de esta propiedad. Por ejemplo, en una regresion simple, Como ya hem os indicado, los parametros del modelo son los
efectos fuos y las varianzas y covarianzas de los efectos aleatorios. Por
donde tanto, una vez obtenidos esos valores ya tenemos estimado el mo-
delo. Sin embargo, en ocasiones resulta util obtener valores indivi-
Si conoeiesemos los valores de f30 y f31' el residuo seria, duales, 'estimaciones' para los efectos aleatorios especfficos de cada
una de las escuelas 0 unidades de segundo nivel. Este es el caso, por
ejemplo, cuando queremos determinar como una de estas unida-
des se comporta en comparaeion con los valores esperados dadas
(2.76) sus caracterfsticas particulares. Es tambien el caso del 'valor anadi-
do' cuando se quieren detectar unidades 'outliers',.o en general,
serfa el estimador de maxima verosimilitud de a;. Pero, si como es siempre que se quiera realizar unjuieio sobre unidades especfficas
habitual, no conocemos los valores de f30 y f31' podemos sustituir- comparando su desempeno con el rendimiento esperado dadas sus
los por sus estimaciones maximo-verosimiles, yentonces 2.76 seguira caracteristicas particulares.
siendo un estimador de maxima verosimilitud, con todas sus pro- Se trata de estimar los coeficientes f30j' f3lj' ... , en general, f3qj .
piedades estadisticas de consisteneia y eficieneia. En cada unidad de nivel 2, hay un conjunto Q de tales parame-
En esta propiedad se basan algunos procedimientos iterativos, tros.
como el IGLS (Iterative Generalized Least Squares). La solueion 2.76 En realidad, como f3qj = f3q + /1-qj' Y f3q es un efecto fuo que ya ha
es el metodo GLS (Generalized Least Squares). Cuando no conocemos sido estimado, estimar f3qj es estimar el residuo /1-qj.
los valores de f30 y f31' ni la varianza de los residuos, se procede como Para ilustrar el proceso comenzaremos con los residuos del in-
sigue: se asigna un valor proporeional a la varianza de los residuos, tercepto. Supongamos que Yij es el valor observado para el estu-
y se obtiene un valor provisional para los estimadores de la parte fU a . diante i en la escuela j, y que Yij es el valor predicho sobre la rec-
En el siguiente paso tomamos los estimadores de la parte fUa como ta de regresion. El residuo bruto para este sujeto sera:
si fuesen valores verdaderos, y volvemos a estimar la varianza, obte-
niendo ahora un valor mas aproximado al real. Tomamos ahora ese (2.78)
valor como real y se vuelven a estimar los parametros de la parte fija.
Se repite este proceso hasta que converja. El residuo bruto para la escuela j sera la media de los residuos
Otros procedimientos, como EM 0 Fisher scoring, utilizan meto- de todos los alumnos de esa escuela:
dos semejantes. Una buena descripeion de los mismos puede en-
contrarse en el capitulo 14 dellibro de Raudenbush y Bryk (2002).
Una ultima observacion. La expresion 2.76 corresponderia a la (2.79)
estimacion ML. La estimaeion REML seria,
REGRESION EN DOS NIVELES 7l
El problema con el residuo bruto es que en las unidades de se- No debemos perder de vista que estamos tratando de estilllar po,
gundo nivel en las que tuviesemos pocas unidades de primer nivel para cada escuela. Supongamos que Aj. es 1. Esto ocurrira cuando
la desviacion de esa unidad respecto a la tendencia general es poco a; sea cero, 0 nj sea infinito.
fiable. En el primer caso, tendremos que los alumnos son exactamente
Precisamente ese concepto de fiabilidad es el que nos puede ayu- iguales un os a otros dentro de cada escuela. Sin embargo, unas es-
dar a mejorar la precision de la estimacion de floj' cuelas difieren de otras en su efecto medio. Entonces los residuos
Hemos visto anteriormente que no solo interesa el numero de que observamos dentro de una escuela son perfectamente la dife-
unidades de primer nivel que tienen una unidad de segundo nivel, rencia entre esa escuela y la media general.
sino tambien la varianza entre ellas, ya que de alguna forma nos in- Podria darse el caso teorico tam bien de que en una escuela de-
dica cminta informacion proporciona ese grupo. terminada, el numero de alumnos medidos, nj' fuese infinito. En-
Para entender bien este punto, vamos a considerar un ejemplo. tonces, la media de los residuos se aproximarfa infinitamente a floj'
Supongamos que tenemos una poblacion de alumnos que estan En cualquiera de los dos casos, la media de los residuos serfa muy
agrupados en escuelas. El efecto especffico de cada escuela es floj' informativa, y seria una buena aproximacion a floj'
que es un valor desconocido. Por tanto, la media de la escuela, {30j' Pero, ~que ocurriria si la fiabilidad fuese cero? Esto podria ocu-
tambien es un valor desconocido. Todos los valores de {30j de todas rrir de dos maneras distintas.
las escuelas constituyen el conjunto de las puntuaciones verdaderas En primer lugar, podria ser que todas las escuelas tuviesen real-
que son de nuestro interes. Hemos visto que: mente la misma media. Entonces, todos los floj serfan igual a cero.
Solo por azar entonces podrian ser los residuos medios distintos de
cero. Pero en ese caso, ese valor seria un error aleatorio, y no de-
bieramos prestarle atencion.
por 10 tanto Yoj es una estimacion de {30j' Como en la Teo~a de la La segunda posibilidad podria a su vez producirse de dos formas:
Puntuacion Verdadera, Yoj es la puntuacion observada, y eoj es el
o a f » a",o'
'2 2'
0 nj ~ 0 .
error. Hemos visto que el error tiene una varianza de a; /nj. Si la varianza dentro de las escuelas es mucho mayor que la va-
Igual que en la Teorfa de la Puntuacion Verdadera, podemos de- rianza entre las escuelas, los residuos medios de cada escuela no re-
finir la fiabilidad, que no es mas que la proporcion de la varianza flejan diferencias de la escuela respecto a la media general.
observada que es varianza verdadera. Si el numero de sujetos de una escuela determinada tiende a
Naturalmente en este caso la varianza verdadera es la varianza en- cero, entonces no podemos fiarnos de los residuos medios para es-
tre los valores {30j' es decir, a;o' timar floj' ya que introducen demasiado error.
La varianza observada es la suma de la varianza verdadera mas la Por todas estas consideraciones es razonable asumir que los re-
varianza de error, que hemos visto que es a; /nj. siduos medios obtenidos en 2.79 sean ponderados por la fiabilidad.
Luego la fiabilidad, Aj , es: Asi nuestro estimador de floj sera:
(2.81)
(2.80)
El termino que multiplica a la media de los residuales brutos, Aj ,
se denomina "shrinkage factor" (factor de encogimien to) dado que
sera siempre menor 0 igual a uno, siendo la magnitud de la esti-
Como es logico Aj puede tomar valores entre 0 y 1. mac ion del residuo siempre menor que la magnitud del residuo bru-
Las siguientes consideraciones nos van a ayudar a entender de to. Conforme aumenta el numero de unidades del primer nivel en
que modo podemos utilizar la fiabilidad. cada uno de los contextos (nj), este termino tiende a uno. Del mis-
mo modo, cuando el numero de unidades individuales en cada con- de las estimaciones y las pruebas de significacion para ellos. Por este
texto desciende, este factor tiende a cero. motivo, se exigen estimaciones de los errores tfpicos de los residuos
El efecto de esta ponderacion sobre la estimacion de f3o·J es muy estimados.
•
mteresante. En efecto,
2.9.
POj = Po + PO j = Po + Ajr.j = Po + Aj(y.j - Po) = EXPLICACION DE LA VARlANZA
= Po + Aj y.j - Aj Po (2.82) . En regr~sion multiple, la medida usual de la proporcion de va-

nanza .e,xph~ada es el cuadrado de la correlacion multiple, R2. La
Y sacando factor comun de Po, traslaclOn dlrecta a los modelos jerarquicos supondrfa asumir las
reducciones proporcionales de las estimaciones de los componen-
(2.83)
t
es d e vananza
. at2 Y au,2 en el modelo de mterceptos
.
aleatorios de
dos niveles como analogos de R2 .
Es 10 que se conoce como estimador empfrico-bayesiano. Ob- . , Una cue.stion muy importante en la interpretacion de la reduc-
servese que cuando la fiabilidad de la media de una escuela es 1 Clon de vananza sin explicar que se produce cuando se introduce
ifOJ tomara el valo! de y'j' ya que (1- Aj) sera cero. Cuando la fia~ un predi.ctor de se~ndo nivel, es que solo son comparables mode-
bilidad sea cero, f30j tomara el valor de Po, la estimacion de la me- los que tlenen la mlsma estructura en el primer nivel. Esto se debe
dia general. Y para cualquier caso intermedio, Po· sera una combi- a. q~e cam bios en la estructura del primer nivel pueden producir va-
nacion ponderada de ambos valores, siendo la JfiabiIidad la que naClones en la varianza explicada del segundo nivel debido a las di-
determina cual de ellas pesa mas en la estimacion de f30j. feren~ias en la distribucion de los predictores del primer nivel en
En much os casos, los residuos de los niveles macro 0 contextua- las umdades de segundo nivel.
les tienen interes por sf mismos y el aumento de la concentracion Por ejemplo, supongamos que existen diferencias en el rendi-
observado cuando los niveles contextuales tienen tamaiios pequeiios miento ligadas al sexo. Si una escuela fuese solo de niiios 0 solo de
se puede interpretar como una expresion de la falta de informacion n,iiias, p.arte de la varianza entre las medias de las escuelas queda-
que se tiene sobre ese contexto, siendo la mejor estimacion del re- na .exphcada por esa variable. Por eso no es razonable comparar la
siduo la mas proxima al valor de la poblacion general. En resumen, vananza exphcada por modelos con distinta estructura en el pri-
los residuos para los niveles macro "estan concentrados" en torno a mer nivel.
cero y esta concentracion incrementa cuando desciende el tamaiio Cuando hacemos uso de la estimacion maximo verosfmil a ve-
de la muestra, es decir cuando tenemos poca informacion (0 pocas ces puede ocurrir que la introduccion de un predictor no es~dfsti
unidades 0 mucha variabilidad entre unidades del primer nivel). cam~nte signifi~ativo produzca valores ligeramente negativos en la
Las estimaciones de los residuos no son estimaciones insesgadas, cantldad de ~ananza explicada. Esto, que numericamente es posi-
pero sf consistentes. Los residuos tienen por tanto dos papeles. La ble por el metodo empleado, no tiene ningun significado concep-
funcion mas directa es que son variables aleatorias con una distri- tualmente considerado.
bucion, cuyos parametros nos inform an de la variacion entre uni- Para evitar estos resultados contra-intuitivos, Snijders y Bos-
dades de nivel macro y que aportan estimaciones eficientes para los ker (l ~99) proponen otra definicion de la proporcion de varian-
coeficientes ftios. La segunda funcion supone que son estimaciones z~ e~phcada. Se trata de la reduccion de la proporcion del error de pre-
dzcczon.
individuales del segundo nivel, cuyo valor conocemos porque asu-
mimos que pertenecen a una poblacion de unidades. En una regresion ordinaria, si de un sujeto desconocemos sus
Cuando los residuos de los niveles macro se utilizan para el diag- valoresen X, lamejorprediccionpara 1'; es E(Y), ylavarianzade
nostico de contextos, es necesario aportar los intervalos de confianza error de prediccion es la varianza de 1'; (var (1';) ) .
Sf conocemos los valores de X para el sujeto i, la mejor predic- 2.9.1. Predicci6n de un valor individual (nivell )
ci6n de Y; sera I.{3hXhi' El error de predicci6n es la diferencia en-
tre Y; y I.{3h X hi' Cuando desconocemos x para un ~ujeto la mejor predicci6n es
Ahora la varianza del error de predicci6n es E(Y;) y la varianza de error de predicci6n es var(Y;) . Cuando co-
nocemos x la mejor predicci6n es
(2.84)
q q
L{3h X hi · Yel error de predicci6n es Y;j - L{3hX hij = ""oj + Cij'
Efectivamente: (2.85) h=O J h=O
La varianza del error de predicci6n ahora es
Entonces la reducci6n de la proporci6n de la varianza del error

de predicci6n al introducir los predictores es:
y
var( Y;) - var( Ci ) var( Ci ) 2
- - - - - - = 1- =R (2.87) (2.89)
var(Y;) var(Y;)
Y la reducci6n de la proporci6n de la varianza de error de pre-
Y esta es una forma equivalente de expresar la proporci6n de va- dicci6n para el nivel 1 sera:
rianza explicada 0 R2.
Se puede aplicar los mismos principios a los modelos jerarqui-
cos lineales.
En el contexte multinivel se puede elegir entre predecir el valor
(2.90)
de Y de un individuo en un grupo, 0 predecir el valor medio de Y
para un grupo. Esto da lugar ados conceptos de la proporci6n de
varianza explicada. El mas importante es la reducci6n en la pro- Naturalmente, 10 habitual es desconocer los valores de los para-
porci6n del error de predicci6n de un valor individual. El segundo metros a~o y a ; . Entonces, acudimos a las estimaciones de esos pa-
es la reducci6n en la proporci6n del error de predicci6n de la me- rametros.
dia de un grupo. La estimaci6n se obtiene entonces como:
Para ambos casos partiremos de un modelo de interceptos alea-
torios:
q
~2 (a1-',2 + a 2 ) A
f
R1 = 1------ (2.91)
~ (3h x hIJ.. + rOJ
YIJ = {30 + £.., /J . + c· ·
IJ (2.88)
(a1-'.2 + a 2 ) N
f
h=1
En los dos apartados siguientes desarrollamos estas ideas para En esta expresi6n (a~. + a;) A es la varianza en el modele alter-
cada uno de los casos mencionados. nativo, el que incluye los predictores. Y (a~. + a;) N es la varianza
del modele nulo.
2.9.2. Prediccion de un valor grupal (nivel2) Y entonces la varianza de error de prediccion es:
Podemos hacer uso de los mismos principios para determinar la

varianza explicada en el segundo nivel. En este caso, se define como (2.99)
la reduccion ~ la proporcion de la varianza de error de prediccion
de la media Iij de una unidad de nivel 2 seleccionada al azar. Si
desconocemos los valores de X para todos los sujetos de la unidad Ahora la proporcion de varianza explicada en el nivel 2 se defi-
j, la mejor prediccion de la media Iij es E(Y) yel error de predic- ne como la reduccion en la proporcion de varianza de error de pre-
cion es var(Iij)' diccion del valor 1;
Ahora, si se tratase de un modelo con un solo nivel, tendriamos:
YI = {30 + £.I (2.92)

(2.100)
La media seria:
Y = (30 + "& (2.93) La estimacion se obtiene por:
Y la varianza del error de estimacion:

0 2 (2.101)
v("&) =_E (2.94)
n
Cuando es un modelo de dos niveles:
(2.95) Naturalmente, la cantidad de varianza explicada en el segundo

nivel es un solo valor. Sin embargo, es muy posible que cada grupo
La media es: j tenga un nj distinto. Esto nos plantea el problema de que valor
utilizar. Podemos utilizar aquel valor de n que sea representativo del
(2.96) tamaiio de las unidades de nivel 2, aunque en algunos casos haya
valores perdidos, por ejemplo igual a 30.
Y la varianza: Si los valores de nj varian mucho en la poblacion, puede usarse
la media armonica:
(2.97) N
(2.102)
Si conocemos los valores de X de todos los sujetos del grupo j,

q
la mejor prediccion de Y;j es "L{3,}Ihj Respecto a los val ores de Ri R;,
y en la poblacion sus valores no
"=0 pueden ser menores que cero. Si sus estimaciones 10 son, puede ser
por azar (valores pequeiios) 0 por mal especificacion en la parte ftia
(2.98) del modelo (no en la aleatoria) .
2.9.3. Varianza explicada en modelos de pendientes aleatorias
Si ahora el modelo del que partimos es de pendientes aleatorias,

las formulas de Ri R;
y son mas complejas (Snijders y Bosker, 1994),
Ylos resultados no difieren mucho de los valores para el modelo ani- 3
dado de interceptos aleatorios correspondientes.
Por eso una alternativa valida es recalcular el modelo de pen- DISENO Y SUPUESTOS
dientes aleatorias como si fuese un modelo de intercepto aleatorio, DE LOS MODELOS MULTINIVEL
y comparar las varianzas de este ultimo con el modelo nulo. Los re-
sultados no difieren mucho en la practica de otras estimaciones mas
complejas. La primera condici6n para plantear un buen diseno de investi-
El programa HLM (Bryk YRaudenbush, 1992) proporciona una gacion, ya sea multinivel 0 no, es tener claro el objetivo del estudio,
estimacion de los residuos observados de la varianza entre grupos: es decir, cuaIes son las preguntas que se quieren responder. El dise-
no de investigacion constituye el garante de la adecuada respuesta
a las cuestiones de investigacion.
(2.103) En una investigacion multinivel se tiene que decidir como debe
ser la estructura de su estudio: numero de niveles, numero de uni-
10 que facilita los calculos. dades en cada nivel, variables predictoras a incluir, etc. Todas estas
decisiones afectan a la validez y potencia del estudio.
En esta seccion vamos a repasar algunos de los elementos deter-
minantes para un adecuado diseno y aplicacion de los modelos mul-
tinivel.
3.1. EL TAMANO DE LA MUESTRA
Una de las decisiones mas criticas que hay que adoptar en un es-
tudio multinivel es la determinacion de los tamanos muestrales. En
los estudios mas sencillos, los de dos niveles, es preciso determinar
dos tamanos muestrales diferentes: el tamano de la muestra de mi-
cro-unidades dentro de cada macro-unidad (nj) y el tamano de la
muestra de las macro-unidades (j). El tamano total de la muestra
J
en un estudio multinivel viene dado por Inj.
j=1
En el fondo, el diseno de un estudio multinivel ha de tener en

cuenta la naturaleza ani dada de las unidades en la poblaci6n. La dis-
tribucion de las unidades de primer nivel anidadas dentro de las de
segundo nivel, que a su vez estin agregadas en las de tercer nivel,
etc. puede afectar la precision de las estimaciones de parametros fi-
80 MODELOS JERARQUICOS LINEALES DISENO Y SUPUESTOS DE LOS MODELOS MULTINIVEL HI
jos y aleatorios. Esta situacion se puede complicar con el diseiio. Pen- En general, se recomienda (Snijders y Bosker, 1993, 1999; Mok,
semos por ejemplo en diseiios de clasificacion cruzada donde hay 1995) muestrear un numero amplio de macro unidades con un me-
varios coeficien tes aleatorios 4 . nor numero de micro unidades en ca.da una de ellas, que 10 con-
Un problema que se plantea en estos estudios es que los tamaiios trario. Sin embargo, es necesario seiialar que, aunque esta decision
de muestra que son buenos para estudiar la interaccion interniveles afecta positivamente a la estimacion de los efectos ftios de la pobla-
no son necesariamente optimos para estimar otras cosas, como la co- cion y la estimacion de la relacion entre variables, no tiene el mis-
rrelacion intraclase. Trabajos especfficos sobre este asunto son los mo efecto necesariamente para la estimacion de los efectos indivi-
de Snijders y Bosker (1993, 1999), Mok (1995), Cohen (1998), Rau- duales y la estructura de la varianza.
denbush (1997),0 Hedeker, Gibbons y Waternaux (1999). Ahora
bien, Goldstein (1995) seiiala que hay muy poco trabajo teorico y
poca evidencia empirica en cuestiones relacionadas con el diseiio 3.1.1. Tamafio de la muestra en diseiios por conglomerados
de modelos multinivel.
Por 10 general, el tamaiio de la muestra en el nivel mas alto es La determinacion del tamaiio de la muestra en un estudio mul-
elemento mas restrictivo en el diseiio. Por ejemplo, en un diseiio tinivel esta muy condicionado por el hecho de que los sujetos estan
de dos niveles, diez unidades en el macro nivel es tan poco con- agrupados en unidades de segundo nivel. Asi pues, el problema se
vincente como un estudio tradicional con diez sttietos. Del mismo convierte en esencia en la realizacion de un muestreo por conglome-
modo, los requisitos respecto al tamaiio de la muestra de las uni- rados. En 10 que sigue veremos como se resuelve el caso mas sencillo
dades del nivel mas alto con q variables explicativas en ese nivel, que corresponde a un diseiio con dos niveles. Para otros casos pue-
son equivalentes a los del tamaiio de la muestra de un estudio de de consultarse Gaviria (2000) y Scheaffer, Mendenhall y Ott (1987).
un solo nivel con q variables explicativas. Asi, es necesario asegurar La logica del muestreo por conglomerados es como sigue. En pri-
la variabilidad entre unidades, tanto en el nivel micro como en el mer lugar, si extrajesemos una muestra de individuos al azar, sin te-
nivel macro. ner en cuenta que estan agrupados en conglomerados, podriamos
La cuestion que se plantea es la eleccion de los tamaiios mues- obtener una muestra de un cierto tamaiio, pongamos n. Cada uno
trales adecuados para asegurar una potencia deseada dada una hi- de estos sujetos podria estar en un conglomerado distinto, 10 que
potesis relevante determinada y un determinado nivel de significa- implicaria que tendriamos que desplazarnos n veces, con el coste
cion. El aumento de la potencia de los contrastes 0 el descenso de que eso supone. Ahora bien, ya que los sujetos estan agrupados de
los errores tipicos de estimacion estan relacionados con el tamaiio b en b, podriamos decidir que en cada desplazamiento tomamos
de la muestra, sabiendo que el error tipico de estimacion es inver- los datos de b sujetos en lugar de uno solo. De ese modo solo rea-
samente proporcional a la raiz cuadrada del tamaiio de la muestra, lizariamos nib desplazamientos. Sin embargo esta decision plan-
aproximadamente, puesto que estamos trabajando con diseiios de tea un problema. Yese problema tiene que ver con el nivel de ho-
datos anidados. mogeneidad de los sujetos dentro de los conglomerados. En efecto,
El investigador ha de decidir si utilizar un numero pequeiio de sup on gam os que nuestras escuelas fuesen tan eficaces que para una
unidades de segundo nivel (por ejemplo, escuelas, barrios, hospi- misma escuela todos los sujetos obtuviesen la misma puntuacion en
tales) con un gran numero de unidades de primer nivel en cad a una un test. En ese caso, la varianza observada se deberia solo a la dife-
de ellas (por seguir con el ejemplo, alumnos, vecinos 0 pacientes), rencia entre las medias de las esc~elas. Pero entonces la informacion
o bien muestrear un gran numero de unidades de segundo nivel con que proporcionan los b alumnos de una escuela es la misma que
pocas unidades de primer nivel en cada una de ellas. la que proporciona uno solo, ya que todos son iguales. Asi, para con-
seguir suficiente informacion, tendriamos que seleccionar mas su-
4 Este tipo de disenos, por requerir un tratamiento algo mas especializado, sera expuesto
jetos. De hecho, un sujeto por cada escuela nos daria la misma in-
en un volumen posterior de esta misma colecci6n. formacion que todos los sujetos de todas las escuelas.
82 MODELOS JEAARQUICOS LINEALES DISENO Y SUPUESTOS DE LOS MODELOS MULTINlVEL
2
En el extrema contrario, si los sujetos fuesen tan distintos unos 196
de otros dentro de una escuela como con respecto a los de las otras 50.000 - ' - 2
escuelas, una muestra de n sujetos de una sola escuela me daria tan- En nuestro caso, n = _ _ _....-9_,_1---;;- '" 381
ta informacion como n sujetos de n escuelas distintas.
. 1 962
50.000 + - '-2-
El grado en que los alumnos se parecen un os a otros dentro de 0,1
las escuelas viene dado por la correlacion intraclase 0 autocorre-
lacion. Ahora bien si estos alumnos estuviesen agrupados en aula de
El procedimiento entonces se resume en establecer como seria 25 alumnos c~da una, y por anteriores investigaciones conocies~'
el tamaiio de la muestra en un muestreo aleatorio simple, y luego mos el dato de que la autocorrelacion fuese p = 0,20, el efecto di-
determinar cuanto hay que aumentar la muestra debido a la corre- seiio vendria dado par:
lacion intraclase.
Por ejemplo, supongamos que dados nuestros intereses determi- F=l+ (B-1)p= 1 +(25-1)0,2 = 5,8 (3.2)
namos que el tamaiio de la muestra por muestreo aleatorio simple
ha de ser de 200 sujetos. Para evitarnos realizar 200 desplazamien- o sea que el tamaiio de la muestra debiera ser 5,8 veces mas gran-
tos decidimos muestrear a todos los sujetos de cada conglomerado. de.
La autocorrelacion podria obligarnos a tomar 1.500 alumnos en lu- n' = nF = 381 * 5,8 '" 2210
gar de 200. Pero, suponiendo que cad a conglomerado tuviese 20
alumnos, aunque son mas alumnos, solo significaria 75 desplaza- Aunque efectivamente se trata de casi ~eis veces, mas de alu~
mientos en lugar de los 200 originales. Esa diferencia entre el ta- nos, como estan agrupados de 25 en 25, solo tendnamos que VlSi-
maiio de la muestra inicial y la del muestreo por conglomerados se tar 88 escuelas, en lugar de las 381 originales, aunque en cada una
llama 'efecto diseiio'. de elIas debemos tomar datos de todos los alumnos, en lugar de uno
Veamos un caso concreto. Supongamos que tenemos una po- cada vez.
blacion de 50.000 alumnos, y queremos extraer una muestra para En la practica, la dificultad estriba en que no todos los conglo-
estimar la media de dicha poblacion. Queremos que el error mues- merados tienen el mismo numero de sujetos, y en que a veces no
tral no sea mayor que 0,1 veces la desviacion tipica y que el nivel conocemos el valor de la autocorrelacion. Para el primer problema,
de confianza sea del 95 %. Segun estos datos, por muestreo aleato- una solucion puede consistir en utilizar la media armonica de los
rio simple deberiamos extraer una muestra cuyo tamaiio n vendria tamaiios de conglomerado como B en la ecuacion 3.2. En cuanto
dado por: a la autocorrelacion, si no disponemos de datos procedentes de
estudios anteriores, conviene adoptar el criterio del caso peor, es
K2 decir, asumir que la homogeneidad es muy alta dentro de los con-
N-2e glomerados y calcular el tamaiio ?e la muestra de ese modo. Para
n = ---=---2- (3.1)
N+.L mas informacion vease las obras Cltadas.
e2
donde N = Tamaiio de la poblacion, 3.1.2. Tamaiio de la muestra y fiabilidad del estimador

K = Puntuacion tipica que en la curva normal corres-
Nuestro interes esta ahora en calcular el tamaiio de la muestra ne-
ponde a un area central del 95%,
cesario para alcanzar una determinada fiabilidad de un es?mador.
e Error muestral maximo expresado en desviaciones Si queremos una medida insesga?a, no usamos. ~a media poste-
tipicas. rior ya que esta sesgada hacia la media de la poblaClon. En ese caso,
84 MODELOS JERARQUICOS LINEALES DISENO Y SUPUESTOS DE LOS MODELOS MULTINIVEL
utilizaremos Y.j como estimador. Pero entonces nos conviene saber

la fiabilidad del estimador. EI problema entonces se convierte en sa-
Ao(1- p)
nJ· >
-
(3.4)
ber como de grande ha de ser un conglomerado para que su media (1- Ao)p
tenga una determinada fiabilidad. Ahora tenemos que el tamaiio del
conglomerado dependera de la fiabilidad que deseemos obtener, Cuando nj = 1, entonces la fiabilidad es la correlacion intraclase,
pero tam bien de la homogeneidad de los conglomerados, es decir
de la correlacion intraclase p . 01'0
2
(3.5)
La fiabilidad de un estimador definido como la media de n · me- Ai = P = 0 2
1'0
+0 2
,
didas es: '}
Cuando nj > 1, la fiabilidad de Y.j es la proporcion de varianza
(3.3) observada que es de la varianza verdadera:
varianza entre fio + !1-0j

siendo p la correlacion intraclase. Aj = fiab ( y,j) = --v-a-r-ia-n-z-a-e-n-tr-e-=y=-o,-.-'-- (3.6)
Recordemos que y La fiabilidad de variables agregadas aumenta segun aumenta

el numero de micro-unidades en cada macro-unidad. La verdade-
ra varianza de la media de grupo es 030. La varianza observada es
2
0
En las dos ecuaciones despejamos 030 y obtenemos las expresiones, 0 2
1'0
+ -'-
nj
par 10 que la fiabilidad es:
(3.7)
p02
0 2
1'0
= --'-
1 y
-p
Igualando las expresiones, Por ejemplo, si p = 0,40 Yse desea obtener una fiabilidad de 0,80
para cada medida individual, ~de cuantos sujetos debera contar cada
muestra como minimo?
pO; Ao(1- p) 0,8(1- 0,4)
(1- p) -;--~:--- =6
(1- Ao)p (1-0,8)0,4
de donde obtenemos,
3.2. SUPUESTOS DE LOS MODELOS MULTINIVEL
pO; p
Ai=---------
0 2 1 Los supuestos propios de los modelos multinivel son comparti-
-i (1 - p) + pO;
1
~(1-p)+p
1 dos basicamente con los supuestos de los modelos de regresion tra-
dicionales.
Ahora, si deseamos una fiabilidad determinada, Ao, dado un va- En primer lugar, se espera que el modelo este bien especificado.
lor de p, despejamos nj en 3.3 y tenemos, Que por ahora supone que la relacion entre la variable de respues-
DlSENO Y SUPUESTOS DE LOS MODELOS MlII:IINIVI I.
ta y los predictores sea lineal, que no hayan quedado fuera del mo-
delo predictores importantes, y que tampoco hayan sido incluidos
en el modelo predictores irrelevantes.
En segundo lugar, se espera que las variables esten medidas sin
error.
El tercer conjunto de condiciones hace referencia a las caracte-
risticas de los errores aleatorios. Yaqui es donde se plantean las prin-
cipales diferencias con los modelos tradicionales de regresion.
Inicialmente, hemos asumido que los errores en el primer nivel
se distribuyen normalmente y tienen varianza constante. Sin em-
bargo este supuesto se puede relajar, ya que la heterocedasticidad
puede ser una condicion real en nuestros datos.
En principio, en los modelos que hemos presentado, se asume
la homocedasticidad dentro de cada unidad de nivel 2. No asi en
el conjunto total de los datos. Efectivamente, retomemos el mode-
10 general de coeficientes aleatorios: Xo
FIGURA 3.1. Distinta dispersion en Xo yen XI'
En estas condiciones la varianza de Cij' a;, se asume como cons-

tante, por tanto independiente de los valores de los predictores.
Ahora bien, si con la misma estructura de datos intentasemos
ajustar un modelo de regresion tradicional tendriamos:
pero en la practica cij = !iOj + !iljXlij + Cij' y por tanto la varianza de

los residuos c0' a~, depende de Xlij que no es constante. Estaria-
mos violando uno de los supuestos fundamentales del modelo.
Graficamente podemos ver esto en las figuras 3.1 y 3.2. En la pri-
mera comprobamos que no hay la misma dispersion en Xo yen Xl'
Y en la segunda, vemos que para cada escuela dada, la dispersion
en Xo es esencialmente igual que en Xl'
El modelo es 10 suficientemente elastico como para permitirnos
modelizar incluso la heterocedasticidad en el primer nivel. Seria el
caso por ejemplo de que los chic os y las chicas tengan distinta va-
rianza dentro de las dases. Xo
Para representar ese modelo necesitamos dos variables dummies,
Xm Y XI' una para cada categoria de la variable 'Sexo'. Asi, los chi-
FIGURA 3.2. Ig;ual dispersion en Xo Y en XI'
cos tendrian un 1 en Xm Y un 0 en XI' y las chicas al reves.
El modelo que integra la posible heterocedasticidad asociada al

sexo en el nivel 1 serfa:
y la parte aleatoria en los niveles 1 y 2 respectivamente, 4

EL PROCESO DE MODELIZACION MULTINIVEL:
OBTENCION E INTERPRETACION DE RESULTADOS
Como es 16gico en el nivel 1 no puede haber covarianza entre Esta secci6n esta dedicada al desarrollo practico y operativo de
los Cm y Cm, ya que nadie es al mismo tiempo chico y chica. un estudio multinivel. El interes principal esta puesto en el proceso
Si al incluir estas variables dummies mejora significativamente de obtenci6n e interpretaci6n de resultados. En es~ secc~6n s.~ pre-
el ~uste, 10 consideramos una prueba de la existencia de hetero- sentan y discuten algunos analisis basados en una mvesogaClon ~
cedasticidad en el nivel 1. nanciada con cargo al Concurso Nacional de Proyectos de Inveso-
L6gicamente la varianza 'de nivel 1 tiene que seguir siendo la mis- gaci6n Educativa del Ministerio ?e Educaci6n y Cultura (199~~000).
rna. Esto qui ere decir que si ponderamos la varianza de las chicas Se realiz6 un analisis secundano de los datos de la evaluaClon del
por el numero de chicas, y la varianza de los chicos por el numero rendimiento academico en matematicas de los escolares espanoles
de chicos, la sum a de esas dos cantidades tiene que coincidir con la de 16 an os en el ano 1997. En esta evaluaci6n, adem~ del nivel de
cantidad de varianza de nivel 1 que tenfamos anteriormente. dominio academico se recogi6 otro tipo de variables relacionadas
En resumen, nos parece conveniente la gufa de preguntas acer- con el estatus sociocultural y familiar de los individuos. Tambien se
ca de los supuestos de los modelos que plantean Snijders y Bosker recogieron datos de las escuelas, de los profesores y de los directores
(1999) que pasamos brevemente a resumir: de las escuelas. En este caso concreto, los datos de la evaluaci6n se
refieren a tres niveles distintos: individuos, escuelas y comunidades
a) ~Contiene la parte ftia del modelo los predictores adecuados? aut6nomas. Si bien, s610 presentaremos resultados de un modele
multinivel de dos niveles (alumnos y escuelas).
b) ~Contiene la parte aleatoria del modele los predictores ade-
cuados? La existencia de varianza dentro de las escuelas indica que los su-
jetos se diferencian entre ellos dentro de las escuelas. La exis.t~nci~
c) ~Estan los residuos del primer nivel distribuidos normal- de varianza en el segundo nivel indica que las escuelas tam.bl~n dl-
mente? fieren en el rendimiento medio de cada una de elIas. El obJetlvo es
d) ~Estan los coeficientes aleatorios del segundo nivel normal- entonces explicar la maxima cantidad de varianza en todos los ni-
mente distribuidos? veles, a partir de las variables incluidas en el modelo. _
e) ~Tienen los coeficientes aleatorios del segundo nivel una ma- Estamos hablando de la poblaci6n de comunidades autono~as
triz constante de varianza-covarianza? (17) y de una muestra de 917 escuelas y 2l.272 alumnos. L~_vana
ble de respuesta (rendimiento en matematicas) es la puntuac.lOn ob-
Para obtener informaci6n detallada sobre los procedimientos tenida en la prueba de matematicas y los va~or.e~ fueron e.somados
para la comprobaci6n de los supuestos del modelo se recomienda mediante procedimientos de Maxima Veroslml~ltud Margmal de la
consul tar Mosteller y Tuckey (1977); Bryk Y Raudenbush (1992) y TRI (mediante Bimain), en una escala normahzada con u~ rang?
Snijders y Bosker (1999). de 200 a 1000. Las variables predictoras fueron para el pnmer lll-
vel: nivel de estudios de la madre (' estmad') , sexo del alumno (' sexo')
90 MODELOS JEMRQUICOS LINEALES EL PROCESO DE MODELIZACION MULTINIVEL
y tasa de repeticion (' repetir'). Y para el segundo nivel fueron varia- un conocimiento mas detallado, recomendamos el manual del, ro-
bles descriptivas del proceso educativo como es la frecuencia de la grama (Goldstein et ai., 1998). En el Apendice de esta monografia
evaluacion (,ctrperio') 0 descriptivas del centro como la titularidad se puede encontrar una ilustracion del pI"oceso de modelizacion de-
(' Tituiaridad'). sarrollado con MLwin.
EI proceso de analisis dentro de la estructura multinivel res- El interface del program a MLwin es actualmente bastante ama-
ponde a un patron complejo de construccion y prueba de modelos ble, ya que permite la formulacion y construcci6n de modelos de
sucesivos. 0 10 que es 10 mismo, supone una estrategia de modeli- una manera muy intuitiva y accesible. De ahi que el dominio de
zacion. los supuestos y las caracteristicas de los modelos multinivel sea
La recomendacion mas general seiiala que sea la teorfa existen- esencial.
te sobre el tema de estudio en cuestion quien guie la seleccion de El MLwin comparte muchas de las caracterfsticas comunes a otras
variables que se deben incluir en el modelo. Sin embargo, es fre- aplicaciones informaticas como procesadores de texto 0 paquetes es-
cuente la realizacion de estudios exploratorios preliminares que ayu- tadisticos mas generalizados. Por tanto, la apertura y almacenamien-
den en la seleccion de los mejores predictores en ausencia de evi- to de ficheros, asi como la edicion de datos sigue pautas estindars.
dencias de tipo teorico. EI uso de los distintos menus es tambien caracteristico, sin embargo
Todos los manuales recomiendan que los modelos amplios y el programa permite distintas y equivalentes formas de especificar
complejos pueden parecer mas realistas, a cambio de un precio: la modelos.
inestabilidad del modele (pequeuos cam bios en el modele produ- MLwin tiene dos componentes principales. El primero es un mo-
cen grandes cambios en los resultados de los analisis, debido, por dulo de computacion, guiado por un conjunto de comandos que
e~emplo a la multicolinealidad). Las recomendaciones y precau- operan bajo la superficie del interface. El programa Nanostat esti
Clones para la construccion de modelos, por ejemplo causales 0 de en la base de MLwin. EI segundo es el interface graficD que aporta
regresion multiple, son tambien aqui de utilidad, puesto que es rela posibilidad de formular model os especificos, analizar resultados,
lativamente facil elaborar modelos 'ad-hoc' para un determinado editarlos, presentar la informacion graficamente, evitando la sinti-
conjunto de datos. Y entramos en el tema realmente central, la elec- xis del Nanostat.
cion del mejor modelo. Esta decision no se debe tomar unicamen- La estructura de almacenamiento de los datos sigue las pautas de
te con relacion al modelo que mejor ajuste a los datos. El 'mejor mo- una hoja de calculo, donde las columnas representan a las variables
delo' en terminos absolutos no existe, el mejor modele 10 es para y las filas corresponden al nivel mas bajo de la jerarquia. Por defec-
un determinado proposito. Dado que diferentes modelos producen to el program a establece 400 columnas iniciales y cinco niveles de
diferentes resultados, esta es una decision muy importante, basada anidamento. El tamaiio de la hoja de dlculo, el numero de para-
en la teoria sustantiva y en el conocimiento del modo en el que han metros y el numero de niveles puede ser definido dinamicamente.
sido recogidos los datos. Habitualmente, en nuestros analisis de datos cada fila corresponde
a un caso observado. Sin embargo, MLwin permite leer los datos en
columnas independientes en una nueva hoja de trabajo, definien-
4.1. ALCUNAS NOTAS SOBRE EL usa DEL PROCRAMA MLWIN do una columna para cada campo, sin necesidad de que tengan la
misma longitud. Las columnas estin numeradas (Cl, C2, etc.) 0 pue-
En este epigrafe se ofrecen unas notas introductorias sobre el uso den nombrarse.
del programa MLwin, que desde nuestro punto de vista, es el mas Antes de ajustar el modele a los datos hay algunos puntos que
versatil y com pIe to de los que actualmente se encuentran en el mer- hay que tener en cuenta:
cado. No pretendemos elaborar un manual de este programa, sino
simplemente una breve aproximacion que permita al lector acer- a. Hay que ordenar los datos de acuerdo con su estructura je-
carse a la obtencion de resultados utilizando este programa. Para rarquica. Siguiendo con nuestro ejemplo de dos niveles de
92 MODELOS JERARQUICOS LINEALES EL PROCESO DE MODELIZACION MULTINIVEL
alumnos y escuelas, los alumnos de la primera escuela deben Este modele se establece como linea base para la evaluacion com-
estar ordenados en primer lugar, seguidos de los de la separada de modelos. Es importante porque aporta la particion basi-
gunda escuela, y asi sucesivamente. ca de la variabilidad de los datos en dos 0 mas niveles. Ypermite eva-
b. Solo se permiten datos numericos, los datos alfa-numericos luar la adecuacion del uso de los modelos multinivel, ya que si no
deben codificarse numericamente. se comprobara variacion aleatoria significativa en los niveles supe-
c. En el caso de tener valores perdidos, es recomendable usar riores, no tendria sentido utilizar este tipo de modelos.
el mismo valor para codificar estos casos en todas las varia- El modele nulo en el programa MLwin se representa como mues-
bles. tra la figura 4.1. Se puede ver como la variable de respuesta tiene
tambien una distribucion normal. Se puede constatar como el coe-
EI MLwin es un software bastante cerrado para la comunicacion ficiente f30 j esta multiplicado por una 'variable', Xo, que realmen-
con otros paquetes estadisticos 0 incluso con procesadores de tex- te es una constante, un vector ftio de unos introducidos para dar el
to. No incluye facilidades para la importacion de ficheros de datos mismo tratamiento al pun to de corte que a las distintas pendientes
procedentes de otras aplicaciones como SAS, STATA, 0 SPSS. Sin del modelo. Queda reflejada asimismo la estructura de variacion en
embargo es posible pasar los datos desde EXCEL muy facilmente dos niveles. La parte aleatoria del primer y segundo nivel (alumnos,
usando la opcion 'copiar' y 'pegar' de ambos programas. Para el res- eOij' yescuelas, fl.oj' respectivamente) del modele se presenta con
to de los datos, el manual sugiere que tanto para construir la base su propia distribucion, asumiendo los supuestos distribucionales
de datos 0 exportar los datos se utilice formato Ascii. planteados en las secciones precedentes.
Existe una macro de SPSS elaborada por Jurgen Iedema y tra-
ducida por Tom Snijders que permite pasar los datos desde SPSS a
MLWIN, utilizando las capacidades de macros de MLWIN. Puede ob-
tenerse esa utilidad en la URL: stat/gamma.rug.nl/Snijders/
La especificacion de un modele se puede hacer de distintas ma-
neras, si bien la mas directa y sencilla es operar b;:yo la representa-
cion algebraica del modele en la ventana de 'Equations'. Es espe-
cialmente util si se desea aiiadir 0 eliminar predictores. La estimacion
del modele construido se inicia con el comando 'star' yen cuanto [UOjJ - N(O, Qu) Qu = [a~oJ
el modelo converge los resultados se muestran en la representacion
algebraica con la que hemos estado trabajando.
A continuacion presentaremos la interpretacion de diversas sa-
~OijJ - N(O, Q,) : Qf = [a;oJ
lidas con esta estructura provenientes del marco de investigacion
-2*loglikelihood(IGLS) = 215844,000(21272 of 21272 cases in use)
que hemos definido para esta ilustracion.
FIGURA 4.1. Modelo nulo.

4.2. LA ESTRATEGIA DE MODELIZAcrON Y EL MODELO NULO
La pauta 0 estrategia de modelizacion multinivel comienza con A partir de este punto se procede a la expansion del modelo, que
el modele nulo, que es aquel donde los puntos de corte son alea- supone basicamente la incorporacion de predictores (tanto de ni-
torios y no incluye, por tanto, ningun predictor. vel micro como de niveles macro) a la parte fija del modele y tam-
bien en dejar variar estos predictores aleatoriamente en niveles su-
periores.
EL PROCESO DE MODELIZACION MULTINIVEL
La incorporacion de predictores tambien incluye la introduccion

La razon de verosimilitud tiene un valor de 215844,000 pant llll
de las posibles variables de interaccion entre niveles, que es una de
modelo con tres parametros.
las principales ventajas conceptuales de los modelos multinivel.
Se puede ver como el programa informa tanto del valor del es-
Una vez que se ha conformado el modelo final con predictores
timador como de su error tfpico de estimaci6n (entre parentesis)
y varianzas significativas se procede ala evaluacion del ajuste del mo-
para poder evaluar la significacion de cada uno de los parametros
delo a los datos y de la aportacion del modelo final con respecto al
incluidos en el modelo.
modelo nulo. La razon de verosimilitud permite la comparacion en-
Asf, observamos que el valor 265,257 tiene un error tfpico de
tre los ajustes de los distintos modelos.
0,967, siendo este valor significativo. Ahora bien, ~cual es el signifi-
Por ultimo, el amilisis de los residuos se recomienda siempre que
cado de este valor, que representa? 265,257 es el punto de corte del
estos tengan interes por sf mismos, es decir;cuando sirven para un
modelo nulo, es decir, es el rendimiento medio en matematicas para
proposito de diagnostico individual de las unidades de niveles su-
todos los alumnos de 16 aiios en el sistema educativo espanol.
periores.
Los estimadores de la parte aleatoria tambien son significativos,
Siguiendo esta pauta, vamos a pasar a desarrollar el caso que he-
una vez realizada la ratio entre el estimador y su correspondien-
mos propuesto.
te error tfpico. Habitualmente, la variacion entre alum nos (an es
En este modelo nulo queda especificada como variable de res-
siempre mayor que la variacion residual entre escuelas (a~J. Aho-
puesta el rendimiento en matematicas, que se presupone varia en-
ra bien, ~c6mo se interpretan estos dos valores? Estos valores nos in-
tre alum nos y entre escuelas (Figura 4.2). En esta salida, como en
dican que hay variacion residual significativa en el modelo nulo. Es
el resto ?e.las salidas de ~Lwin, se pueden observar tres compo-
decir, que hay variacion sin explicar entre los rendimientos de los
nentes dlstmtos: la parte f~a del modelo (a) , la parte aleatoria del
alumnos y que hayvariacion sin explicar entre los rendimientos me-
modelo (b) Yel estadfstico de verosimilitud util para la medida del
dios de las escuelas. AI ser significativa la variacion residual entre es-
ajuste global del mismo (c).
cuelas, sejustifica plenamente el uso de un modelo multinivel, pues-
En la parte ftia del modelo, la estimacion de las puntuaciones de
to que es necesario dar cuenta de esa variaci6n residual. Yeso es 10
los alumnos se asume que tienen una distribucion normal, con me-
que intentaremos al ir expandiendo nuestro modelo, explicar la va-
dia XB y varianza n.
rianza en los dos niveles definidos, alum nos y escuelas.
Con los datos que ofrece esta salida tambien se puede calcular
la autocorrelacion, que en este caso concreto es:
(a) _ _ _7_94....:...,2_9_4_ _ = 0,373

1331,738 + 794,294
{30ij = 265,257 (0,967) + U Oj + eOij
nu = [ 794,294(40,005)J
4.3. EXPANSION DE LA PARTE FIJA Y ALEATORIA DEL MODELO
(b)
- N(O, n,) : n, [ 1331,738(13,200)J El siguiente paso consiste en ir incorporando predictores tanto de
primer como de segundo nivel a la parte fija y aleatoria del modelo.
-2*loglikelihood(IGLS) = 215844,000(2127~ of 21272 cases in use) } (c) En primer lugar, se incorpora al modelo la variable predictora
del primer nivel sexo del alumno ('sexo') que ha sido definida del
siguiente modo: 0= Chicos Y 1 = Chicas. Hacemos que este para-
FIGURA 4.2. Modelo nulo.
metro sea aleatorio en el segundo nivel, obteniendo asf un modelo
EL PROCESO DE MODELIZACION MULTINlVEL 97
96 MODELOS ]EillQUICOS LINEALES
el incremento en el rendimiento medio en matematicas entre chi-

completamente aleatorio (Figura 4.3). Con este modelo se parte del
cos y chicas. En este caso, las chicas obtienen 11,5 puntos mas que
supuesto que los centros escolares variaran tanto en sus rendi-
los chicos. •
mientos medios (variacion aleatoria de los puntos de corte) como
En la parte aleatoria del modelo tambien se observan algunos
en la relacion que se establece en cada centro entre el sexo de los
cambios. La variacion entre alumnos dentro de las escuelas se man-
alumnos y el rendimiento academico (variacion aleatoria de las pen-
tiene practicamente igual que en el modelo nulo. En cambio, se ob-
dientes).
serva una disminucion en la varianza residual entre escuelas en este
La estructura de la salida es la misma que en el modelo nulo (par-
nuevo modelo (771,841 (39,761)), aunque todavia queda varianza
te ftia, aleatoria y razon de verosimilitud). Sin embargo, comparada
p.~r exp.licar. Ademas se in corpora el termino 03, que es la varia-
con el modelo nulo, la incorporacion de la variable sexo aiiade un
2 Clon resIdual entre las pendientes de las escuelas debida a la distinta
termino en la parte ftia, y tambien terminos a la parte aleatoria , 0 fAI'
relacion que se establece entre el sexo de los alumnos y su rendi-
que es la pendiente vinculada a esa variable y la covarianza entre el
miento en matematicas. Los centros varian en sus pendientes, es
p~mto de cort~ y ~sa p~ndiente, 0/lo/l,. Se observa que todos los pa-
decir, habra centros donde el sexo de los alumnos influya fuerte-
rametros son slgmficatlvos, excepto la covarianza, y por ese motivo
mente en los resultados en matematicas y habra centros donde no
se ha ftiado a cero.
influya 0 10 haga negativamente .
. El ~arametro ftio asociado ala constante (260,078 (0,988)) es sig-
A la expansion del modelo procedemos por ejemplo incorpo-
mficauvo, pero se observa un descenso en su magnitud con respec-
r~ndo la var~able nivel de estudios de la madre ('estmad') a la parte
to al modelo nulo. Esto es debido a que el grupo al que se refiere
flJa y aleatona del modelo (Figura 4.4). Esta variable esci codificada
este pun to de corte ya no es el mismo que el del modelo nulo. Aho-
ra 260,078 es el rendimiento medio en matematicas para aquellos
°
en seis valores que van desde para aquellas madres sin estudios
hasta 5 para aquellas madres que tienen titulacion universitaria.
alumnos que son chicos.
El parametro vinculado al sexo de los alumnos tiene un valor tam-
bien significativo (11,534 (0,640)). Estos 11,5 puntos representan
THETAMij - N(XB, Q)
THETAMij = {3oi}CONSTANT + (3ISEXO

) t}
+ pR2) ESTMAD t}
THETAMij - N(XB, Q) (30ij = 252,150(1,066) + U Oj + eOij
THETAMij = .BOijCONSTANT + .BljSEXOij (3lj = 11,119(0,636) + u 1j
.BOij = 260,078(0,988) + U Oj + eOij (32j = 3,164(0,212) + u 2j
.Bl j = 11,534(0,640) + u 1j
u
771,841 (39,761) 1 UO j ]
UJj - N(O, Qu) : Q u =

[ 686,244(37,497)
0 86,835(15,651)
Q = [0 89,604(15,938) [
~ 0 0 3,160(1,440) ]
[eOij] - N(O, Q,) : Q, = [ 1282,879(12,946)J [eOij ] - N(O, Q,) : Q, = [ 1267,291 (12,938) J
-2*loglikelihood(IGLS) =215327,100(21272 of 21272 cases in use) -2*loglikelihood(IGLS) =215070,800(21272 of 21272 cases in use)
FIGURA 4.4. Modelo Dos: expansion del modelo con variables del primer nivel.
FIGURA 4.3. Modelo Uno: expansion del modelo con variables del primer nivel.
98 MODELOS JEAARQUICOS LINEALES EL PROCESO DE MODELIZACION MULTINIVEL
99
En este modelo se observa una disminucion en el valor del pun- dimiento en matematicas se refiere a aquellos chicos, cuyas madres
to de corte, ya que ahora se refiere al rendimiento medio en mate- no han estudiado, pero que no han repetido ningUn curso. Vemos
maticas de aquellos alumnos cuyas madres nunc a fueron a la escuela. ademas que el impacto que tiene en el -rendimiento la repeticion es
En cuanto a la parte aleatoria del modelo, se observa un incre- de 20,7 puntos menos para aquellos alumnos que repiten alguna vez.
mento en la varianza explicada por este modelo con respecto al mo- Con respecto a la parte aleatoria del modelo, nos gustarfa desta-
delo nulo, cerca de un 4%. Se observa tambien una pequeiia re- car. como la varianza vinculada a 'repetir', a~5' es altamente signifi-
duccion de la varianza entre individuos (ai), aunque ahora no se catIva. Lo que muestra las variaciones que existen entre centros en
observan grandes cam bios en la varianza entre centros. la relacion que se establece entre la repeticion y el rendimiento en
La ultima variable del nivel de alum nos que vamos a introducir ~atema.ticas. Ademas, la covarianza entre el punto de corte y la pen-
es repeticion (,repetir'), siendo codificados con cero aquellos alum- d~ente vmculada a 'repetir', a pop " es significativa y negativa. Esto sig-
nos que no han repetido nunc a y con uno aquellos que han repe- mfica que cuanto mayor es la media en matematicas de una escue-
tido al menos una vez. Este modelo consigue explicar un 5,6% mas la, menor es la pendiente de la repeticion. Es decir, que los centros
de varianza que el modelo nulo (Figura 4.5). con mayor rendimiento son tambien aquellos en los que mas se pe-
Ahora no dejamos variar en el segundo nivel a la variable 'estmad'. naIiza la repeticion de curso.
El motivo es que al introducir la variable 'repetir' no se encuentran Nos interesa ahora comparar la razon de verosimilitud de los cua-
diferencias significativas entre centros vinculadas a los estudios de tro modelos que hemos construido, para evaluar su aJuste relativo.
la madre. Por tanto, se elimina de la parte aleatoria del modelo. Esta estrategia nos lleva a comparar los modelos construidos con
Se observa tambien como el valor del punto de corte aumenta con el modelo nulo. La regIa aproximada seiiala que la diferencia entre
respecto al modelo anterior. Esto es debido a que la media en el ren- las razones de verosimilitud de los modelos comparados debe ser al
~enos el dobl: de grande que la diferencia entre el riumero de pa-
rametros que mcluyen uno y otro modelo. Asf, para los cuatro mo-
delos que hemos construido,
THETAM;j - N(XB, n)
THETAM;j = .Bo;jCONSTANT + .BljSEXO;j + 2.572(O,198) ESTMAD;j + .B3j REPETIR ;j TABLA 4.1. Evaluacion del ajuste global de los modelos.
.Bo;j = 259,7000,073) + U Oj + eO;j Diferencia entre razones Diferencia entre el numero
.Bl j = 11,985(0,610) + u 1j de verosimilitud de parametros
M. Nulo vs. M. Uno 516,9 2
.B3j = -20,776(0,639) + u 3j
M. Nulo vs. M. Dos 773,2 4
UOj ] [ 671,725(36,398) ] M. Nulo vs. M. Tres 2030,7 6
U1j - N(O, nul : nu = 0 74,215(14,234)
[U
3j -135,68509,264) 0 61,400(16,486) ~e observa que los tres modelos realizan una aportacion signifi-
catIva con respecto al modelo nulo. En ese sentido, el modelo mas
[eOij J - N (0, n,) : n, = [ 1199,254 (12,316) ] completo serfa, el modelo tercero, puesto que es el que mas para-
metros incluye.
-2*loglikelihood(IGLS) = 213813,300(21272 of 21272 cases in use) Tambien las diferencias entre los modelos anidados son estadfs-
ticamente significativas (1257,5 con gl =2 para la comparacion del
modelo dos con el uno, y 256,3 con gl = 2 para la comparacion del
FIGURA 4.5. Modelo Tres: expansion del modelo con variables del primer nivel. tres con el dos) .
100 MODELOS JERARQUICOS LINEALES EL PROCESO DE MODELIZACION MULTINIVEL 101
La expansion del modelo supone la inclusion de variables tam- Es interesante com pro bar como, a pesar de no existir efectos
bien referidas al segundo nivel, las escuelas (figura 4.6). Una varia- principales significativos asociados a la 'Titularidad', sf existe una
ble de nivel 2 de mucha importancia es la titularidad del centro. interaccion entre esta variable y el nivel de estudios de la madre.
Parece por tanto logico que sea la primera variable de nivel 2 cu- En efecto, por cada escalon que aumenta el nivel de estudios de la
yos efectos estudiemos. En la figura 4.6 podemos comprobar que madre, la diferencia entre centros privados y publicos aumenta en
el efecto ftio obtenido, 2,77, tiene un error tipico asociado de 1,813, 1,241 puntos. Dado que la variable 'Estmad' (estudios de la madre)
por 10 que resulta no significativo. toma valores entre cero y cinco, la maxima diferencia es de 6,20
puntos entre alumnos cuyas madres tienen estudios universitarios
respecto de aquellos cuyas madres no tienen estudios.
thetamij ~ N(XB, Q)
thetam ij = .8oijCOnstant + fJljsexoij + 2,587(0,198) estmad ij + fJ3jrepetirij +

2,770 (l,813) Titularidadj thetamij ~ N(XB, Q)
.80ij = 257,695(1,691) + U Oj + eOij thetamij = fJOijconstant + fJljsexoij + 2.992(0,232)estmad i} + .83}repetirij +
.8lj = 11,998(0,609) + u lj 1,241 (0.360) TitxEstMd ij
.83j = -20,783(0,640) + u 3j .80ij = 259.6670,075) + uo} + eOij
11,98)(0.609) + u I }
[ ::~] ~
.8lj =
670
N(O, Qu) : Q = [0 ,978(36,341) 73,182(14,181) ] .83j = -20.764(0,639) + u 3}
u
U j
3
-137.251 (19,288) 0 61.165(16.525)
UOj ] [ 676,026(36,573) ]
[e Oij ] ~N(O, Q ,) : Q, = [ 1199,40402.317)J
u lj ~ N(O, Qu) : Q u = 0 73,097(14,174)
[ U j -138.463(19,332) 0 61.401(16,474)
3
-2*loglikelihood(IGLS) =213810,900(21272 of 21272 cases in use)
[eOij ] ~N(O, Q,) : Q , = [ 1198,683(12,310)J
FIGURA 4.6. Modelo CuatTO: modelo con variables de segundo nivel.
Sin embargo, la introduccion de variables en el segundo nivel nos

permite preguntarnos por la posible existencia de interaccion en-
FIGURA 4.7. Modelo Cuatro: modelo con variables de interacci6n
tre las caracteristicas de las macro unidades y las caracterfsticas de
entre niveles.
los sujetos que se encuentran anidados en elIas. A modo de ejem-
plo abordamos el estudio de la interaccion entre la titularidad del
centro y el nivel de estudios de la madre. Para ella creamos la va- En la figura 4.8 tenemos representadas las rectas de regresion
riable 'TitxEstMd', que se obtiene multiplicando las variables 'Ti- correspondientes los efectos ftios asociados a las escuelas privadas
tularidad' y 'Estmad'. (en negro y linea superior) y a las escuelas publicas (en gris y linea
En la figura 4.7 aparece la nueva variable de interaccion ya in- inferior). Naturalmente los residuos de nivel 2, es decir, los corres-
cluida. La 'Titularidad' esti eliminada por no tener efectos signifi- pondientes a las escuelas, estin referidos precisamente a estas rec-
cativos. tas de regresion generales para cada tipo distinto de escuelas.
102 MODELOS JERARQUICOS LINEALES EL PROCESO DE MODELIZACION MULTINIVEL 103
275 thetam ij - N(XB, n)
thetam ij = POijconstant + PljSeXOij + 3,015(0,232)estmad ij + P3jrepetirij +

1,336(0,355)TitxEstMd ij + 57,105(5,910)ctrperio}
271
POij = 230,893(3,152) + U Oj + eOij
Pl j = 11,966(0,609) + u 1j
267
P 3j = -20,467(0,640) + u 3j
UO j ] [ 592,425(32,654) ]
263
u1 · - N(O, nul : nu = 0 73,502(14,106)
[ U3~ -118,180(\8,159) 0 61,404(16,483)
. 259
0.0 1.3 2.6 3.9 5.2
[e Oij ] - N(O, n,) : n, = [ 1198,72802,308)J
-2*loglikelihood(JCLS) = 213714,000(21272 of 21272 cases in use)

FIGURA 4.8. Relacion entre estudios de la madre y Rendimiento
en dos tipos de escuelas.
FIGURA 4.9. Modelo Cinco: Efectos del control frecuente solrre
el rendimiento.
Otras variable de interes del nivel 2 tienen que ver con los pro-
cesos didacticos que se producen dentro de las escuelas. La varia-
ble 'ctrperio' en un indicador relativo a la periodicidad con la que ~Que se observa en este nuevo modelo? En primer lugar, es no-
el profesor de matematicas controla el trabajo de los alumnos. Esta table el descenso que se produce en la magnitud del punto de cor-
variable esta construida a partir de las percepciones de los alum- te. Es debido a la incorporaci6n al modelo de variables que afectan
nos. Utilizando las herramientas de MLWIN 5 , se calcul6 para cad a mucho a la variable de respuesta. Si bien los coeficientes fuos de las
escuela el valor medio de las percepciones de los alumnos al res- variables 'sexo', 'estmad' y 'repetir' no sufren importantes variacio-
pecto. La variable tom a valores entre 0 y 0,73, ya que la pregunta nes, el nuevo coeficiente fuo de la variable 'ctrperio' tiene un valor
original tomaba valores entre 0 y 1. Asi, un valor como 0,73 para muy alto. El incremento que se produce en el rendimiento en ma-
una escuela qui ere decir que el 73 % de los alumnos de esa escuela tematicas por el aumento en un punto de la frecuencia del control
perciben que su profesor de matematicas controla con frecuencia peri6dico es de 57,105, como ya hemos visto.
su aprendizaje. En segundo lugar, la parte aleatoria del modelo muestra pocas
En la figura 4.9 tenemos los resultados. Vemos que el control fre- variaciones. Si bien es destacable el descenso que se produce en 030
cuente del trabajo aumenta el rendimiento en j57,105 puntos! Esto debido a que las variables introducidas reducen notablemente la
es desde luego un dato de gran relevancia pedag6gica. variaci6n entre las medias de los centros.
La diferencia entre los estadisticos de verosimilitud de estos
dos modelos es 99,3 con una diferencia de 2 parametros. Se tra-
5 En la opci6n de menu 'Data Manipulation', subopci6n 'Multilevel Data Manipulation' .
ta por tanto de una diferencia estadisticamente significativa, ya
EL PROCESO DE MODELIZACION MULTINIVEL 105
que P(X ~ 99,31 gl = 2) = 2,73703E - 22, que evidentemente es
2
mucho menor que los valores habituales de a.

Aunque ciertamente podrfa profundizarse mucho mas en el es- thetam ij - N(XB, Q)
tudio que aqui se presenta, haremos sin embargo solo un par de con- thetam i} = + ,Blj SeXO ij + 3,680(0,238)estrnad i} +
,BOij constant
sideraciones mas. 1,430(0,368)TitxEstMd ij + 76,1l0(6,572lctrperioj
Algo que no deberfa perderse nunca de vista, es la maxima 'Poster
,BOij = 213.734(3,459) + U Oj + eOij
hoc non est propter hoc'. 'Despues de no es a causa de'. Efectivamente,
aunque el modelo que hemos analizado parece bastante razonable, ,Blj = 11,111 (0,634) + u l j
debemos preguntarnos siempre si no nos estamos dejando enganar
por la apariencia de causalidad. A fin de cuentas los datos no proce- U Oj ] [ 609.751 (32,096)
den de un experimento, sino de una observacion. Y hay una variable -N(O, Q,,): Q u =
[ uI } 0
a la que hemos asociado a las causas, que sin embargo merece mas
consideracion. Se trata de la variable 'Repetir'. En efecto, vemos que
hay un descenso de mas de 20 puntos en el rendimiento asociados [e Oij ] -N(O, Q,) : Q, = [ 1271.223(12.823)J
ala repeticion de curso. Una interpretacion erronea nos llevarfa a
suponer que la eliminacion de la repeticion haria aumentar la es- -2*loglikelihood(IGLS) =214939,300(21272 of 21272 cases in use)
peranza del rendimiento en esos mismo 20 puntos para todos los
alumnos. Sin embargo, 10 unico que observamos realmente es que
los alumnos que han repetido alglin curso tienen una esperanza in- FIGURA 4.10. Modelo Seis: Efectos de la eliminacion de una variable.
ferior de rendimiento que los demas. Yes perfectamente licito asu-
mir que la repeticion no es tanto una causa, como un efecto. Yun efec-
to correlacionado con el rendimiento en matematicas en la prueba.
Estas consideraciones-sustantivas nos deberian llevar a eliminar thetamij - N(XB, Q)
la variable del modelo y comprobar el efecto de esta eliminacion so-
thetam ij = ,Boij COnstant+ ,BljSeXO ij + O.196W.882) estrnad i} +
bre el resto del mismo.
1,542(0,369)TitxEstMd ;j + 60,173(7,640lctrperioj +
En la figura 4.10 podemos com pro bar los resultados. Como era
6,825 (1.665) CtrPrdxEstMd Ij
de esperar, la eliminacion de un efecto ftio negativo lleva a que este
quede subsumido en el mtercepto, cuyo valor baja hasta 213,734. ,BOij = 221,796(3,981) + U Oj + eo,}
Recordemos que el valor anterior se referia a la media de los alum- ,Blj = 11,160(0,633) + u lj
nos que no habfan repetido ningun curso, y ahora incluye a todos
los alumnos. Tambien aumentan los demas efectos ftios. U Oj ] [ 611,152(32,155)
Todavia nos queda alguna otra modificacion que intentar. Por -N(O, Qu): Q u =
[ U
v 0 85,4'9(15,463)]
ejemplo, en el modelo de la figura 4.10, una de las variables, la
referida al control frecuente del aprendizaje, es de nivel 2, y sin
embargo no hemos comprobado si exilSte una interaccion con una
variable de nivel 1 tan importante como el nivel de estudios de la
madre. A estos efectos debemos crear la variable interactiva como -2*loglikelihood(IGLS) = 214922,600(21272 of 21272 cases in use)
antes, es decir, crearemos una variable ('CtrPrdxEstMd'), multipli-
cando las variables 'Ctrperio' y 'EstMad'.
FIGURA 4.11. Modelo Siete: Interaccion entre el control frecuente
En la figura 4.11 podemos ver el resultado.
y el nivel de estudios de la madre.
106 MODELOS JEAARQUICOS LINEALES EL PROCESO DE MODELIZACION MULTINlVEL 117
Esto nos permite matizar resultados anteriores. Vemos que en TABLA 4.2. Muestra de residuos para el punta de corte.
efecto sigue teniendo una importancia enorme el control frecuen-
te del rendimiento. Pero el nivel de estudios de la madre actua po- NQ Escuela f-lOj Orden
tenciando positivamente todos los efectos de las variables que afec- 474 -41.125 37
tan al rendimiento de los alumnos. De hecho, se puede comprobar 475 -22.246 172
que cuando se introduce la interacci6n, el efecto principal del ni-
476 8.5789 569
vel de estudios de la madre se vuelve no significativo. En cualquier
caso no debemos olvidar que la interpretaci6n de los datos obser- 477 - 7.4355 339
vacionales no se modifica sustantivamente porque utilicemos una 478 -34.832 66
sofisticada tecnica estadfstica, y que siempre es necesario tener pre- 479 -54.247 10
cauciones cuando se interpretan estos resultados para no incurrir 480 15.900 676
en interpretaciones 'causales' de datos 'casuales'. 481 42.653 896
482 3.2845 494
483 -34.907 65
4.4. INTERPRETACION DE LOS RESIDUOS
484 - 0.14111 447
La Tabla 4.2 muestra un conjunto de escuelas junto con el in- 485 - 9.1363 314
cremento diferencial de cada una de elIas en el punto de corte (f.1.0j) 486 -16.811 223
y el orden relativo en funci6n de f.1.0j. Asf, se observa que, por 487 - 0.071063 150
ejemplo, la escuela numero 479 es la que menos rendimiento me- 488 19.177 718
dio relativo muestra, ya que tiene un rendimiento diferencial de
-54,247 respecto a las escuelas que tienen las mismas caracteristicas
que ella. En este conjunto de escuelas, la que mayor rendimiento
diferencial relativo muestra es la escuela numero 481, que tiene
42,653 puntos mas sobre el rendimiento esperado segun sus carac- 80
teristicas. 60
Observese que esto no significa que estas escuelas sean la de me- 40
nor y mayor rendimiento medio respectivamente, sino las de men or
20
y mayor residuo respecto del valor esperado. De alguna forma estos
residuos son indicadores de 'valor aiiadido'.
La figura 4.12 muestra una grafica bastante util. Se trata de los -20
residuos ordenados ascendentemente con el intervalo de 99% de -40
confianza. Se muestran los 917 residuos de las escuelas incluidas en
-60
la muestra de este estudio. Las escuelas cuyo intervalo de confianza
se encuentra por encima del valor cero en la constante son aquellas -80
0 230 460 690
escuelas que estin por encima de la linea predicha por el parame- 920
rank
tro ftio f3o, que en este caso representan aproximadamente al 25%
de las escuelas de esta muestra. Y del mismo modo obtenemos in-
formaci6n respecto de las que se encuentran por debajo de su valor FIGURA 4.12. Residuos del punto de corte, f-lOj' y su intervalo
esperado correspondiente. de conjianza.
Como puede verse, toda esta informaci6n se presta muy b~en a

destacar aquellas escuelas individuales que merecen ser estudladas
con mayor detenimiento, bien porque los resul~d?s observados .van
mas aHa de 10 habitual, 0 bien porque su rendlmlento es defiClen-
te cuando se comparan con centros de caracteristicas similares. 5
SINTESIS Y CONCLUSIONES
~Que hacemos con los datos que se presentan agregados 0 que

es esta su naturaleza? ~Que nivel de la jerarquia debe primar, el in-
dividual 0 el contextual? Si la respuesta esta clara y univocamente
definida en el diseno de investigaci6n debido a que nuestro interes
esta centrado en el ambito individual 0 contextual, no tenemos pro-
blema. Pero, ~que ocurre cuando queremos estudiar las relaciones
entre individuos, entre contextos y en la interacci6n entre ambos?
La respuesta metodo16gica viene de la mana de los model os mul-
tinivel. A 10 largo de estas paginas, estos modelos se han presenta-
do como una herramienta estadistica para tratar adecuadamente la
naturaleza anidada 0 jerarquica de much os de los datos que nos en-
contramos en Ciencias Sociales 0 en Ciencias Biomedicas. Son mo-
delos que permiten analizar simultaneamente las influencias en to-
dos los niveles de la jerarquia y tratar propia y diferenciadamente
la variabilidad especifica de cada nivel. Y esta es la aportaci6n de los
modelos jerarquicos lineales frente a modelos como los de regre-
si6n 0 de analisis de covarianza.
Ciertamente, ya desde Fisher (1925) el analisis de varianza in-
cluia la posibilidad de analizar datos de naturaleza anidada. Pero
hasta Lindley y Smith (1972) no se formu16 de manera general el
modelo jerarquico lineal. La estimaci6n de estos modelos presen-
taba muy serias complicaciones, que no pudieron ser resueltas has-
ta que se introdujo el conocido algoritmo EM (Dempster, Laird y
Rubin, 1977), el algoritmo Fisher Scoring (Longford, 1987), los Mi-
nimos Cuadrados Generalizados Iterativos (Goldstein, 1986) y otros
basados en MCMC y Gibbs sampling (Smith y Roberts, 1993). La re-
soluci6n de los problemas de estimaci6n ha permitido la extensi6n
del uso de estos modelos.
Como hemos visto, los modelos jerarquicos lineales proponen
una estructura de analisis dentro de la cual se pueden reconocer los
distintos niveles en que se articulan los datos, estando cada subni-
110 MODELOS JEAARQUICOS LINEALES SiNTESIS Y CONCLUSIONES 111
vel representado por su propio modelo. Es una estrategia analitica que varian entre contextos y del valor de X li que varia ell .
que permite la formulacionjer;irquica de las fuentes de variacion y tre individuos. De ahi que el modelo de regre~ion clasico sea
con capacidad para dar cuenta de esta estructura. inapropiado para esta situacion puesto que exige los su-
Las aportaciones de caracter tecnico estadistico de los modelos puestos de independencia y de homocedasticidad.
multinivel son muy variadas:
g) Realizan estimaciones adecuadas en presencia de correla-
a) Mejoran la estimacion de los efectos de las unidades indi- ciones intragrupos (autocorrelacion), es decir, cuando las
viduales apoyandose en estimaciones similares que existen observaciones no son independientes (parece claro que los
para otros. sujetos que comparten el mismo contexto son similares en-
tre si). La no independencia no se considera un fallo de los
b) Formulan y prueban hipotesis sobre los efectos cruzados en-
datos, sino su caracteristica, por 10 tanto es esperada y mo-
tre niveles. La posibilidad de interacciones entre-niveles en-
delada. Cuando se us an los estadisticos de contraste ordina-
tre las variables definidas en distintos niveles de lajerarquia
rio, que usan al individuo como unidad de analisis, suele vio-
es una cuestion importante, ya que de no considerarse pue-
larse el supuesto de independencia de los errores. Incluso
den llevar a inferencias inadecuadas (usar datos del nivel de
pequenos valores de correlacion intraclase conllevan errores
contexto para inferencias individuales y que las variables pue-
de tipo I mayores que el nivel del alpha nominal.
den tener diferentes significados en niveles distintos). Los
modelos multinivel resuelven este problema.
Las ventajas conceptuales y metodologicas de los modelos mul-
c) Realizan la particion de componentes de varianza y cova- tinivel han sido ya expuestas a 10 largo de estas paginas. Nos parece
rianza entre niveles. ahora que es el momento para hacer alguna consideracion sobre el
uso adecuado y sobre el abuso de los modelos multinivel.
d) Ofrecen una estructura explicita dentro de la cual expresar Los modelos multinivel son una herramienta metodologica des-
la similitud de juicios, destinados a combinar informacion tinada a facilitar el conocimiento y la comprension de fenomenos
entre unidades para producir mejores estimaciones y pre- complejos como los que acontecen en el ambito de las Ciencias So-
dicciones a partir de las observaciones realizadas. ciales y Biomedicas. La versatilidad de estos modelos y su capacidad
e) Permiten la posibilidad de incorporar efectos aleatorios, al para la construccion de model os isomorfos con la realidad objeto
asumir un muestreo aleatorio entre individuos en contextos de estudio es una de sus principales potencialidades. El tratamien-
tam bien aleatorios, afectando al nivel de generalizacion de to simultaneo de distintas fuentes de variabilidad situadas en los dis-
las conclusiones. tintos niveles de lajerarquia es una aportacion muy notable de es-
tos modelos.
f) Realizan una adecuada estimacion de los terminos de error Ahora bien, el uso teoricamente ciego de estos modelos estadis-
del modelo. La parte aleatoria en un modelo multinivel esta ticos (y cualquier otro) constituye una practica muy cuestionable y
compuesta por elementos, (flljX ij + floj + CiJ, que represen- con much as limitaciones cientificas. La toma de decisiones sobre
tan respectivamente la variacion residual entre pendientes, el mejor modelo responde a un patron complejo que ha de estar
entre puntos de corte y la variacion individual. Por tanto es- guiado por una teoria de fondo. Casi cualquier conjunto de datos,
tamos ante una estructura aleatoria que es dependiente en adecuadamente 'sobre-tratado' , puede llegar a producir un mode-
el macro nivel, ya que los componentes fllj y floj son co- 10 significativo. El problema es el significado del modelo, no su sig-
munes para todos los individuos del mismo contexto. Y en nificacion estadistica. En esta linea puede entenderse tambien la
el que las varianzas no son iguales (heterocedasticidad) idea de Garrison (1986) cuando mantiene el principio de la inde-
puesto que (flljX ij + flo) depende de los val ores de fllj y floj terminacion de la teoria respecto de la experiencia.
Los modelos multinivel permiten resolver un determinado tipo

de problemas que hemos expuesto, pero no constituyen una solu-
ci6n 'universal' dentro del amplio abanico de modelos estadisticos.
Ninguna herramienta, por adecuada, sofisticada 0 completa que sea
nos va a permitir obtener evidencias absolutas. Podriamos decir que 6
ala evidencia cientifica nos acercamos 'asint6ticamente'. REFERENCIAS BIBLIOGRAFICAS
Los modelos aqui presentados constituyen una buena ayuda al
caminar del investigador social. Es deseo de los autores que este va-
lumen haya contribuido a la comprensi6n de los mismos y de este AITKIN, M. Y LONGFORD, N. (1986): Statistical modelling issues in school
modo facilitar el trabajo de quienes han hecho del estudio cientifi- effectiveness studies. Journal of The Royal Statistical Society, Ser A, 149,
co de la realidad un objetivo profesional. 1-43.
ALKER, H. R. (1969): A typology of ecological fallacies. En M. DOGAN Y S.
ROKKAN (eds.): Quantitative ecological analysis in the Social Sciences. Mass.
The MIT Press, 69-86, Cambridge.
BARCIKOWSKI, R. S. (1981): Statistical power with group means as the unit
of analysis. Journal ofEducational Statistics, 6 (3), 267-285.
BRYK, A. YRAUDENBUSH, S. W. (1992): Hierarchical linear models. Applications
and data analysis methods. Sage, London.
BURSTEIN, L.; LINN, R. L. Y CAPELL, F. J. (1978): Analyzing multilevel data
in the presence of heterogeneous within-class regressions. Journal ofEdu-
cational Statistics, 3, 347-383.
COHEN, M. (1998): Determining sample sizes for surveys with data analyzed
by hierarchical linear models. Journal of Official Statistics, 14, 267-275.
CRONBACH, L.J. yWEBB, N. (1975): Between class and within class effects
in a reported aptitude x treatment interaction: a reanalysis of a study
by G. L. Anderson. Journal of Educational Psychology, 67, 717-724.
DEMPSTER,A. P.; LAIRD, N. M. yRUBIN, D. B. (1977): Maximun likehoodfrom
incomplete data via EM algorithm. Journal of the Royal Statistical Society,
Series B, 39, 1-8.
DRAPER, D. (1995): Inference and hierarchical modelling in social scien-
ces. Journal ofEducational and Behavioral Statistics, 20 (2), 115-149.
FISHER, R. A. (1925): Statistical Methods For Research Workers. Oliver & Boyd,
London.
GARRISON, J. W. (1986): Some principals of postpositivistic phylosophy of
science. Educational Research, 15, 12-18.
GAVIRIA,j. L. (2000): El muestreo y su problematica en las evaluaciones
de programas institucionales. Revista de InvestigacionEducativa, 18 (2),
393-404.
114 MODELOS JERARQUICOS LINEALES REFERENCIAS BIBLIOCWlCAS 115
GAVIRIA,]. L.; MARTINEZ-ARrAs, R Y CAsTRO, M. (2004, Mayo 5): Un Estudio MOK, M. (1995): Sample size requirements for 2-level designs in educatio-
Multinivel Sobre los Factores de Eficacia Escolar en Paises en Desarro- nal research. Multilevel Modelling Newsletter, 7 (2), 11-15.
llo: El Caso de los Recursos en Brasil. Education Policy Analysis Archives, MOSTELLER, F. Y TUCKEY,]. W. (1977): Data-analysis and regression. Reading,
12(20). Retrieved [Mayo 17] from http://epaa.asu.edu/epaa/v12n20/. Mass, Addison-Wesley.
GOLDSTEIN, H. (1986): Multilevel mixed linear models analysis using itera- PEDHAZUR, E.]. (1982): Multiple regression in behavioral research. 2 nd edition.
tive generalized least squares. Biometrika, 73, 43-56. Holt, Rinehart and Winston, New York.
GoLDSTEIN, H. (1995): Multilevel statistical models (2 nd edition). Edward Ar- RAUDENBUSH, S. W. (1997): Statistical analysis and optimal design for clus-
nold, London. ter randomized trials. Psychological Methods, 2, 173-185.
GOLDSTEIN, H. (1996): Consistent estimators for multilevel generalised li- RAUDENBUSH, S. W. (2001): Toward a coherent framework for comparing
near models using an estimated bootstrap. Multilevel Modelling Newslet- trajectories of individual change. En L. M. COLLINS YA. G. SAYER (eds.).
ter, 8 (1), 3-6. New methods for the analysis ofchange. American Psychological Association,
GOLDSTEIN, H.; RABASH,].; PLEWIS, 1.; DRAPER, D.; BROWNE, W.; YAN, M.; Washington.
WOODHOUSE, G. YHEALY, M. (1998): A user's guide to MlwinN Multilevel RAUDENBUSH, S. W. Y BRYK, A. (2002): Hierarchical linear models. Applications
Models Project, Institute of Education. University of London, London. and data analysis methods (2 nd edition). Sage, London.
HAYS, W. L. (1973): Statistics. Holt, Rinehart and Winston, New York. ROBINSON, W. S. (1950): Ecological correlations and the behavior of indi-
HEDEKER, D.; GIBBONS, R D. Y WATERNAUX, C. (1999): Sample size esti- viduals. American Sociological Review, 15,351-357.
mation for longitudinal designs with attrition: comparing time-related SCHEAFFER, R L.; MENDENHALL, W. Y OTT, L. (1987): Elementos de muestreo.
contrasts between two groups. Journal of Educational and Behavioral Grupo Editorial Iberoamericano, Mexico.
Statistics, 24, 70-93. SKlNNER, c.]. et al. (eds.) (1989): The analysis of data from complex survey. John
KEEVES, ]. P. Y MCKENZIE, P. A. (1999): Research in Education: Nature: Needs, Wiley, Chichester.
and Priorities. En JOHN KEEVES YGABRIELE LAKOMSKl (eds.) . Issues In Edu- SNUDERS, T. A. B. Y BOSKER, R.]. (1993): Standard errors and sample sizes
cational Research. Pergamon, Amsterdam. for two-level research. Journal of Educational Statistics, 18, 237-259.
KREFT, 1. G. G.; DE LEEUW,]. YVAN DER LEEDEN, R. (1994): Review office SNUDERS, T. A. B. Y BOSKER, R]. (1999): MultilevelAnalysis. An Introduction
multilevel analysis programs: BMDP-5V, GENMOD, HLM, ML3, VARCL. to basic and advanced multilevel modelling. Sage Publications, London.
American Statistician, 48, 324-335.
TAcQ,]. (1986): Van multiniveau probleem naar multiniveau analyse. Depart-
KREFT, 1. G. G. YDE LEEUW,]. (1998): Introducing multilevel modelling. Sage ment of Research Methods and Techniques. Erasmus University, Rot-
Publications, London. terdam.
KREFT, I. G. G.; DE LEEUW,]. Y AIKEN, L. (1995): The effect of difIerentforms VERMEULEN, C.]. Y BOSKER, R]. (1992): De omvang en gevolgen van deeltijd
of centering in hierarchical linear models. Multivariate Behavioral Re- arbeid en wolledige inzetbaarheid in het basisonderwijs. University of Twente,
search, 30, 1-22. Enschede.
KREFT, 1. G. G.; DE LEEUW,]. Y KIM, K. S. (1990): Comparing Four Different
Statistical Pockages for Hierarchical Linear Regression. GENMOD,
HLM, MLZ & VARCL (CSE Technical Report # 310). CA, University of
California Press, Los Angeles.
LINDLEY, D. V. YSMITH, A. F. M. (1972): Bayes estimates for the linear mo-
del. Journal of the Royal Statistical Society, Series B, 34, 1-41.
LONGFORD, N. (1987): A fast scoring algorithm for maximun likehood es-
timation in unbalanced models with nested random effects. Biometrika,
74 (4), 817-827.
7
BIBLIOGRAFlA COMENTADA
En la actualidad hay cuatro manuales te6rico-pnicticos funda-

mentales en la literatura sobre modelos multinivel. Cada uno de
ellos va dirigido a un publico diferente, poniendo el enfasis en dis-
tintos aspectos de estos modelos.
BRYK,A. Y RAUDENBUSH, S. W. (1992): Hierarchical linear models. Applications

and data analysis methods. Sage, London.
RAUDENBUSH, S. W. YBRYK, A. (2002): Hierarchical linear models. Applications
and data analysis methods (2 nd edition). Sage, London.
El chisico manual de Bryk y Raudenbush del ano 1992 ha sido sometido
a una revision y ampliacion reciente (2002) . El manual esta centrado en
el ambito de la investigacion educativa y presenta una descripcion en pnr
fundidad de los modelosjerarquicos lineales, desde sus aspectos mas ge-
nerales hasta novedosos desarrollos y aplicaciones como son la aplicacion
de estos model os a los estudios del cambio individual y a los modelos de
crecimiento, 0 como los modelosjerarquicos generalizados 0 los mode-
los jerarquicos para variables latentes. El texto es complejo y completo.
Se centra en la esencia de los modelos y no atiende especialmente al
'como' desarrollar los modelos. Si bien los ejemplos e ilustraciones con-
siguen conjugar una adecuada formalizacion estadfstica con el significado
sustantivo de los mismos.
GOLDSTEIN, H. (1995): Multilevel statistical models (2 nd edition). EdwardAr-

nold, London.
GOLDSTEIN, H. (2003): Multilevel statistical models. Edward Arnold, London.
Otro clasico con reedicion es el de Goldstein, que establece de forma
breve los principios del analisis multinivel, para dedicar capftulos mo-
nograficos a las distintas extensiones de estos modelos a situaciones de
investigacion no habituales 0 'no normales'. No es un manual genera-
lista sobre los modelos, sino que mas bien se asemeja a un completo ca-
talogo de las extensiones de los modelos jerarquicos lineales. La version
del ano 1995 se puede descargar completamente en la red.
118 MODELOS JERARQUlCOS LINEALES
KREFT, I. C. C. Y DE LEEUW, J. (1998): Introducing multilevel modelling. Sage

Publications, London.
El libro de los profesores de las universidades californianas Kreft y de
Leeuw es una introduccion ala logica y al significado de los modelos
multinivel. El in teres del texto esta en la comprension del significado
de los modelos y de sus supuestos. No entra en profundidad en los ele-
mentos estadfsticos del modelo. Pero es una buena introduccion, muy
comprensible y comprensiva, de estos modelos. Tiene una orientacion
claramente didactica, y es un libro claro y preciso sobre los conceptos APENDICE
basicos de los modelos. Totalmente recomendado para los 'alergicos' a
las formulaciones estadisticas. ESTlMACION DE MODELOS CON MLWIN
SNljDERS, T. A. B. Y BOSKER, R. J. (1999): Multilevel Analysis. An Introduction

Este texto no es un manual del programa MLWIN. Sin embargo
to basic and advanced multilevel modelling. Sage Publications, London.
haremos una breve introduccion al uso normal del programa. Cuan-
Los profesores holandeses Snijders y Bosker desarrollan un texto que con- do pulsamos el icono correspondiente al programa, obtenemos una
juga a la vez la comprension sustantiva de los modelos con la adecuada
pantalla en la que aparece el menu principal del mismo (Figura A.I).
profundizacion estadistica que precisan estos modelos. Entra en los mul-
tiples detalles de los modelos mas utilizados, asi como en sus supuestos No vamos a analizar cada una de las opciones. La mejor fuente de
basicos, al diseiio y en una interpretacion profunda de los resultados. Ade- informacion para eso es el propio manual del programa. Veremos
mas dedica algunos capftulos a modelos como los longitudinales, los de solamente aquellas opciones que tienen que ver estrictamente con
clasificacion cruzada, los multivariados 0 con variables discretas. Es el uni- la apertura de un archivo de datos, y con la especification de un mo-
co manual que dedica una especial atencion ala comparacion del soft- delo sen cillo.
ware especifico existente en el mercado.
FIGURA A.I. Menu principal del programa MLWIN.
El programa MLWIN almacena los datos y las especificaciones de

los modelos que se desarrollan, asi como otras informaciones com-
plementarias, en unos archivos con un formato especial. La estruc-
tura de los datos responde b<isicamente a la de una hoja de calculo.
Los datos pueden introducirse desde EXCEL utili zan do las opciones
de copiar y pegar, 0 bien desde un archivo ASCII. No vamos a tratar
aqui esas posibilidades. Asumimos que ya tenemos un archivo de da-
tos, denominado Ejemplol.WS.
Para acceder al archivo de datos, en la opcion File del menu se-
leccionamos la subopcion Open Worksheet. (Figura A.2).
120 MODELOS JEAARQUICOS LINEALES APENDICE 121
Open worksheet
Save worksheet 'Iiew or edit data
Save worksheet As .•. Command Irterfac.
ASCll text file Input rocodo
Sort
ASCll text file oUtput
LIstWise
New Macro Jon
Open Macro Morgo(roplic••)
Save Macro ....epIc••
Generate vector
Save MIICroas
Select or omit cases
Print Window Image SpIt Rocords
SpIt cokJnn
Exit Multl.eveI data ~
Gr"'4'S
FIGURA A.2. SubmenUs de la opci6n FILE.
FIGURA AA. Subopciones de Data Manipulation.

A continuaci6n seleccionamos el archivo con el que deseamos
trabajar (Figura A.3).
otras informaciones, como la columna en la que esGin, el numero
de celdas que ocupa y valores maximo y minimo de la variable. (Fi-
guraA.5).
E.ti.ation
control.
=- Names 1_ irQ/ x i
B...... ", IULbo .. M -
Qv..... --- 1 Jgrupo IBerresh ['8Iegorles I 'I Help I
b).,....,..... "-me n mieelng min nwa
! blE~dniY)
,b.)'_3("""') 1 t!li!iil. 21212 2 2
1&iiI(rbW) 2 cod
3 tltu
21212
21272
21841.
1
5,2IMHE+(
2
4 c .....o 21212 3 6
..'"
5 cOfJlWlida 21212 1 15
• Ioca 21272 1
1 alumno
• thet.cl
21212
21212
•
134,. 314,11
M,Pe
t thet.1t 21212 153,st .2,13
I 11 thetam 21212 144,1' 312,13
Nombo., IE_I :::I c::::!EJ 11 pljpj
12_
21212
21212
0,1113411 3,3411431
.......... ,ed r"" rl_-:-:",...-.::r-...-:;",- "':;;"7)------:::I-.
· c.nco&oo I 13 ...... 21212
0 1
4
r Atwrcorno.ctJvodts6lokIc:Ua
14 ....... 21272 1 4
15._
,. repetlr
21212
21212
•
0
5
1
FIGURA A.3. Selecci6n de un archivo de datos. 11 8lItrae•• 21212 0 (;
,. hor....at 21212 0 (;
,. horaatv 21212 0 6
21 aepiracl 21212 0 9
Una vez realizada esa operaci6n, aparentemente nada ha cam- 21 eatmed 21212 0 (;
biado en el programa. Sin embargo, si en la opci6n Data Manipula- 22 totn.ce. 21212 0 3

23 gustleer 21212 -2 2 ..,
tion seleccionamos la subopci6n Names, (Figura A.4), veremos una
lista de todas las variables que se encuentran en el archivo, asi como FIGURA A.S. Resultado del comando Names.
122 MODELOS JEAARQUICOS LINEALES APENDICE 123
La especificaci6n del modelo en MLWIN es muy facil. En el ejem- En primer lugar, debemos especificar la variable dependiente y
plo que nos ocupa, tomaremos como variable dependiente el ren- los niveles que tendnl nuestro modelo. Esto se hace picando sobre
dimiento en matematicas, recogido en la variable 'Thetam', mientras la variable y. Aparece entonces una v.entana con dos cuadros ex-
que como variable independiente vamos a utilizar la variable 'Sexo'. tensibles, en los que podemos seleccionar la variable dependiente
y el numero de niveles de nuestro modelo. (Figura AS).
Ealilllalion
Main Effects and Interactions control..
Predictions
y = f30 x n ... Y variable ~
Hierarchy lli'ewer
Estinate tables y:
Trajectories N Ievek:
Residuals
Multivariate
Variance function
Intervals and tests
Constr ai1 Parameters
Weights
Subscripts
FIGURA A8. Cuadra de dialogo de la variable de respuesta.
FIGURA A6. Subopciones de Equations.

Pulsando sobre la flecha de la derecha del primer cuadro ex-
tensible aparece la lista de todas las variables disponibles en la hoja
En la opci6n Model seleccionamos la subopci6n Equations (Fi- de datos. En este caso seleccionamos 'Thetam' (Figura A9).
gura A6). A continuaci6n se abre una ventana con el esqueleto de
nuestro modelo (Figura A 7). El gris subrayado indica que el tt~r
mino correspondiente esta sin especificar, es decir, no se ha elegi-
do una variable independiente asociada con ese termino.
y-N(XB,n)
y = f3oxo
y = /3");,,
y:
N Ievek:
FIGURA A 7. Ventana de ecuaciones. FIGURA A9. Seleccion de la variable de respuesta.

124 MODELOS JERARQUICOS LINEALES APENDICE 125
A continuaci6n pulsamos en la flecha derecha del segundo cua- no' tiene la identificaci6n de los sujetos, mientras que la variable 'es-
dro, y seleccionamos la opci6n 2-ij, que indica que nuestro mode- cuela' identifica el centro al que pertenece cada uno de enos. (Figuras
10 tendni 2 niveles, y que los subindices seran i para los sujetos, y A.12, A.13 YA.14).
j para las macrounidades, escuelas en nuestro caso. (Figura A.lO).
Y ~ N(XB, Q)
Y ~ N(XB, Q)
Y = fJoxo
Iii Y variable- -"~ " (gJ
Iii Y variable ~
y:
y: Jiiletam n
N levels:
N levels: mm~al Jeve12(j):
(_.] Jewll(i):
l-i
J - ijk
4- ijkl
5-1
FIGURA Al O. Determinacion del numero de niveles.
FIGURA A12. Seleccion del indicador de nivel 2.
AI elegir 2 niveles, automaticamente se modifica la ventana de
la variable y y aparecen otros dos cuadros extensibles. En ell os te-
nemos que seleccionar las variables de identificaci6n de las unida-
des de cada nivel. (Figura A.ll). En nuestro nivel, la variable 'alum- Yj ~ N(XB, Q)
Yj = fJoxo Iii Y variable lEJ
Y ~ N(XB, Q)
leve12(j) :
Y = fJoxo
y: Jlheta.. ::!OJ levell(i) : jiB'---3
N levels: flijjH "3 -----1::0
(none] A
_12(1) : f(none-r----::::J tiN

Jenll(i) :1(MneJ -:-g curso
cOBlUf'lida
done I Ioca
v
FIGURA All. Cuadra de seleccion de indicadores de nivel. FIGURA A13. Seleccion del indicador del nivell.
Si seleccionamos la segunda opcion, estamos asumiendo que esa

pendiente varia de una escuela a otra, y el programa estimanl la
varianza asociada a esos valores, y las Govarianzas de esa pendiente
Yij ~ N(XB, Q) con todas las demas. Como en este caso todavia no hay otras varia-
bles en el modelo, solo se estimara la varianza de f30j 0 ''''OJ, que es
Yij = f3oxo . --, 10 mismo .
y: Ithet~ ...:.J
N levels: 1 2 - ij ::1
_12(j):
_11(1) :
r- ~
L JptJllS
.iter. I tillfe .ilop IGLS

E.st:
""
_ .~
done
_ _ _ _ _ ..... _.J Yij - N(XB, Q)
Yij = (30.\;0
FIGURA A.14. Aparici6n de los subindices en la variable de respuesta.
Podemos comprobar que la seleccion de las variables de identi-

ficacion de los niveles comporta automaticamente la aparicion de
los subindices i y j en la variable de respuesta y. (Figuras A13 y
A14). PuIs an do el boton done se cierra el cuadro de dialogo de la
variable y.
Seguidamente debemos especificar las variables independientes.
Para el modele nulo eso supone introducir el intercepto en la ecua-
cion. Esto se hace asociando el primer termino que aparece en la
FIGURA A.lS. Selecci6n del primer predictor.
misma, f3oxo, con la constante. Esta constante es simplemente una
columna de unos con tantos valores como sujetos. Esta columna tie-
ne que haber sido construida previamente. Por 10 demas es tratada Con la tercera casilla informamos al programa de que ese para-
como una variable mas. metro tambien varia entre las unidades de nivel 1, es decir, que toma
PuIs amos entonces el termino que aparece en gris subrayado en valores distintos para cada sujeto. En cualquier otra variable eso no
la ecuacion, y nos encontramos con otro cuadro de dialogo. (Figu- tendria sentido, dado que para una escuela dada la pendiente de
ra A1S). Este cuadro de dialogo tiene 4 partes. La primera es un cualquier variable es constante para todos los sujetos de esa escue-
cuadro extensible, en la que como en el caso anterior podemos ele- la6 • Sin embargo, la constante se utiliza para seiialar el intercepto,
gir la variable que estara asociada con este termino. Las otras tres la varianza del intercepto entre las escuelas, y la varianza dentro de
partes son casillas de verificacion en las que podemos determinar las escuelas entre los residuos de nivel 1. Por eso en este caso colo-
que tipo de parametros asociados a esta variable queremos estimar. camos la marca de verificacion en las tres casillas. (Figura A.16).
Aparece una primera opcion referida al parametro fijo, una segun-
da al parametro aleatorio en el segundo nivel, y una tercera al pa-
rametro aleatorio de nivel 1. 6 De hecho, como regia general conviene recordar que una variable solo varia en el nivel
superior al que pertenece. Por ejemplo la influencia del nivel socioeconomico de los alumnos
La primera opcion se refiere al parametro beta correspondien- sobre su rendimiento es constante para todos los sujetos de la misma escuela, aunque puede va-
te, es decir, la pendiente asociada con esta variable. riar de una escuela a otra.
APENDICE 12U
Los parametros del modelo, tres en este caso, aparecen en gris

subrayado punteado cuando estan especificados pero no estimados,
Yij ~ N(XB, n) yen gris subrayado discontinuo cuando ya han sido estimados.
En la parte superior de la ventana de ecuaciones hay tres boto-
nes que controlan el proceso de estimacion. Pulsando el boton Star
comienza el proceso de estimacion. Cuando el proceso converge,
todas las estimaciones toman el gris subrayado discontinuo (Figu-
ra A.18).
Fixed Par8lHter
j(elCUela)
~~~
Esti.ation
deletelerm control..
Q.one
FIGURA AI6. Determinacion de los parametros asociados a la constante.
Pulsando el boton done obtenemos las ecuaciones del modelo

que queremos ajustar. Pulsando la tecla + al pie de laventana el mo-
delo se expande hasta presentar todos los parametros, tanto f~os
[UOj ] - N(O, Qu) Q" = [ 794,294(40,005)
----------------
J
como aleatorios. (Figura A.1 7).
[eOij] - N(O, Qe) Q, = [ 1331,738(13,200)
-----------------
J
Yij - N(XB, n)
Yij ~ fJOijxO
fJOij ~349 ,000(X.~~~~2) + UOj + eOij
[ UOj] - N(O, nul : nu ~ [ o,OO~(o.~oO'O) ] FIGURA A18. Resultado de la estimacion del modelo nulo.
[eOij] - N(O, n,) : n, ~ [ ~,~~~(o.~o.oo.) ]

Como resultado de esta primera aproximacion, comprobamos
-2*wglikelihood(JCLS) =213569,900(21272 of 21272 cases in use) que el rendimiento medio de todos los estudiantes de todas las es-
cuelas es de 265,257 PUtltos, con un error tipico asociado de 0,967.
Se trata por tanto de lIll valor estadisticamente significativo.
La varianza entre d n:lldimicnto medio de todas las escuelas es
794,294, con un error tipico dt' 40,005. Tambien en este casu se tra-
ta de un valor estadistic.alllt'llt(' significativo.
Por ultimo la variall/(I cIIII(' los alumnos dentro de las escuelas
es de 1331,738 con B,200 (Oil\() ('!Tor tipico. Tambien por tanto es
FIGURA AI7. El modelo antes de su estimacion.
un valor estadfsticanH'Il\(' 'iignili< alivo.
Como consecuencia podemos afirmar que tiene sentido tratar de II.
explicar la varianza observada entre escuelas y entre sujetos dentro

• Eatilnation
de las escuelas. ~Iarl Itore ~top IGLS
control..
El valor del estadfstico de verosimilitud es de 215844 . Este valor
nos servira para realizar comparaciones de ajuste con modelos mas Yij - N(XB, Q)
complejos. Yij = flO ijxO+ ~llJ.~~(~,OO~}Xlij
El siguiente paso consistira en introducir el predictor seleccio-
flO ij = ~~5~~~7(~~~67) + U Oj +
nado (' Sexo') en el nivel l.
En la parte baja de la ventana Equations debemos pulsar el bo-
ton Add Term. Como resultado aparece un nuevo termino en la - N(O, Qu) Qu
=[
ecuacion, presentado en gris subrayado, con 10 que se indica que
no hay una variable asociada al mismo. (Figura AI9). - N(O, Q e) Qe
=[
.. MlwiN C;\Documents and Settings\JOS[ lUIS\Mis documentos\libro de M -2*loglikelihood(IGLS) = 215844,000(21272 of 21272 cases in
~. File Edit Options Model Estimation Data Manipulation Basic statistics Graphs W'
~taJl M.ore ~lop IGlS ._ _ . _ _ E::::t 1_______ _ FIGURAA20. Especificaci6n de la variable 'Sexo'.
En este caso solo seleccionamos el parametro fijo. Volvemos a eje-

cutar la estimacion, y obtenemos los resultados que aparecen en la
figura A2l.
.. MI wiN . C:\I)ocumenls <lnd Settings\JOS[ lUIS\Mis doculllelllos\l ibro de

~ File Edit Options Model Estimation Data MMlipuIation Basic statistics Graphs W
11M Itoro ilop IGLS _. _ _ _ E:o,=~~ I . _~ __

thetam ij - N(XB, Q)
thetam ij = floijconstant + _1_11~~~S~!.~!~l sexOij
floij = _~5_9-,?~~S!!.~~~! + U Oj + eOij

[UOi] - N(O, Qu) Q u = [_8_0}-,~~~J~9~~~~tJ
FIGURA A19. Adici6n de un tbmino nuevo.
[eOij ] - N(O, Q e) ; Q e = [}}_0_0-,~7!J!~,-~~'!tJ
A continuacion procedemos como en el caso anterior, picando
el nuevo termino, y seleccionando en el cuadro de dialogo la varia- -2*loglikelihood(IGLS) =215372,700(21272 of 21272 cases
ble 'Sexo'. (Figura A20).
FIGURA A21. Estimaci6n del modelo alternativo 1.
132 MODELOS JERARQUICOS LINEALES APENDICE
Comprobamos que ha disminuido el valor del intercepto. Esto se rianza covarianza del nivel dos, dos nuevos terminos: uno para la
debe a que ahora ese parametro ya no es la media de todos los alum- varianza de la pendiente de 'Sexo', y otro para la covarianza de esta
nos de todas las escuelas, sino la media de todos los alumnos para los variable con el intercepto. (Figura A. 2'3 ).
que la variable 'Sexo' toma el valor cero (en este caso las chicas).
El parametro asociado al sexo tom a un valor de 11,989, que es .. MLwiN C:\Documents and SeltingsUOS[ LUIS\Mis docllmentos\1.ibro de MlIlIinivel\[
la diferencia entre el rendimiento medio de las chicas y los chicos. 0.' File Edit Options Model EstilMtion Ma ManiptJatlon BasIc St&istlcs Graphs Wi1dow Help
Comparando los valores del estadfstico de verosimilitud de este
modelo y el del modelo nulo, obtenemos 215844 - 215372 = 472. ~~ I _________ _
Como ya hemos vis to este valor tiene una distribuci6n chi cuadra-
do con 1 grado de libertad, que es la diferencia en el numero de
parametros de uno y otro modelo. Se trata por tanto de una dife-
rencia estadfsticamente significativa. Luego es preferible nuestro
modelo alternativo al modelo nulo. (30ij = _~~~,-~~~{~,-~~~L + U Oj + eOij
Una extensi6n natural de este modelo permite la variaci6n del
(31j = !}-,~~_3_(~,!i_~~L + U 1j
predictor 'Sexo' en el nivel 2. Para ella picamos otra vez sobre el
termino correspondiente, y en el cuadro de dialogo que se abre pi-
camos en la casilla de verificaci6n del subfndice j (Escuela). (Figu-
ra A.22). Automaticamente el programa incluye en la matriz de va-
itml .time I itop IGLS Estilllation

control.
Yij ~ N(XB, Q) -2*loglikelihood(IGLS) =215326,900(21272 of 21272 cases in use)
Yij = (30ij X O + (3ljXlij

FIGURA A.23. Resullado tit' In t'ftimllci(il/ rifl modelo alternativo 2.
(30iJ =.....................................
259,752(1,002) .+
Ie_
(31J' = .............
11,988(0,549) +u Una vez ejecutada 1:1 c lima i n ( ()lIlprobamos que la varianza
..................... ~ Filled Para.eter
sf es estadfsticamentt' signitl .uh I, 1 ( ro no la covarianza. En cuan-
I{~ to al ,yuste del mo(\('\, • I. Iii It 11 i. elltre este ultimo y el anterior
es de 46 en el estacll~li It I imilitud, con dos grados de liber-
Q I-V_i(_
:_"-
-_t:_:1._,m_ -I 70) O,OOO(O,oooJ tad, por 10 que Siglll ir I III i "ifit .II iva la diferencia.
El siguiente pas!) I' hllllll I ( II .1I'timetro no significativo y com-
parar los modelos.
Para eliminal 1111 p. I 1111 II" hila ('on picar encima de el en la
ventana de ecU(\( it II(
-2*loglikelihood(IGLS} = 215372,700(21272 of 21272 cases in use) En la figura\ .2 I II " j l l II (; IIltado de la estimaci6n habien-
do eliminado eS.1 (0 In 111/ I hlll.l la diferencia entre los estadfs-
FIGURA A.22. Adici6n de parametros aleatorios asociados a 'Sexo'. ticos de verosiJllllilu I ) .f) () 215327 = 0,1 con un grado
134 MODELOS JERAAQUICOS LINEALES
de libertad. En este caso la diferencia no es estadfsticamente signi- CUADERNOS DE ESTADiSTlCA

ficativa, por 10 que nos que dam os con el modelo de menor llllme- Direccion: Juan Etxeberria Murgiondo
ro de parametros. Francisco J. Tejedor Tejedor
• MlwiN C:\I)oculIlents dlld SetlingsUOSllUIS\Mis doculIumtos\l ibro de Mullinivel\[ Titulos publicados:

~. File Edit Options Model Estimation Data ManipulatIon BasIc statistics Graphs IImdow Help
,itart MOf8 I ,itop IIGLS Edftation
control...
I ..L.
I.
2.
R. Martinez Arias: El analisis multivariante en La investigacion cientifica.
M. Escobar: Analisis graficolexplmatorio.
3. F. J. Tejedor: Analisis de varianza.
Yij - N(XB, Q) 4. J. Etxeberria: Regresion multiple.
5. L.Joaristi y L. Lizasoain: Analisis de correspondencias.
Yij = f30ij X O + f31 j X lij 6. J. M. Batista y G. Coenders: Modelos de ecuaciones estructurales.
7. E. GardaJimenez,J. Gil Flores, G. Rodriguez Gomez: Analisisfactorial.
f30ij = _~~~~<!.~~{~~~~~! + U Oj + eOij 8. M. C. Ximenez y R. San Martin: Analisis de varianza con medidas repetidas.
9. M.J. Valderrama, A. M. Aguilera, F. A. Ocana: Prediccion dinamica mediante
f31 j = }}_,§_3_~(~,~i~t + U 1j analisis de datos funcionales.
10. M" J. Rivas Lopez yJ. Lopez Fidalgo: Analisis de supervivencia.
- NO,
( Q u)
r\u
~.:
= [7?}.!7~_~(~~'7}_~t ] 11.
12.
C. Rodriguez Morilla: Analisis de series temporales.
J. Gil, E. GardaJimenez y G. Rodriguez Gomez: Analisis discriminante.
o 89,664(15,975)
--------------- 13. R. Ardanuy y F.J. Tejedor: Tablas estadisticas.
14. J. E. Real Deus: Escalamiento multidimensional.
= U_~~~,§_7_~(I_~,J_~~tJ
15. A. M. Aguilera: Tablas de contingencia bidimensionales.
- N(O, Qe) : Q e
16. R. Clairin y Ph. Brion: Manual de muestreo.
17. A. Hernandez Bastida, M" C. Martel Escobar y F. J. Vazquez Polo: Metodos
-2*loglikelihood(IGLS) =215327,000(21272 of 21272 cases in use) estadisticos en auditona de cuentas.
18. L. Hernandez Encinas: Tecnicas de Taxonomia numerica.
19. Q. Martin Martin: Contrastes de hipotesis.
FIGURA A.24. Resultado de la estimacion del modelo alternativo 3. 20. F. Javier Diaz-Llanos y Sainz-Calleja: El analisis de datos en el cierre de ventas.
21. A. D. Correa Pinero: Analisis logantmico lineal.
22. J. Revuelta y V. Ponsoda: Simulacion de modelos estadisticos en ciencias sociales.
El proceso continuarfa introduciendo en el nivel 1 tantas varia-
23. J. Serrano Angulo: Iniciacion a la estadistica bayesiana.
bles como nuestros datos cuente, y posteriormente continuar el pro- 24. F. J. Tejedor Tejedor: Aplicaciones diversas del analisis de varianza.
ceso introduciendo predictores en el nivel 2, con sus correspon- 25. M" L. Perez Delgado y Q. Martin Martin: Aplicacion de las redes neuronales ar- .
dientes interacciones con las variables de nivel 1. Esta mecanica ya tificiales a la estadistica.
ha sido ilustrada en el capftulo correspondiente, y por ella no se re- 26. P. Morales, B. Urosa y A. Blanco: Construccion de escalas de actitudes tipo Likert.
pite aquf. 27. L. C. Silva Ayc;:aguer eLM" Barroso Utra: Regresion logZstica.
28. J. L. Valencia y F. J. Diaz-Llanos y Sainz-Calleja: Metodos de prediccion en si-
tuaciones limite.
29. J. L. Gaviria Soto y Maria Castro Morera: Modelos jerarquicos lineales.
EN PREPARACION:
30. A. Fidalgo, E. Garda-Cueto, R. Martinez, R. Moreno y J. Muniz: Analisis

de los items.
Jose Luis Ga\ilia Soto es en la actualidad Catedratico de Metodos
de Investigaci6n en la Cni,ersidad Complutense de Madrid.
Esti especializado en E\'aluaci6n de Sistemas Educativos,
con especial enfasis en los problemas de medida y analisis de datos
especfficos de dichas e\'aluaciones. Ha actuado como consultor
para algunos gobiernos de comunidades aut6nomas y para distintas
instituciones espaiiolas y latinoamericanas encargadas de la evaluaci6n
de sus respecti\'os sistemas educativos. En esta linea es actualmente
asesor de la Direcci6n General de Evaluaci6n de la Secretarfa
de Educaci6n Publica de Mexico. Ha impartido numerosos cursos
de fonnaci6n, especialmente sobre 'Teo ria de Respuesta al Item'
y 'Modelos Jerarquicos Lineales' y varios aspectos relacionados
con la metodologfa de la evaluacion de sistemas educativos.
M arfa Castro Morera es actualmente Profesora Titular

en el Departamento de Metodos de Investigaci6n y Diagnostico
en Educaci6n de la Universidad de Murcia. Sus intereses
y trabajos de investigaci6n se centran en modelos multinivel
multivariados para el analisis de evaluaciones de sistemas educativos,
con especial enfasis en modelos de cambio y crecimiento.
Sus estudios mas recientes examinan indicadores de crecimiento
y cambio individual y organizativo en contextos escolares.
La profesora Castro ha sido investigadora visitante
en la Universidad de California en Los Angeles (UCLA),
primero en el Department of Statistics y despues en el National Center
for Research on Evaluation, Estandars and Student Testing (CREEST) .
M = . ,.
=======t::.
=
=co
co
editorial
U\ MURAllA, 5. A.
- - -"m

(Cuadernos de Estadística 29) Jose Luis Gaviria Soto, María Castro Morera - Modelos Jerárquicos Multinivel-Editorial La Muralla S.A. (2005) PDF

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

(Cuadernos de Estadística 29) Jose Luis Gaviria Soto, María Castro Morera - Modelos Jerárquicos Multinivel-Editorial La Muralla S.A. (2005) PDF

Hochgeladen von

Copyright:

Verfügbare Formate

uadernos de Lsta(1lSb (

Jose Luis Gaviria Soto

PROLOGO ..................................................... -:-: . !Pag. 7

2. REGRESION EN DOS NIVELES ....................................... 23

3.2. Supuestos de los rnodelos rnultinivel .................. . 85

4.1. Algunas notas sobre el uso del prograrna ML~n

gunas particularidades de los diseiios multinivel estan planteadas en

acciones de los individuos tienen ambos componentes, uno

/l~ /\ /\ varianza y la covarianza.

utilizada por los autores del programa MLwin, que es la herra-

Ya seiialamos en el Pr6logo que la atenci6n de los modelos mul-

mente llamamos modelos multinivel, que pas amos a describir de-

2.1 . APROXIMACION INTUITIVA A LOS FUNDAMENTOS

TABLA 2.1. Ejemplo simulado sobre la estimaci6n de las

2 140 1,5 165 -25

Como se ve en la Tabla 2.1, los alumnos 1 y 2, dado el nivel so-

I iI Dado que Po y PI son constantes, esto es 10 mismo que:

FIGURA 2.3. Variaci6n en el macro nivel. (2.7)

FIGURA 2.5. Recta de regresi6n para un modelo completamente aleatorio.

Situaciones como la aquf representada son de hecho muy fre-

FIGURA 2.4. Recta de regresi6n simple.

ple. Y a simple vista, podemos comprobar que no se cum pIe el su- •

-2,50 -2,00 -1,50 -1,00 -0,50

Pero las escuelas tambien difieren en su pendiente. Asf en 2.6.3

• • FIGURA 2,6.4. Residuos en el primer nivel en un modelo multinivel.

Tambien podrfamos plantear un modelo de p endientes aleatorias,

Ahora el residuo de nivel 1, es decir, la distancia entre el ver- (2.11)

(2.14) AI introducir predictores en el primer nivel, es muy frecuente que

En general, para cualquier numero de variables tendrfamos para

f3pj = Lf3PI ~j + flpj (2.31)

con Cij ~ N(O, an

2.5. NATURALEZA DE LOS PREDICTORES

flOj ° El nivel de medici6n de los predictores Y la relaci6n lineal 0 no

tro 0 cualquier otra similar, es necesario realizar una codificacion

TABLA 2.2. Codificacion de contraste para la variable 'estado civil'.

/// f····.. ................

Imaginemos una posible muestra de sujetos con la siguiente dis-

TABLA 2.3. Distribucion hipotetica de sujetos para la variable

130 j = 1300 + !1-0j (2.33)

XSoltero X C• s• do XViudo En la practica, la codificacion de contraste se usa habitualmen-

Si centramos las variables independientes respecto de las medias

FIGURA 2.10. Representaci6n de las medias observadas y las medias

cuyo significado ya ha sido establecido en un parrafo anterior. En

poder de compra de un dolar en Africa central, por poner dos ca-

FIGURA 2.11. Efeeto del eentrado respeeto de la media del grupo.

----:. :.:.~.'.'- ..,.:.~~;.~'~

mos que afecta mas la escolaridad sobre la renta en el segundo que

Como enseguida veremos, entre estos dos valores esta un tercer

Yoj = f30 j + eoj , donde eoj - N( 0, ~;)

Donde Yoj es el estadfstico con el que queremos estimar f30 que

ya que f30 es constante, y como /10j y E;j son independientes entre

es constante para todos los grupos, yen cambio a; / nj varia de un

2.8.2 . Estimaci6n par intervalos de los coeficientes fzjos

Precision ($0) = I~jl (2.59)

Por tanto, su varianza sera la inversa:

$0 ± 1,96 (I~ir2 (2 .62)

-={Jo +e·.J (2.65) La estimacion por intervalos serfa entonces:

Su varianza es: Yel intervalo de confianza del 95%:

(2.67) iJI ± 1,96.V(.Blf 2 (2.75)

Lo mismo podria deeirse de las varianzas y covarianzas del se-

= Po + Aj y.j - Aj Po (2.82) . En regr~sion multiple, la medida usual de la proporcion de va-

La varianza del error de predicci6n ahora es

Entonces la reducci6n de la proporci6n de la varianza del error

floij = _~5_9-,?S!!.~! + U Oj + eOij