Beruflich Dokumente
Kultur Dokumente
176
Teora de lesls
MI Nayas
diferencias que existen entre la TCf y la TRI en relacin a aspectos como los
parmetros de los modelos, etc ... El tercer apartado est dedicado a estudiar
(TRC), los tests a medida y los bancos de items. Para finalizar se harn
INTRODUCCION
La TCf ha sido el modelo dominante en la teora de tests durante gran
parte de siglo y, aun hoy en da, tiene una vigencia ms que notable en el
campo de la prctica de la evaluacin psicolgica Y educativa. Esta teora
arranca de los trabajos pioneros de S pearman (1904, 1907, 1913) Y se
desarrolla en conjuncin con las teoras sobre la inteligencia. No en vano,
Spearman no es slo el padre de la TCf sino que es tambin el primero en
formular una teora psicolgica de la inteligencia (Spearrnan, 1923, 1927).
A su vez, los orgenes de la TRI se pueden remontar a los trabajos de
Thurstone en la dcada de los 20. Sin embargo, a pesar de la aparicin de
trabajos espordicos en los aos 30 y 40 (Lawley, 1943, 1944; Richardson,
1936; Tucker, 1946), es en la dcada de los 50 y 60 cuando realmente emerge
la TRI, siendo un hito fundamental en la historia de estos modelos la
publicacin en 1968 del libro de Lord y Novick Statictical Theories of Mental
Tests Scores, que seala el comienzo de la influencia de la TRI. A partir de
ese momento, se multiplican los trabajos con estos modelos, se ampla cada
vez ms su campo de aplicacin, aparecen monografas sobre el tema en las
revistas ms importantes del rea, a la vez que crece considerablemente el
nmero de libros y manuales publicados Y se 'generaliza su uso en grandes
empresas y compaas de tests, as como en los departamentos de educacin
de distintos pases y estados americanos (Goldstein, 1987; Guion e Ironson,
1983; Hambleton, Swaminathan, Arrasmith, Gower, Rogers y Zhou, 1986;
Messick, Beaton y Lord, 1983; Mislevy y Bock, 1989; pandey y Carlson,
177
1983; Raju, Steinhaus, Edwards y Delessio, 1991; van Thiel y Zwarts, 1986;
Yen, 1983).
No obstante, a pesar de que los orgenes de la TRI son slo un poco
posteriores a los de la TCf, hay que esperar a la dcada de los 80 para asistir
a la transicin de la TCf a la TRI (Baker, 1989) y es que, por un lado, la TRI
se desarrolla en un contexto bastante diferente al de la TCf, su desarrollo no
se vincula a teoras de la inteligencia sino a problemas tcnicos en la
construccin de tests y en la estadstica matemtica (Embretson, 1985) y, por
otro, aunque las ideas no son nuevas, el soporte matemtico, informtico y
tecnolgico necesario para ser aplicada s lo es (Jaeger, 1987). Es decir, slo
recientemente se ha dispuesto de la tecnologa necesaria de ordenador para
implementar los algoritmos que pemiten estimar los parmetros de estos
modelos. . .
.
Como sealan certeramente Gulliksen (1961) Y Lewis (1986), el
problema central de la teora de tests es la relacin entre la habilidad del sujeto
y su puntuacin observada en el tests: el objetivo de cualquier teora de tests
es realizar inferencias sobre el nivel en que los sujetos poseen la caracterstica
o rasgo inobservable que mide el test, a partir de las respuestas que stos han
dado a los elementos que forman el mismo. Es decir, para medir o, mejor
dicho, estimar las caractersticas latentes de los sujetos es necesario relacionar
stas con la actuacin observable en una prueba y esta relacin debe de ser
adecuadamente descrita por una funcin matemtica.
En efecto, tanto la TCf como la TRI tratan de estimar o inferir una
variable qqe no se puede observar directamente, una variable latente: la
puntuacin verdadera V -en la TCT- y el nivel 8 en el rasgo latente -en la
TRI-. No obstante, conviene notar que V y 8 son el mismo rasgo o habilidad
latente, si bien expresados en escalas diferentes, en distintas mtricas.
Realmente, la diferencia entre el modelo clsico y los modelos de respuesta al
item estriba en la ecuacin que relaciona la variable inobservable con la
actuacin observable en el test. En el caso de la TCT, esta relacin viene
expresada por una funcin lineal entre la puntuacin verdadera de un sujeto .
. en el test y la puntuacin que, de hecho, ha obtenido (X=V+E). En el caso de
la TRI, esta relacin viene expresada por una funcin no lineal entre el nivel
del sujeto en el rasgo latente y las respuestas dadas a los items del test
n
(V(8) =
P .(8))
l
. Esta ecuacin, conocida como funcin caracterstica
del test, es adems la ecuacin que permite pasar de la mtrica del parmetro
de habilidad en la TCf a la mtrica del parnletro de habilidad en la TRI.
En un intento de buscar la unidad subyacente a la diversidad de
modelos del anlisis multivariable, McDonald (1986, 1989) caracteriza a la
TRI dentro de los modelos del factor comn y considera que la TCT es
solamente un caso especial de la teora del factor comn. Asimismo, Weiss
(1983) sostiene que 'la TCf es un modelo de rasgo latente, aunque un
modelo muy sencillo' (p. 3). En definitiva, lo que se quiere poner de
i =1
178
MJ. Navas
Teoria de tests
manifiesto es que la TCf y la TRI pueden ser consideradas como teoras que
se solapan parcialmente, slo que la TRI hace supuestos ms fuertes y
obtiene, por tanto, resultados ms fuertes que la TCT. Esta afirmacin
general, sin embargo, debe ser convenientemente matizada o puede inducir a
error. En efecto, el hecho de imponer ms y ms fuertes restricciones a los
datos redunda en la obtencin de resultados tambin ms fuertes, pero a costa
de incrementar (1) el tamao muestral y (2) la complejidad matemtica de las
tcnicas usadas para la estimacin de parmetros. Como seala de forma muy
grfica Muiz (1992), 'la parsimonia y la sencillez del modelo lineal clsico lo
hace apropiado en numerosas ocasiones en las que la maquinaria pesada de la
TRI no puede maniobrar con eficacia' (p. 22). Y es que al basarse la TCT en
supuestos dbiles, stos son satisfechos por la mayor parte de las matrices de
datos obtenidas en la aplicacin de tests. Esta es la razn que explica que el
modelo clsico haya sido aplicado a una gran variedad de problemas de
construccin de tests y de anlisis de sus puntuaciones.
179
indivi~ual
e~
TeorLl de tests
180
181
MJ. Navas
ste fue aplicado. Como sealan Muiz y Hambleton (1992), 'si se aspira a
una medicin rigurosa y cientfica, resulta difcil justificar que las mediciones
estn en.funcin del instrUmento utilizado' (p. 44). Por el contrario, en la TRI
(Lord, 1980).
Una cuestin interesante que tambin emerge de este carcter
dependiente o independiente de los parmetros tiene que ver con el
significado e interpretacin de la escala de puntuacienes con la que se trabaja.
En el caso de la TCT, la muestra en la que se estiman los parmetros de los
items ' se asume representativa de la poblacin de sujetos a la que
posteriormente se va a aplicar el test y, por consiguiente, se utiliza como
grupo de referencia o norma con la que se compararn las puntuaciones
obtenidas en la prueba por otroS sujetos. Por tanto, el significado de la escala
de puntuaciones as generada tiene un carcter absoluto en su origen y unidad
es invariante respecto al
de medida. Por el contrario, en la TRI la escala
conjunto de items utilizados para estimar el rasgo latente pero es arbitraria, ya
que su origen y unidad de medida no estn determinados, no son fijos sino
que varan de una aplicacin a otra, por lo que slo tienen sentido las
comparaciones entre sujetos (o entre items), aunque tambin ofrece
posibilidades muy interesantes para interpretaciones referidas a la norma,
muy tiles en audiencias no profesionales.
Sesgo
En la actualidad, los mtodos de estudio del sesgo basados en la TRI
son muy populares y son los mtodos preferidos, des~e el punto de vista
terico, por muchos investigadores (Mellenbergh, 1982;Shepard, Camilli y
Averill, 1981; Shepard, Carnilli y Williams, 1984, 1985). Si se defme como
itemo test sesgado aqul que da: lugar a medidas distintas en sujetos con el
mismo nivel en el rasgo o variable medida por el item o el test, resulta
bastante obvio que la TRI tiene algo que decir sobre la cuestin. En efecto, un
item estar sesgado si su curva caracterstica es distinta para diferentes grupos
de sujetos: un item est sesgado si es distinta la probabilidad que tiene un
sujeto de responder correctamente segn penenezca a un grupo u otro,
sea el mismo. Esta definicin de sesgo
supuesto que su nivel en la escala
con la que opera la TRI engancha directamente con las definiciones ms
comnmente aceptadas: se define el sesgo como dimensionalidad respecto al
grupo (Ackerman, 1993), como una violacin de la independencia
condicional (Mellenbergh, 1985, 1989; Oon, 1992) o como funcionamiento
diferencial del item. Este ltimo trmino se est imponiendo cada vez ms en
la literatura sobre el trmino tradicionalmente utilizado sesgo, ya que parece
ms adecuado para distinguir la evidencia emprica de la existencia de un
rendimiento diferencial necesario -impacto- de la conclusin de que el item o
el test estn sesgados. Precisamente, sta es una de las crticas fundamentales
que se hace a los mtodos de la TCT para estudiar el sesgo: su incapacidad
para manejar adecuadamente las diferencias reales en habilidad entre los
grupos de inters. Como sealan claramente Hunter (1975), Lord (1977) y
Peterson (1977) ,los mtodos clsicos pueden confundir las diferencias reales
en la habilidad media de los grupos con el sesgo.
Los mtodos usados por la TCT para la deteccin del sesgo son dos y
se basan en los parmetros fundamentales del item en esta teora: el mtodo
delta (Angoff, 1972; Angoffy Ford, 1973; Angoffy Sharon, 1974), basado
en las diferencias en el parmetro de dificultad obtenido en cada grupo, y el
mtodo de la discriminacin (Green y Draper, 1972; Ozenne, van Gelder y
Cohen, 1974), basado en las diferencias en la correlacin biserial puntual
obtenida en cada grupo.
El problema que plantea el uso del mtodo delta es que no tiene en
cuenta la discriminacin del item, lo que supone que, en presencia de grupos
con distinta habilidad, se va a confundir la discriminacin con el sesgo: las
diferencias en discriminacin crean diferencias en el valor de la dificultad del
item en los grupos y stas son interpretadas errneamente como indicadores
'1
MJ. Navas
182
del sesgo. Y es que el parmetro de dificultad del item en la TCf es tanto una
medida de la actuacin del grupo como una caracterstica del item. En
definitiva, el mtodo delta produce evidencia esprea de sesgo a no ser que
todos los items tengan la misma capacidad discriminativa o que los grupos
comparados tengan una habilidad media similar. Angoff (1982) propone una
modificacin del mtodo para corregir estas fuentes de error. Shepard,
Camilli y Williams (1985) comparan este ndice modificado con otros ndices
de sesgo habitualmente utilizados y concluyen que su eficacia es similar a la
.
del ndice X para identificar sesgo conocido, cuando se trabaja con tamaos
muestrales pequeos (N ~ 300).
El problema que plantea el uso del mtodo de la discriminacin es,
obviamente, el mismo que el sen alado para el mtodo delta cuando los grupos
difieren en habilidad. Ironson y Subkoviak (1979) y Merz y-Grossen (1979)
comparan este intodo con otros ndices y concluyen que es claramente
inadecuado en la deteccin del sesgo.
Los mtodos basados en la TRI superan a los mtodos clsicos por
varias razones. En primer lugar, la invarianza de los parmetros del modelo
en la TRl hace que sea mucho menos probable la confusin entre diferencias
reales en habilidad y sesgo. En el caso de la TRI, el parmetro de dificultad
del tem est en la misma escala que el parmetro de habilidad pero no se
relaciona en modo alguno con la actuacin del grupo. En segundo lugar, los
mtodos de la TRI examinan el funcionamiento diferencial del item a lo largo
de toda la escala e de habilidad y no en el punto que corresponde a la
habilidad media de los grupos implicados en el estudio. En tercer lugar, la
TRI estudia el sesgo condicionado al nivel de habilidad de los sujetos de la
muestra, pero condicionado al nivel real, no al observado en la habilidad o
rasgo medido por el test.
Como ya se ha sealado anteriornlente, la idea bsica en estos mtodos
es calcular y comparar l curva caracterstica del item (CCI) en los grupos de
inters (Rudner, 1977). La comparacin de las curvas obtenidas se puede
realizar de distinta forma. Un modo habitual consiste en calcular el rea
existente entre las curvas, bien el rea total (Hambleton y Rogers, 1989a;
Kim y Cohen, 1991; Raju, 1988, 1990; Rogers y Hambleton, 1989), bien las
diferencias al cuadrado entre las probabilidades de una respuesta correcta para
cada valor de la escala e (Linn, Levine, Hastings y Wardrop, 1981), bien
esas diferencias ponderadas por la varianza error de dicha probabilidad.
Segn Shepard, Camilli y Williams (1984), este ltimo ndice es el ms
adecuado para cuantificar las diferencias entre las CCIs de los distintos
grupos.
Otra posibilidad es comparar no directamente las curvas sino los
parmetros que las caracterizan: comparar los valores de los parmetros de los
items obtenidos en uno y otro grupo, probar la hiptesis nula de igualdad de
las CCIs (Hulin, Drasgow y Komocor, 1982; Lord, 1977, 1980;
Mellenbergh, 1972; Wright, Mead y Draba, 1976). Adems de estadsticos
Teora de tests
183
para probar dicha hiptesis, la TRI dispone de otros ndices para evaluar el
tamao del sesgo encontrado. MeIlenbergh (1989) hace una presentacin
sistemtica y clara de los estadsticos e ndices ms comnmente utilizados.
Las limitaciones de esta aproximacin se relacionan con el recurso a pruebas
estadsticas de significacin en tamaos muestrales grandes, habi.tualmente
. requeridos para un uso adecuado de los modelos de la TRI.
Otra aproximacin muy fructfera en la comparacin de las CCIs es la
que utiliza el recurso a una lnea base que ayude en la interpretacin de los
resultados obtenidos al comparar las CCfs de los grupos de inters. La lnea
base se define (1) mediante la construccin de la distribucin muestra! del
estadstico utilizado como indicador de sesgo a partir de dos submuestras
aleatorias extradas de un mismo grupo (Linn y Harnish, 1981), (2)
mediante la simulacin de la distribucin muestral en el supuesto de que no
existe sesgo (Hambleton, Rogers y Arrasmth, 1986; Rogers y Hambleton,
1989), (3) comparando las CCIs obtenidas en submuestras aleatorias,
extradas bien del grupo mayoritario, bien del grupo minotario, bien de
ambos (Shepard, Camilli y WilIiams, 1984; Wilson-Burt, Fitzmatin y
Skaggs, 1986). La ventaja que presenta la simulacin es que no es necesario
reducir la muestra a la mitad y, dadas las exigencias en cuanto a tamao
muestra! de los modelos de la TRI, sta es una ventaja a tener en cuenta.
Un ltimo mtodo a destacar dentro de los mtodos basados en la TRI
para el estudio del sesgo es el propuesto por Linn y Harnish (1981) y
conocido como pseudomtodo de la TRI. Muy brevemente, este mtodo
consiste en lo siguiente: en el grupo minoritario se compara la CCI terica
obtenida en el grupo combinado Con la CCf emprica obtenida en el grupo
. minoritario, concluyendo que el item est insesgado si ambas curvas son
- parecidas. Shepard, Camilli y Williams (1985) sostienen que ste debe de ser
el mtodo de eleccin cuando el tamao muestral de uno de los grupos es
pequeo.
184
MJ. Navas
Te(lra de tests
185
d~
.
Marco, Petersen y Stewart (1983) llevan a cabo un estudio de
equiparacin en el que manipulan distimas variables -nivel de dificultad de los
186
MI Navas
Teora de tests
187
que tambin utiliza informacin sobre todos los parmetros del tem e incluso .
(1985).
En suma, se puede decir que la TRI proporciona un marco terico
ptimo en el que se desvanece en parte la problemtica asociada a la
equiparacin de puntuaciones ya que, en ciena medida, se obvia la necesidad
ofrece la posibilidad de equiparar destintos tipos de
de
pun~acIones y apona metodologa propia para la equiparacin. Ahora bien,
conVIene tener presente que 'ningn mtodo es Superior a los dems en todos
los C?,ntextos. El mtodo de equiparacin que resulta ser mejor parece ser una
muchos !actores, incluyendo la longitud y contenido del test, la
dIStribUCIn del parametro de habilidad de la muestra y de dificultad de los
equ~parar;
f~nc!on ~e
M..I. Navas
188
Teorfa de tests
189
la escala funciona mejor el item, es decir, en qu parte de -la escala tiene una
evaluada por el test, ya que estn en escalas diferentes. Por tanto, los
ptima los items que deben ser utilizados para construir un TRC.
La TRI, sin embargo,Constituye una aproximacin mucho ms
adecuada para los TRCs. En "efecto, uno de los criterios que se utiliza con
ms frecuencia consiste en que el sujeto debe conocer o dominar una serie
determinada de cuestiones que, a su vez, se operativiza en que el sujeto debe
responder correctamente un deternlinado porcentaje de items en un test que
190
MI Navas
Teora de tests
191
en la
computerizada y Wainer (1990) seala que
generacin
enmedida
CATeseducativa
la C.
la sigla crucial
Van der Linden y Zwarts (1989) consideran que Son dos los hechos
los
y el inters creciente que sus aplicaciones en el proceso educativo
cole~ios
.'~u~n~o.
~e~l~a' ~p.260).
md~VlduaJzada
192
M.J. Navas
Rogers (1991) van todava ms lejos al afirmar que el CAT no sera realmente
factible sin la TRI.
La idea bsica de los mtodos del CA T basados en la TRI es la
estimado en el rasgo latente del sujeto, de modo que al aplicar items con esas
,.
(b.""e
. . , que se o buene dI
a "fi=l,n a)l a esumacloQ
caractensucas
1
e rasgo
Teora de tests
193
.en ese nivel, proporcionan la mxima informacin sobre el rasgo latente, los
items que en ese nivel estiman de forma ms precisa el rasgo latente. Esto no
es posible en la TCT ya que la precisin de la medida es independiente del
nivel del rasgo latente que se mide con el test: el error tpico de medida es el
miyno en todos los puntos de la escala e. Adems, el nivel de precisin en
del test individualizado: la aplicacin del test termina cuando el error tpico de
194
M.J. Navas
Teora de tests
195
items en sectores tan distintos como las Fuerzas Armadas, grandes compaas
(LEA) hasta las aplicaciones dentro del aula, pasando por los distritos
escolares
y los Departamentos o Ministerios de Educacin de distintos
estados o pases.
196
MJ. Navas
Tcora de tcsts
197
aprendizaje de los mismos. Las limitaciones de este trabajo tienen que ver con
el tamao de la muestra de sujetos e items que admite, con la imposibilidad de
aplicaciones computerizadas de los tests y con el uso de parmetros del item
en la TCT. O'Brien y Hampilos (1988) estudian la plausibilidad de la
creacin de un banco de items a partir de un test construido por un profesor y
aplicado a dos clases distintas de. alumnos -comparables- cuya instruccin ha
corrido a cargo de la misma persona.
En EE.UU., los distritos escolares de Florida, Los Angeles, Oregon y
Portland, entre otros, han desarrollado proyectos que suponen la
construccin, para reas curriculares de inters, de bancos de items y escalas
de rendimiento basadas en modelos de la TRI para aplicar tests y
proporcionar informacin a los centros escolares y a la opinin pblica. Por
ejemplo, en 1978 el Centro para el Desarrollo de Tests de Los Angeles trat
de calibrar los items de un rea curricular detenninada -las Matemticas- en
distintos cursos. Menos ambiciosos que este proyecto son los trabajos
realizados por Bejar, Weiss y Kingsbury (1977), Douglas (1980) y
Eisenberg y Book (1980) en los que se incluye un solo curso escolar, no
varios como en el anterior. Otros proyectos que tambin surgieron en
EE.UU. se pueden encontrar en los trabajos de Foster y Archer (1977),
Foster y Doherty (1978), Hankins (1990), Koslin, Koslin, Zeno y Wainer
(1977), Smith (1985) y Wongbundhit (1985).
Ahora bien, EE.UU. no es el nico foro en el que se crean bancos de
items sino que stos se desarrollan tambin en pases como Australia .'
(Cornish y Wines, 1977; Hill, 1985; Tognolini, 1982), Austria (Kubinger,
1985), Canad (Popyuk, 1982) o Gran Bretaa (Choppin, 1968, 1976,
1978, 1981; Elliot, 1983; Haksar, 1983; Pollitt, (&( 1985; Wood y
Skurnik, 1969);
Por ltimo, como ejemplos del uso de bancos de items en
Departamentos de Educacin se sealar el trabajo de Burke, Kaufman y
Webb (1985), desarrollado en el Departamento de Instruccin Pblica de
Wisconsin, y el trabajo de van Thiel y Zwarts (1986), en el Instituto de la
Medida Educativa de Holanda (CITO).
El banco de items de Wisconsin es un sistema computerizado de 1()()()()
items repartidos en tres reas (matemticas, lenguaje y lectura) para los curso
3Q a 12Q, cuyo objetivo es proporcionar tests a los centrs de los distritos
escolares que participan en el programa de evaluacin de competencia llevado
a cabo por dicho estado. Es muy efectivo para el examen y seleccin de items
y para la produccin impresa de tests, pero no almacena informacin
estadstica sobre los items sino nicamente informacin relativa a su
contenido y objetivos curriculares.
Van Thiel y Zwarts (1986) desarrollan un sistema de evaluacin (TSS:
Testing Service System) que es un sistema integrado para el almacenamiento
de los items y la construccin y anlisis de tests, en el que se utiliza como
herramienta de desarrollo ellSAC (lnformation System Work and Analysis
oi Change). Este sistema tiene dos variantes: el CITO-TSS y el TSS de
CONSIDERACIONES FINALES
A lo largo de estas pginas, se ha puesto de manifiesto que la TRI es
una teora de tests conceptualmente ms poderosa que la Ter (Baker, 1985),
pennite solucionar problemas difciles de abordar desde la perspectiva clsica
pero, adems, esta teora abre vas a nuevas preguntas y fonnas de investigar
en Psicometra y tiene profundas implicaciones para la mejora de la medida
psicolgica (Weiss, 1983). Como seala Hambleton (1989a), las
caractersticas distintivas de la TRI son las que han dado lugar al desarrollo de
procedimientos muy prometedores en el mbito de la evaluacin
computerizada. De hecho, este autor considera el uso de la TRI como un
prerrequisito en un sistema de evaluacin que se precise de operativo.
Sin embargo, no se puede olvidar que siempre es conveniente
plantearse 'qu es mejor, una solucin basada en una teora fuerte (restrictiva)
a la que la realidad no se ajusta muy bien (por ejemplo, la teora del rasgo
latente) o un procedimiento ad hoc con una base terica dbil (no restrictiva),
clara, siendo preferida la teora del rasgo latente pero para otros problemas la
respuesta est lejos de ser obvia' (Traub y Wolfe, 1981, p. 342). Wood
(1987) subraya la importancia del problema del ajuste de los datos a los
que perder de vista el gran avance que Supone la modelizacin del error en la
198
MJ. Navas
ABSTRACT
The decade of the 1980s saw the basis of measurement practice begin to
make the transition from c1asical test thcory to item response thcory (Baker,
1989). This work aims to think about the role playcd by these modcls in tbe
field of psychological and cducational mcasurementFirst of all, we will
briefly examine the history of both test theories and the way they cope with
the basic mcasurement problem. Then, it will be discussed tbe similaries
and differences in such aspects as assumptions made by tbe models, tbe
assessment of measurement error, tbe parameters invariance, etc ... Finally, it
will be considercd how these test tbcorics solve sorne measurement problems
as important as item and test bias , cquating scores and test construcon,
particulary criterion-referenccd tests, tailorcd tesl" and item banks.
KEY WORDS: Classical test theory, item response thcory, bias, equating,
criterion-referenced tests, tailorcd tests, item banks.
Teora de leSls
199
REFERENCIAS
Ackerrnan, T. (1993): Differenlial ilem funclioning as a funClion of lhe valid Sublesl space.
Comunicacin presentada en la 1993 European Meeting of the Psychometric
Society, Barcelona
Angoff W. H. (1972): A lechnique for Ihe invesligalion of cullural differences.
Comunicacin presentada en la reunin de la American Psycholigical Associaon
(APA), Honolulu.
. . .
Angoff, W. H. (1982): Use of difficulty and discrimination ndices for detecting item bias.
En R. A. Berk CEd.), Handbook of melhods for delecling lesl bias. Baltimore, MD:
The Johns Hopkins University.
Angoff, W. H. (1984): Scales, norms and equivalent scores. Princeton, NJ: Educatonial
Testing Service.
Angoff, W. H. y Ford, S. F. (1973): ltem-mce interaction on a test of sholasc aptitude.
Joumal ofEduca/ional Measuremenl. 10. 95-106.
.
. Angoff, W. H y Sharon, A. L. (1974): The eva1ution of differences in test performance of
two or more groups. Educalional and psychological Measuremenl, 34, 807-816.
Baker, F. B. (1985): The basics ofilem response lheory. Portsmouth, NH: Heinemann.
Baker, F. B. (1989): Computer tcchnology in test construction and processing. En R. L.
Linn CEd.), Educational Measurement. New York: Macmillan.
Bejar, 1. l.; Weiss. D. J. Y Kingsbury, G. (1977): Calibralion of an ilem pool for Ihe
adaplive measuremen/ of achivement (Psychometric Metbods Program Research
Repon N2. 77-7) . . Minneapolis: University of Minnesota, Department of
Psychology.
Bejar, 1. I Y Wingersky, M. S. (1982): Astudy of the pre-equating based on item response
theory. Applied Psychological Measuremenl. 6. 309-325.
Binet, A. y Simon, T. H. (1908): Le devclopment de nntelligence chez les enfants.
L'Anne Psychologique,1J, 191-244.
.
Bock, R. D. Y Mislevy, R. J. (1981): An item response curve model for matrix-sampling
data: The California grade-Lhree assesmenl. New DireClions for Tesling and
Measuremenl, 10,65-90.
Bock, R. D. Y Mislevy, R. J. (1988): Comprehensive educational assessment for the
States: The duplex designo Educalional Evalualion and Policy Analysis.lo, 89-105.
Bock, R. D. YWood, R. (1971): Test theory. Annual Review of Psychology, 22, 193-224.
Swets y Zeiinger.
Brown, B. (1982): Automaled test quiz produclion. Classron computer News, 2, 4, 33-35.
Brown, J. M. Y Weiss, D. J. (1977): An adaplive lesling slralegy for ahievemenl lesl
balleries (Research Repon N. 77-6). Minneapolis: University of Minnesota,
Department of Psychology, Psychometrics MeLhods Programo
Brzezinski, E. J. Y Hiscox, M. D. (1984): Microcomputers and testing. Educalional
Measuremenl: Issues and Praclice. 3, 4-34.
Bunderson, C. V:; Inouye, D. K. Y Olsell, J. B. (1989): The four generations of
computerized educational measurernent. En R. L. Linn (Ed.), Educalional
Measurement. New York: MacMillan .
Burke, N. W.; Kaufman, B. D. Y Webb, N. L. (1985): The Wisconsin lem bank:
Development. operalion and relaled issues. Madinson Wisconsin Departrnent of
Public Instruetion.
200
M..l. Navas
Camilli, G. (1979): A critique of lhe chi-square melhod of assessing item bias. Laboratory
ofEducational Rescarch, Boulder, CO: University ofColorado.
Cole, N. S. y Moss, P. A. (1989): Bias in tr.st use. En R. L. Linn (Ed.), Educalional
Measuremenl. New York: MacMillan.
Cook, L. L.; Dunbar, S. B. y Eignor, D. R. (1981): IRT Equaling: A flexible alternative
lo conventional melhods for solving praclical lesling problems. Comunicacin
presentada en la reunin anual de la American Educational Research Association
(AERA)National Council on Measurement in Education (NCME), Los Angeles.
Cook, L. L. Y Eignor, D. R. (1983): Practical considerations regarding the use of item
response theory to equate tests. En R. K. Hambleton, (Ed.), Applications of Ilem
Response Theory. Vancouver, BC: Educational Research Institute of British
Columbia.
Cook, L. L. Y Eignor, D. R. (1989): Using tem response theory in test score equating.
lnlernalionalJournal ofEducalional Research. 13,2, 161-173.
Comish, G. y Wines, R. (1977): Malhemalics profile series. Hawthom, Victoria:
Australian Council for Educational Research.
Choppin, K H. (1968)): An item bank using sample-free calibration. Nalure. 219, 870
872.
Coppin, B. H. (1976): Recent developments in tem banking. En D. N. M. de Gruijter y L.
J. Th. van der Kamp (Eds.), Advances in Psychological and Educational
Measuremenl. New York: Wiley.
Choppin, B. H. (1978): llem banking and lhe monitoring of achievemenl research in
progress series (N2 1). Slough, England: National Foundation for Educational
Research.
Choppin, B. H. (1981): Educational Measurement and the tem bank model. En C. Lacey y
D. Lawton (Eds.), lssues in evalualion and accounlability. London: Methuen.
Divgi, D. R. (1985): A minium chi-square method for developing a common metric in
IRT. Applied Psychological Measuremcnl, 9,4,413415.
Douglas,1. B. (1980): Applyng lalenllrait lheory 10 a classron examinalion syslem: Model
comparison and selection. Comunicacin presentada en la reunin anual de la
AREA, Boston.
Eisenberg, E. M. Y Book, C. L. (1980): Applyng lalenl lral lheory 10 a course
examination syslem: AdminiSlration, maintenance and lraining. Comunicacin
presentada en la reunin anual de la AREA, Boston.
ElIiot, C. D. (1983): Brilish ability scales. Manuals 1-4. Windsor, England: NFER
Nelson.
EmbrelSOn, S. (1985): Studying intelligence with test theory models.Current Topics in
Human lnlelligence, 1,98-140.
Epstein, M. G. (1974): Classificalion schemefor items in CAT. Comunicacin presentada
en la Computer Assisted Test Construction conference, San Diego (Ed 110505).
Fischer, A. G. (1974): Einfhrung in die Theorie psychologischer Tesis. Bem: Huber.
Foster, F. y Archer, G. (1977): The Rasc/ calibraled item bank: A new 1001 for
. compelency based evalualion . POrlland OR: Portland Schools, Oregon State
Department of Education.
Foster, F. y Doherty, V. (1978): Using lhe Rasch approach 10 measuremenl lO solve
praclical schoollesling problems. Comunicacin presentada en la reunin anual de
la AREA, Toronto.
Goldstein, H. (1987): Multilevel models in educational and social research. London: Oxford
Univers"ity Press.
Teora de lesls
201
Goldstein, H. Y Wood, R. (1989): Five decades of item response modelling. British Journal
of Malhemalical and Slalislical Psychology, 42, 139-167.
.
Green, B. F. ; Bock, R. D. ; Humphreys, L. G. ; Linn, R. B. Y ReclcaSe, M. D. (1984):
Technical guidelines for assessing computerized adaptive tests. Journal 01
Educalional Measurement, 21,4,347-360.
Green, B. F. Y Draper, J. F. (1972): ExploralOry sludies of bias in achievemenl leSls.
Comunicacin presentada en la reunin anual de la AREA, Honolul.
.
Gruijter, D. N. M. de y Hambleton, R. k. (1983): Using tem response models in criterion
referenced test tem selection. En R. K. Hambleton (Ed.), Applicalions of tem
response lheory. Vancouver, BC: Educational Research Institute of British
Columbia.
.
Guion, R. M. Y Ironsoo, G. H. (1983): latent trait theory for organizational research.
Organizalional Behavior & Human Performance, 31,1,54-87.
Gulliksen, H. (1961): Measurement of leaming and mental abilities. Psychomelrika. 26.
93-107.
Gulliksen. H. (1986): Perspective on edutational measuremenL Appied Psychological
Measurement. 10, 109-l32.
Haebara, T. (1980): Equating logistic ability scales by a weighted least squares method.
Japanese Psychological Research, 22,144-149.
Haksar, L. (1983): Dcsign and usage of an item bank. Programmed learning and educaJional
lechnology, 20, 253-262.
Hambleton, R. K. (1986): The changing cOllception of measurement: A commentary.
Appied Psychological Measurement, 10,415421.
.
Hambleton, R. K. (1989a): Principies and ScIccted applications of item response theory. En
R. L. Linn (Ed.), Educational Measuremenl. New York: MacMillan.
Hambleton, R. K. (1989b): Applications of itcm response theory.lnlernalional Joumal of
Educalional Research, l3, 2,123-125
Hambleton, R. K. Y Gruijter, D. N. M. de (1983): Applications of item response models to
criterion-referenced test tem sclection. 10urnal ofEducational Measurement, 20,4,
355-367.
.
Hambleton, R. K. Y Rogers, J. (1989a): Detccting potentially biased test items:
Comparison of IRT area and Mantel-Haenszel methods. Applied Measurement in
Educalion, 2.4, 3l3-334.
Hambleton, R. K. Y Rogers, J. (l989b): Solving criterion-referenced measurement
l3,2, 145-160.
Hambleton, R. K.; Rogers, J. y Arrasmith, D. (1986): ldentifying pOlenliaUy biased leSl
Washington.
Hamblelon, R. K. ; Rogers, J. y Arrasmith, D. (I988): Identifying pOlen/iaUy biased lest
items: Acomparision of lhe Manlel-Iiaenszel slalislic and several ilem response
lheory melhods (LabOflltory of Psychometric and Evalutive Research Report N2.
154). Amhersl: Universty of MassachusctlS, School of Education.
Hambleton, R. K. Y Swaminathan, H. (1985): Item Response Theory: Principies and
Applicalions. Boston: Kluwer-Nijhoff.
.
Hambleton, R. K. Y Swaminathan, H. Arrasmith. ; Gower, C. ; Rogers, J. y Zhou, A.
(1 ~86): Developmenl of an inlegraled syslem lO assess and enhance basic job skills
(Au Force Research Repon N. 2). Amherst, MA: School of Education, University
of MassachussetlS.
202
MJ. Navas
Teora de lesls
203
Hunter, J. E. (1975): A critical analysis 01 the use 01 item means and ilem-lesl co"elations
testing. Comunicacin presentada en la 13th IPN Conference on Latent Trait and
204
MJ. Navas
Teora de tests
205
206
MI Navas
Popuyk, W. (1982): A model for an item bank in second language proficiency testing.
Comunicacin presentada en el 5lh Internalional Congress of Applied Linguiscs,
Montreal.
Raju, N. S. (1988): The area betwccn two item characteristic curves. Psychometrika, 53,
495-502.
Raju, N. S. (1990): Deterrnining lhe significance of esmated signed and unsigned areas
between two item response functions. Applied Psychological Measurement, 14,2,
197-207.
Raju, N. S. ; Steinhaus, S. D. ; Edwards,l. E. Y Delessio, J. (1991): A 10gistic reg:ession
modcl for personnel selecon. Applied Psychological Measurement, 15,2, 139-152.
Rentz, R. R. Y Bashaw, W. L. (1977): The Naonal Reference Scale for Reading: An
application of lhe Rasch model. JournalofEducaJional M easurement. 14, 161-179.
Richardson, M. W. (1936): The relaonship between difficulty nd lhe differential validit)r
of a test Psychometrika, 1, 33-49.
Rodel, L. J. (1979): CAM~s coordinator manual. Hopkins Independent School District274,
MN (ED 183580)
Rogers, J. Y Hambleton, R. k. (1989): Evalualion of computer simulated baseline statistics
for use in item bias sludies. Educational and Psychological Measurement, 49, 355
369.
Rubin, A. y Babbie, E. (1989): Research methods for social work. Belmont, CA:
Wadswonh.
Rudner, 1. M. (1977): Weakly paralell tests in lalent trail lheory wilh sorne cricims of
CIT. Psychometrika, 42, 2,193-198.
Scheuneman, J. (1979): A melhod of assessing bias in tesl items. Journal of Educational
Measurement,16.3,143152.
Shearp. L. A.; .Camilli, G. Y Averill, M. (1981): Comparision of procedures for detecting
test item bias wilh bolh inlernal and external ability crileria. Journal of Educational
Statistics, 6,317-375.
Shearp, L. A.; Camilli, G. y Williams, D. M. (1984): Accounting for statisticaI artifacts
in item bias research. Joumal of Educational Statistics, 9, 93-128.
Shearp, L. A.; Camilli, G. y Williams, D. M. (1985): Validity of approximation
techniques for detecling ilem bias. Journal of Educational Measurement, 22,2,77
105.
Sirotnik. K. (1974): Introduclion lO matrix sampling for lhe practilioner. En w. J. Popham
(Ed). Evaluation in Education: Current Applications. Berkeley; CA: McCutchen
Publishing Corporation.
Sirotnik, K. y Wellinglon, R. (1977): Indidence sampling: An integrated lheory for
'matrix sampling'. Journal of Educational Measurement,14. 4,343-399.
Skaggs, G. y Lissitz, R.W. (1986a): IRT tesl equang: Relevant issues and a review of
recent research. Review of Educational Research, 56, 495-529.
Skaggs, G. y Lissitz, R.W. (1986b): An exploration of lhe robustness of four test equang
models. Applied Psychological Measurement. 10, 303-317.
Skaggs, G. y Lissitz, R.W. (1986c): The effecl of examinee ability on tesl equating
invariance. Comunicacin presentada en la reunin anual de la AREA, San
Francisco.
Skaggs. G. y Lissitz,.R.W. (1988): Effect of 0xamine ability on test equating invariance.
Applied Psychological Measurement. 12, 1,69-82.
Smilh, I. L. (1985): Content validity study of the AASPB item bank. New York:
Professional Examination Service, Division ofRcarch and Development.
Teora de tests
W7
van der
W. J. '! Zwarts, M. A. (1989): Sorne procedures for computerized ability
~inden, Y1.
Li~den.
Boc~ooi-Timminga,
208
MI Navas
Weiss, D. J. (1982): Improving measurement quality and efficiency with adapLive tesLing.
Applied Psychological Measurcment. 6,4,473-492.
Weiss, D. J. (1983): New horizons in testing. New York: Academic Press.
Weiss, D. J. (1985): AdapLive testing by computer. .lournal of Consulting and Clinical
Psychology, 53, 774-789.
.
Weiss, D. J. Y Davinson, M. L. (1981): Test Theory and methods. Annual Review of
Psychology, 32,629-658.
Weiss, D. 1. Y Vale, C. D. (1987): Adaptive tesLing. Applied Psychology: An
lnternational Review, 36, 3/4,249-262.
Wilson-Burt, C; FitzmanLin, R. D. Y Skaggs, G. (1986): Baseline strategies in evaluating
IRT item bias indices. Comunicacin presentada en la reunin anual de la AREA,
San Francisco.
.
Willingham, W.W. (1980): New melhods and direcLions in achivement measuremenL New
Directionsfor Testing and Measurement, 5,73-80.
Wongbundhit, Y. (1985). ltem banking procedure and quality control in Dade County
public schools. Comunicacin presentada en la reuninn anual de la AERA,
Chicago.
Wood, R. (1987). Measurement and assessment in education and psychology. Philadelphia,
PA: Falmer Press.
Wood, R. y Skurnik, L.S. (1969): ltcm banking. London: NaLional Foundation for
EducationaI Research.
Wright, B.D. (1968): Sample-frec test calibration and person measuremenL Proceedings of
lhe 1967 Invitational Conference on Tr.sting Problems. Princeton, NJ: EducaLionaI
Testing Service.
Wright, B.D. y Bell, S.R. (1984).ltem banks: What, why and how. Journal of Educational
Measurement, 21, 4,331-346.
Wright, B.D. , Mead, R. y Draba, R. (1976): Detecting and correcting item bias with a
logistic response model (Rcsearch Memorandum No. 22). Chicago: University of
Chicago, Statistical Lab., Departrnent of Education.
Yen, W.M. (1983): Tau equivalence and equipcrcentile equating. Psychometrika, 48, 353
369.
Yen, W.M. (1986): The choice of scales for educational measurement: An IRT perspective.
Journal ofEducational Measurcment, 23,299-325.
Yoes, M.E. (1990): A comparison of microcomputer-based item parameter estimation
procedures used with the 3-parametcr lRT model. Comunicacin presentada en la
reunin anual del NCME, Boston.