Sie sind auf Seite 1von 11

Papeles del Psiclogo

ISSN: 0214-7823
papeles@correo.cop.es
Consejo General de Colegios Oficiales de
Psiclogos
Espaa

Muiz, Jos
LAS TEORAS DE LOS TESTS: TEORA CLSICA Y TEORA DE RESPUESTA A LOS TEMS
Papeles del Psiclogo, vol. 31, nm. 1, enero-abril, 2010, pp. 57-66
Consejo General de Colegios Oficiales de Psiclogos
Madrid, Espaa

Disponible en: http://www.redalyc.org/articulo.oa?id=77812441006

Cmo citar el artculo


Nmero completo
Sistema de Informacin Cientfica
Ms informacin del artculo Red de Revistas Cientficas de Amrica Latina, el Caribe, Espaa y Portugal
Pgina de la revista en redalyc.org Proyecto acadmico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto
Papeles del Psiclogo, 2010. Vol. 31(1), pp. 57-66 Seccin Monogrfica
http://www.cop.es/papeles

LAS TEORAS DE LOS TESTS:


TEORA CLSICA Y TEORA DE RESPUESTA A LOS TEMS
Jos Muiz
Facultad de Psicologa. Universidad de Oviedo

Para una interpretacin y utilizacin adecuada de las propiedades psicomtricas de los tests es necesario ir ms all del mero clcu-
lo emprico, y conocer los fundamentos en los que se basan esos clculos. Con el fin de contribuir a esta comprensin ms all del
mero manejo superficial de la frmulas psicomtricas, el objetivo fundamental de este trabajo es presentar de una manera no excesi-
vamente tcnica y especializada las dos grandes teoras que guan la construccin y anlisis de la mayora de los tests: la Teora
Clsica de los Tests y la Teora de Respuesta a los tems. En primer lugar se hace un apunte histrico sobre los tests, indicando cmo
surgen y evolucionan al hilo de los avances tcnicos y estadsticos. Tras razonar acerca de la necesidad de utilizar teoras psicom-
tricas para el anlisis y construccin de los tests, se expone la lgica que subyace a la Teora Clsica de los Tests, as como sus dos
variantes ms granadas, la Teora de la Generalizabilidad y los Tests Referidos al Criterio. Luego se subrayan las limitaciones ms
importantes del enfoque clsico y se exponen los fundamentos de la Teora de Respuesta a los tems, dentro de cuyo marco encuen-
tran una solucin satisfactoria algunos de los problemas que el enfoque clsico no haba sido capaz de resolver de forma satisfacto-
ria. Finalmente se comparan ambos enfoques, y se concluye indicando la necesidad de conocer las teoras de los tests para una
mejor comprensin y utilizacin de los instrumentos de medida.
Palabras clave: Tests, Teora Clsica de los Tests, Teora de Respuesta a los tems, Teoras de los tests.

For a correct interpretation and proper use of the psychometric properties of tests it is necessary to go beyond the mere empirical
calculation, and know the grounds on which these calculations are based. To contribute to this understanding beyond the superfi-
cial handling of the psychometric formulas, the main goal of this work is to present, in a not technical way, the two most impor-
tant theories that guide the development and analysis of most tests: Classical Test Theory and Item Response Theory. First, a
historic note about tests and testing is made, indicating the evolution of tests according to the technical and statistical advances.
The importance of test theories in order to develop and analyse tests is pointed out, and Classical Test Theory, including Generali-
zability Theory and Criterion Referenced Tests, is presented. After underlining the limitations of the Classical Test Theory appro-
ach, Item Response Theory is presented. Within this new framework some of the limitations of the Classical Test Theory find a
proper solution. Finally both approaches are compared, emphasizing the importance of test theories for a correct use and inter-
pretation of psychometric properties of the tests.
Key words: Tests, Classical Test Theory, Item Response Theory, Test theories.

os tests constituyen seguramente la tecnologa por aspectos tales como la cuna, la clase social, la raza,
L ms sofisticada de la que disponen los psiclogos
para ejercer su profesin, por eso no es infre-
el sexo, las creencias, las cartas de recomendacin, y
otros sistemas de evaluacin subjetivos. Unas veces estos
cuente que la sociedad identifique a los psiclogos con nobles fines se han alcanzado mejor que otras, pero sa
los tests. Naturalmente, unos psiclogos utilizan los tests era y sigue siendo la idea central, evaluar a todos por el
ms que otros, dependiendo de su campo profesional y mismo rasero.
de su forma de trabajar. Los tests son muestras de con-
ducta que permiten llevar a cabo inferencias relevantes NOTA HISTRICA
sobre la conducta de las personas. Bien utilizados son Cundo aparecen los tests por primera vez en la histo-
herramientas claves en la profesin del psiclogo. No ria? Suele citarse como el origen remoto de los tests unas
conviene olvidar que los tests nacen con un afn de ob-
pruebas que los emperadores chinos ya hacan all por
jetividad y justicia, para evaluar a las personas por lo
el ao 3000 antes de Cristo para evaluar la competen-
que realmente valen, evitando evaluaciones sesgadas
cia profesional de los oficiales que iban a entrar a su
servicio. Otras muchas huellas antiguas pueden rastrar-
Correspondencia: Jos Muiz. Facultad de Psicologa. Universi-
dad de Oviedo. Plaza Feijoo, s/n. 33003 Oviedo. Espaa. E-mail: se, pero los tests actuales tienen sus orgenes ms cerca-
jmuniz@uniovi.es nos en las pruebas senso-motoras utilizadas por Galton

57
Seccin Monogrfica LAS TEORAS DE LOS TESTS

(1822-1911) en su laboratorio antropomtrico. Pero se- central de inteligencia general, que coronara una es-
r James McKeen Cattell (1860-1944) el primero inutili- tructura en la que luego vendran dos amplias dimensio-
zar el trmino test mental, en 1890. Pronto qued claro nes, la verbal-educativa y la mecnico-espacial, en las
(Wissler, 1901) que estos primeros tests senso-motores que se articularan otros muchos factores ms especfi-
no eran buenos predictores de las capacidades cognos- cos. El enfoque americano asume una serie de dimensio-
citivas de las personas, y Binet y Simon (1905) darn un nes no jerarquizadas que compondran el perfil
giro radical al introducir en su nueva escala tareas cog- cognoscitivo, que por ejemplo en el caso del PMA ser-
noscitivas para evaluar aspectos como el juicio, la com- an: la comprensin verbal, la fluidez verbal, aptitud nu-
prensin y el razonamiento. Terman llev a cabo la mrica, aptitud espacial, memoria, rapidez perceptiva y
revisin de la escala en la Universidad de Stanford, la razonamiento general. Ambos enfoques son compati-
cual se conoce como la revisin Stanford-Binet (Terman, bles, y tienen mucho que ver con la tecnologa estadsti-
1916), utilizando por primera vez el concepto de Co- ca utilizada, sobre todo el anlisis factorial. Toda esta
ciente Intelectual (CI) para expresar la puntuacin de las lnea de investigaciones psicomtricas sobre la inteligen-
personas. La idea del CI haba sido propuesta origina- cia culmina en la obra magna de Carroll (1993), donde
riamente por Stern, dividiendo la Edad mental por la se sintetizan los grandes avances alcanzados. En Espaa
Edad Cronolgica y multiplicando el resultado por 100 trabajos como los de Juan-Espinosa (1997), Colom
para evitar decimales. (1995), o Andrs-Pueyo (1996) recogen y analizan de
La escala de Binet abre una tradicin de escalas indivi- forma brillante este campo de trabajo.
duales que llega hasta nuestros das. En 1917 los tests Pero no slo se producen avances en el campo de los
reciben otro gran impulso al aparecer los tests colectivos tests cognoscitivos, tambin los tests de personalidad se
Alfa y Beta a raz de la necesidad del ejrcito norteame- aprovechan de los avances que se producen en la psico-
ricano de reclutar rpidamente soldados para la primera metra. Suele citarse la hoja de datos personales utiliza-
guerra mundial. El test Alfa iba dirigido a la poblacin da por Woodworth en 1917 para detectar neurticos
general y el Beta a personas analfabetas o que no domi- graves como el pionero de los tests de personalidad. Por
naban el ingls. Las pruebas tuvieron mucho xito y ter- su parte el psiquiatra suizo Rorschach propone en 1921
minada la guerra las empresas y otras instituciones su test proyectivo de manchas de tinta, al que seguirn
adoptaron de forma entusiasta el uso de los tests para otros muchos tests basados en el principio de la proyec-
distintos menesteres. Comenzaba as una expansin cre- cin, que asume que ante un estmulo ambiguo, la per-
ciente en el uso y creacin de tests de todo tipo. La apa- sona evaluada tender a producir respuestas que de
ricin de la tcnica del anlisis factorial va a suponer un algn modo reflejan aspectos importantes de su persona-
gran avance en la construccin y anlisis de los tests, lidad. El lector interesado en la historia de los tests pue-
permitiendo la aparicin de las bateras de tests, cuyo de consultar por ejemplo el libro de Anastasi y Urbina
representante ms genuino seran las Aptitudes Mentales (1998), aqu solo tratamos de dar unas pinceladas para
Primarias (PMA) de Thurstone (Thurstone, 1938; Thursto- entender lo que sigue.
ne y Thurstone, 1941). En Espaa tuvimos la suerte de Tras esta larga andadura de unos cien aos, uno pue-
que uno de los grandes pioneros de la Psicologa Espa- de preguntarse, por curiosidad, cules son en la actuali-
ola, Mariano Yela, estudiase en Chicago con Thurstone dad los tests ms utilizados por los psiclogos espaoles,
en los aos 40, lo que le permiti introducir en nuestro y si estos difieren de los que utilizan sus colegas europe-
pas todos los avances de la poca, e impulsar la Psico- os. Pues bien, en una encuesta reciente hecha en seis pa-
metra tanto en el mundo acadmico, como su imple- ses europeos los tests ms utilizados por los psiclogos
mentacin aplicada, colaborando activamente en el espaoles fueron: 16PF, WISC, WAIS, MMPI, Beck,
desarrollo de la empresa TEA (Perea, 2007). La divi- STAI, Rorschach, Raven, Bender e ISRA. Estos datos son
sin de la inteligencia en sus distintos factores o dimen- muy similares a los obtenidos en otros pases europeos
siones dio lugar a la aparicin de dos grandes lneas de (Muiz et al., 2001).
estructuracin de las dimensiones cognoscitivas, lo que En suma, la historia de los tests es una historia exitosa
ha dado en llamarse la escuela inglesa y la escuela ame- de la que la psicologa tiene que sentirse orgullosa, sin
ricana. En la primera se da ms importancia a un factor olvidar, claro est, que como ocurre con cualquier tecno-

58
JOS MUIZ Seccin Monogrfica

loga de cualquier campo, en ocasiones su utilizacin ms detallado del proceso de construccin de un test
por manos inexpertas ha dejado mucho que desear. Es pueden verse por ejemplo los trabajos de Carretero y P-
por ello que en la actualidad distintas organizaciones rez (2005), Downing y Haladyna (2006), Morales, Uro-
nacionales (Colegio Oficial de Psiclogos, COP) e inter- sa y Blanco (2003), Muiz (2000), Schmeiser y Welch
nacionales (Federacin Europea de Asociaciones de Psi- (2006), o Wilson (2005).
clogos, EFPA; Comisin Internacional de Tests, ITC, Hay dos grandes enfoques o teoras a la hora de cons-
Asociacin Americana de Psicologa, APA) desarrollan truir y analizar los tests, son la Teora Clsica de los
numerosos proyectos y actividades para potenciar el uso Tests (TCT) y el enfoque de la Teora de Respuesta a los
adecuado de los tests (Muiz, 1997b; Muiz y Bartram, tems (TRI). No se trata aqu de llevar a cabo exposicio-
2007; Prieto y Muiz, 2000). nes detalladas de estas teoras (en espaol pueden verse,
por ejemplo, en Muiz, 1997a, 2000, 2005), sino de
POR QU HACEN FALTA TEORAS DE LOS TESTS? subrayar los aspectos claves, para que as los usuarios
Hemos visto en el apartado anterior una breve resea de los tests tengan una idea ms cabal y comprendan en
histrica de cmo han surgido y han ido evolucionando profundidad el alcance de las propiedades psicomtricas
los tests concretos, pero nada hemos dicho acerca de las de los tests que estn utilizando.
teoras que posibilitan la construccin de los tests. As
contado podra pensarse que los tests se van sucediendo TEORA CLSICA DE LOS TESTS
sin orden ni concierto, pero nada ms lejos de la reali- El enfoque clsico es el predominante en la construccin
dad. A la construccin y anlisis de los tests subyacen y anlisis de los tests, as, por ejemplo, los diez tests ms
teoras que guan su construccin y que condicionan y ti- utilizados por los psiclogos espaoles citados en el
en los tests segn los avances tericos y estadsticos de apartado anterior, todos ellos, sin excepcin, han sido
cada momento. desarrollados bajo la ptica clsica. Slo este dato ya
A la vista de ello uno puede preguntarse con toda ra- deja bien patente la necesidad de que los profesionales
zn: por qu hacen falta teoras de los tests? O si se entiendan perfectamente la lgica clsica, sus posibilida-
quiere de un modo ms pragmtico, Por qu y para des y sus limitaciones.
qu tienen los psiclogos en su carrera la asignatura de Antes de entrar en la lgica de la teora clsica, hay
Psicometra dedicada fundamentalmente a exponer estas que sealar que hinca sus races en los trabajos pioneros
teoras? La razn es bien sencilla, los tests son instrumen- de Spearman de principios del siglo XX (Spearman,
tos de medida sofisticados mediante los cuales los psic- 1904, 1907, 1913). Lleva por lo tanto unos cien aos en
logos llevan a cabo inferencias y toman decisiones sobre el circuito, as que se ha ganado por mritos propios el
aspectos importantes de las personas. Por tanto hay que adjetivo de clsica. A partir de esos aos se produce un
asegurarse de que esas inferencias son adecuadas y rpido desarrollo y para 1950 lo esencial ya est hecho,
pertinentes, de lo contrario se puede perjudicar notable- as que Gulliksen (1950) lleva a cabo la sntesis canni-
mente a las personas que acuden a los psiclogos por la ca de este enfoque. Ms adelante sern Lord y Novick
razn que sea. Las teoras estadsticas de los tests van a (1968) quienes lleven a cabo una reformulacin de la te-
permitir la estimacin de las propiedades psicomtricas ora clsica y abran paso al nuevo enfoque de la TRI que
de los tests para de ese modo garantizar que las decisio- veremos luego. Pero veamos lo esencial del enfoque cl-
nes tomadas a partir de ellos son las adecuadas. Sin sico.
esas teoras no podramos estimar la fiabilidad y la vali-
dez de los tests, lo cual es imprescindible para poder MODELO LINEAL CLSICO
usar los tests de forma rigurosa y cientfica. Por supuesto, Segn mi experiencia, tras ms de treinta aos explican-
aparte de estas teoras estadsticas sobre los tests, la do estas cosas a los estudiantes de psicologa, lo que
construccin de una prueba debe de guiarse por un mo- ms les cuesta entender es para qu, y por qu, se nece-
delo o teora psicolgica sustantiva que dirige su cons- sita un modelo o teora para analizar las puntuaciones
truccin. En el trabajo de Muiz y Fonseca-Pedrero de los tests. Pero, donde est el problema?, se pregun-
(2008) pueden consultarse los pasos fundamentales para tan, ah est el test, ah estn las puntuaciones obtenidas
llevar a cabo la construccin de un test. Para un anlisis por las personas en el test, unas altas, otras bajas, otras

59
Seccin Monogrfica LAS TEORAS DE LOS TESTS

intermedias, as que adelante, asignemos a cada cual su ginalmente por Spearman. Entender la lgica y funcio-
puntuacin. Las cosas no son tan sencillas, el psiclogo, namiento del modelo es muy sencillo, lo que ya es algo
como cualquier otro profesional de otro campo, tiene ms latoso, aunque no difcil, es desarrollar los aspectos
que asegurarse de que el instrumento que utiliza mide formales y deducciones del modelo, lo cual constituye el
con precisin, con poco error. Y eso mismo vale para corpus central de la psicometra, pero para eso ya estn
cualquier instrumento de medida, bien sea un aparato los psicmetras, alguien tiene que hacerlo.
de la polica para medir la velocidad de los vehculos, el Qu propuso Spearman a principios del siglo XX que
metro para medir las distancias, o el surtidor de la gaso- ha tenido tanto xito en la historia de la Psicologa? Spe-
linera para medir los litros de gasolina que nos dispen- arman propone un modelo muy simple, de sentido co-
sa. Todos esos instrumentos han de estar homologados, mn, para las puntuaciones de las personas en los tests,
requieren algn indicador del grado de precisin con el y que ha dado en llamarse modelo lineal clsico. Consis-
que miden, mxime los tests, ya que apoyados en ellos te en asumir que la puntuacin que una persona obtiene
se toman decisiones muy importantes para las vidas de en un test, que denominamos su puntuacin emprica, y
las personas. No es difcil estar de acuerdo en esto, pero que suele designarse con la letra X, est formada por
el problema es que cuando un psiclogo aplica un test a dos componentes, por un lado la puntuacin verdadera
una persona, o a varias, lo que obtiene son las puntua- de esa persona en ese test (V), sea la que sea, y por otro
ciones empricas que esa persona o personas obtienen un error (e), que puede ser debido a muchas causas que
en el test, pero eso nada nos dice sobre el grado de pre- se nos escapan y que no controlamos. Lo dicho puede
cisin de esas puntuaciones, no sabemos si esas puntua- expresarse formalmente as: X = V + e
ciones empricas obtenidas se corresponden o no con las Ahora bien, si se ha entendido lo dicho, est justificado
puntuaciones que verdaderamente le corresponden a esa decir que con esto poco hemos avanzado, pues si una
persona en la prueba. Bien podra ocurrir que las pun- persona saca en un test 70 puntos de puntuacin empri-
tuaciones estuviesen, por ejemplo, algo rebajadas debi- ca, el modelo no nos permite saber ni cual es su puntua-
do a que ese da la persona no est en sus mejores cin verdadera ni el error contenido en esa puntuacin.
condiciones, o porque las condiciones fsicas en las que Exactamente as es, tenemos un solo dato, la puntuacin
se desarroll la aplicacin de la prueba no eran las ms emprica (X), y dos incgnitas, la puntuacin verdadera
adecuadas, o porque las relaciones establecidas entre (V) y el error (e). Desde ese punto de vista no hemos
los aplicadores de las pruebas y las personas evaluadas avanzado nada, tenemos, eso s, un modelo de puntua-
dejaron mucho que desear. Los psiclogos, como les cin que parece sensato y plausible, pero nada ms, y
ocurre a los que construyen aparatos dispensadores de nada menos, pues que el modelo sea plausible es todo lo
gasolina, estamos obligados a garantizar que las pun- que se puede pedir para empezar. El error cometido al
tuaciones de nuestros tests sean precisas, tengan poco medir alguna variable con un test (e) puede deberse a
error, el problema es que esto no se sabe escrutando di- muchas razones, que pueden estar en la propia persona,
rectamente las puntuaciones que obtienen las personas en el contexto, o en el test, una clasificacin bastante ex-
en los tests, esas puntuaciones vistas as de frente no nos haustiva de las fuentes posibles de error puede consultar-
dicen nada acerca de su grado de precisin. Como no se en Stanley (1971). Para poder avanzar Spearman
lo podemos hacer as de frente, es por lo que tenemos aade tres supuestos al modelo y una definicin, veamos
que dar algunos rodeos, es decir, es por lo que tenemos cules son.
que plantear algunos modelos que subyacen a las pun- El primer supuesto es definir la puntuacin verdadera
tuaciones a fin de ser capaces de estimar el grado de (V) como la esperanza matemtica de la puntuacin em-
precisin de stas. El error est mezclado con la verda- prica, que formalmente puede escribirse as: V = E(X).
dera puntuacin, como la sal en el agua del mar, o el Lo que esto significa conceptualmente es que se define la
polvo con la paja, y para separarlos necesitamos llevar puntuacin verdadera de una persona en un test como
a cabo algunos procesos y ah es donde entran las teor- aquella puntuacin que obtendra como media si se le
as o modelos estadsticos. Modelos para esto ha habido pasase infinitas veces el test. Se trata de una definicin
muchos, pero uno de los que se ha mostrado ms eficaz terica, nadie va a pasar infinitas veces un test a nadie,
y parsimonioso es el modelo lineal clsico propuesto ori- por razones obvias, pero parece plausible pensar que si

60
JOS MUIZ Seccin Monogrfica

esto se hiciese la puntuacin media que esa persona sa- aumenta o disminuye su longitud; o las frmulas de ate-
case en el test sera su verdadera puntuacin. nuacin que permiten estimar el coeficiente de validez
En el segundo supuesto Spearman asume que no existe de una prueba si se atenan los errores de medida, tan-
relacin entre la cuanta de las puntuaciones verdaderas to de la prueba como del criterio. Por no hablar de la
de las personas y el tamao de los errores que afectan a frmula que permite estimar los cambios en la fiabilidad
esas puntuaciones. En otras palabras, que el valor de la de un test cuando vara la variabilidad de la muestra en
puntuacin verdadera de una persona no tiene nada la que se calcula. En suma, el modelo lineal clsico ex-
que ver con el error que afecta esa puntuacin, es decir, puesto, junto con los supuestos asumidos y la definicin
puede haber puntuaciones verdaderas altas con errores de tests paralelos estn a la base de todas las frmulas
bajos, o altos, no hay conexin entre el tamao de la clsicas utilizadas habitualmente por los psiclogos que
puntuacin verdadera y el tamao de los errores. De se valen de los tests en su prctica profesional. Alguien
nuevo se trata de un supuesto en principio razonable, podra decir que para usar estas frmulas no hace falta
que formalmente puede expresarse as: r (v,e) = 0. saber de donde vienen, ni cual es su fundamento, pero
El tercer supuesto establece que los errores de medida tal aserto no es digno de un psiclogo que se respete a
de las personas en un test no estn relacionados con los si mismo, a su ciencia, y a su profesin.
errores de medida en otro test distinto. Es decir, no hay De modo que cuando los psiclogos manejan sus coefi-
ninguna razn para pensar que los errores cometidos en cientes de fiabilidad y validez para indicar a sus clientes
una ocasin vayan a covariar sistemticamente con los o usuarios en general que los tests que utilizan son preci-
cometidos en otra ocasin. Formalmente este supuesto sos, tienen poco error de medida, han de saber que esa
puede expresarse as: r(ej, ek)=0. estimacin de la fiabilidad se puede hacer gracias a este
Estas asunciones parecen razonables y sensatas, pero sencillo modelo y a los supuestos planteados hace ya
no se pueden comprobar empricamente de forma direc- ms de cien aos.
ta, sern las deducciones que luego se hagan a partir de
ellas las que permitan confirmarlas o falsearlas. Tras TEORA DE LA GENERALIZABILIDAD Y TESTS
cien aos formuladas y con muchos resultados empricos REFERIDOS AL CRITERIO
detrs, bien podemos decir hoy que las ideas de Spear- Este enfoque clsico ha generado diversas variantes sobre
man han sido de gran utilidad para la psicologa. todo en funcin del tratamiento dado al error de medida.
Adems del modelo y de estos tres supuestos, se formu- Ha habido numerosos intentos de estimar los distintos com-
la una definicin de lo que son Tests Paralelos, enten- ponentes del error, tratando de descomponerlo en sus par-
diendo por ello aquellos tests que miden lo mismo tes. De todos estos intentos el ms conocido y sistemtico es
exactamente pero con distintos tems. Las puntuaciones la Teora de la Generalizabilidad (TG) propuesta por Cron-
verdaderas de las personas en los tests paralelos seran bach y sus colaboradores (Cronbach, Gleser, Nanda y Ra-
las mismas, y tambin seran iguales las varianzas de los jaratnam, 1972). Se trata de un modelo de uso complejo,
errores de medida. que utiliza el anlisis de varianza para la mayora de sus
Pues bien, el modelo lineal, junto con los tres supuestos clculos y estimaciones.
enunciados, y la definicin de tests paralelos propuesta, Otro desarrollo psicomtrico surgido en el marco clsi-
constituyen el cogollo central de la Teora Clsica de los co ha sido el de los Tests Referidos al Criterio (TRC). Se
Tests. Un curso sistemtico de Psicometra consiste en trata de tests utilizados fundamentalmente en el mbito
llevar a cabo las deducciones correspondientes para a educativo y en la evaluacin en contextos laborales. Su
partir de esos ingredientes llegar a las frmulas que objetivo es determinar si las personas dominan un crite-
permiten estimar el grado de error que contienen las rio concreto o campo de conocimiento, por tanto no pre-
puntuaciones de los tests, y que se denomina habitual- tenden tanto discriminar entre las personas, como la
mente Fiabilidad de los Tests, vase al respecto el traba- mayora de los tests psicolgicos, sino evaluar en qu
jo de Prieto y Delgado (2010) en este mismo grado conocen un campo de conocimiento denominado
monogrfico. Tambin se obtienen otras frmulas popu- criterio, de ah su nombre. Estos tests se desarrollan a
lares de la psicometra, como la de Spearman-Brown, partir de la propuesta de Glaser (1963) y han tenido
que permite estimar la fiabilidad de un test cuando se una gran influencia sobre todo en el mbito educativo.

61
Seccin Monogrfica LAS TEORAS DE LOS TESTS

Los indicadores psicomtricos clsicos desarrollados a distintos tests son equiparables, lo cual es difcil de ga-
partir del modelo lineal clsico no se adaptaban bien a rantizar en la prctica. Si eso falla la comparacin se
la filosofa de construccin de estos nuevos tests, por lo viene abajo. No hay duda que lo ms deseable cientfi-
que se ha desarrollado todo un conjunto de tecnologa camente sera que los resultados obtenidos al utilizar dis-
psicomtrica especfica para calcular la fiabilidad y vali- tintos instrumentos estuviesen en la misma escala, y todo
dez, as como para establecer los puntos de corte que quedara resuelto de un plumazo, pues bien, por extrao
determinan si una persona domina o no el criterio eva- y contra intuitivo que parezca eso es precisamente lo
luado (Berk, 1984; Cizek, 2001; Educational Measure- que va a conseguir el enfoque de la TRI. Este nuevo enfo-
ment, 1994; Muiz, 2000). que de la TRI va a suponer un gran avance para la me-
dicin psicolgica, propiciando un gran desarrollo de
LIMITACIONES DEL ENFOQUE CLSICO nuevos conceptos y herramientas psicomtricas.
Del enfoque de la teora clsica bien podra decirse La segunda gran cuestin no bien resuelta dentro del
que goza de muy buena salud, hay pocas dudas de su marco clsico era la ausencia de invarianza de las pro-
utilidad y eficacia, baste decir, por ejemplo, que la piedades de los tests respecto de las personas utilizadas
gran mayora de los tests editados en Espaa, prctica- para estimarlas. En otras palabras, propiedades psico-
mente todos, estn desarrollados y analizados dentro mtricas importantes de los tests, tales como la dificultad
de este marco. Ahora bien, si es as, la pregunta obli- de los tems, o la fiabilidad del test, estaban en funcin
gada es por qu hacen falta otras teoras de los tests, del tipo de personas utilizadas para calcularlas, lo cual
o, en otras palabras, qu problemas de medicin no resulta inadmisible desde el punto de vista de una medi-
quedaban bien resueltos dentro del marco clsico para cin rigurosa. Por ejemplo, la dificultad de los tems, o
que se propongan nuevas teoras? Pues bien, haba los coeficientes de fiabilidad dependen en gran medida
dos cuestiones bsicas que no encontraban buena solu- del tipo de muestra utilizada para calcularlos. Este pro-
cin en la teora clsica y que hacan que la medicin blema tambin encontrar una solucin adecuada den-
psicolgica no fuese homologable a la que exhiban tro del marco de la TRI.
otras ciencias empricas. Aparte de estas dos grandes cuestiones, haba otras
Veamos la primera: dentro del marco clsico, las medi- menores de carcter ms tcnico a las que la teora cl-
ciones no resultan invariantes respecto al instrumento uti- sica no daba una buena solucin. Por ejemplo, cuando
lizado. Se preguntarn con razn qu quiere decir se ofrece un coeficiente de fiabilidad de un test en el
exactamente esa afirmacin un tanto crptica. Es muy marco clsico, como el coeficiente alfa de Cronbach
sencillo, si un psiclogo evala la inteligencia de tres (1951), se est presuponiendo que ese test mide con una
personas distintas con un test diferente para cada perso- fiabilidad determinada a todas las personas evaluadas
na, los resultados no son comparables, no podemos de- con el test, cuando tenemos evidencia emprica ms que
cir en sentido estricto qu persona es ms inteligente. suficiente de que los tests no miden con la misma preci-
Esto es as porque los resultados de los tres tests no estn sin a todas las personas, dependiendo la precisin en
en la misma escala, cada test tiene la suya propia. Esto gran medida del nivel de la persona en la variable medi-
puede sorprender a los psiclogos usuarios habituales da. El nuevo marco de la TRI va a solucionar este proble-
de la teora clsica, acostumbrados en la prctica a ma ofreciendo la Funcin de Informacin, que permite
comparar la inteligencia de personas que han sido eva- estimar la fiabilidad de la prueba en funcin del nivel de
luadas con distintos tests de inteligencia. Para hacerlo se la persona en la variable medida.
transforman las puntuaciones directas de los tests en Adems de estas cuestiones centrales, la TRI va a gene-
otras baremadas, por ejemplo en percentiles, con lo que rar toda una tecnologa psicomtrica nueva que cambia-
se considera que se pueden ya comparar, y de hecho as r para siempre la forma de hacer psicometra; vase
se hace. Este proceder clsico para solventar el proble- por ejemplo en este mismo nmero monogrfico el tra-
ma de la invarianza no es que sea incorrecto, pero, bajo de Olea, Abad y Barrada (2010). Ahora bien, con-
amn de poco elegante cientficamente, descansa sobre viene dejar muy claro que estos nuevos modelos de TRI
un pilar muy frgil, a saber, se asume que los grupos de ninguna manera invalidan el enfoque clsico, si bien
normativos en los que se elaboraron los baremos de los constituyen un excelente complemento que en determina-

62
JOS MUIZ Seccin Monogrfica

das circunstancias dan solucin a problemas mal resuel- ntese que por estas fechas an nos movemos a nivel
tos en el marco clsico. Ambas tecnologas conviven per- meramente terico y estadstico, muy lejos de las aplica-
fectamente en la construccin y anlisis de los tests, igual ciones prcticas de estos nuevos modelos. El gran impul-
que coches y aviones lo hacen en el transporte, valga la so lo darn Lord y Novick (1968) en su famoso libro, en
analoga, unos son aconsejables en determinadas situa- el cual dedican cinco captulos al tema. A partir de su li-
ciones, y otros lo son en otras. bro las investigaciones sobre los modelos de TRI domina-
Veamos los conceptos fundamentales sobre los que se rn la psicometra, hasta nuestros das. A partir de esa
apoyan los modelos de TRI. fecha empiezan a aparecer los programas informticos
necesarios para utilizar los modelos de TRI, tales como
TEORA DE RESPUESTA A LOS TEMS (TRI) BICAL y LOGIST en 1976, BILOG en 1984, MULTI-
Como se acaba de sealar en el apartado anterior, la LOG, 1983, y otros muchos. En 1980 Lord publicar un
TRI va a resolver algunos graves problemas de la medi- influyente libro (Lord, 1980) dedicado a las aplicaciones
cin psicolgica que no encontraban una solucin ade- de la TRI. De esas fechas hasta hoy los avances han sido
cuada dentro del marco clsico. Ahora bien, para poder notorios, y podemos decir que en nuestros das la TRI
hacerlo tiene que pagar el peaje de formular modelos domina el panorama psicomtrico. Una introduccin a
ms complejos y menos intuitivos que el modelo clsico, la TRI en espaol puede consultarse por ejemplo en Mu-
sin que ello suponga que entraen dificultades especia- iz (1997a), en ingls es muy recomendable el libro de
les. Pero antes de pasar a exponer los fundamentos de
estos modelos, vamos a dar unas breves pinceladas de GRFICO 1
CURVA CARACTERSTICA DE UN TEM (CCI)
su nacimiento histrico, para as ayudar al lector a ubi-
carlos en la historia de la psicologa. Quienes estn inte-
resados en una descripcin detallada de los aspectos
histricos pueden consultar por ejemplo el trabajo de
Probabilidad

Muiz y Hambleton (1992), titulado medio siglo de teo-


ra de respuesta a los tems.

RESEA HISTRICA
En ciencia pocos avances surgen de repente, de la noche
a la maana, sin incubacin, lo ms habitual es que se Variable media

produzca un proceso gradual que en un momento deter-


minado cuaja en una nueva lnea de trabajo. Y eso es
ms o menos lo que ha pasado con la TRI, sus primeros GRFICO 2
CURVAS CARACTERSTICAS DE OCHO TEMS
atisbos pueden rastrearse en trabajos pioneros de Thurs-
tone all por los aos veinte (Thurstone, 1925), que se
continan en los cuarenta con las aportaciones de auto-
res como Lawley (1943, 1944) o Tucker (1946). Como
se puede ver ya en estos aos de pleno dominio de la
Teora Clsica se estn dando los primeros pasos de los
que luego vendra a denominarse TRI. Esos son los orge-
Probabilidad

nes remotos, pero ser el gran psicmetra Frederic Lord


(1952) quien en su tesis doctoral dirigida por Gulliksen,
el gran sintetizador de la Teora Clsica, ponga los pri-
meros ladrillos firmes de la TRI. Birnbaum en los aos
cincuenta aporta nuevos avances, pero ser el matemti-
co dans Rasch (1960), quien proponga su hoy famoso
modelo logstico de un parmetro. Bien podemos tomar Variable media

esa fecha como el momento de despegue de la TRI, pero

63
Seccin Monogrfica LAS TEORAS DE LOS TESTS

Hambleton, Swaminathan y Rogers (1991). Veamos a valor que tomen tres parmetros: a, b y c. Siendo a el
continuacin los supuestos y los modelos de TRI. ndice de discriminacin del tem, b la dificultad del tem
y c la probabilidad que hay de acertar el tem al azar.
SUPUESTOS Segn los parmetros tomen unos valores u otros se ge-
Para resolver los problemas citados anteriormente que neran distintas formas de curvas, como se puede ver en
no encontraban una buena solucin dentro del marco el grfico 2.
clsico, la TRI va a tener que hacer unas asunciones Naturalmente los valores de los parmetros se calculan
ms fuertes y restrictivas que las hechas por la Teora a partir de los datos obtenidos al aplicar los tems a una
Clsica. El supuesto clave en los modelos de TRI es que muestra amplia y representativa de personas. Para estos
existe una relacin funcional entre los valores de la va- clculos son necesarios sofisticados programas de orde-
riable que miden los tems y la probabilidad de acertar nador, no en vano los modelos de TRI no se extendieron
estos, denominando a dicha funcin Curva Caractersti- hasta que se dispuso de ordenadores potentes.
ca del tem (CCI) (Muiz, 1997a). Un ejemplo de lo di- La mayora de los modelos de TRI, y desde luego los
cho puede verse en el grfico 1, ntese que al ms populares, asumen que los tems constituyen una so-
aumentar los valores de la variable medida, denomina- la dimensin, son unidimensionales, por tanto antes de
da , aumenta la probabilidad de acertar el tem P(). utilizar estos modelos hay que asegurarse de que los da-
Los valores de la variable medida, sea la que sea, se tos cumplen esa condicin. Esto supone una restriccin
encuentran entre menos infinito y ms infinito, mientras importante para su uso, pues es bien sabido que muchos
que en la teora clsica los valores dependan de la es- de los datos que manejan los psiclogos no son esencial-
cala de cada test, yendo desde el valor mnimo obteni- mente unidimensionales, si bien es verdad que los mode-
ble en el test hasta el mximo. los siguen funcionando bastante bien cuando los datos
La forma concreta de la CCI viene determinada por el no son estrictamente unidimensionales, es decir son bas-
tante robustos a violaciones moderadas de la unidimen-
TABLA 1 sionalidad (Cuesta y Muiz, 1999).
DIFERENCIAS ENTRE LA TEORA CLSICA Y LA TEORA Un tercer supuesto de los modelos de la TRI es la deno-
DE RESPUESTA A LOS TEMS
minada Independencia Local, que significa que para uti-
Aspectos Teora Clsica Teora de Respuesta a lizar estos modelos los tems han de ser independientes
los tems unos de otros, es decir, la respuesta a uno de ellos no
Modelo Lineal No Lineal
puede estar condicionada a la respuesta dada a otros
Asunciones Dbiles (fciles de Fuertes (difciles de
cumplir por los datos) cumplir por los datos)
tems. En realidad si se cumple la unidimensionalidad
tambin se cumple la Independencia Local, por lo que a
Invarianza de las No S veces ambos supuestos se tratan conjuntamente.
mediciones
Invarianza de las No S
MODELOS
propiedades del test
Escala de las Entre cero y la Entre - y +
Con los supuestos sealados, segn se elija para la Cur-
puntuaciones puntuacin mxima en va Caracterstica de los tems una funcin matemtica u
el test otra tendremos distintos modelos, por eso se suele hablar
nfasis Test tem
de modelos de TRI. Tericamente habra infinitos posi-
Relacin tem-Test Sin especificar Curva Caracterstica
del tem
bles modelos, pues funciones matemticas donde elegir
Descripcin de los tems ndices de Dificultad y Parmetros a, b, c hay de sobra, ahora bien las funciones ms utilizadas
de Discriminacin por razones varias son la funcin logstica y la curva
Errores de medida Error tpico de medida Funcin de Informacin normal. La funcin logstica tiene muchas ventajas sobre
comn para toda la (vara segn el nivel de
la curva normal, pues da resultados similares y sin em-
muestra aptitud)
Tamao Muestral Puede funcionar bien Se recomiendan ms bargo es mucho ms fcil de manejar matemticamente,
con muestras entre 200 de 500 sujetos, aunque as que los tres modelos de TRI ms utilizados son los
y 500 sujetos depende del modelo modelos logsticos, que adoptan la funcin logstica co-
aproximadamente
mo Curva Caracterstica de los tems. Si slo se tiene en

64
JOS MUIZ Seccin Monogrfica

cuenta la dificultad de los tems (parmetro b) estamos evaluacin precisa y rigurosa no se puede hacer un
ante el modelo logstico de un parmetro, o modelo de diagnstico certero, y sin ste resulta imposible una in-
Rasch, por haber sido propuesto por este autor en 1960 tervencin eficaz.
(Rasch, 1960). Si adems de la dificultad se tiene en
cuenta el ndice de discriminacin de los tems (parme- REFERENCIAS
tro a) estamos ante el modelo logstico de dos parme- Anastasi, A., y Urbina, S. (1998). Los tests psicolgicos.
tros, y si adems se aade la probabilidad de acertar el Mxico: Prentice Hall.
tem al azar (parmetro c), tenemos el modelo logstico Andrs-Pueyo, A. (1996). Manual de psicologa diferen-
de tres parmetros. Este modelo es el ms general de los cial. Madrid: McGraw Hill.
tres, en realidad los otros dos son casos particulares, as Berk, R. A. (Ed.) (1984). A guide to criterion referenced
cuando el parmetro c es cero tenemos el modelo de dos test construction. Baltimore, MD: The Johns Hopkins
parmetros, y cuando adems el parmetro a es igual University Press.
para todos los tems, se convierte en el modelo de Rasch. Binet, A. y Simon, T. H. (1905). Methodes nouvelles pour
Vase a continuacin la frmula del modelo logstico de le diagnostic du niveau intellectuel des anormaux.
tres parmetros, donde P() es la probabilidad de acer- L'anne Psychologique, 11, 191-244.
tar el tem, es la puntuacin en la variable medida, a, Carretero-Dios, H., y Prez, C. (2005). Normas para el
b y c son los tres parmetros descritos, e es la base de desarrollo y revisin de estudios instrumentales. Inter-
los logaritmos neperianos (2,72) y D es una constante national Journal of Clinical and Health Psychology, 5,
que vale 1,7. 521-551.
P() = c + (1-c) [e Da(-b) /(1+e Da(-b) )] Carroll, J. B. (1993). Human cognitive abilities: A survey
En la actualidad hay ms de cien modelos de TRI, que of factor-analytic studies. Nueva York: Cambridge
se utilizan segn el tipo de datos manejados, as dispo- University Press.
nemos de modelos para escalas tipo Likert, para datos Cizek, G. J. (Ed.) (2001). Setting performance stan-
dicotmicos, o para datos multidimensionales. Una bue- dards: Concepts, methods, and perspectives. Londres:
na clasificacin y revisin de los modelos puede consul- LEA:
tarse en el libro de Van der Linden y Hambleton (1997). Colom, B. R. (1995). Tests, inteligencia y personalidad.
Madrid: Pirmide.
COMPARACIN DE LA TEORA CLSICA CON LA TRI Cronbach, L. J. (1951). Coefficient alpha and the inter-
En la tabla 1, tomada de Muiz (1997a), se sintetizan las nal structure of tests. Psychometrika, 16, 297-334.
diferencias y similitudes entre el enfoque clsico y la TRI. Cronbach, L.J., Gleser, G., Nanda, H., y Rajaratnam, N.
(1972). The dependability of behavioral measure-
A MODO DE CONCLUSIN ment: Theory of generalizability for scores and profi-
El objetivo de este artculo ha sido el presentar de una les. Nueva York: Wiley.
manera no tcnica a los psiclogos profesionales, lecto- Cuesta, M. y Muiz, J. (1999). Robustness of item res-
res de Papeles del Psiclogo, las teoras ms influyentes ponse logistic models to violations of the unidimensio-
en la construccin y anlisis de los tests: la Teora Clsi- nality assumption. Psicothema, Vol. 11, 175-182
ca de los Tests y la Teora de Respuesta a los tems. Espe- Downing, S. M., y Haladyna, T. M. (2006). Handbook
ro que estos fundamentos les ayuden a entender e of test development. Mahwah, NJ: Lawrence Erlbaum
interpretar un poco mejor los datos psicomtricos que Associates.
habitualmente se ofrecen sobre los tests. Tambin sera Educational Measurement: Issues and Practice (1994).
bueno que ello les animase a refrescar sus conocimientos Nmero monogrfico dedicado a los treinta aos de
psicomtricos y a profundizar en aspectos nuevos rele- tests referidos al criterio. Vol. 13, n 4.
vantes para su prctica profesional. Todo lo relativo a la Glaser, R. (1963). Instructional technology and the mea-
medicin psicolgica ha evolucionado muy rpido en las surement of learning outcomes: Some questions. Ame-
ltimas dcadas, producindose importantes avances rican Psychologist, 18, 519-521.
que es necesario seguir de cerca para no quedarse atrs Gulliksen, H. (1950). Theory of mental tests . Nueva
en el mbito de la evaluacin psicolgica, pues sin una York: Wiley.

65
Seccin Monogrfica LAS TEORAS DE LOS TESTS

Hambleton, R. K., Swaminathan, H., y Rogers, J. (1991). matizados y otros nuevos tipos de tests. Papeles del
Fundamentals of item response theory. Beverly Hills, Psiclogo, 31(1), 97-107
CA: Sage. Perea, J. (2007). Una tea en la psicometra espaola.
Juan-Espinosa, M. (1997). Geografa de la inteligencia Madrid: Tea Ediciones.
humana. Madrid: Pirmide. Prieto, G. y Delgado, A. (2010). Fiabilidad y validez.
Lawley, D. N. (1943). On problems connected with item Papeles del Psiclogo, 31(1), 67-74
selection and test construction. Proceedings of the Ro- Prieto, G. y Muiz, J. (2000). Un modelo para evaluar la
yal Society of Edimburg, 61, 273-287. calidad de los tests utilizados en Espaa. Papeles del
Lawley, D. N. (1944). The factorial analysis of multiple Psiclogo, 77, 65-71.
item tests. Proceedings of the Royal Society of Edim- Rasch, G. (1960). Probabilistic models for some intelli-
burg, 62, 74-82. gence and attainment tests. Copenhague: The Danish
Lord, F. M. (1952). A theory of test scores. Psychometric Institute for Educational Research.
Monographs, n 7. Schmeiser, C. B., y Welch, C. (2006). Test development.
Lord, F. M. (1980). Applications of item response theory En R. L. Brennan (Ed.), Educational Measurement (4th
to practical testing problems. Hillsdale, NJ: LEA. ed.) (pp. 307-353). Westport, CT: American Council
Lord, F. M., y Novick, M. R. (1968). Statistical theories on Education/Praeger.
of mental test scores. New York: Addison-Wesley. Spearman, C. (1904). The proof and measurement of as-
Morales, P., Urosa, B., y Blanco, A. B. (2003). Construc-
sociation between two things. American Journal of
cin de escalas de actitudes tipo Likert. Madrid: La
Psychology, 15, 72-101.
Muralla.
Spearman, C. (1907). Demonstration of formulae for
Muiz, J. (1997a) Introduccin a la teora de respuesta a
true measurement of correlation. American Journal of
los tems. Madrid: Pirmide.
Psychology, 18, 161-169.
Muiz, J. (1997b). Aspectos ticos y deontolgicos de la
Spearman, C. (1913). Correlations of sums and differen-
evaluacin psicolgica. En A. Cordero (ed.), La eva-
ces. British Journal of Psychology, 5, 417-426.
luacin psicolgica en el ao 2000. Madrid: Tea Edi-
Stanley, J. C. (1971). Reliability. En R. L. Thorndike (Ed.),
ciones.
Educational Measurement. Washington: American
Muiz, J. (2000). Teora Clsica de los Tests. Madrid: Pi-
council on Education.
rmide.
Terman, L. M. (1916). The measurement of intelligence.
Muiz, J. (2005). Classical test models. En B. S. Everitt
Boston: Houghton Mifflin.
and D. C. Howell (Eds.), Encyclopedia of Statistics in
Behavioral Science. Chichester: John Wiley and Sons. Thurstone, L. L. (1925). A method of scaling psychologi-
(Vol. 1, pp. 278-282). cal and educational tests. The Journal of Educational
Muiz, J., y Bartram, D. (2007). Improving international Psychology, 16, 433-451.
tests and testing. European Psychologist, 12, 206- Thurstone, L. L. (1938). Primary mental abilities. Psycho-
219. metric Monographs, n 1.
Muiz, J., Bartram, D., Evers, A., Boben, D., Matesic, K., Thurstone, L. L. y Thurstone. T. G. (1941). Factorial stu-
Glabeke, K., Fernndez-Hermida, J. R. y Zaal, J. dies of intelligence. Psychometric Monographs, n 2.
(2001). Testing practices in European countries. Euro- Tucker, L.R. (1946). Maximum validity of a test with equi-
pean Journal of Psychological Assessment , 17(3), valent items. Psychometrika, 11, 1-13.
201-211. Van der Linden, W. J. y Hambleton, R. K. (Eds.) (1997).
Muiz, J. y Fonseca-Pedrero, E. (2008). Construccin de Handbook of modern item response theory. Nueva
instrumentos de medida para la evaluacin universita- York: Springer-Verlag.
ria. Revista de Investigacin en Educacin, 5, 13-25. Wilson, M. (2005). Constructing measures: An item res-
Muiz, J. y Hambleton, R. K. (1992). Medio siglo de teo- ponse modeling approach. Mahwah, NJ: Lawrence
ra de respuesta a los tems. Anuario de Psicologa, Erlbaum Associates.
52(1), 41-66. Wissler, C. (1901). Correlation of mental and physical
Olea, J., Abad, F.J y Barrada, J.R. (2010). Tests infor- traits. Psychological Monographs, 3, n 16.

66

Das könnte Ihnen auch gefallen