Principios de Psicometría

PRINCIPIOS DE PSICOMETRÍA
Consulte nuestra página web: www.sintesis.com

En ella encontrará el catálogo completo y comentado
PRINCIPIOS DE PSICOMETRÍA
CARMEN SANTISTEBAN REQUENA
EDITORIAL
SINTESIS
Vallehermoso, 34
28015 MADRID
Telf: (91) 593 20 98
Fax: (91) 445 86 96
Diseño y óleo de cubierta: Verónica Rubio
Reservados todos los derechos. Está prohibido, bajo las sanciones

penales y el resarcimiento civil previstos en las leyes, reproducir, registrar
o transmitir esta publicación, íntegra o parcialmente,
por cualquier sistema de recuperación y por cualquier medio,
sea mecánico, electrónico, magnético, electroóptico, por fotocopia
o por cualquier otro, sin la autorización previa por escrito
de Editorial Síntesis, S. A.
© Carmen Santisteban Requena
© EDITORIAL SÍNTESIS, S. A.
Vallehermoso, 34. 28015 Madrid
Teléfono 91 593 20 98
http://www.sintesis.com
ISBN:
ISBN:978-84-975663-0-8
978-84-975683-4-0
Depósito Legal: M. 11.211-2009
Impreso en España - Printed in Spain

Índice
Prólogo 13
1. Psicometría y teoría de tests: Introducción 19

La medición de los atributos psicológicos y los instrumentos
que la hacen posible
1.1. Cuantificación y experimentación: Los inicios de la psicología
como ciencia cuantitativa 19
1.2. Los fundamentos de la psicometría 21
1.3. La medición de las aptitudes mentales 22
Algunos antecedentes 24
1.4. Tipos de tests 27

1.5. Variabilidad de las puntuaciones 28
Distribución de las puntuaciones 30
1.6. La interpretación de las puntuaciones 35

Las puntuaciones tipificadas (puntuaciones z) 36
Las escalas y las normas 38
1.7. Teorías y modelos 39

1.8. La construcción del test 46
La redacción de los ítems 48
La administración de los tests 48
Puntos clave 50
Actividades 51
2. Teoría clásica de los tests 53

El modelo lineal de Spearman
2.1. Formalización del modelo de Spearman 54
Hipótesis 54
6 Principios de Psicometría
2.2. Relaciones e índices que se deducen de las hipótesis 55

2.3. Condiciones de paralelismo entre medidas: Consecuencias 60
Medidas paralelas 60
Medidas tau-equivalentes 64
Comprobación del paralelismo 65
Consecuencias prácticas 66
Puntos clave 73
Actividades 73
3. Fiabilidad 75
Precisión de las medidas
3.1. El concepto de fiabilidad 76
3.2. Ecuaciones para definir y calcular la fiabilidad 78
Definiciones 78
Ecuación para un test compuesto por subtests 80
Valores e interpretación 81
3.3. Formas usuales de generar medidas repetidas 83

Test-retest 84
Formas paralelas 84
División en dos partes 85
3.4. Cálculo práctico de los coeficientes e índices de fiabilidad 86

3.5. Otras ecuaciones para el cálculo de la fiabilidad 90
Ecuación de Rulon 91
Ecuación de Flanagan y Guttman 94
Puntos clave 95
Actividades 96
4. Fiabilidad 99
Variabilidad y longitud de las pruebas
4.1. Fiabilidad y variabilidad de las puntuaciones 99
4.2. Fiabilidad y longitud de las pruebas 103
Ecuación de Spearman-Brown 104
Los valores de k 108
Variaciones de la fiabilidad con la longitud 108
Cambios en la longitud para valores prefijados de la fiabilidad 111
4.3. Relaciones entre fiabilidad, longitud y varianza 116

Puntos clave 119
Actividades 119
Índice 7
5. Fiabilidad 121
Consistencia interna: El coeficiente α
5.1. El coeficiente α y las ecuaciones de Kuder-Richardson 122
Coeficiente α 123
Ecuaciones de Kuder-Richardson 123
5.2. El coeficiente α: Cota inferior de la fiabilidad en tests compuestos 125

5.3. Casos particulares del coeficiente α 130
Ecuaciones de Rulon y de Flanagan y Guttman 130
Ecuación de Hoyt 131
5.4. El coeficiente β 136

5.5. Cálculo de α con técnicas de análisis de varianza 138
5.6. Coeficientes derivados del análisis factorial 141
El coeficiente Ω 141
El coeficiente θ 143
5.7. Variaciones de la fiabilidad 144

Cuantía 144
La fórmula de cálculo 145
Aplicación de la ecuación de Spearman-Brown 146
Puntos clave 149

Actividades 150
6. Inferencias 153
Estimación y contrastes de significación
6.1. Predicciones de la puntuación verdadera 153
6.2. Errores de medida, de estimación y de predicción 156
Tipos de errores 157
Relación entre los errores 159
6.3. Intervalos de confianza para la puntuación verdadera 159

6.4. Contrastes de medias 164
Diferencias entre la media de una muestra y la de la población 165
Diferencia de medias en muestras independientes 167
Diferencia de medias en muestras relacionadas 168
6.5. Significación e inferencias de los coeficientes de fiabilidad 173

Contrastes de coeficientes de correlación 174
Contrastes para coeficientes α 176
Puntos clave 179

Actividades 180
7. Teoría de la generalizabilidad 183

¿Cómo afectan a las medidas distintas facetas y fuentes de error?
7.1. Conceptos básicos y terminología 184
7.2. Estudios G 189
Diseño de una faceta 189
Diseño de dos facetas 193
7.3. Estudios D 196

Coeficientes de generalizabilidad y toma de decisiones 197
Diseño de una faceta 198
Diseño de dos facetas 201
7.4. Diseños anidados versus diseños cruzados 204

Puntos clave 205
Actividades 206
8. La validez 209
¿Qué es la validez?
8.1. El concepto de validez 209
8.2. Tipos de validez 211
8.3. Validez en relación con el contenido 216
Validez de contenido versus validez aparente 218
8.4. Asociaciones con otras variables: Evidencias de validez convergente

y discriminante 218
8.5. Validez en los procesos de respuesta 221
8.6. Validez en relación con el criterio 222
8.7. Validez de la estructura interna del test 223
8.8. Validez de constructo 224
Puntos clave 227
Actividades 227
9. La validez 229
Evaluación de las evidencias de validez
9.1. Validación del contenido 230
9.2. El coeficiente de validez 231
Validez y fiabilidad 232
Validez y longitud 236
Acotación del valor del coeficiente de validez 239
Coeficientes derivados del coeficiente de validez 240
Validez y representación muestral 243
Índice 9
9.3. Validez relativa al criterio 247

Pronóstico mediante regresión lineal simple 247
Pronósticos mediante una batería de predictores 250
Selección de las variables predictoras 252
9.4. Evaluación de la validez convergente y discriminante 253

Red nomológica y correlaciones 255
El método de Westen y Rosenthal 256
Matrices multirrasgo-multimétodo 257
9.5. Validez de la estructura interna del test 260

Puntos clave 264
Actividades 265
10. La validez 267

Coeficiente de validez y toma de decisiones
10.1. Detección, clasificación y diagnóstico 267
Sensibilidad y especificidad 270
Curvas ROC 273
10.2. Interpretaciones y uso práctico del coeficiente de validez 276

BESD 276
Tablas de Taylor-Russell 279
10.3. Análisis de la utilidad 284

Puntos clave 290
Actividades 291
11. Teoría de la respuesta al ítem 293

Aspectos generales
11.1. Orígenes y objetivos de la teoría de la respuesta al ítem 294
11.2. Aspectos generales 297
Dimensionalidad del espacio del rasgo 297
Independencia local 299
La curva característica del ítem (CCI) 306
Regresión y curvas características 307
11.3. La puntuación verdadera y la escala de aptitud 310

Puntos clave 312
Actividades 313

Modelos
12.1. Modelos ojiva normal 316
Tipos de modelos ojiva normal 317
12.2. Significado de los parámetros ai y bi 319

12.3. Modelos logísticos 325
Modelo logístico de dos parámetros 327
Modelo logístico de tres parámetros 331
Modelo logístico de cuatro parámetros 333
12.4. El modelo de Rasch 335

12.5. Otros modelos 339
12.6. Estimación de los parámetros de los modelos 341
El método de máxima verosimilitud 343
Métodos condicionales y no condicionales 346
Puntos clave 350

Actividades 351

Funciones de información y aplicaciones
13.1. Funciones de información 354
Función de información del ítem 354
Función de información del test 357
13.2. Las funciones de información en diferentes modelos 358

13.3. Curvas de información 361
Ponderaciones 363
Aplicabilidad 367
Bancos de ítems 368
Tests adaptativos computarizados 368
13.4. Eficiencia relativa 369

13.5. La métrica y los valores de las funciones de información 372
13.6. Resumen de los procedimientos 373
Puntos clave 374
Actividades 375
14. El sesgo en los tests 377

Sesgos y comportamiento diferencial de los ítems
14.1. El sesgo en los tests 378
14.2. Detección y estimación de sesgo en la evaluación del constructo 379
Índice 11
Consistencia interna 380

Índices de discriminación 380
Rango de dificultad 380
Análisis factorial 381
Funcionamiento diferencial de los ítems 382
14.2. El método Mantel-Haenszel para estimar el DIF 384

Significación estadística de los valores α MH 386
14.3. Estimación del DIF haciendo uso de las CCI 392

Puntos clave 398
Actividades 399
15. Medición y psicometría 401

Medición, escalas e interpretación de las puntuaciones
15.1. Psicología, psicometría y medición 402
15.2. Métrica y espacios métricos 404
15.3. Medición, estructuras, representación y escalas 405
El problema de la representación 406
El problema de la unicidad 407
El problema del significado 408
15.4. Medición directa e indirecta 409

15.5. Tipos de escalas 411
Escalas ordinales 413
Escalas de intervalo y de razón 413
Transformaciones admisibles 415
15.6. Interpretación de las puntuaciones: Escalas y normas 417

Escalas estandarizadas 419
Normas centiles 419
Escalas de puntuaciones normalizadas 421
Equiparación de puntuaciones 423
La escala de aptitud θ en la TRI 426
Puntos clave 427

Actividades 428
Bibliografía 431
Índice de contenidos 445

Prólogo
Los avances científicos y tecnológicos están cimentados en la cuantificación y en la

experimentación, estableciendo la diferenciación entre ciencia y creencia. Esta dife-
renciación no es específica de las ciencias sociales y de la conducta, al enfrentarse
con el reto de hacer ciencia en su intento de comprender y predecir la conducta
humana, sino que abarca todos los campos del saber. La contraposición entre Astro-
nomía y Astrología o entre Química y Alquimia son sólo dos ejemplos clásicos del
divorcio entre ciencias y creencias, aunque estas últimas puedan incluir un gran baga-
je de conocimientos acumulados durante siglos y se aborden con el mayor rigor filo-
sófico, con la máxima seriedad y buenas intenciones. La aportación indiscutible del
experimento, debidamente cuantificado, para la comprobación de teorías y de hipó-
tesis generadas por el desarrollo científico, es la que ha convertido a la Psicología en
una de las Ciencias con un desarrollo más espectacular durante el siglo XX, siendo
la Psicometría la parte de la Psicología que sirve de soporte a esta cuantificación.
Los conceptos métricos se introducen en ciencia para que, aprehendiendo el
significado de algunas propiedades de los elementos, sujetos y objetos, poder estu-
diarlos de forma sistematizada y, a ser posible, de una forma generalizada. La
medición es el núcleo de la ciencia y de sus aplicaciones, incluyendo a las ciencias
del comportamiento. Los estudios que se abordan desde la psicología, la educa-
ción u otras ciencias sociales y políticas se basan en la posibilidad de obtener
mediciones adecuadas de los atributos psicológicos y conductuales de los sujetos.
Este libro trata de cómo obtener mediciones utilizando tests psicológicos
como instrumentos de medida, evaluar la calidad de esas medidas y su aplicabili-
dad, que es el objetivo de la Psicometría. La exposición de estos temas se hace
desde el supuesto de que el lector pueda no tener conocimientos previos de esta
materia, por lo que los contenidos van fluyendo, desde el concepto a la técnica,
de forma monótona hasta alcanzar un nivel en el que, si se quiere ir más allá, no

se requieran nuevos conceptos, sino el uso de métodos y técnicas más avanzadas
que permitan abordar muchos de los temas que ya se apuntan en el texto. El libro
está dirigido a universitarios, tanto de grado como de posgrado, y a los profe-
sionales de las ciencias de la conducta (psicología, educación, medicina, sociolo-
gía, etc.), quienes pueden encontrar en este texto los fundamentos y la lógica de
muchos de los procedimientos que utilizan en la práctica. Este libro no sustitu-
ye, ni es su objetivo, a aquellos textos que se centran en aspectos puramente téc-
nicos en la construcción de tests, sin embargo, puede servir de ayuda y ser un
buen complemento de esos otros. Para hacer su lectura comprensiva al mayor
número de lectores posible, a veces se ponen ejemplos y se clarifican conceptos
o expresiones provenientes de otros contextos. También se aclara el significado
de algunos términos que son propios del ámbito de la estadística.
Al ser un libro de fundamentos, se ha puesto el acento en los aspectos más
básicos y conceptuales, aunque tratando en lo posible de dar una visión aplicada
de cada uno de ellos, vinculando esos conceptos con aspectos técnicos y aplica-
ciones. Con esta finalidad en este libro se incluyen ejercicios, tablas, gráficos y ejem-
plos tomados de la literatura, que ilustran los métodos y los procedimientos. Para
conseguir una mejor y más inmediata comprensión de dichos fundamentos, todos
los ejercicios y ejemplos se han simplificado de tal manera que el lector pueda repli-
carlos con ayuda de una simple calculadora manual, sin que tenga necesariamen-
te que acudir (aunque lógicamente puede hacerlo) a ninguno de los múltiples pro-
gramas informáticos que hay disponibles. Por otra parte, un texto de fundamentos
debe incluir deducciones formales que justifiquen el porqué de muchas de las afir-
maciones y ecuaciones que se proponen. Este libro incluye deducciones cuyo gra-
do de complejidad no exceda en exceso el propio de esta obra. Aun así, esos con-
tenidos se insertan en el texto generalmente en forma de cuadros cuya lectura
puede omitir el lector, al menos en una primera fase, sin que ello sea óbice para
seguir adecuadamente el desarrollo del tema que se esté tratando, procurando en
todo momento hacerlo asequible al tipo de lector al que va destinado.
La organización de los contenidos de los capítulos se hace procurando que el
lector vaya adentrándose en ellos de forma paulatina y que cada uno de los cono-
cimientos que adquiere demande alguno o algunos de los que se exponen a con-
tinuación. Por ello, al finalizar cada capítulo se hace una breve recopilación de
aquellos puntos o conceptos (Puntos clave) que el lector debe revisar antes
de pasar al siguiente capítulo. El primer capítulo se dedica a introducir al lector
Prólogo 15
en el significado de la medición psicológica, de sus orígenes y desarrollo, inci-

diendo en la importancia y el significado de las puntuaciones que se obtienen uti-
lizando los tests, haciendo mención expresa a los modelos psicométricos. Se tra-
ta pues de una visión general que de alguna manera anticipa cuáles son los temas
que se van a tratar posteriormente. Se recomienda, especialmente a aquellos lec-
tores con un conocimiento previo de algunos aspectos de la Psicometría, que tras
este capítulo primero aborden la lectura del capítulo 15. Probablemente habrá
partes de dicho capítulo 15 que les resulten demasiado complejas o difíciles de
entender, pero pueden pasar muy ligeramente por todo el capítulo y seguir con
el normal ordenamiento del libro para reemprender su lectura cuando hayan asi-
milado los contenidos del resto de capítulos.
En el capítulo 2 se presenta el modelo lineal que ha dado origen a la teoría clá-
sica de los tests, dedicándose los capítulos 3 al 5 a tratar el concepto de fiabilidad,
que es un concepto central en la teoría clásica, su estimación y su importancia en
la construcción, desarrollo y aplicaciones de los tests. En esos capítulos se insis-
te en la diferenciación entre diversos tipos de fiabilidad, en los conceptos y en los
procedimientos, dedicando en exclusiva el capítulo 5 al tratamiento de la consis-
tencia interna. La comprobación de la significación de los indicadores de la fia-
bilidad, así como la de las estimaciones de las puntuaciones, se pone a prueba
mediante los procedimientos de inferencia estadística, y es a lo que se dedica el
capítulo 6. Una extensión del modelo clásico que intenta superar las limitaciones
que el contexto clásico impone a la fiabilidad, aunque manteniéndose en el seno
de los modelos lineales, se presenta en el capítulo 7, donde se exponen los con-
ceptos básicos de la teoría de la generalizabilidad. Se incluyen en este capítulo
explicaciones y ejemplos de los métodos y de las técnicas más básicas que se uti-
lizan en esta teoría para realizar estudios de generalización y de decisión.
Los capítulos 8, 9 y 10 se dedican al tratamiento de la validez. Se examina el
concepto de validez, sus diferentes acepciones y clasificaciones en psicometría,
posicionándonos en la visión más actualizada que reflejan las Normas de 1999
(AERA, APA & NCME, 1999, las últimas publicadas cuando este libro se impri-
me). Se examinan los diferentes métodos para evaluar la validez y su utilidad en
el pronóstico y en el diagnóstico cuando para ello se utilizan tests. A lo largo de
esos capítulos se ha tratado de poner el énfasis en el significado de la validez en
cuanto a que es crucial que la posean los tests, desde su gestación hasta la inter-
pretación de las puntuaciones que con ellos se obtienen, puesto que la validez es
una condición imprescindible para poder establecer conclusiones.
En los capítulos 11 al 13 se presenta la teoría de la respuesta al ítem. Los con-

ceptos básicos se abordan en el capítulo 11, dedicando el 12 al tratamiento de los
modelos concretos (ojiva normal, logísticos y el modelo de Rasch). Se explicita la
forma y el significado de los modelos y de sus parámetros y cómo realizar la esti-
mación, tanto de esos parámetros como del rasgo, esto es, del nivel de aptitud del
sujeto que realiza la prueba. El capítulo 13 trata de la evaluación de la informa-
ción que cada ítem aporta al test y la cantidad de información que proporcionan
cada ítem y el test en los diferentes niveles del rasgo. Se introducen las expresio-
nes de las funciones de información para los diferentes modelos, presentando
algunas de sus aplicaciones.
En el capítulo 14 se abordan los problemas de sesgo en los tests y sus cone-
xiones con la validez, ya que la validez de un test implica ausencia de sesgos. Se
presentan algunos métodos para detectar las fuentes y evaluar el sesgo, en los que
se incluyen el estudio del comportamiento diferencial de los ítems. Especial énfa-
sis se pone en advertir que diferentes fuentes de sesgo pueden llevar a la no equi-
dad en la valoración de los sujetos y en las repercusiones personales y sociales que
el uso de tests sesgados puede tener en diversos ámbitos (educativos, empresa-
riales, jurídicos, clínicos, etc.).
Finalmente, el capítulo 15 se dedica a exponer el significado de la medición
en general y de la medición psicológica en particular, y las propiedades que
deben poseer las representaciones numéricas para que legítimamente estén
representando las magnitudes de aquello que se desea evaluar. Se explicitan esas
propiedades y cómo dan origen a las diferentes escalas. Por último, se presen-
tan algunos tipos de escalas, cómo se puede operar con ellas, las transforma-
ciones que admiten conservando sus propiedades y cómo se interpretan sus
puntuaciones. Muchos lectores se pueden preguntar por qué este capítulo se
ha situado al final, cuando debería ser el primero, pues las bases de la psico-
metría están en la medición. Las razones son que el tema de la medición no es
un tema fácil que se pueda abordar en un primer capítulo, sin más conocimientos
de sus implicaciones. Sin embargo, es más fácilmente comprensible si se pre-
senta después de haber tratado con modelos, con puntuaciones, con transfor-
maciones de las puntuaciones y haber percibido los problemas estructurales
que conlleva la medición. Por ello, se ha recomendado que se aborde la lectu-
ra, aunque sea superficial, de este capítulo antes de empezar con el segundo,
para volver a él cuando el lector lo considere conveniente y retomándolo como
capítulo final.
Prólogo 17
Hay que añadir que, además de los ejercicios y de las aclaraciones y deduccio-
nes que se dan en los cuadros que se insertan en los capítulos, se ha considerado
que el conocimiento de los orígenes y de la evolución de aspectos cruciales en psi-
cometría pueden ayudar a comprender mejor los conceptos y ser un incentivo
sobre todo para aquellos lectores para los que ésta es su primera aproximación a
la psicometría, además de que les permite situar en el marco adecuado los cono-
cimientos actuales y contemplar con perspectiva una prospectiva hacia donde con-
ducen los nuevos desarrollos. Para no interrumpir la lectura del tema, esta infor-
mación se da en cuadros a los que el lector puede prestar atención en ese u otro
momento.
Con la convicción de que la información no es formación y que el conoci-
miento se adquiere con el trabajo personal, se proponen al final de cada capítu-
lo, además del examen de los puntos más importantes tratados en el mismo, un
conjunto de actividades que es recomendable que el lector realice, unas porque
son una aplicación directa de lo expuesto en el capítulo, y otras porque suponen
que el lector dé un paso más con su elaboración personal.
Este libro está dedicado a Ángel Santisteban y Angustias Requena, mis padres,
y a mi esposo Manuel Cortijo.
Psicometría y teoría de tests:
Introducción
La medición de los atributos psicológicos y
los instrumentos que la hacen posible 1
El término psicometría indica medición en psicología. La psicometría actual
trata de las teorías, modelos, métodos, procedimientos y herramientas que
se utilizan en la medición psicológica, en sentido amplio. En este texto se
exponen las teorías y los modelos para el estudio de las diferencias indivi-
duales. Es conveniente conocer los orígenes de los tests e interpretar el sig-
nificado de las puntuaciones que con ellos se obtienen para entender los
principios básicos de la psicometría. Todo ello sin perder la perspectiva de
que otras materias, entre las que se incluyen la medición psicofísica, son
temas psicométricos que también estudian las diferencias individuales.
En este capítulo se va a tratar:
ã Los inicios de la psicología como ciencia cuantitativa.

ã La psicometría y la medición de las aptitudes mentales.
ã Los tipos de tests.
ã La variabilidad e interpretación de las puntuaciones.
ã Qué es un test y una breve reseña de las teorías y de los modelos
que dan soporte a la construcción de los tests psicométricos.
m1.1. Cuantificación y experimentación: Los iniciosm

de la psicología como ciencia cuantitativam
La psicología cuantitativa y experimental se puede decir que empieza con la publi-

cación en 1860 de Elemente der psychophysick por el científico alemán Fechner, un
físico preocupado por estudiar cuestiones psicológicas desde la medición y la
experimentación. La medición y la experimentación son los procedimientos que
comúnmente se consideran válidos en Ciencia, y son los que Fechner adopta

para abordar la investigación de las relaciones entre estímulos y sensaciones,
naciendo entonces la psicofísica como una nueva área científica de estudio. Tras
la publicación de esta obra, y durante varias décadas, la psicofísica fue la princi-
pal rama de la psicología en la que se intentó la cuantificación y el establecimiento
de relaciones entre las magnitudes, hasta que surgió el interés por la medición de
las aptitudes mentales. A principios del siglo XX, la medición de aptitudes y el
desarrollo de técnicas que la hicieran posible, fue cobrando tanta importancia
que colocó a la psicofísica en un segundo plano, dejando de ser el ámbito único
y preponderante de la psicología científica. Hacia mediados del siglo XX se avan-
za en la formalización y aparecen modelos para el estudio de algunos procesos
psicológicos, así como el desarrollo de métodos para su medición. Se puede decir
que la psicometría ha sido una de las mayores contribuciones que la psicología
moderna ha hecho a la sociedad a lo largo del siglo XX.
Es usual que muchos autores clasifiquen las tareas de cuantificación de las
que se ocupa la psicometría en dos grandes grupos: a) la de las diferencias indi-
viduales, utilizando tests psicológicos como instrumentos de medición, que es
lo que comúnmente se suele identificar con la psicometría y b) la cuantificación
de los estímulos y de los efectos percibidos, o más precisamente, la de las carac-
terísticas de las señales y la de los comportamientos de los sujetos que las reci-
ben, que se suele identificar con la psicofísica, como materia independiente de
la psicometría. No obstante, tanto si se utiliza una cuestión (ítem) planteada en
el contexto de los clásicamente denominados tests (psicometría), como si se uti-
liza un estímulo físico (psicofísica), ambos se podrían considerar como señales
o como estímulos. A esos estímulos son a los que el sujeto debe dar una res-
puesta, que es la que se evalúa en relación con las condiciones experimentales,
entre las que deben destacarse las propias características del estímulo. Además,
consideramos que tampoco está justificado llamar estudios de las diferencias
individuales sólo a aquellos que se derivan de la aplicación de tests psicológicos,
pues también existe un comportamiento diferencial de los sujetos cuando se apli-
can otros métodos como los psicofísicos. Lo que se puede afirmar es que una y
otra rama, unas veces juntas y aliadas, otras veces independientes y aparente-
mente contrapuestas, se han enfrentado al reto de la medición y de la experi-
mentación en el ámbito de la psicología, utilizando para su estudio y para la cons-
trucción de sus modelos métodos estadísticos y matemáticos, casi siempre de
naturaleza probabilística. Ambas disciplinas han generado sus propios procedi-
Capítulo 1. Psicometría y teoría de tests: Introducción 21
mientos de medición y han dado normas para la interpretación de las medidas

con la determinación de umbrales, la construcción de escalas de puntuaciones,
el escalamiento de los estímulos, etc. En la actualidad están emergiendo nuevas
teorías y, sobre todo, nuevas técnicas para el estudio del comportamiento huma-
no, abordándolo a través de la medida de la activación cerebral, son las llamadas
técnicas de imagen o de neuroimagen. Las más relevates son la magnetoencefa-
lografía (MEG), la resonancia magnética funcional (fMRI) y la tomografia de
emisión de positrones (PET). Utilizando estas técnicas se están abriendo nue-
vos horizontes en el conocimiento de las actitudes, procesos atencionales, ras-
gos de personalidad, etc., cuyo estudio hasta ahora se había abordado con téc-
nicas tradicionales. Las relaciones estímulo/s-respuesta/s se habían evaluado
fundamentalmente mediante puntuaciones, número de errores, tiempos de reac-
ción y tiempos de respuesta. Estos datos ahora se ven implementados con los
que se obtienen a través de la medición de la activación cerebral.
m1.2. Los fundamentos de la psicometríam
La psicometría es un campo de conocimiento cuyo nombre, compuesto por psi-

co y metría, la define como la medición de lo psicológico, o la medición en psi-
cología. Esta definición es aparentemente tan amplia e inespecífica que hay auto-
res que mencionan las dos ramas principales cuyo desarrollo se ha impulsado
desde la psicometría, los métodos psicofísicos y los de construcción de tests. Algu-
nos autores también definen la psicometría por sus objetivos, diciendo que sirve
para obtener estimaciones de las características de los sujetos, y otros la conside-
ran sólo en su acepción de herramienta para distintos fines, con lo que en casi
todos los casos se está tomando la parte por el todo. Revisando la definición que
se da en los manuales de diferentes países y en diferentes épocas, lo más frecuente
es que todos los autores mantengan en sus definiciones ese carácter general de
que la psicometría es medición en psicología, pero también muchas veces, bajo
esa amplia generalización hay alguna palabra que la restringe, como llamarla méto-
do, o técnica, aunque la extiendan a todos los aspectos de la psicología. El alto
grado en que la psicometría está al servicio de la medición psicológica y de los
instrumentos adecuados para efectuarla hace olvidar que tiene un bagaje teórico
propio y bien estructurado, que constituye un campo de conocimiento de donde
se nutren sus modelos y se inspiran muchas de sus técnicas.
En la literatura también se dan definiciones de la psicometría por extensión,

enumerando y describiendo los aspectos que la integran, tanto los teóricos como
sus aplicaciones. Por ello, al relacionar sus contenidos, hay autores que los redu-
cen a la teoría de tests y otros que incluyen no sólo las teorías, sino los métodos
estadísticos que se van desarrollado para contrastar y validar los modelos forma-
les que se ajustan a esas teorías, dándoles soporte, permitiendo la experimenta-
ción y, por ende, avances tanto en la teoría como en la práctica psicométrica.
m1.3. La medición de las aptitudes mentalesm
Es una creencia común, y de hecho es de fácil comprobación, que las personas

difieren en sus capacidades o aptitudes mentales. Basta con proponer un pro-
blema que implique algún tipo de razonamiento y muy probablemente, se pre-
sentarán distintas aproximaciones al problema y diferentes formas de solucio-
narlo, aun cuando los sujetos que responden tengan la misma edad, el mismo
nivel cultural, vivan en la misma ciudad, etc. Se supone que las aptitudes men-
tales son características propias de las personas y también se asume que esas
aptitudes son las principales responsables de las diferencias individuales que se
observan en la resolución de diferentes tareas intelectivas, aunque hay que admi-
tir la posible influencia de otras muchas variables, como por ejemplo, la moti-
vación, los diferentes rasgos de personalidad, así como la de algunos factores
ambientales o de contexto.
Las teorías que se han desarrollado bajo la hipótesis de la existencia de dife-
rencias individuales en las aptitudes mentales son muchas y variadas. Los pri-
meros intentos formales de medición de las aptitudes mentales aparecen en la
literatura con los trabajos de Binet (1903) y de Spearman (1904a, 1904b), inten-
tándose su medición a través de determinadas pruebas. Estas pruebas, que se
conocen universalmente bajo la denominación de tests psicométricos, y que se
aplican bajo condiciones relativamente estandarizadas, suelen estar compues-
tas por un conjunto de cuestiones o de problemas que se presentan a las per-
sonas para que den su respuesta, a veces eligiendo entre diferentes alternativas
o llegando a una determinada solución u otro tipo de respuesta, de acuerdo con
unos criterios previamente establecidos. Las formas de plantear las cuestiones,
así como los formatos de respuesta, son muy variados. Los tests son de diver-
sa complejidad y las cuestiones que se plantean pueden ir desde una simple ase-
veración con la que se pide consignar si se está o no de acuerdo, o el grado en

que se está de acuerdo, o marcar o descubrir el elemento que sigue en una deter-
minada secuencia lógica, hasta responder a algo más complejo, como puede ser
dar la resolución de un problema del que se pide que se especifiquen los pasos
para llegar a esa solución.
A cada una de las cuestiones o problemas que se plantean en la prueba (test)
es a lo que se le llama elemento, o más universalmente, ítem del test. El uso de las
denominaciones test, en lugar de prueba, e ítem, en lugar de elemento, se han
generalizado en la literatura, aun en los textos en español. En esta obra, salvo que
se indique lo contrario de forma expresa, se utilizan indistintamente los términos
prueba y test, como términos indiferenciables e intercambiables dentro de su con-
texto. Igualmente se hace con los términos elemento e ítem del test aunque, en
algunos casos, se verá que está justificado el que se consideren elementos que son
un compuesto, o sea, elementos que a su vez pueden estar compuestos por un
conjunto de otros elementos o de ítems.
Las respuestas a los ítems del test proporcionan una puntuación, que es la
que se pone en relación con los niveles de la aptitud u otro rasgo que se preten-
de medir en los sujetos a los que se aplica la prueba. Otra cuestión relevante es
saber si la prueba es aplicable a toda la población o solamente a algunos grupos
específicos, así como las condiciones que se han de dar para poder extrapolar
y/o generalizar los resultados.
Por lo tanto, un test es un instrumento diseñado para inferir una medida de
capacidades o ciertas características de los sujetos a través de las respuestas que
dan a los ítems de ese test. Se puede decir también que es un instrumento para
obtener una muestra de un comportamiento individual. Cada aptitud, actitud o
característica que se quiera medir necesitará la construcción de una prueba o test
diferente que contenga al menos un elemento que dé cuenta de ello.
Los tests, los cuestionarios y otras medidas estandarizadas han sido las herra-
mientas más utilizadas en psicología, extensiva e intensivamente, tanto en los
ámbitos aplicados de la psicología clínica, del trabajo, educativa, etc., como en
investigación. Su aplicación se demanda desde las empresas, generalmente en los
procesos de selección de personal, o desde los ámbitos educativos, o por los ser-
vicios de salud, los gobiernos, etc. El uso de los tests está tan extendido que es
difícil imaginar que cualquier persona a lo largo de su vida no haya cumplimen-
tado algunas decenas de tests. Desafortunadamente en algunos casos se encuen-
tran tests y cuestionarios que están escritos, administrados y/o interpretados por
personas que no tienen un entrenamiento adecuado. Esta obra pretende ayudar

a comprender los principios, los métodos y las destrezas técnicas necesarias para
generar y usar los tests responsablemente.
Algunos antecedentes
Desde que Galton (1822-1911) tuvo la idea de medir las diferencias individua-
les de las aptitudes mentales por métodos puramente objetivos, son muchos
los trabajos y procedimientos que se han desarrollado con el fin de construir
instrumentos que sean adecuados para realizar tales mediciones. Entre los pio-
neros más destacados se encuentran Catell, quien acuñó en 1890 la expresión
de test mental, y Binet (1857-1911), quien generó el primer test de inteligencia
que resultó ser útil en la práctica y en el que, en su tiempo y posteriormente, se
han inspirado un amplio grupo de tests muy conocidos y utilizados. En 1895
Binet y Henri publican un artículo en el que se alejan de la medición simple de
aspectos sensoriales y motores, defendiendo el uso de tareas de carácter más
complejo y, en consecuencia, la construcción de pruebas para medir memoria,
atención, comprensión, etc. Mientras tanto, Ebbinghaus también trabaja con
escolares aplicando tests de este tipo, proponiendo tareas como completar fra-
ses, hacer cálculos aritméticos, recordar palabras, etc. En 1904 el Ministerio de
Instrucción Pública de Francia crea una comisión para tratar el problema de la
instrucción a niños con bajos niveles de inteligencia, e implica a Binet en la bús-
queda de una solución a este problema, quien, dada su experiencia, propone
un test de inteligencia que se comienza a utilizar para la selección de estudian-
tes en las escuelas de París (Binet y Simon, 1905). También se debe a Binet la
introducción del concepto de edad mental. Este concepto fue utilizado por Stern
(1912) para establecer el denominado cociente de inteligencia (CI), definido como
el cociente entre la edad mental y la edad cronológica y que ha tenido una gran
trascendencia a lo largo de la primera mitad del siglo XX, al menos por su influen-
cia en los numerosos estudios dirigidos a la determinación de las diferencias
individuales en el campo de los procesos intelectivos. Con la definición del CI
se estableció en el marco de la teoría psicométrica la primera escala de puntua-
ciones referida a las aptitudes mentales, o bien, se puede decir que se realizó la
primera normalización de las puntuaciones, si la consideramos bajo ciertas condi-
ciones de estandarización.
Cuadro 1.1
Alfred Binet (Niza, 1857-1911) estudiaba derecho en París, cuando tenien-

do veinte años se interesó por los estudios de hipnosis del neurólogo fran-
cés Jean Charcot, quien trabajaba en el hospital Salpetriere de París, de
tal manera que abandonó sus estudios de leyes y se dedicó a las cien-
cias y la medicina. Se doctoró en ciencias naturales y comenzó a traba-
jar como investigador asociado en el laboratorio de la Sorbona en 1891,
llegando en 1895 a ser director del laboratorio de Psicología Fisiológica
de L’Ecole Pratique des Hautes Etudes, cargo que mantuvo hasta su muer-
te. Binet empezó trabajando sobre hipnosis e histeria, los temas de tra-
bajo de su mentor, Charcot, para pasar posteriormente a realizar estudios
sobre personalidad y psicología experimental. Binet estaba interesado en
estudiar el razonamiento y en buscar formas de medir las funciones men-
tales superiores, como muestran sus publicaciones de esa época: La psy-
chologie du raisonnement (1886), Le magnétisme animal (1887), On dou-
ble consciousness (1887) y L’étude expérimentale de l’intelligence (1903),
en la que utiliza los datos obtenidos examinando a sus propias hijas,
Armande y Marguerite. En 1895 Binet fundó un laboratorio (en la Escue-
la de la Rue de la Grange aux Belles) para el estudio del desarrollo de la
inteligencia y la revista L’Année Psychologique, donde publicó gran par-
te de su obra.
Binet se interesó por los estudios de Galton y se inspiró en sus méto-
dos para examinar a muchas personalidades famosas de la época, entre
los que se encontraban brillantes jugadores de ajedrez, matemáticos,
escritores y artistas. Pero son los estudios sobre la inteligencia de los
niños, impelido por las demandas del gobierno, que deseaba poder dis-
tribuirlos en clases de acuerdo con sus capacidades cognitivas, los que
producen el resultado de una herramienta útil para la medición de las dife-
rencias individuales, la primera escala Binet-Simon (1905), que tiene de
inmediato gran aceptación. Esta escala constaba de 30 ítems con tareas
intelectivas complejas, aunque no estaba exenta de algunas senso-moto-
ras y se aplicaba a niños con edad mental entre 3 y 13 años, edad que
podía coincidir o no con su edad cronológica. Esta escala sufre sucesi-
vas revisiones (Binet y Simon, 1908 y 1911) y se internacionaliza, adap-
tándola para su uso en Vineland (Nueva Jersey, EE UU), sobre todo tras
la revisión que hace Terman (1916) de la Universidad de Stanford, siendo
el test de Stanford-Binet y sus sucesivas revisiones (Terman y Merril, 1937,
1973; Becker, 2003) el test de inteligencia más conocido y comúnmente
utilizado durante décadas.
Por otra parte, los principios de la correlación y de la regresión enunciados

por Galton, así como su hipótesis acerca de la existencia de un término único,
al que se le podría denominar aptitud mental general de los humanos, ayudaron a
Spearman a descubrir las intercorrelaciones positivas entre todas las medidas
de las diferencias individuales en pruebas mentales complejas y a concluir que
las actividades cognitivas son todas función de un factor general g y de un fac-
tor s específico de cada operación. Spearman es así pionero en el desarrollo de
los métodos ahora conocidos bajo la denominación genérica de Análisis Fac-
torial.
Es imprescindible reseñar en este contexto psicométrico que, junto a las
aportaciones anteriormente mencionadas, se fue desarrollado un importante
cuerpo teórico acerca de las escalas de medida y que tiene su figura más signi-
ficada en Thurstone.
Cuadro 1.2
Sir Francis Galton (Birmingham, 1822-1911), para apoyar sus teorías sobre
la herencia próximas a las de su pariente Darwin, hace experimentos y toma
multitud de medidas sobre millares de sujetos. Aunque no es un matemáti-
co, es el primero en aplicar razonamientos estadísticos al estudio de las apti-
tudes mentales. La idea de la correlación (co-relation originalmente), como
índice cuantitativo de la mayor o menor aproximación en ciertas caracterís-
ticas físicas entre personas relacionadas por un parentesco específico y la
de la regresión, como la tendencia que en el proceso hereditario tienen los
valores extremos en las estaturas de los sujetos a regresar hacia la media,
son conceptos propuestos por Galton. Es Karl Pearson (1857-1936), esta-
dístico de la Universidad de Londres, contemporáneo y colaborador de Gal-
ton, al que comúnmente se cita como fundador de la ciencia estadística,
quien formaliza ambos conceptos y los hace manejables.
Volviendo a las primeras décadas del siglo XX, hay que reseñar que la partici-
pación de EEUU en la primera Guerra Mundial (1914-1918) impulsa el desarro-
llo de los tests, pues los ejércitos se encuentran con la necesidad de evaluar y cla-
sificar a los reclutas. Se da el paso definitivo de la aplicación individual a la colectiva
y a los tests no verbales (los llamados tests beta), pues esos tests son imprescin-
dibles para hacer posible su aplicación a analfabetos, o a extranjeros desconoce-
dores de la lengua inglesa.
Son muchos los autores cuyas aportaciones e influencia han sido relevan-
tes, tanto en aspectos teóricos como metodológicos y de divulgación, así como
en la generación de tests, aunque los objetivos y las limitaciones propias de esta
obra no permiten que se haga mención a muchos de ellos. En un tratado sobre
el tema ocuparían un lugar muy destacado, por ejemplo, obras como Theory of
mental tests de Gulliksen (1950a), las aportaciones en la construcción de escalas
de Guttman (1941) y de Stevens (1946) o uno de los tests de inteligencia más
difundidos, el de Wechsler (1939) que se sigue utilizando en sus versiones WAIS
para adultos (Wechsler, 1997), y WISC para niños (Wechsler, 2003), pues per-
miten diferenciar distintos tipos de inteligencia a través de las puntuaciones en
sus subtests. También habría que hacer mención a las acciones individuales o
institucionales que ayudaron a investigar, a difundir y a propiciar la utilización
masiva de los tests. La creación de empresas para la difusión de los tests, como
la de Catell, en los años veinte del siglo XX, y muy especialmente la creación del
Educational Testing Service en 1947, han propulsado el gran desarrollo de la psi-
cometría.
m1.4. Tipos de testsm
Los tests se han desarrollado con distintos propósitos y se identifican median-

te multiplicidad de denominaciones, pues hay tests que reciben su nombre de
los contenidos, o de la forma en que se van a interpretar las puntuaciones, o de
la forma de dar la respuesta, o si hay un tiempo limitado que afecta a la ejecu-
ción, etc. También hay diferentes términos que se usan como sinónimos para
la palabra test en diversos contextos, como son denominaciones tales como
cuestionario, inventario y escala.
Los tests referidos al contenido son los tests de inteligencia, de persona-
lidad, de memoria, de actitudes, etc. Entre las denominaciones que se refie-
ren a la interpretación y al uso destacan los tests referidos a la norma y los referi-
dos al criterio, o al dominio. Los tests referidos a la norma se utilizan más en la
interpretación que los referidos al criterio, cuyo uso está más ligado a la toma
de decisiones, especialmente en el ámbito educativo. En los tests referidos al
criterio se fija una puntuación de corte, en relación con un criterio, para esta-
blecer una división de los sujetos en dos categorías, los que sus calificaciones
superan esa puntuación y los que no. Luego las interpretaciones de las pun-
tuaciones de un sujeto en el rasgo y las decisiones que se derivan de ello están
referenciadas al criterio establecido. En los tests referidos a la norma, lo que
se comparan son las puntuaciones del sujeto en el test con las de una mues-
tra representativa o con las de una población, es decir, con las del denomina-
do grupo normativo.
En las clasificaciones en relación con el tipo de respuesta, se suele distin-
guir entre los tests de respuesta abierta, en la que los sujetos pueden responder
diciendo lo que les parezca oportuno, y los de respuesta cerrada, en los que los
sujetos deben elegir entre diferentes alternativas que se les proponen. Los de
respuesta cerrada a su vez pueden recibir la denominación en relación con el
número de alternativas que presenta la respuesta, tests de respuesta multicategóri-
ca, o del tipo de variable con el que se valora la respuesta, tests de respuesta dico-
tómica, etc. Otra clasificación que se suele hacer es distinguir entre los que se
denominan tests de velocidad y los tests de potencia o de fondo. La diferencia entre
ambos es que, en un test de velocidad, los ítems suelen ser muy homogéneos,
de similar dificultad y las diferencias individuales se manifiestan principalmen-
te por el número de ítems resueltos correctamente en un tiempo limitado, que
se considera que es insuficiente para que se cumplimente la totalidad del test.
Por el contrario, un test de potencia suele comenzar con ítems fáciles que aumen-
tan en dificultad a medida que se avanza en el test, y no hay teóricamente tiem-
po límite. En ambos casos, la puntuación en el test se suele obtener contabili-
zando el número de respuestas correctas, pero la interpretación de esa
puntuación en uno y otro caso puede ser diferente. La identificación de un test
como de velocidad o de potencia a veces no es obvia, y se han presentado algu-
nos procedimientos para su clasificación que suelen basarse en el análisis de los
errores por comisión y por omisión (algunos de estos procedimientos pueden
consultarse en Santisteban, 1990a).
m1.5. Variabilidad de las puntuacionesm
Las puntuaciones de los tests se utilizan para establecer e interpretar las dife-
rencias interindividuales e intraindividuales en las mediciones de los rasgos. Por
lo tanto, una de las cuestiones más inmediatas es saber cómo se distribuyen esas
puntuaciones. Esto implica conocer alrededor de qué valor se concentran esas pun-
tuaciones, así como cuál es su dispersión y sus relaciones. Las medidas de tenden-
cia central se obtienen con los valores de los estadísticos tales como la media arit-
mética, o la mediana. Las medidas de dispersión usuales son la varianza y su raíz
cuadrada, la desviación típica. Entre las medidas que evalúan la asociación entre
variables están la covarianza y la correlación.
Todas estas medidas se van a utilizar muy a menudo en el texto, así que indi-
camos brevemente sus expresiones y notación. Usualmente se utilizarán letras
latinas para los estadísticos calculados con valores muestrales, y las griegas para
los parámetros poblacionales o cuando se da la forma genérica de una ex-
presión.
Medidas de tendencia central
La media aritmética de una variable X de la que se tienen N observaciones es
X = ∑Xi / N
y se sustituirá X por µ si se refiere a la media poblacional. También se utilizará el

operador esperanza matemática E para indicar esta operación: E (X) = X .
Medidas de dispersión
La varianza es una medida de dispersión, pues es un valor promedio de las

desviaciones de los valores Xi con respecto a la media. Para una muestra de
tamaño N es:
s 2
=
∑ ( X i − X )2
N
que se denotará por σ2 si es la varianza de la población. Las desviaciones típicas

son s y σ respectivamente. También se utilizará el operador esperanza matemáti-
ca para indicar esta operación, ya que: σX2 = E[X – E(X )]2.
Medidas de asociación
La covarianza entre dos variables X e Y se refiere a cómo covarían ambas

variables. Es decir, como covaría Y con X y X con Y. La covarianza de X con Y
se calcula mediante la expresión:
Cov ( X , Y ) =
∑( X i − X ) ( Yi − Y )
N
y de esta expresión se puede deducir que Cov (X, Y) = Cov (Y, X). Por ello, en
esta obra, cuando se haga referencia a la covarianza de forma general, diremos
covarianza entre las variables, pero cuando en una expresión hay que incluir la
cuantificación de esa covarianza, se expresará como 2 Cov (X, Y). Si se usa el ope-
rador E, la covarianza responde a la expresión E {[X – E(X)] [Y – E (Y)]}.
La correlación entre las variables X e Y viene dada por la expresión:
rXY =
Cov ( X , Y )
sX sY
Distribución de las puntuaciones
La representación gráfica de la distribución de las puntuaciones es un medio

sencillo y muy útil para obtener información del test y de los sujetos a los que
se les administra ese test. Un ejemplo y algunas de estas representaciones se dan
a continuación.
Ejemplo 1.1
La distribución de puntuaciones de un test X constituido por 6 ítems dico-

tómicos que se han administrado a una muestra de 200 sujetos se da en
la Tabla 1.1, donde Ni es el número de sujetos que obtienen la puntuación Xi.
En este caso la puntuación Xi se corresponde con el número de aciertos y
fi = Ni / N es la frecuencia relativa. Cualquier puntuación, por ejemplo X 6 = 5,
Tabla 1.1. Distribución de las puntuaciones de un test

administrado a 200 sujetos.
Xi 0 1 2 3 4 5 6
Ni 0 10 20 40 80 30 20
fi 0 0.05 0.10 0.20 0.40 0.15 0.10
con frecuencia relativa f6 = 0.15 (f6 = 30 / 200), indica que de los 200 sujetos
sólo un pequeño número obtiene esa puntuación. Esta simple descripción
permite conocer, por ejemplo, que el 25% de la muestra presentan puntuacio-
nes muy altas (5 o 6), en tanto que puntuaciones muy bajas (0, 1 o 2) las ob-
tienen el 15%.
Figura 1.1. Representación gráfica de la distribución de frecuencias de la Tabla 1.1.
Los estadísticos que definen a la distribución anterior son:
a) La media de las puntuaciones, que es X = 3.80.

b) La desviación típica, que es sx = 1.25.
c) La moda como valor más frecuente, que es Mo = 4.
Las representaciones gráficas que corresponden a las distribuciones de las

puntuaciones tendrán una forma geométrica u otra dependiendo de los valores
de sus medidas de tendencia central (media, mediana, moda) y de sus medidas de
dispersión (desviación típica o varianza, coeficiente de variación u otros momen-
tos). El estudio de esas gráficas es muy útil para una primera aproximación al
conocimiento del test y de cómo pudiera estar distribuido el rasgo en distintas
muestras o en diferentes poblaciones.
Distribución normal
Si las puntuaciones se distribuyen según una ley normal, la media, la media-

na y la moda coinciden. Las frecuencias se distribuyen simétricamente con
respecto a esos valores pues la media es el centro de la distribución y el valor
de mayor probabilidad. Una varianza o desviación típica mayor o menor indi-
ca que la curva estará más o menos apuntada, ya que la desviación típica mide
la distancia entre la media y los puntos de inflexión. Un ejemplo de distribu-
ciones normales con distinto apuntamiento se presenta en la Figura 1.2, en
donde se puede observar que hay mayor concentración de puntuaciones (mayor
número de sujetos) con valores próximos a la media en la más apuntada que
en la más aplanada. Distribuciones de puntuaciones con estas características
indican que el test tiene muchas cuestiones (ítems) de dificultad intermedia a
las que responden correctamente la mayor parte de los sujetos. También se
presupone que están incluidos en el test algunos ítems de muy alta dificultad,
pues son muy pocos los sujetos que también los responden correctamente.
También se podría inferir que el rasgo se distribuye normalmente en la pobla-
ción.
Distribución uniforme
Una curva de distribución de frecuencias que sea una línea recta paralela al
eje X de las puntuaciones respondería a una distribución uniforme o rectan-
gular, donde se puede considerar que todos los valores son modales, o bien,
que no hay moda, pues todos tienen la misma frecuencia. Un test que genere
este tipo de distribución en que todas las puntuaciones, sean altas, bajas o inter-
medias, las obtienen el mismo porcentaje de sujetos, sería muy poco útil para
extraer conclusiones.
Figura 1.2. Representación gráfica de dos distribuciones normales con media cero
y desviaciones típicas 0.5 y 1.
Distribuciones asimétricas
Distribuciones asimétricas se obtienen cuando las frecuencias se concen-

tran en un valor alejado de la media. En la Figura 1.3 se representan dos dis-
tribuciones asimétricas, una desviada a la izquierda (a) y otra a la derecha (b).
Un test tendrá una distribución de puntuaciones desviada a la derecha si tiene
muchos ítems fáciles, por lo que la mayor parte de los sujetos obtienen altas
puntuaciones. En caso contrario, si el test tiene un gran número de ítems de
alta dificultad, la mayor parte de los sujetos no darán respuesta correcta a ellos
y la curva estaría desviada a la izquierda. Puesto que las desviaciones tienen
relación con la diferencia que haya entre la puntuación media y la mediana, una
distribución será más asimétrica cuanto mayor sea esta diferencia y un índice
de esa asimetría es:
µ − Me
δ=
σ
denotando por Me a la mediana y siendo µ y σ la media aritmética y la desviación

típica. Diversos índices de asimetría, así como el coeficiente de asimetría de Fis-
her se suelen incluir en los manuales de estadística.
Figura 1.3. Distribuciones asimétricas de puntuaciones X en el test.
Distribuciones con más de una moda
La representación de las distribuciones de las puntuaciones permite que se pue-

da detectar si en esa población hay dos o más grupos que estén bien diferenciados
con respecto a las mediciones del rasgo que representan esas puntuaciones. Esto se
evidencia cuando en las distribuciones de puntuaciones de una población se pre-
sentan varios máximos o valores modales, lo que sugiere que en la población hay
grupos que se comportan de forma diferente en el test, o que se diferencian en sus
valores del rasgo (por ejemplo, hombres y mujeres, niños y adultos, etc.), o que el
test esté sesgado a favor de alguno de esos grupos. Por ejemplo, una distribución
bimodal como la que se presenta en la Figura 1.4 sugiere que hay dos grupos en esa
población que se comportan diferencialmente, y si no era esperable, habrá que ave-
riguar cuáles son las razones.
Se han expuesto aquí algunas de las formas de las distribuciones más comu-
nes y su significado. Entre otras, una de las cuestiones en las que se puede estar
interesado es en la concentración de puntuaciones en torno a la media (apunta-
miento) y sobre todo en la evaluación de la asimetría. Los índices para valorar tan-
to el apuntamiento (curtosis) como la asimetría se encuentran en los manuales de
estadística y también se pueden consultar en Santisteban (1990a).
Figura 1.4. Distribución bimodal.
m1.6. La interpretación de las puntuacionesm
Obtener una puntuación de 35 puntos en un cuestionario de agresividad, o de

neuroticismo, o 22 puntos en un test de inteligencia no tiene ningún significado.
Sin embargo, lo tiene decir que la distancia entre dos ciudades es de 200 km.
La diferencia entre una información y otra es que la medida física va acompa-
ñada de la unidad de medida, en tanto que las psicológicas que se han dado no
lo están. La medida física se ha realizado con un instrumento, el metro, que
aunque es una medida arbitraria, se ha adoptado como unidad para medir lon-
gitudes. Para realizar las medidas psicométricas también se han generado ins-
trumentos adecuados, que son los tests, sin embargo, las unidades de medida
en los tests, además de ser arbitrarias, no cuentan con una unidad aceptada uni-
versalmente con la que comparar la medición de cada rasgo. No hay una uni-
dad de medida de la inteligencia, ni del neuroticismo, ni de la agresividad o de
otras características de los sujetos. Así pues, cuando se construye un test hay
que tener muy claro desde su inicio qué es lo que se quiere medir, cómo se va
a medir, cómo se van a obtener las puntuaciones, qué reflejan esas puntuacio-
nes, cómo se pueden organizar para que se puedan establecer las correspon-
dientes diferencias individuales que reflejen adecuadamente las diferencias que

existen entre los sujetos en el rasgo, y cómo expresar todo ello para que quie-
nes utilicen ese test puedan interpretar correctamente las puntuaciones que con
él se obtienen.
Son muchos los conceptos y los procedimientos implicados en todo lo ante-
riormente dicho, y se irán tratando a lo largo de esta obra. Sin embargo, antes de
entrar a estudiar los modelos concretos en los que se puede basar la construc-
ción de los tests, es conveniente clarificar algunos aspectos. Por ejemplo, que los
números que representan puntuaciones en los tests deben estar conectados con
el significado y la cuantía de aquello que se mide, que con ellos se puedan expre-
sar tanto similitudes como diferencias, que se pueda operar con esas puntuacio-
nes, que sean susceptibles de comparación con otras puntuaciones, etc.
Otra cuestión interesante es el significado del número cero. El número cero es
una puntuación que puede tener muchos significados. Una es la ausencia del atri-
buto que se mide y otra puede corresponder a una cantidad, en principio arbitra-
ria, para fijar el origen de una escala. Por ejemplo, el cero en una escala centígrada
es un valor arbitrario que no significa ausencia de temperatura, sino el origen de
esa escala, pudiendo existir temperaturas en grados centígrados menores y mayo-
res que cero, es decir, positivas y negativas, que serán diferentes a las expresadas
en otra escala (por ejemplo en grados Fahrenheit o en Kelvin). En psicología es
difícil definir qué significa el cero, pues la ausencia del rasgo difícilmente se corres-
ponde con la realidad, nadie tiene inteligencia cero, ni ausencia total de neuroti-
cismo, o de agresividad. Se asigna el valor cero a multitud de situaciones, cuando
no se ha alcanzado un cierto nivel en el rasgo, cuando se ha cometido un error,
cuando no se completa una prueba, etc. También se suele utilizar el cero para fijar
el origen de las escalas. Por lo tanto, la interpretación de las puntuaciones en los
tests psicológicos, está relacionada con el significado que tiene el cero en ese test.
Las puntuaciones tipificadas (puntuaciones z)
Una puntuación aislada y sin referencia a alguna unidad de medida no tiene una
clara interpretación. Al menos habría que conocer cómo es de alta o de baja esa
puntuación en relación con otros sujetos y hacia qué valores tienden las puntua-
ciones de la población. Las puntuaciones tipificadas permiten algunas de esas
comparaciones.
Se llama puntuación tipificada z de una puntuación X a la que se obtiene

mediante la relación:
X−X X −µ
z= o bien z =
s σ
Las puntuaciones tipificadas o puntuaciones estándar indican, por un lado,

cuánto se desvían de la media µ de la población (o de la de la muestra), usando la
desviación típica como unidad de medida de esas diferencias.
Las puntuaciones estandarizadas permiten hacer algunas comparaciones. Por
ejemplo, MC tiene 32 puntos en un test con µ = 30 y σ2 = 4 y JL y JM obtienen
42 puntos y 33 respectivamente en otro test que mide el mismo rasgo y cuya
media y varianza son µ = 36 y σ2 = 9. ¿Se diferencian esos tres sujetos en sus
niveles en el rasgo? Las puntuaciones directas de JL y JM son comparables en
algún sentido, pues se obtienen con el mismo test. Para compararlas con las de
MC se obtienen las correspondientes puntuaciones tipificadas de los tres suje-
tos, que son:
32 − 30 42 − 36 33 − 36
z1 = =1 z2 = =2 z3 = = −1
2 3 3
Esas puntuaciones z, en las que incluso una es negativa, se interpretarían mejor

en ciertos contextos si vinieran dadas en valores enteros y positivos. Para ello se
podría hacer una transformación a otras puntuaciones también tipificadas, pero
con media y desviación típica determinadas.
T−T
T = z σT + T o sea, z =
σT
Si para la escala de puntuaciones transformadas se elige que la media sea 100

y la desviación típica 10, entonces las puntuaciones de MC, JL y de JM serían 110,
120 y 90, respectivamente.
A estas puntuaciones y a su correspondiente escala se les suele llamar puntua-
ciones estandarizadas derivadas.
Por lo tanto, una vez ordenadas las puntuaciones, la escala primaria estaría
constituida por las puntuaciones directas, que hay que transformar en otras para
hacerlas comparables.
Las escalas y las normas
La escala primaria de un test estaría constituida por todas las puntuaciones X

ordenadas por su cuantía. Si calculadas la media µ y la desviación típica σ se res-
ta µ y esas diferencias se dividen por σ, entonces se tendrá una nueva escala, for-
mada por puntuaciones z, con origen en µ y cuya unidad de medida es σ. El paso
de esta escala a una escala estandarizada con media cero y desviación típica uno
es muy simple, ya que como se ha indicado antes, la puntuación z se puede asi-
milar a la de otra T, cuya distribución tenga media cero y desviación típica uno.
El paso de puntuaciones directas a puntuaciones z (las estamos llamando típicas
o estandarizadas) se ha realizado mediante una transformación lineal y poste-
riormente se ha pasado a puntuaciones estandarizadas derivadas también median-
te otra transformación lineal. Luego mediante transformaciones lineales se pue-
den transformar las puntuaciones directas en estandarizadas y pasar de una escala
estandarizada a otra.
El paso de puntuaciones estandarizadas a normalizadas (que las puntuacio-
nes z sigan distribuciones normales) no es posible hacerlo con una transfor-
mación lineal, además de que no es adecuado cuando la distribución de las pun-
tuaciones se desvíe mucho de la normalidad, como se ha visto en los gráficos
del Apartado 1.5. Desviaciones de la normalidad se dan en numerosos casos y
es mucho más probable encontrarlas cuando se trata con muestras pequeñas.
Entre las escalas que no resisten las transformaciones lineales están las escalas
percentílicas (estas escalas y algunas escalas normalizadas más usuales se dan
en el Apartado 15.6).
A las transformaciones de las puntuaciones que mantienen su orden relativo
y su significado, se les llama transformaciones admisibles.
El establecimiento de esas puntuaciones y lo que ello conlleva en la orde-
nación de los sujetos, en relación con su nivel en el rasgo que se evalúa, dan
origen a las normas del test, que son las que indican la posición del sujeto en el
rasgo. Si el test se ha construido en el contexto de los modelos lineales, mode-
los que trataremos en los siguientes capítulos, esa posición se interpreta en rela-
ción con la distribución de las puntuaciones en el grupo o población a la que

pertenece (grupo normativo). El nivel del sujeto en el rasgo (la puntuación ver-
dadera) se infiere y se interpreta en relación con esos parámetros y con el gra-
do de precisión estimado para el test. Si el test se ha construido bajo los supues-
tos de modelos no lineales (que trataremos como modelos TRI) la interpretación
de la posición del sujeto en el rasgo (su nivel en el rasgo), se hace de acuerdo
con su respuesta y con las características del ítem (o de los ítems). Estas carac-
terísticas las recoge una curva de probabilidad que proporciona información
de cómo se relaciona la puntuación del sujeto con los valores del rasgo. La esti-
mación y la interpretación de los niveles de un sujeto en el rasgo no se hace
depender en estos modelos de cuántos sujetos del grupo han respondido correc-
tamente a ese ítem o cuáles han sido sus puntuaciones en el test, sino que sólo
va a depender de la forma de la curva que caracteriza a ese ítem y de cuál es la
posición de esa curva (indica la dificultad de ítem) en relación con la escala de
valores del rasgo.
m1.7. Teorías y modelosm
Desde que Galton en el siglo XIX tuvo la idea de medir las diferencias individua-
les de las aptitudes mentales por métodos puramente objetivos, son muchos los
trabajos y procedimientos que se han desarrollado con el fin de construir instru-
mentos que sean adecuados para realizar tales mediciones. En esos desarrollos
han intervenido figuras destacadas como algunas de las anteriormente citadas, o
como Thomson, Thurstone, Hurt, Vernon, Jöreskog, etc., pero son las aporta-
ciones de Galton, Pearson, Binet y Spearman las que constituyeron los pilares
básicos en los que durante más de medio siglo se han sustentado las teorías de los
tests psicométricos:
– El modelo lineal de Spearman.

– La tipificación o normalización de las puntuaciones.
– La evaluación de las intercorrelaciones.
Durante años, y aún hoy en día, se construyen instrumentos para la medida

de las diferencias individuales utilizando los procedimientos que han surgido
tomando como base teórica el modelo lineal de Spearman, propuesto en 1904 y des-
de el que se ha generado la denominada teoría clásica de los tests (TCT). Una de las
principales características de los tests construidos en el contexto de esta teoría
es que las puntuaciones que obtiene un sujeto en el test se supone que están
linealmente relacionadas con las que se consideran que son sus puntuaciones
verdaderas, y hay que interpretarlas en relación a aquellas que se obtuvieron en
el grupo normativo, que es el grupo que constituyó la muestra con la que se deter-
minaron las características psicométricas del test y con la que se construyó la
escala. Esta necesidad de referenciar la puntuación individual a la del grupo nor-
mativo no deja de ser una limitación, además de que puede producir importantes
distorsiones en la interpretación de las puntuaciones, si los sujetos a los que se
les administra el test no pertenecen a la población de la que la muestra era repre-
sentativa.
Cuadro 1.3
Las limitaciones arriba reseñadas propias de estos instrumentos de medida

no justifican la fuerte corriente crítica que en los años cincuenta del siglo XX
se produjo, especialmente en EE UU, contra la aplicación de los tests, acu-
sándolos de toda clase de inexactitudes, arbitrariedades y sesgos provoca-
dores de la toma de decisiones socialmente discriminadoras e injustas. La
teoría y la práctica han demostrado que las deficiencias que a priori parecen
ser propias de los instrumentos que tratan de medir capacidades humanas
complejas a través de simples manifestaciones observables, son general-
mente conocidas y controlables y que, por lo tanto, basta considerarlas para
hacer un uso correcto del test. Asimismo se deberán tener en cuenta esas
limitaciones al hacer la interpretación de las puntuaciones, puesto que es
obvio que en cualquier proceso de medición, al hacer la interpretación de la
medida, hay que tomar también en consideración las características del ins-
trumento con el que se ha realizado esa medida.
Una de las limitaciones del modelo de Spearman es que en su formulación

se considera que una única variable error resume todos los errores aleatorios
provenientes de distintas fuentes. Sin embargo, en cualquier modelo es funda-
mental identificar y separar los errores de medida, pues unos estarán directa-
mente relacionados con el procedimiento de medición, otros con las condicio-
nes ambientales, etc. Por ello, se han propuesto muchos modelos identificando
diferentes componentes del error, como el denominado modelo platónico, pero
un modelo que persiste y que permite un buen tratamiento de los datos es el que
se conoce bajo la denominación de la teoría de la generalizabilidad (Cronbach et al.,
1963; Gleser et al., 1965; Cronbach et al., 1972). En este modelo se reconoce que
cada puntuación observada es una entre las muchas posibles, que todas están
afectadas por múltiples fuentes de error y que, por lo tanto, el interés y la utili-
dad de esas puntuaciones está en el grado en que sean generalizables, con las
debidas garantías, a una multiplicidad de situaciones, lo que los propios autores
denominan universo de generalización. En estos modelos la cuestión clave no es pre-
guntarse sólo por la fiabilidad del test, sino por la precisión con la que se pue-
de realizar la generalización. El modelo estadístico que conecta la teoría de la
generalizabilidad con el análisis de los datos es el análisis de la varianza, que sir-
ve para identificar y evaluar las principales fuentes de error que afectan a las
medidas.
Otro modelo que se puede considerar como una extensión de la TCT es
el modelo factorial simple. Spearman, al mismo tiempo que propone el modelo
lineal anteriormente citado (Spearman, 1904a), publica otro artículo (Spear-
man, 1904b) mostrando cómo se puede reconocer si ese test mide un atribu-
to común, a partir de los datos que aporta el test. Al igual que décadas después
y tras múltiples desarrollos el primer artículo da origen a la TCT, este otro con-
duce al establecimiento del denominado modelo factorial simple, que en un
principio se utilizó para comprobar la teoría sobre la estructura factorial de la
inteligencia y que, posteriormente, se ha utilizado y se viene utilizando para
detectar factores fundamentales en los procesos de cognición, factores de la
personalidad, etc.
El alejamiento del modelo de Spearman da lugar al inicio de una nueva con-
cepción de la teoría de los tests donde el foco de atención se centra en la res-
puesta individualizada al ítem, más que en cómo los sujetos de un determina-
do grupo responden al test. Los modelos se expresan en función de las
características del ítem, en lugar de en las del test. Por lo tanto, estos modelos
están basados en la independencia entre los ítems y en las distribuciones pro-
babilísticas de cada uno de ellos, a las que se les llama curva característica del ítem,
que son las que describen el comportamiento de las puntuaciones en los ítems
y sus relaciones con las medidas del rasgo. Un tema crucial en estos modelos
es la búsqueda de estadísticos suficientes para las estimaciones de sus pará-
metros, y esta cuestión es el eje fundamental sobre el que giran muchas de estas
aproximaciones. Esta búsqueda de alternativas tratando de evitar las limita-
ciones del modelo de Spearman genera modelos que se desarrollan bajo la
denominación de la teoría del rasgo latente, denominación que posteriormen-
te fue sustituida en parte por la de teoría de la respuesta al ítem (TRI). Casi
todos los aspectos, modelos y teorías del rasgo latente se contemplan y son
objeto de posteriores desarrollos bajo la TRI. Esta última denominación se
ajusta más fielmente a los conceptos ya citados que subyacen en dicha teoría
y a los métodos de construcción de tests basados en ella, en cuanto a que en
estos modelos el elemento central es el ítem, caracterizado por su forma pro-
babilística y por las características diferenciales de las que lo dotan sus pará-
metros, con independencia de las características de las muestras particulares
sobre las que que se aplican. No obstante, la consideración de la latencia del ras-
go podría considerarse común a todos los métodos y teorías de los tests, pues-
to que son los tests psicométricos y otros instrumentos de medición estanda-
rizados los que vienen a resolver el problema de la medición de esos rasgos
inobservables (latentes), infiriéndose esas medidas desde las de sus manifesta-
ciones observables.
Las propuestas de modelos no lineales (TRI y de clase latente) se desarrollan
a comienzos de los años sesenta del siglo XX, aunque se gestan con anteriori-
dad, y generan nuevas formas de concebir los tests, de abordar el análisis de sus
elementos y de inferir las medidas de los inobservables en los que se está inte-
resado. Estas teorías y procedimientos no sustituyen ni destierran a los ante-
riores, sino que ambos conviven. Por ejemplo, cuando hay que indicar las pro-
piedades psicométricas de un test o cuestionario, se suele dar su coeficiente alfa
de consistencia interna, casi siempre calculado con métodos derivados de las
teorías y modelos que hemos dado en denominar clásicos. En cuanto a la varia-
ble de interés, en la teoría clásica, al inobservable que se quiere evaluar se le lla-
ma puntuación verdadera (V) y en los desarrollos posteriores, a estas capacida-
des inobservables se las suele denominar genéricamente aptitud o rasgos (θ).
En los modelos no lineales se pueden incluir modelos basados en las distribu-
ciones probabilísticas como la distribución binomial de donde se deriva el mode-
lo de error binomial, o en distribuciones de Poisson, que dieron lugar a los modelos
poissonianos que usa Rasch, o en la distribución normal acumulada, con la que se
generan los modelos de ojiva normal. Sin embargo, han sido las distribuciones logís-
ticas, y en algunos casos la normal, las que se consideran de mayor interés y han
recibido y siguen recibiendo mayor atención, siendo sus modelos objeto de un

desarrollo espectacular. Entre los que originalmente fueron más tratados y mejor
conocidos se encuentran los modelos logísticos de dos, tres o cuatro parámetros,
pero es el modelo logístico de dos parámetros y sobre todo el denominado mode-
lo de Rasch, que se puede asimilar a un modelo logístico de un parámetro, los
modelos que más se han desarrollado tanto teóricamente como en las aplica-
ciones y de los que se han derivado muchos otros modelos. Actualmente muchos
de estos modelos y procedimientos para generar tests a partir de ellos se han
clasificado dentro de la denominación de modelos de la teoría de la respuesta al
ítem (TRI).
Una de las características de los modelos de la TRI, y la más destacada por
todos los autores, porque establece una de las más claras diferencias con la teo-
ría clásica, es que la interpretación de las puntuaciones de los sujetos no se reali-
za en relación con las puntuaciones del grupo normativo, sino que la estimación del
nivel del rasgo que pretende medir el test está determinada por la forma mate-
mática y la posición sobre el rasgo (la dificultad) que tenga la curva característica de
cada ítem, expresada en forma probabilística, pues es la que relaciona la proba-
bilidad de éxito en un ítem con la aptitud.
Cuadro 1.4
Los antecedentes de la TRI se pueden situar en las primeras décadas del

siglo XX, con los trabajos de Binet y Simon (1911) y los de Thurstone (1925)
quien retoma la idea de los anteriores, escalando los ítems de acuerdo con
la edad. En las décadas posteriores, Richardson (1936), Lawley (1943),
Ferguson (1942) y Tucker (1946) son principalmente quienes establecen
conexiones formales entre la TCT y la TRI, siendo a este último a quien se
le debe la acuñación del término curva característica del ítem. En estas
contribuciones se basan otras posteriores, como las de Lord (Lord, 1952,
1953a, 1953b; Lord y Novick, 1968). La figura clave en el desarrollo de
estos modelos es Rasch, que en 1960 presenta un conjunto de modelos,
entre los que el conocido modelo de Rasch es el que hasta el momento
ha sido el más relevante en la TRI. Trabajos tan conocidos como los de
Wright y Stone (1979) o los de Fischer y Molenaar (1995) tienen como base
el modelo de Rasch.
No dedicaremos en este capítulo mayor atención a los modelos TRI ni a sus

referencias, ya que se tratan en otros capítulos de esta obra. Sin embargo, con-
viene clarificar aquí algunos conceptos sobre el análisis de estructura latente,
pues algunos de los modelos que se incluyen en esa teoría no se tratan en esta
obra, al igual que no podemos hacerlo con muchos otros modelos derivados
del modelo de Rasch, o con modelos de respuesta politómica o los modelos
multidimensionales, que son y se consideran modelos TRI, aunque los mode-
los clásicos TRI sólo tratan con modelos unidimensionales y con respuestas
dicotómicas.
En algunas clasificaciones, el análisis de estructura latente comprende un con-
junto de modelos que abarca a todos los de la TRI y a los denominados de cla-
se latente. La distinción entre ambos grupos de modelos se hace en relación con
la distribución del rasgo (θ) en la población de sujetos, según se considere con-
tinua o discreta. En los modelos TRI se asume la continuidad del rasgo, supo-
niéndose que θ es discreta en los modelos de clase latente. Por otra parte, aun admi-
tiendo la continuidad, el rasgo θ puede ser unidimensional, bidimensional o
multidimensional y los ítems pueden ser dicotómicos o politómicos, aunque los
modelos más desarrollados son los unidimensionales con ítems dicotómicos. La
familia de modelos de Rasch, los logísticos de uno, dos o tres parámetros, el mode-
lo de respuesta graduada de Samejima, los modelos de crédito parcial y muchos otros for-
man parte de los modelos TRI, y los modelos de clase latente, se clasifican según
el número de clases que contienen, distinguiéndose a su vez unos modelos de
otros, dentro del mismo tipo de clase, por las restricciones que se impongan a
sus parámetros.
La denominación de latente, como se ha indicado anteriormente, se dese-
chó en los modelos anteriormente mencionados que se han encuadrado den-
tro de la denominación TRI. Sin embargo, se consideran en psicometría otro
grupo de modelos a los que se les ha dado la denominación de modelos de varia-
bles latentes (LVM, usando sus siglas en inglés). Estos modelos incluyen tanto
variables no observadas (latentes) como variables observadas (manifiestas) y el
modelo expresa las relaciones matemático-probabilísticas entre las variables
latentes y las observadas. El estudio de estos modelos es de gran interés en
muchos campos y muy especialmente en sociología, economía, psicología y, en
general, en todos aquellos ámbitos en los que el objeto de estudio puede con-
siderarse como un conjunto o red de relaciones que constituyen un construc-
to hipotético, cuya medición no puede hacerse directamente, sino a través de
esas relaciones. En una obra dirigida a quienes investigan en ciencias sociales,

indicando cómo deben hacer los análisis e interpretar datos multivariantes
(Bartholomew et al., 2002), se describen bastante minuciosamente esas rela-
ciones para algunos constructos como la inteligencia, o en la medición de acti-
tudes. Un tema básico en estos modelos es conocer la naturaleza de la escala
de medición que se va a considerar, tanto para las variables latentes como para
las manifiestas. Según sea la métrica que se adopte en una u otra escala, se ten-
drán diferentes modelos. La más simple de esas clasificaciones es la que dan
Knott y Bartholomew (1999), que se resume en la Tabla 1.2. En esa tabla, se
denominan variables métricas, a las que son medibles, es decir, aquellas que
pueden tomar valores numéricos, ya sea de forma aislada (variables discretas)
o continua. Cuando las variables categóricas son las manifiestas, los indicado-
res que se dan a las categorías son de tipo binario u ordinal y, por lo tanto, las
distribuciones condicionales para los modelos LTM y LCM son distribuciones
binomiales o multinomiales.
Aun cuando la descripción de los modelos LVM ha sido muy somera, nos
hemos permitido incluirla, pues éste será probablemente el único lugar de la obra
donde se haga mención a estos modelos. Por el contrario, el modelo lineal (TCT)
se tratará ampliamente en extensión y profundidad en diversos capítulos y de los
modelos TRI se darán los conceptos básicos y se estudiarán con suficiente deta-
lle los modelos unidimensionales más relevantes.
Tabla 1.2. Modelos LVM según la métrica de las variables latentes

y de las observadas.
Variables latentes Variables observadas
Métricas Categóricas
Métricas Análisis Factorial Modelos de Rasgo

(AF) Latente (LTM)
Categóricas Modelos de Perfiles Modelos de Clases

Latentes (LPM) Latentes (LCM)
m1.8. La construcción del test m
El proceso de construcción de un test requiere, en primer lugar, tener una defi-

nición clara y concreta del rasgo que se quiere medir. Tener definido el rasgo con
precisión es una premisa ineludible que debe ir acompañada por una detallada
exposición de cuáles son las relaciones existentes entre ese rasgo y sus manifes-
taciones observables, pues son imprescindibles para realizar las inferencias de los
valores del rasgo.
Las fases que se siguen en el proceso de construcción de un test son esen-
cialmente las mismas, sea cual sea la teoría o el tipo de modelo que se adopte,
siendo diferentes los supuestos y los métodos de análisis dentro de algunas de
esas fases. Vamos a considerar algunas de ellas, aunque sea muy esquemática-
mente.
Como ya se ha indicado, el primer paso es tener una definición precisa del
rasgo y establecer sus manifestaciones, indicando cuáles son medibles y cómo
se van a utilizar para la medición del rasgo, teniendo en cuenta los objetivos del
test. Este proceso debe ser realizado por expertos. El paso a una segunda eta-
pa, que es en la que propiamente se puede considerar que se comienza el pro-
ceso técnico de construcción del test, exige que se haya cubierto de forma satis-
factoria y rigurosa esa primera fase de discusión teórica mencionada. Insistiendo
en que en esa fase se incluye que se hayan hecho las consideraciones pertinen-
tes en relación con el tipo de test, por ejemplo, si es un test referido al criterio,
así como el modelo de puntuación y el tipo de respuesta (si el ítem va a ser dico-
tómico o politómico, etc.) que se va a considerar. En una segunda etapa se pro-
cede a la enunciación de los ítems, en concordancia con lo establecido en la
fase anterior. Esta tarea de producción o invención de ítems suele estar a car-
go de especialistas, que enuncian un gran número de ellos, sometiendo poste-
riormente esos ítems enunciados a un minucioso análisis crítico o a un sistema
de jueces. Como resultado de ese análisis se obtiene un grupo seleccionado de
ítems, después de haberse desechado aquellos que se hubieran considerado ina-
decuados, o mal formulados, etc. El análisis subjetivo y racional de los ítems se
complementa con una nueva depuración basada en datos cuantitativos obteni-
dos con procedimientos experimentales (estudios piloto). Una vez que se tie-
ne un conjunto satisfactorio de ítems se administran a muestras representati-
vas, a través de las cuales se determinan objetivamente las características de
dichos ítems (del ítem en la TRI) o del test en su conjunto (en la TCT). En la
TCT no es posible el análisis individualizado del ítem y todas las característi-

cas (e.g., fiabilidad, dificultad, etc.) se refieren a las del test. En la TRI se suelen
referir sólo al ítem y es también usual que los valores en el rasgo y los que carac-
terizan el ítem (e.g., dificultad, discriminación) se estimen conjuntamente a par-
tir de los datos que aportan muestras muy grandes de las puntuaciones de los
sujetos que han dado respuesta a ese ítem. Ello también conlleva que sea dife-
rente la construcción de la escala con unos u otros modelos. En cualquier caso,
la construcción de la escala y el establecimiento y redacción de las normas es
la fase final en la construcción del test. Un punto importante que no se ha men-
cionado es el de la determinación de la estructura del constructo, es decir, si el
test mide una sola dimensión, o si se está considerando a priori, o se puede
deducir del análisis de los datos que el test está midiendo más de una dimen-
sión de ese constructo.
Una vez seleccionados los ítems que se consideran idóneos para la formación
del test, se estudian las características del test resultante y se aplican técnicas para
su estandarización o normalización, de manera que pueda hacerse una correcta
interpretación de los resultados de su aplicación.
El estudio de las características del test conlleva el análisis de su fiabilidad y
de su validez, así como del alcance de sus predicciones. El concepto de fiabili-
dad y su cálculo sólo está asociado a aquellos tests que se construyan bajo los
supuestos y métodos del modelo clásico. En cuanto a la interpretación de las
puntuaciones que obtiene el sujeto en el test, y que son reveladoras del rasgo
evaluado, en la teoría clásica se hace siempre con referencia al denominado gru-
po normativo, dando la puntuación tipificada, o el percentil al que pertenece la
puntuación del sujeto, etc. En el contexto de la teoría del rasgo latente o de la
respuesta al ítem, el procedimiento comúnmente utilizado es el de la estimación
simultánea, tanto de los parámetros que describen las propiedades de los ítems
como del nivel individual del rasgo, resultando así que ese valor obtenido para
el rasgo no depende más que de la forma que tengan las denominadas curvas
características (CCI) de cada uno de los ítems, y no depende de cuántos indivi-
duos de su grupo se sitúan en el mismo nivel en el rasgo.
Dentro de los modelos de la respuesta al ítem, los tests se pueden compo-
ner trazando previamente la curva característica que se corresponda teórica-
mente con la del test deseado y eligiendo del banco de ítems aquellos que pro-
porcionan la mayor cantidad de información, de acuerdo con las condiciones
establecidas y en concordancia también con los objetivos del test. Esto permi-
te que en estos tests se puedan construir tests “a la medida” de los sujetos y para
propósitos específicos.
La redacción de los ítems
Una vez establecido que antes de construir el instrumento de evaluación hay que
tener perfectamente especificada la naturaleza del concepto de aquello que se
desea medir, las cuestiones (los ítems) deben expresarse de la forma más clara
posible, utilizando palabras que sean usuales y expresiones que no sean ambiguas.
Además, el lenguaje debe ser el apropiado para el tipo de personas a quienes está
dirigido. Es evidente que no se pueden utilizar los mismos términos sobre un
tema de participación política si la prueba está dirigida a juristas o si es para toda
la población. En general, es preferible usar palabras cortas y evitar caer en frases
gramaticalmente complejas o difíciles de comprender en una primera lectura,
como puede suceder, por ejemplo, cuando se incluyen en la misma frase dos nega-
ciones. Tampoco se deben enunciar frases que induzcan a dar una determinada
respuesta, o aquellas difíciles de responder porque la persona considere que se le
pregunta por algo estrictamente reservado, confidencial o de su intimidad.
En la redacción de los ítems, en principio, es deseable la participación o el
asesoramiento de expertos que sean buenos conocedores del tema de aquello
que se desea medir, ya sea un determinado rasgo, una aptitud, actitud, conoci-
mientos, etc.
La administración de los tests
Alfred Binet (Binet y Simon, 1905) ya entró en detalles sobre las condiciones de
aplicación de los tests. Al presentar una de las escalas que construyó para la medi-
ción de la inteligencia, sugería que a los niños se les debería administrar el test
en una habitación aislada y tranquila en la que el niño estuviese solo con la per-
sona que administra el test y, a ser posible, con la presencia de un adulto res-
ponsable del niño, aunque en ningún momento y de ninguna manera podría inter-
venir. Después de más de un siglo, se sigue insistiendo en la importancia que
tiene la correcta administración de los tests, que los administren personas entre-
nadas y que se sigan rigurosamente todas las condiciones establecidas para su
administración. Generalmente estas normas se suelen tener por escrito, espe-

cialmente las instrucciones que se dan a los sujetos para que cumplimenten ade-
cuadamente el test. La realización de la prueba es siempre individual, pero su
aplicación puede hacerse de forma individual o administrarla en el mismo momen-
to y lugar a muestras, o grupos concretos, en cuyo caso se habla de administra-
ción o aplicación colectiva, y a los tests que son suceptibles de este tipo de admi-
nistración se les llama tests colectivos. Hay pruebas especialmente diseñadas para
que su administración requiera que se realice de una de estas dos formas, aun-
que la administración individual o colectiva de muchas de ellas depende de las
circunstancias y del propósito por el que se aplica.
En cuanto a las interpretaciones que se hagan de las puntuaciones que se obtie-
nen con los tests, hay que insistir en que deben ser consistentes con los datos
estandarizados obtenidos de su administración a muestras muy amplias. El test
debe venir acompañado de la información que muestre que cumple todas las pro-
piedades psicométricas exigibles, así como de los datos estadísticos estandariza-
dos que sean necesarios para que el usuario del test pueda interpretar correcta-
mente las puntuaciones de los sujetos a los que ha administrado ese test. A esta
información es a lo que generalmente se denomina normas del test, y su estandiza-
ción es imprescindible para hacer las comparaciones e interpretaciones de los
datos que se obtienen con su aplicación. De hecho, hay tests cuyas normas son
diferentes para diferentes géneros, o grupos de edad, etc.
Tests y otras medidas estandarizadas se han construido para la medición de
la inteligencia, de diversas actitudes, rasgos de personalidad, etc. y se puede acce-
der a muchos de ellos porque están comercializados. No obstante, algunos tests
tienen limitado su acceso y utilización, quedando restringida a expertos, como suce-
de en algunos casos de psicología clínica. Por el contrario, otros son de acceso libre
y se pueden obtener solicitándolos a los autores, o están publicados en libros, o en
revistas científicas o en sitios web, lo que es cada día más frecuente. El uso de tests
ya construidos con probadas buenas cualidades psicométricas es deseable, no sólo
porque la construcción de un test suele tener un coste elevado, tanto económico
como en recursos humanos, sino también, y esto es mucho más importante, por-
que permite las comparaciones de diferentes estudios, ya sean aplicados o con pro-
pósitos investigadores. Aun así, muchos tests ya construidos necesitan modifica-
ciones o adaptaciones y, en otros casos, se necesita su construcción porque no hay
ningún test o cuestionario que con las debidas garantías dé cuenta de la variable
que se desea evaluar.
Puntos clave
3 La psicometría es una ciencia cuantitativa.

3 La definición de la psicometría, en sentido amplio, se corresponde con su nom-
bre, la medición en psicología.
3 A veces se confunde psicometría con teoría y/o construcción de tests, redu-
ciendo así su extensión y significado.
3 El test (o el cuestionario) es el instrumento para hacer mediciones.
3 Las primeras escalas de puntuaciones de las aptitudes mentales pueden con-
siderarse que son el cociente intelectual (CI) y la escala de Binet-Simon.
3 El primer modelo formal de puntuaciones fue el modelo lineal propuesto por
Spearman, y su desarrollo ha dado lugar a la denominada teoría clásica de los
tests (TCT). También se debe a Spearman la primera propuesta del modelo
factorial simple.
3 Los estadísticos descriptivos y las representaciones gráficas de las distribucio-
nes de las puntuaciones en la población (o en la muestra), obtenidas con un test,
o con un ítem, ayudan a conocer algunas de las características de ese test, o
de ese ítem.
3 La tipificación de las puntuaciones es un primer paso para poder compararlas
y para el posterior establecimiento de la escala.
3 El paso de puntuaciones directas a tipificadas y de ellas a otros valores estan-
darizados se hace mediante transformaciones lineales.
3 La normalización de la escala no se hace mediante transformaciones lineales y
no se debe realizar (ni a veces es factible) para distribuciones muy alejadas de
la normalidad.
3 A las transformaciones de las puntuaciones que mantienen su orden relativo y
su significado, se las denomina transformaciones admisibles.
3 Las inferencias sobre el valor del rasgo (puntuación verdadera) en los modelos
TCT hay que hacerlas en relación con las características del grupo normativo.
3 En los modelos TRI las inferencias son independientes del grupo al que perte-
nece el sujeto, pues se hacen en relación con las características del ítem al que
responde.
3 En la actualidad, la psicología, las ciencias sociales y de la conducta utilizan los
modelos psicométricos llamados modelos de variables latentes, basados en las
relaciones entre las denominadas variables latentes y las observadas o manifiestas.
3 En la construcción de un test hay muchos aspectos técnicos que hay que con-
siderar en cada una de las fases de su construcción, pero hay que ser extre-
madamente cuidadosos con los aspectos sustantivos, pues son los que dan
soporte y sentido al test.
Actividades
r Discuta en un foro si la psicología merece o no el título de ciencia cuantitativa.

r Abra un foro similar sobre la psicometría.
r Reseñe las similitudes y diferencias entre psicometría y psicofísica, si cree que
las hay.
r Haga una breve reflexión sobre el test, concebido como instrumento de medida,
comparándolo con otros instrumentos como, por ejemplo, el termómetro.
r Discuta las diferencias, si las hay, entre teoría de los tests, psicometría y el uso
de los tests.
r La distribución de frecuencias que se dan en la siguiente tabla corresponde a
un test con puntuaciones X. Calcule sus estadísticos, discuta la forma de su
distribución, represéntela y discuta su significado.
Xi 0-10 10-20 20-30 30-40 40-50 50-60 60-70 70-80 80-90

Ni 0 10 20 50 80 50 20 10 0
r Repita la actividad anterior con los datos de la tabla siguiente. Verifique si todos
los valores se presentan con la misma frecuencia relativa (f = 0.20). ¿Es la pun-
tuación media igual a la varianza? ¿El 50% de los sujetos tienen valores igua-
les o inferiores a la media? ¿Se habría obtenido mayor varianza si la distribu-
ción de las puntuaciones de esos 100 sujetos hubiese sido normal? ¿Qué
significado psicométrico se puede dar a esta distribución?
Xi 0 1 2 3 4
Ni 20 20 20 20 20
r En la siguiente tabla se dan las distribuciones de frecuencias de las puntua-

ciones de una misma muestra de sujetos en dos tests. Represente ambas dis-
tribuciones de frecuencias y discuta las características de ambos tests.
Puntuaciones
0 10 20 30 40 50
Test X1 600 1200 100 50 30 20
Test X2 20 30 50 100 1200 600
r Calcule los valores de los índices de asimetría de las dos distribuciones de la acti-
vidad anterior y discuta si es aconsejable la normalización de sus puntuaciones.
r Obtenga los datos estandarizados de las cuatro distribuciones dadas en las
actividades anteriores. Discuta qué significado tienen esos valores y si sería
conveniente pasarlos a una escala estandarizada derivada.
r Busque en la literatura las referencias y haga un resumen de las contribucio-
nes de Guttman, Stevens y Thurstone en la construcción de escalas.
Teoría clásica de los tests
El modelo lineal de Spearman 2
El objetivo de los modelos psicométricos es inferir con la precisión ade-
cuada las puntuaciones de los sujetos en un rasgo, mediante las puntua-
ciones que se obtienen al aplicar una prueba diseñada para tal fin. El pri-
mer modelo de puntuación observada, a través del cual se intentó tratar
el problema de la incertidumbre o error inherente a cualquiera de las
medidas realizadas mediante la aplicación de un test, fue el presentado
por Spearman en 1904, estableciendo las bases del modelo lineal de puntua-
ciones. La introducción de este modelo ha dado lugar a que se desarrolle
una de las teorías más prolíficas en el campo de la psicometría, que por
su utilidad y sencillez se ha adoptado para la construcción de numerosí-
simos tests estándar. Aun cuando posteriormente se han desarrollado
nuevas teorías, la teoría basada en el modelo de Spearman, denominada
teoría clásica de las puntuaciones verdaderas o también teoría clásica de los tests
(TCT), sigue siendo influyente en nuestro tiempo, aun cuando se ha pro-
ducido la expansión de una teoría más potente como es la teoría de la
respuesta al ítem (TRI), en cuyo seno se han generado modelos no linea-
les y formas de análisis que vienen a resolver, no sólo algunos de los pro-
blemas inherentes a la TCT, sino otros muchos de gran importancia,
como la determinación del sesgo que pueden conllevar los ítems que for-
man las pruebas.
ã Las hipótesis del modelo de Spearman, siendo una de ellas su for-

ma algebraica.
ã El significado de cada una de las variables que intervienen en el
modelo.
ã Los índices estadísticos que se derivan de las hipótesis del modelo

y su significado.
ã La definición de paralelismo entre medidas y sus implicaciones en
el cálculo de la fiabilidad (precisión) de las pruebas.
m2.1. Formalización del modelo de Spearmanm
Las hipótesis básicas son las de un modelo aditivo lineal, donde la variable endó-
gena o dependiente es la que corresponde a la puntuación X observada en las
pruebas. La variable exógena o independiente V es la correspondiente a la
supuesta puntuación verdadera de los sujetos en el rasgo, cuyo valor se pre-
tende estimar.
El modelo que propone Spearman es un modelo lineal muy simple cuyas carac-
terísticas se encuentran en los manuales de estadística, de álgebra o incluso en los
de otras disciplinas, puesto que es un modelo que se ajusta a muchas situaciones.
Sin embargo, aquí se exponen las hipótesis y el significado del modelo que son
específicas del contexto psicométrico.
Hipótesis
1. Hipótesis fundamental: Cualquier puntuación observada X es función de

dos componentes, que son la puntuación verdadera V del sujeto y el
error e:
X=V+e (2.1)
En esta relación X juega el papel de una variable aleatoria sobre una

población Π de individuos, que toma valores X = {xg} sobre g sujetos de
una población de tamaño N (g = 1, …, N). La variable V es otra variable
aleatoria asociada que toma valores V = vg sobre Π.
2. Hipótesis de nulidad de los errores: La media aritmética de los errores es cero,
es decir que su esperanza matemática es cero:
E (e) = 0
Capítulo 2. TCT: Modelo lineal de Spearman 55
Se supone además que los errores se distribuyen según una ley normal
y que el modelo es homocedástico, es decir, que para cualquier i, j las varian-
zas de los errores son iguales:
( )
var (e i ) = σ e2i = σ e2j = var e j
3. No existe correlación entre las puntuaciones verdaderas y el error en una misma

prueba:
ρVe = 0
4. No existe correlación entre los errores. Para todo i, j se cumple:
ρei ej = 0
distintas de un mismo test o en tests diferentes. Esto es, para todo i, j, con i ≠ j,
5. No existe correlación entre las puntuaciones verdaderas y los errores en formas
se tiene que:
ρVi ej = 0
De estos cinco supuestos o hipótesis iniciales se deducen las relaciones que

son básicas para el desarrollo de la TCT y se refieren a los valores esperados, a las
varianzas de las puntuaciones y a las correlaciones entre ellas.
m2.2. Relaciones e índices que se deducen de las hipótesism
De las hipótesis precedentes se deducen importantes relaciones que son de gran

utilidad, tanto en los desarrollos teóricos como en sus aplicaciones prácticas,
puesto que permiten poner en conexión las distintas variables y dar significado
a dichas relaciones. Las más importantes son las que llevan a poder estimar la
precisión de las pruebas e inferir los valores de las variables no directamente
observables (como V y e) a partir de la variable observable X, cuyos valores son
los que se obtienen empíricamente en la aplicación de las pruebas. A estas pun-
tuaciones las llamaremos indistintamente puntuaciones empíricas o puntuacio-
nes observadas.
Las más básicas y relevantes de estas relaciones son las siguientes:
a) El valor esperado de la puntuación verdadera es igual al valor esperado de

la puntuación observada:
E [ V] = E [ X] (2.2)
Es decir, bajo los supuestos del modelo, las medias de las puntuacio-
nes observadas y las de las verdaderas coinciden.
En efecto, puesto que X = V + e y que E (operador esperanza mate-
mática) opera linealmente, la esperanza de la expresión anterior es:
E [ X ] = E [ V + e] = E [ V ] + E [ e]
Al ser E [e] = 0 por hipótesis del modelo, la ecuación anterior se redu-

ce a E [X] = E [V], lo que indica que la media de las puntuaciones verda-
deras es igual a la media de las puntuaciones observadas, siempre que éstas
se hayan obtenido en pruebas repetidas y de forma independiente.
b) La ecuación de regresión de la puntuación observada sobre la puntuación
verdadera es la ecuación de una línea recta que pasa por el origen y cuya
pendiente es la unidad.
Esto se debe a que para todo valor g = 1, …, N, las medias condicio-
[ ]
nadas de las puntuaciones observadas sobre las verdaderas son:
E X V = vg = vg
Cuadro 2.1
La consecuencia b) se deduce fácilmente recordando que la línea de regre-

sión de una variable X sobre otra Y es la línea representativa de las medias
aritméticas de la variable X, condicionadas a cada uno de los valores o moda-
lidades de la variable Y.
En este caso, la regresión es de la variable X sobre cada uno de los
valores V = vg, con g = 1, ... , N, por lo que las medias condicionadas son:
[ ] [ ] [ ] [
E X V = vg = E V + e V = vg = E V V = vg + E e V = vg ]
Ahora bien, en la expresión anterior se tiene que, al ser E (e) = 0, y pues-
to que las puntuaciones verdaderas son independientes del error, dada una
determinada puntuación verdadera V = vg, la esperanza matemática condi-
cionada E [e V = vg] también es cero. Al ser E [e V = vg]=0, se tiene que:
E [XV = vg] = E [VV= vg].
El valor medio de la variable V condicionado a que V tome exactamente
el valor Vg es exactamente el valor vg , o sea, una constante.
Por lo tanto, para todo valor g = 1, …, N, las medias condicionadas de
[ ]
las puntuaciones observadas sobre las verdaderas son:
E X V = vg = vg
La línea de regresión E [XV ] = V es una recta con pendiente unidad que

pasa por el origen. Su gráfico es la bisectriz del primer cuadrante con V en
abscisas y E [XV] = V en ordenadas.
c) La varianza de las puntuaciones observadas es igual a la suma de la varian-

za de las puntuaciones verdaderas más la varianza de los errores.
σ 2X = σ 2V + σ 2e (2.3)
Ésta es una consecuencia inmediata de la hipótesis enunciada de no

correlación entre la puntuación verdadera y el error. Para comprobarlo,
basta tener en cuenta que la varianza de una suma de variables aleatorias
es igual a la suma de las varianzas de cada una de las variables más las
covarianzas de todos los posibles pares distintos de variables que se pue-
den formar.
En este caso, se trata de la variable aleatoria X como suma de otras
dos. Así,
var (X ) = var (V + e) = var (V ) + var (e) + 2 cov (V , e) = σ 2V + σ e2 + 2 ρ Ve σ V σ e

ya que la correlación entre las variables V y e es:
cov (V , e)
ρ Ve =
σV σe
y al ser por hipótesis ρVe = 0, el numerador de la expresión anterior es cero.

Por lo tanto, la varianza de la puntuación observada se obtiene como la
suma de las varianzas de la puntuación verdadera y la del error.
d) El cuadrado del coeficiente de correlación lineal entre las puntuaciones
observadas y sus correspondientes puntuaciones verdaderas es igual al
cociente entre la varianza de las puntuaciones verdaderas y la varianza de
las observadas.
σ 2V
ρ2XV =
σ 2X
(2.4)
Este coeficiente sirve para establecer posteriormente el concepto de

fiabilidad del test.
Cuadro 2.2
La relación (2.4) se obtiene como consecuencia inmediata de la linealidad

de la regresión. En efecto, si se considera la covarianza:
(
cov X,V = E ) [ [X − E (X)] [V − E (V)] ] = E (X V) − E (X) E (V)
sustituyendo X por V + e, y teniendo en cuenta las hipótesis del modelo, se
obtiene:
( ) [( ) ]
cov X,V = E V + e V − E V + e E V = [ ] [ ]
= E [ V 2 + Ve] − [ E [ V ]] = E [ V 2 ] − [E [ V ]] = var ( V )
2 2
Se tiene pues que, bajo las hipótesis del modelo, se da la igualdad:
( )
cov X,V = var V = σ 2V( )
que sustituida en la expresión general del cuadrado del coeficiente de corre-
( )
lación:
 cov ( X, V ) 2 σ 2V
2
σ2
ρ2XV =  = 2 2 = 2V
 σX σV  σX σV σX
que es la igualdad (2.4) que se pretendía obtener.
e) De las expresiones (2.3) y (2.4) se deduce la igualdad:
σ 2X − σ 2e σ 2e
ρ2XV = = 1−
σ 2X σ 2X
(2.5)
f) El cuadrado de la correlación entre la puntuación observada y el error es

igual a la razón de la varianza de los errores con respecto a la varianza de
las puntuaciones observadas:
σ 2e
ρ2Xe =
σ 2X
(2.6)
Esta relación la puede deducir el lector siguiendo un proceso análogo

al que se ha seguido en el punto d) .
g) Una nueva relación es la complementariedad a uno del cuadrado de los coe-
ficientes de correlación dados en (2.5 ) y (2.6),
ρ2XV + ρ2Xe = 1 (2.7)
cuya deducción es inmediata.

m2.3. Condiciones de paralelismo entre medidas: Consecuenciasm
Una de las cuestiones de mayor importancia en el contexto de la TCT es el esta-

blecimiento de las condiciones de paralelismo entre las medidas. El cálculo prác-
tico de los índices, como se definen en el modelo, no se puede llevar a cabo al
tener que utilizar valores de variables no directamente observables, como ocurre
por ejemplo con el de ρXV. El cálculo de esos índices y de algunos estadísticos es
viable a través de las relaciones formales existentes entre medidas paralelas.
Medidas paralelas
Definición:
Dos conjuntos de puntuaciones, sean estas X y X', se dice que son medidas
paralelas si se cumplen las dos condiciones siguientes:
a) Ambas tienen la misma puntuación verdadera:
X = V +e X′ = V + e′ (2.8)
b) Ambas poseen la misma varianza error:
σ 2e = σ 2e′ (2.9)
De estas condiciones es inmediato deducir importantes consecuencias, tales

como que las medias aritméticas de las puntuaciones observadas en medidas para-
lelas coinciden, así como sus varianzas; que la correlación entre medidas parale-
las es igual al cuadrado de la correlación entre las puntuaciones observadas y las
verdaderas, o que la varianza de la puntuación verdadera es equivalente a la cova-
rianza entre dos puntuaciones observadas que sean paralelas. Comprobemos que
se verifican tanto las relaciones enunciadas como otras de interés.
Relaciones derivadas de las condiciones de paralelismo:
1) Para dos variables X y X', con medidas supuestamente paralelas, se verifi-

ca que ambas variables tienen la misma media aritmética.
E [ X ] = E [ X′] (2.10)
En efecto: Teniendo en cuenta la linealidad del operador esperanza

matemática y la hipótesis del modelo de Spearman, que considera que los
errores aleatorios se anulan en media, se tiene que:
E [ X ] = E [ V + e] = E [ V ] + E [ e] = E [ V ]
E [ X′] = E [ V′ + e′] = E [ V′] + E [e′] = E [ V′]
Al ser E [e] = E [e' ] = 0 por hipótesis del modelo, y siendo además

V = V' por las hipótesis de paralelismo, los segundos miembros de ambas
igualdades coinciden y, por lo tanto, también coinciden los primeros, dán-
dose la igualdad de medias entre ambas variables X y X' observadas.
2) Las varianzas de las puntuaciones observadas en dos variables X y X' son
iguales, cuando se trata de medidas paralelas:
Var (X) = Var (X' ) (2.11)
Es inmediato comprobarlo en el modelo ya que las varianzas de ambas

variables son:
Var (X) = Var (V + e) = Var (V) + Var (e) + 2 cov (V, e)

Var (X' ) = Var (V' + e' ) = Var (V' ) + Var (e' ) + 2 cov (V' , e' )
Si se considera que se cumplen las condiciones de paralelismo (2.8) y

(2.9) y la hipótesis de no correlación entre las puntuaciones verdaderas y
los errores, se obtiene que para medidas X y X' paralelas σ X2 = σ X2 ' .
3) La correlación entre medidas paralelas es igual al cuadrado de la correlación
entre las puntuaciones observadas y las verdaderas e igual al cociente entre
las varianzas de las puntuaciones verdaderas y las observadas (Cuadro 2.3).
σ 2V
ρ XX ′ = ρ2XV =
σ 2X
(2.12)
Cuadro 2.3
Para obtener (2.12) basta con explicitar la expresión de la correlación lineal

entre dos variables y hacer uso de las propiedades y restricciones del mode-
lo anteriormente señaladas.
ρ XX′ =
(
cov X, X ′ ) = E [(X − E (X)) (X ′ − E (X ′))] =
σ X σ X′ σ X σ X′
=
[ ] [ ] [ ]
E X X′ − E X E X′
σ X σ X′
Como consecuencia del paralelismo E [X] = E [X' ] y Var (X) = Var (X' ). Sus-
tituyendo X y X' por sus componentes, de acuerdo con (2.1), se obtiene que
[ ] [ [ ]]
E X X' − E X [ ] [ [ ]]
E V2 − E V
2
σ 2V
2
ρ XX' = = = = ρ2XV
σ 2X σ 2X σ 2X
Así, en la práctica, pueden calcularse las cantidades inobservables σ 2V

y ρ2XV
a partir de los valores de σ 2X y ρXX' .
4) Como consecuencia de lo anterior, es inmediato comprobar que la varian-

za de la puntuación verdadera es igual a la covarianza entre dos medidas
paralelas.
Var (V) = cov (X , X' ) (2.13)
De la relación (2.12), se deduce que:
σ V2 = σ X2 ρXX' (2.14)
Sustituyendo el coeficiente de correlación por el cociente entre la co-

varianza y el producto de las desviaciones típicas de ambas variables se
tiene que:
cov (X , X′)
σ 2V = σ 2X ρ XX ′ = σ 2X = cov (X , X′)
σ X σ X′
ya que σ X = σ X' debido al paralelismo.

5) Las intercorrelaciones entre formas paralelas de un test son todas iguales,
y todas las formas paralelas de un mismo test tendrán la misma correlación
con otro test cualquiera.
Esta afirmación se deduce del teorema que enunciamos a continuación
pero que no demostraremos aquí.
Teorema: Si X1, X2, ... , Xj, ... , Xn son medidas paralelas, y es Z otra medi-
da arbitraria distinta, no paralela a las anteriores, para todos los pares i, j,
se verifica que:
ρ X 1X 2 = ρ X 1X 3 = . . . = ρ X i X j = . . .
y que
ρ X1Z = ρ X 2Z = . . . = ρ X i Z = . . .
6) La varianza de las puntuaciones verdaderas es igual o menor que la de las

observadas.
En la relación (2.14) se observa que al multiplicar σ 2X (que es un valor
positivo) por ρXX' (que sólo puede tomar valores entre 0 y 1), la varianza
de la puntuación verdadera tomará valores menores a los de la observada,
o iguales si ρXX' = 1.
7) La varianza de la variable error es igual a la varianza de las puntuaciones
observadas por la diferencia a uno de la correlación entre medidas pa-
ralelas
σ 2e = σ 2X (1 − ρ XX ′ ) (2.15)
Esta relación se obtiene despejando σ 2e de la ecuación (2.3), y sustitu-

yendo el valor de σ 2V por el de la ecuación (2.14)
σ 2e = σ 2X − σ 2V = σ 2X − ( σ 2X ρ XX ′ ) = σ 2X (1 − ρ XX ′ )
8) La correlación entre la puntuación observada y el error se puede calcular

a través de la correlación entre dos medidas paralelas, según la siguiente
expresión:
ρ Xe = 1 − ρ XX ′ (2.16)
ya que
σ 2e σ 2X − σ 2V σ 2V
ρ2Xe = = = 1− = 1 − ρ XX ′
σ 2X σ 2X σ 2X
9) La exigencia de paralelismo entre medidas es lo que permite hacer uso

de las ventajas de los modelos homocedásticos, ya que la igualdad
de varianzas entre los errores es una condición necesaria para el parale-
lismo.
Los nueve puntos anteriores hacen explícito cómo, utilizando medidas
paralelas, es posible obtener el valor de magnitudes o de relaciones tales
como la varianza de las puntuaciones verdaderas, la correlación lineal
existente entre las puntuaciones observadas y sus correspondientes ver-
daderas, etc.
Medidas tau-equivalentes
Las condiciones de paralelismo, que obliga a la igualdad de medias y de varianzas

de las variables, es muy poco probable que se den en la práctica. Por ello, se han
propuesto definiciones alternativas a la de paralelismo, con condiciones menos
estrictas para las relaciones entre las puntuaciones con las que se va a calcular el
coeficiente de fiabilidad. Entre esas definiciones están las de:
Medidas tau-equivalentes, que exigen que sean iguales las puntuaciones verdade-
ras, pero no las varianzas error. Por lo tanto, en estas medidas se está suponien-
do la igualdad entre las medias y las varianzas de las puntuaciones verdaderas,
pero no entre las empíricas u observadas. Entre las puntuaciones observadas sólo
se dará la igualdad de las medias, pero no la de varianzas.
Medidas esencialmente tau-equivalentes son las que no exigen la igualdad entre las
varianzas error, pero tampoco entre las puntuaciones verdaderas, pues admiten
que difieran en una constante aditiva. Por lo tanto, no se dará la igualdad de varian-
zas entre las puntuaciones observadas y tampoco entre sus medias, que diferirán
en una constante aditiva.
Además de las tau-equivalentes se han propuesto medidas congenéricas. Éstas son

medidas en las que no se supone la igualdad entre las varianzas error y se admite
que la relación entre las puntuaciones verdaderas sea una transformación lineal.
Por lo tanto, no es de esperar ni la igualdad de medias ni la de varianzas entre las
puntuaciones observadas.
Comprobación del paralelismo
La comprobación del paralelismo se realiza verificando si se cumplen los supues-

tos dados en (2.8) y (2.9). En la práctica lo que se comprueba es si se da la igual-
dad de medias y varianzas entre las puntuaciones observadas en dos pruebas
con puntuaciones supuestamente paralelas. Es muy poco probable que se obser-
ve una estricta igualdad entre las medias y entre las varianzas, aun en el supues-
to de que ambos conjuntos de puntuaciones correspondiesen a pruebas real-
mente paralelas. Por ello, hay que comprobar que las variaciones observadas se
deben a causas ajenas a las pruebas, que han sido bien controladas las condi-
ciones de su aplicación, etc. y que se pueda afirmar que las diferencias son efec-
tivamente fluctuaciones aleatorias atribuibles al azar. Esta afirmación se hace en
términos probabilísticos, tras los correspondientes contrastes, usando métodos
estadísticos formales.
Por lo tanto, cuando los valores de las medias y/o de las varianzas de las
puntuaciones empíricamente obtenidas no coincidan, se procederá al contras-
te de hipótesis de las diferencias entre las medias, o entre las varianzas o a ambos
contrastes.
Finalmente, hay que puntualizar que en el paralelismo entre pruebas hay que
analizar lo sustantivo, es decir, los contenidos, pues es previo a cualquier cuestión
sobre la igualdad de los parámetros.
Cuadro 2.4
En la literatura se encuentran trabajos como el de Gulliksen (1950a) en los

que se presentan procedimientos adecuados para la justificación estadísti-
ca del paralelismo pero, como bien señalan Lord y Novick (1968), no sola-
mente es preciso comprobar que se cumplen las condiciones formales de
paralelismo, sino que también es preciso examinar el contenido de los tests
supuestamente paralelos.
Consecuencias prácticas
Se ha expuesto a lo largo de los apartados anteriores que la introducción de las

condiciones de paralelismo proporciona un método de obtención de medidas a
través de las cuales se puede conocer el valor de estadísticos o de los parámetros,
cuyo cálculo en la práctica no se puede realizar aplicando las ecuaciones con las
que originalmente se habían definido, puesto que ello entraña la utilización de
valores inobservables.
Los supuestos del paralelismo de las puntuaciones permiten calcular:
a) La variabilidad de las puntuaciones verdaderas y la de los errores, medida

a través de sus varianzas.
Como consecuencia de las hipótesis del modelo, la media de las pun-
tuaciones observadas es igual a la de las puntuaciones verdaderas, por lo
que es necesario conocer cuál es la dispersión de esas puntuaciones con
respecto a sus respectivas medias y compararlas.
La comparación entre σ 2V y σ 2X puede realizarse por simple diferencia:
σ 2X − σ 2V = σ 2e
La razón σ 2V /σ 2X permite conocer el peso de la variabilidad atribuible

al error:
σ 2V σ 2e
1− =
σ 2X σ 2X
b) La correlación entre las puntuaciones observadas y las verdaderas es el dato

fundamental en el proceso de construcción de una prueba y en su aplica-
ción. Carecería de sentido una prueba en la que no exista relación entre las
puntuaciones que proporcione la prueba y las correspondientes puntua-
ciones verdaderas de los sujetos en el rasgo que con esa prueba se preten-
de evaluar. La correlación lineal entre puntuaciones verdaderas y observa-
das es posible conocerla a través del coeficiente de correlación lineal entre
pruebas paralelas (ecuación (2.12)):
c) La correlación lineal entre las puntuaciones observadas y los errores ρ Xe,
también se puede calcular, sin más información que la que proporciona
la correlación entre dos pruebas cuyas puntuaciones sean paralelas (ecua-
ción (2.16)).
d) La correlación entre medidas paralelas también permite conocer la varian-
za del error, mediante la expresión (2.15), que es un dato relevante en cual-
quier proceso de inferencia.
A continuación se presentan algunos ejemplos para ilustrar lo anteriormente

expuesto.
Ejemplo 2.1
Antes de abordar un experimento, se quiere conocer la variabilidad de las

puntuaciones verdaderas en un cierto rasgo de un grupo específico compues-
to por 800 sujetos. Para la medición del rasgo se va a usar una prueba que con-
tiene 50 ítems, pero de la que aún no se conoce su precisión. Para ello se han
seguido los siguientes pasos:
a) La variabilidad de las puntuaciones verdaderas se va a medir a través de su

varianza.
b) Los 800 sujetos han respondido a los 50 ítems en dos ocasiones separadas
en el tiempo, manteniéndose las condiciones de aplicación de la prueba.
c) Se han calculado las puntuaciones medias y las varianzas de las puntua-
ciones obtenidas en ambas ocasiones.
d) Se ha contrastado el paralelismo entre ambas y con α = 0.05 se acepta la
igualdad de medias y varianzas, siendo esos valores:
X = 32 ; σ 2X = 6
e) Se ha calculado el coeficiente de correlación lineal entre los dos conjuntos

de puntuaciones obtenidas de ambas aplicaciones, siendo éste ρXX' = 0.82.
f) Haciendo uso de la relación σ 2V = σ 2X ρXX' se obtiene que σ 2V = 4.92, que es la
varianza que se pretendía conocer.
Como se puede observar, la variabilidad de las puntuaciones verdaderas,

medida a través de su varianza, es menor que la de las puntuaciones obser-
vadas.
Ejemplo 2.2
El experimentador quiere elegir entre dos nuevas pruebas X1 y X2, de 50 ítems

cada una, que han cumplimentado 900 sujetos. De las puntuaciones observa-
das se obtiene que:
X 1 = 38 ; σ 2X = 12
1
X 2 = 42; σ 2X = 12
2
y los valores de los coeficientes de correlación lineal, calculados entre las pun-
tuaciones iniciales y las obtenidas en las réplicas respectivas, son:
ρ X1 X1′ = 0.72; ρ X 2 X′2 = 0.66
De esos datos, el psicómetra puede deducir que
( )( )
σ 2V = 12 0.72 = 8.64
1
y usando la prueba X2:
( )( )
σ 2V = 12 0.66 = 7.92
2
La varianza de las puntuaciones observadas es la misma en ambas prue-

bas, pero la variabilidad de las puntuaciones verdaderas es menor para la
prueba X2 que para la prueba X1. De donde se deduce, según (2.3), que la
varianza atribuible a la componente error para la prueba X2 sería mayor que
la de la X1. Esto es,
σ 2e = 12 − 8.64 = 3.36
1
σ 2e = 12 − 7.92 = 4.08
2
por lo tanto, debe elegirse la prueba X1 frente a la X2, pues tiene menor varian-
za error. Esta conclusión se deriva de la menor fiabilidad del test X2, teniendo
la misma varianza que el test X1.
Ejemplo 2.3
Con el fin de medir un rasgo psíquico en escolares entre 8 y 10 años, se han

enunciado veinte ítems para que constituyan un test, y se quiere conocer la pre-
cisión de ese test. Para ello, se ha construido una prueba análoga y se estudian
las puntuaciones obtenidas al administrar esas pruebas, procediendo de la
siguiente manera:
a) Se eligió una muestra aleatoria representativa de la población objetivo, don-

de estaban debidamente representados todos los tipos de centros escola-
res con alumnos entre 8 y 10 años. Esa muestra tenía un tamaño de N = 1200
escolares.
b) Todos los sujetos respondieron a los 20 ítems de ambas pruebas y a las pun-
tuaciones de una se las denotó X y a las de la otra X' , en la presunción de
que existiría paralelismo entre ambos conjuntos de puntuaciones.
c) Se calcularon las medias y las estimaciones de las varianzas (las cuasiva-
rianzas) s2 de las puntuaciones de ambas pruebas, siendo esos valores:
X = 16.4 ; s2X = 12
X ′ = 14.2 ; s2X′ = 12
y ya que de cada escolar se tenían las puntuaciones de cada ítem en una y

otra prueba, se calculó también la desviación típica de las diferencias entre
los pares de valores (muestras apareadas), siendo ese valor sd = 4.
d) Se observa la igualdad de varianzas, pero no la de las medias. ¿Se puede
considerar que también las medias son iguales y que las diferencias son atri-
buibles al azar?
e) Para resolver la cuestión anterior, se plantea un contraste estadístico. La
hipótesis nula es que no existen diferencias entre las medias de ambos gru-
pos, considerados como muestras relacionadas.
f) El estadístico de contraste es:
X − X' 16.4 − 14.2

t= = = 19.01
sd N−1 4 1199
g) Al ser grande el tamaño muestral, bajo la curva de la distribución normal se

delimitan las áreas de aceptación y de rechazo de la hipótesis nula de no
diferencia entre las medias. El valor z = 19.01 sobre el eje de la variable, se
encuentra entre los valores contenidos en el área de rechazo de la hipótesis
nula, a niveles de probabilidad p > 0.99.
Este resultado indicó que las pruebas X y X' no se podían considerar para-
lelas, e incluso que esos dos conjuntos de ítems pudieran estar midiendo aspec-
tos diferentes.
Ejemplo 2.4
En el experimento mencionado en el ejemplo anterior, se hicieron modifi-

caciones. Se examinó el contenido de los ítems, en algunos de ellos se refor-
muló su redacción y cinco se redefinieron y se sustituyeron por otros nuevos.
Se administraron nuevamente ambas pruebas a una muestra de similares carac-
terísticas y con el mismo número de escolares. Los valores de las medias y de
las varianzas obtenidas con ambas pruebas fueron:
X = 16.80 ; s2X = 15.21 ; X ′ = 16.61 ; s2X′ = 13.69 ; sd = 4.37
Se desea conocer si tras estos cambios, ambos conjuntos de medidas se

pueden considerar paralelas.
Puesto que ni las medias ni las varianzas coinciden, lo indicado es hacer
sendos contrastes de hipótesis, aunque ahora se observa que los valores de
las medias son muy similares.
a) Para contrastar la hipótesis H0 de igualdad de medias en la población
H0 : µ = µ'
H1 : µ ≠ µ'
se utiliza el mismo estadístico de contraste que en el ejemplo anterior, obte-

niéndose que es:
t= = 1.46
0.19
0.13
Este valor experimental pertenece a la región de aceptación de H0, bajo

la distribución normal, con un nivel crítico α = 0.05. Al ser una muestra
grande z ≈ t y la zona de aceptación de la hipótesis nula comprende valores
de la variable entre – 1.96 y + 1.96. Por lo tanto, con un nivel de confianza
1 – α = 0.95, se puede afirmar que no existe diferencia significativa entre
ambas medias.
b) El contraste de igualdad de varianzas se realiza mediante el estadístico
t=
(s 2
X − s2X′ ) N− 2
= 1.94
2 s X s X′ 1− rXX
2
′
Este estadístico, t de Student, al ser N suficientemente grande, se asi-

mila a una distribución normal (también en este caso, al ser N = 1200 gran-
de, varianzas y cuasivarianzas muestrales dan valores análogos). Delimitan-
do bajo la curva de probabilidad N (0,1) las áreas de aceptación (1 – α) y de
rechazo (α) de H0 se tiene que con a = 0.05 los valores que delimitan esas
áreas son z = ± 1.96.
Como el valor 1.94 está dentro de la región de aceptación de la hipótesis
nula, se acepta con probabilidad 1 – α ≥ 0.95 la hipótesis nula de igualdad.
Consecuencia. Se puede aceptar que las dos pruebas X y X' cons-
truidas al modificar las previas, podrían considerarse formalmente pa-
ralelas.
Ejemplo 2.5
Se desea estudiar la fluidez verbal de 4 personas usando una prueba que

consiste en que durante tres minutos escriban una columna de palabras
que tengan sentido de las que se les ha dado escrita la primera sílaba. En
una nueva ocasión, y en las mismas condiciones se les suministra una prue-
ba supuestamente paralela a la anterior, con el fin de utilizar las relaciones
entre medidas paralelas y discutir su variabilidad en relación con la de las
puntuaciones verdaderas, así como su relación con el coeficiente de determi-
nación.
Las puntuaciones que cada persona obtiene en cada una de las pruebas se
corresponden con el número de palabras con significado. Esas puntuaciones
se dan en la Tabla 2.1.
Tabla 2.1. Puntuaciones de cuatro sujetos en dos pruebas.
Sujetos
Pruebas
1 2 3 4
X 30 18 40 40
X' 22 14 32 28
El primer objetivo es comprobar si, en efecto, estas pruebas se comportan

como paralelas con ese número reducido de sujetos. Las medias y las varian-
zas de las puntuaciones son:
4 + 196 + 64 + 64
X = 32; s2X = = 82; s X = 9.06
4
4 + 100 + 64 + 16
X ′ = 24 ; s2X′ = = 46 ; s X′ = 6.78
4
Es evidente que ni las medias ni las varianzas coinciden. Realizados los

respectivos contrastes, también se han rechazado las hipótesis de igualdad.
Por lo tanto, no puede considerarse que estas pruebas se comporten como
paralelas, ni tampoco como tau-equivalentes. El valor de la covarianza entre
ambas puntuaciones tampoco se corresponde con la varianza de la pun-
tuación verdadera. Ahora bien, si se calcula el coeficiente de correlación lineal
entre ambos conjuntos de puntuaciones se obtiene que:
rXX′ =
[ ] [ ] [ ]=
E X X′ − E X E X′ 60
=
60
= 0.98
s X s X′ (9.06) (6.78) 61.43
lo que indica que existe una alta correlación lineal positiva entre las variables
asociadas con ambos conjuntos de puntuaciones. Esto no implica, sin embar-
go, que exista paralelismo entre ellas.
Puntos clave
3 Un modelo lineal que relaciona la puntuación verdadera de un sujeto en un ras-

go con la observada cuando realiza una prueba para la medición de ese rasgo,
es el primer modelo formal y el pilar donde se ha apoyado el desarrollo de la
denominada teoría clásica de los tests.
3 Ese modelo lo propuso Spearman y, además de la linealidad en la relación entre
la puntuación observada y la verdadera del sujeto, introduce otras hipótesis que
afectan fundamentalmente al tratamiento de la componente error.
3 En el contexto de este modelo se introduce el concepto de medidas paralelas
entre puntuaciones observadas en las pruebas.
3 Magnitudes no directamente calculables, como las varianzas de las puntuacio-
nes verdaderas, o la de los errores, o la correlación entre puntuaciones obser-
vadas y verdaderas, se pueden obtener utilizando las propiedades de las corre-
laciones entre puntuaciones observadas que sean paralelas.
3 El cuadrado de la correlación entre la puntuación observada y la verdadera es
el coeficiente de determinación que, bajo los supuestos del modelo, equivale
a la correlación entre medidas paralelas.
3 La correlación entre medidas paralelas se utiliza como medida de precisión (fia-
bilidad), como se verá en los próximos capítulos.
3 Es poco probable que en la práctica se obtengan medidas que cumplan las con-
diciones de paralelismo definidas en el modelo. Por ello, se ha propuesto que la
fiabilidad se pueda calcular con medidas cuyas relaciones sean menos exigen-
tes que las de paralelismo, como es la tau-equivalencia.
Actividades
r Explicite de forma adecuada cuál es el sentido y la importancia que tiene

en el modelo de Spearman la hipótesis de nulidad de los errores.
r Comente qué importancia tiene en el modelo de Spearman la hipótesis de
no correlación entre puntuación verdadera y error.
r Haga una reflexión escrita acerca de por qué es falso lo siguiente: por defi-
nición, son medidas paralelas aquellas en que sean iguales sus medias y sus varianzas.
r Comente la afirmación que se hace en el texto de que es ilustrativo, útil y
necesario conocer el error típico de medida.
r Razone por qué dos conjuntos de medidas pueden estar muy altamente
correlacionadas y no ser paralelas.
Fiabilidad
Precisión de las medidas 3
Una característica común a cualquier Ciencia es la evaluación de las varia-

bles implicadas en una determinada medida. Para ello, es primordial la
determinación, tanto de la precisión con la que se realizan dichas medidas,
como la que es exigible en cada caso concreto, ya sea bajo supuestos teó-
ricos o empíricos. En la literatura psicométrica, a la precisión de los ins-
trumentos de medida, o sea, la de los tests y de los cuestionarios, se la deno-
mina fiabilidad.
ã La fiabilidad como índice o indicador de la precisión de las medi-

das obtenidas mediante los tests o los cuestionarios.
ã Diversas expresiones que en la práctica se utilizan para calcular la
fiabilidad.
ã Hay diferentes tipos de fiabilidad, que no son formas alternativas
para evaluar lo mismo, sino que son distintos caminos para evaluar
diferentes aspectos de la fiabilidad.
ã Los coeficientes (o los índices) de fiabilidad pueden evaluar la esta-
bilidad de las medidas a lo largo del tiempo.
ã Mediante los coeficientes (o índices) de fiabilidad se puede evaluar
la consistencia intra-ítems, o sea, la homogeneidad de los elemen-
tos que componen la prueba u otras relaciones entre los ítems de
un mismo test.
ã La fiabilidad está afectada por el propio instrumento de medida, por
el propósito para el que se construye y por el contexto.
m3.1. El concepto de fiabilidadm
Una vez que se ha generado un cuestionario o un test hay que conocer la fiabili-
dad y la validez de las medidas que se obtengan cuando se les administren esas
pruebas a los sujetos a los que se desee evaluar. Al hablar de la fiabilidad de un test
nos estamos refiriendo a la precisión de ese test, considerado como instrumento
de medida, en correspondencia con el concepto de precisión que se tiene acerca
de los instrumentos utilizados para las medidas físicas. El término fiabilidad se
acuña en el contexto de la teoría clásica de los tests.
Teniendo en cuenta que el objetivo de un test es el de poder inferir magnitu-
des que reflejen los inobservables psíquicos a través de sus manifestaciones obser-
vables, hay que ser cuidadosos con la interpretación dada a la fiabilidad pues, a
veces, se confunde con otros conceptos como el de adecuación o de validez. La
fiabilidad de una prueba o test se refiere, exclusivamente, a la precisión de esa
prueba, utilizada como instrumento de medida, y nunca a si ese instrumento es
idóneo para la medida de la aptitud, actitud, destreza o cualquier otro tipo de ras-
go que se quiere evaluar a través de esa prueba. La cuestión de la idoneidad del
instrumento de medida con respecto al rasgo que se desea evaluar es un proble-
ma de validez, que es otra de las características necesariamente exigibles a las prue-
bas psicométricas, cuya problemática se trata en los Capítulos 8, 9 y 10. Tanto la
fiabilidad como la validez presentan distintas facetas, que reciben diferentes deno-
minaciones y que tienen sus propios métodos de cálculo e interpretaciones.
Cuadro 3.1
Si de una forma intuitiva y muy elemental queremos ilustrar el concepto de

lo fiable incardinado con el de lo válido bastará con unos ejemplos muy ase-
quibles a cualquier lector, si nos remitimos a instrumentos de medida que
nos son familiares, porque habitualmente los manejamos. Pensemos en una
báscula y en un reloj, pudiendo hacer, por ejemplo, las siguientes preguntas:
a) ¿Sería aceptable en una prueba de velocidad que se diera como gana-

dor a un corredor por una diferencia de un segundo con respecto a
su inmediato seguidor si el cronómetro con el que se ha realizado el
control de tiempos no precisa más que hasta segundos?
Capítulo 3. Fiabilidad: Definiciones 77
b) ¿Estaría usted de acuerdo si al comprar unos gramos de un bien cuyo

precio en el mercado es elevado, por ejemplo azafrán, observara que
se utiliza para determinar su peso una balanza cuyas indicaciones
vienen señaladas de cinco en cinco gramos?
Las respuestas a ambas preguntas coinciden y son negativas. No nos

parecería adecuado aceptar las medidas realizadas en cualquiera de los dos
supuestos.
Evidentemente, los instrumentos utilizados, el cronómetro y la balan-
za, son los instrumentos más adecuados para medir el tiempo y el peso,
por lo tanto, son instrumentos válidos. Sin embargo, no aceptamos como
buenas las medidas realizadas con ellos porque, aun siendo instrumentos
válidos, no son lo suficientemente precisos como para servir a los propó-
sitos a los que están dirigidos, no son fiables.
Tampoco serían fiables un cronómetro que pudiera precisar hasta los
milisegundos y una balanza de precisión, si las medidas que se obtuvieran
con esos instrumentos estuvieran sujetas a variaciones ambientales no con-
troladas, como pudiera ser la humedad, la temperatura, el nivel de carga de
la batería que los alimenta, la posición, etc.
Que el instrumento proporcione la medida con la precisión adecuada es
necesario, pero no es suficiente para aceptarla, porque también debe mos-
trar que es válida. Por ejemplo, una balanza de precisión es fiable, pero no es
un instrumento válido para medir tiempos. En psicología, una medida antro-
pométrica, como el perímetro craneal, por precisa que sea, no se considera
que sea válida para hacer inferencias acerca de la medida de la inteligencia.
Sin embargo, aunque no están exentos de críticas, los tests psicométricos se
consideran instrumentos adecuados para la medida de la inteligencia. La vali-
dez hay que determinarla para cada uno de los tests o cuestionarios que se
construya, pues hay que asegurarse de que miden aquello que se pretende
medir, y no otra cosa. Por lo tanto, a los instrumentos que se construyan para
evaluar aptitudes, rasgos de personalidad, actitudes, etc., hay que exigirles
que tengan la suficiente precisión (fiabilidad) y además hay que comprobar
su validez.
El problema de cómo medir la fiabilidad de los tests se aborda conceptual-

mente desde la misma perspectiva con la que otras ciencias plantean el problema
de la precisión de sus instrumentos de medida, si bien la metodología de la que
la psicometría hace uso suele ser diferente, llevando a veces a tener que construir
otro instrumento análogo e intercambiable al que se denomina test paralelo.
El control de la fiabilidad se realiza partiendo del mismo supuesto que en las

medidas físicas. Si el instrumento de medida es preciso, las medidas repetidas
serán semejantes y, salvo errores accidentales, se dará la constancia en las medi-
das. La constancia o estabilidad de las puntuaciones se evalúa mediante el coefi-
ciente de correlación lineal entre dos conjuntos de puntuaciones, consideradas
como paralelas, que usualmente se obtienen de la aplicación de dos formas del
test a los mismos sujetos de la población que se estudia, o de la aplicación del mis-
mo test en al menos dos ocasiones diferentes. La consistencia interna de las medi-
das se suele evaluar con correlaciones intra-test.
La denominación genérica que se da a las correlaciones que son indicado-
ras de la fiabilidad de una prueba, es la de coeficiente de fiabilidad, o índice de fiabi-
lidad. Formalmente, el valor del coeficiente de fiabilidad se corresponde con el
cuadrado del valor del índice, expresando el primero la correlación entre dos
conjuntos de medidas observadas, bajo la condición de que sean paralelas.
El índice se corresponde conceptualmente con el coeficiente de correlación
entre las puntuaciones observadas y sus correspondientes puntuaciones ver-
daderas. En el siguiente apartado se definen formalmente los coeficientes
e índices de fiabilidad y la relación entre ellos, así como sus relaciones con
las propiedades y características propias de las medidas consideradas como
paralelas.
m3.2. Ecuaciones para definir y calcular la fiabilidadm
La fiabilidad se da en el contexto de la TCT y relaciona la medida X observada

mediante el test con la puntuación verdadera V, que es inobservable.
Definiciones
La fiabilidad de un test se define como la variación relativa de la puntuación ver-

dadera con respecto a la puntuación observada, calculada como la razón entre sus
respectivas varianzas.
Por lo tanto, la relación σ V2 / σ X2 es por definición la medida de la fiabilidad.
Esta relación entre varianzas es formalmente igual al cuadrado del coeficiente
de correlación lineal obtenido entre las puntuaciones observadas y las verdade-
ras, como se demostró anteriormente (Cuadro 2.2). El coeficiente de fiabilidad se

define como:
σ 2V
ρ2XV = (3.1)
σ 2X
A esta razón de varianzas se la llamó coeficiente de determinación en la ecua-

ción (2.4) y se refiere en concreto a la determinación de la fiabilidad del test X.
Al coeficiente de correlación ρXV se le denomina índice de fiabilidad.
Como ya se ha indicado, es necesario buscar expresiones equivalentes a éstas
para que, operando con valores observados, se calculen dichos coeficientes. La
solución la encontramos en la definición de medidas paralelas y en sus propieda-
des expuestas en el Apartado 2.3, en donde se deduce la ecuación (2.12). Por lo
tanto, la fiabilidad se puede obtener calculando la correlación lineal entre dos con-
juntos de medias paralelas:
σ 2V cov( XX′)
ρ2XV = = ρ XX ′ = = coeficiente de fiabilidad
σ 2X σ X σ X′
σV
ρ XV = = ρ XX ′ = índice de fiabilidad
σX
(3.2)
Cuadro 3.2
Las ecuaciones (3.2) no tienen erratas, aunque desde un punto de vista

formal no se puede hacer coincidir un coeficiente de correlación (entre X
y X' ) con el cuadrado de otro (entre X y V), pues un coeficiente de correla-
ción simple puede ser positivo o negativo, lo que nunca puede ser un cua-
drado. Del mismo modo, aunque ρXX' fuese positivo, su raíz cuadrada podría
ser un número tanto positivo como negativo, en cuyo caso, el valor del
índice carecería de sentido. Las igualdades dadas en (3.2) se definieron
así originalmente y han perdurado en la literatura del tema, por lo que
hemos preferido conservarlas, en vez de hacer unas definiciones formal-
mente más correctas, pero que podrían inducir a confusiones al no ser
usuales en el campo.
El cálculo de la fiabilidad, de acuerdo con las ecuaciones (3.2) presenta algu-

nos problemas en la práctica, puesto que es poco probable que se dé la igual-
dad de medias y varianzas entre las puntuaciones muestrales observadas, como
exigen las condiciones de paralelismo. Por ello, se han propuesto condiciones
menos estrictas para las relaciones entre las puntuaciones, como las expuestas
en el Apartado 2.3, pudiéndose realizar el cálculo del coeficiente de fiabilidad
con puntuaciones empíricas que sean medidas paralelas o tau-equivalentes.
Ecuación para un test compuesto por subtests
La expresión general de cálculo de la fiabilidad como coeficiente de correlación

entre medidas paralelas, como se indica en las ecuaciones (3.2), también es apli-
cable al cálculo de la fiabilidad de tests compuestos por varios subtests o por
una batería de tests. Lo que hay que considerar, en este caso, es que el test X
del que se quiere conocer su fiabilidad, está compuesto por k componentes:
X = X1, …, Xk, y que al calcular la correlación entre las puntuaciones observa-
das y las verdaderas habrá que tener en cuenta toda la covarianza entre las varia-
bles. Esto es, hay que considerar todas las covariaciones posibles entre los pares
do i ≠ j, formándose así matrices cuadradas de dimensiones (k x k), en las que

de variables, que serán varianzas cuando sea i = j y términos de covarianza cuan-
las varianzas serán los elementos de la diagonal principal.

Si se denotan por
∑ VV ; ∑ XX ; ∑ XV
las respectivas matrices de varianzas y covarianzas entre las puntuaciones verda-
deras, entre las observadas y entre las observadas y las verdaderas, la correlación
(que es el cociente entre la covarianza y las desviaciones típicas), se calculará
mediante la expresión:
I′ ∑ XV I
ρ XV =
[I′ ∑ XX I] 1 2 [I′ ∑ VV I] 1 2
(3.3)
donde por I' e I se indican los correspondientes vectores unidad. Cuando se con-
sidera que los diferentes subtests no tienen la misma importancia, sino que se
supone que unos tienen más influencia (más peso) que otros en la medición del
constructo, a los subtests se les asigna una determinada ponderación, ai. En ese
caso el test X es una combinación lineal de sus componentes, que se puede expre-
sar como: X = a1X1 +... + akXk, y la ecuación (3.3) adopta la forma
A′ ∑ XV A
ρ XV =
[A′ ∑ XX A] [A′ ∑ VV A]
12 12
(3.4)
donde A' (traspuesto de A) es el vector A' = (a1, …, ak). La asignación de los

pesos a cada una de las componentes no es arbitraria, sino que se les asignan
aquellos pesos que maximizan la fiabilidad del compuesto.
Valores e interpretación
Tanto el coeficiente como el índice de fiabilidad son valores positivos y están aco-
tados. Pueden ser valores cualesquiera del intervalo [0, 1].
Que estos valores no pueden ser negativos se deduce del concepto y de la pro-
pia definición del coeficiente de fiabilidad, como cociente entre dos varianzas,
que necesariamente son magnitudes positivas. El método de cálculo, como coe-
ficiente de correlación lineal entre dos conjuntos de medidas X y X', pudiera lle-
var a pensar que pueden tomar valores en el intervalo [–1, 1], pero también por
esta vía es fácil concluir que no es posible obtener valores menores que cero, si
se tiene en cuenta que esas medidas son paralelas y se consideran las condiciones
establecidas para el paralelismo.
res que la unidad se debe a que σ V2 ≤ σ X2 . También se explica porque el cocien-

Que el coeficiente y el índice de fiabilidad no pueden tomar valores mayo-
te σ V2 / σ X2 se ha establecido que es equivalente a un coeficiente de correlación

lineal. El coeficiente de fiabilidad alcanzará la cota superior de su valor cuan-
do el cociente entre ambas varianzas sea la unidad, o bien, cuando la correla-
te, que es el valor cero, se alcanza cuando σ V2 = 0, o bien, cuando el coeficiente

ción lineal entre medidas paralelas sea la unidad. El menor valor del coeficien-
de correlación ρXX' resulte ser nulo, lo que indica que la covarianza entre las
variables X y X' es cero.
Por lo tanto:
σ 2V
0 ≤ = ρ XX ′ ≤ 1
σ 2X
(3.5)
La interpretación de la bondad de un test en relación con su precisión se

hace estableciendo un cierto paralelismo entre los valores que se obtienen para
los coeficientes o los índices de fiabilidad y categorías tales como poco fiable,
moderadamente fiable o muy fiable, consideradas entre las dos categorías extre-
mas que son la ausencia de fiabilidad y la fiabilidad perfecta, pero no hay pun-
tos de corte fijos y definidos para ningún tipo de partición entre esas supuestas
categorías.
La ausencia de fiabilidad se identifica con el valor ρXX' = 0. La fiabilidad per-
fecta se identifica con el valor ρXX' = 1 y esto teóricamente supone que no existe
varianza error y que por lo tanto σ X2 = σ V2 , esto es, que toda la varianza de la pun-
tuación observada se debe a la de la puntuación verdadera. Valores diferentes de
cero y de uno son los usuales, diciendo que hay una escasa fiabilidad para valo-
res próximos a cero, y que la fiabilidad es elevada cuando los valores de ρXX' son
próximos a uno.
Cuadro 3.3
Un test de fiabilidad moderada podría tener asociado un coeficiente de fia-

bilidad con un valor, por ejemplo 0.72, u otro similar, no pudiéndose dar nor-
mas fijas ni valores concretos que establezcan con exactitud si una prueba
debe ser o no admitida como fiable, salvo que estos valores no sean signi-
ficativamente diferentes de cero. Esta significación se obtiene, a determi-
nados niveles de probabilidad, mediante el correspondiente contraste de
hipótesis, poniendo a prueba la hipótesis nula de que el coeficiente de fia-
bilidad es cero.
El nivel de precisión exigible al test está en función del tipo de prueba
y del objetivo, u objetivos, para el que esa prueba se construye. El valor
anterior de 0.72 puede considerarse una fiabilidad alta en algunos tipos de

pruebas y baja para otras.
Una forma rigurosa de proceder es la siguiente. Una vez estudiado y
decidido cuál es el nivel mínimo de precisión exigible al instrumento de
medida (test, cuestionario, etc.), se materializa esa exigencia fijando un
cierto valor para el coeficiente de fiabilidad, por debajo del cual una menor
precisión no sería admisible.
Si el valor experimentalmente obtenido para ρXX' es un valor mucho menor
que el fijado, se rechaza esa prueba, puesto que no alcanza el nivel mínimo
de precisión deseado. Sin embargo, la apreciación de las simples diferencias
entre el valor observado y el esperado puede ser equívoca. Antes de tomar la
decisión, se debe hacer un contraste de hipótesis estadístico que revele a qué
nivel de confianza se puede aceptar o rechazar la hipótesis de que el valor
obtenido es significativamente igual al valor dado, y si el test debe ser admi-
tido o no como fiable, bajo las condiciones previamente establecidas.
La forma que en la práctica se utiliza para calcular la correlación que va a pro-

porcionar el valor del coeficiente de fiabilidad ρXX' depende de la forma en que
se obtengan las medidas supuestamente paralelas y es a lo que se va a dedicar el
siguiente apartado.
m3.3. Formas usuales de generar medidas repetidasm
Puesto que la fiabilidad se determina formalmente mediante el coeficiente de corre-

lación lineal entre medidas repetidas, realizadas con el mismo test y en las mismas
condiciones, o con tests considerados equivalentes por proporcionar medidas para-
lelas, existen procedimientos que han venido a ser clásicos en el diseño de las prue-
bas para la obtención de la fiabilidad. Éstos son los denominados test-retest, for-
mas paralelas y división del test en dos partes. Cada una de las modalidades tiene
asociada una problemática distinta y, como se verá más adelante, no responden
exactamente al mismo concepto de fiabilidad, pues en tanto que unos diseños lle-
van a su medida en el sentido de la estabilidad de las puntuaciones, otros indican
cuál es la consistencia interna de la prueba.
Test-retest
Bajo esta denominación se indica que las puntuaciones repetidas X y X' se han
obtenido aplicando el mismo test a los mismos sujetos y en las mismas condi-
ciones en dos ocasiones diferentes, generalmente separadas en el tiempo. Si las
correlaciones entre ambas aplicaciones son elevadas y las condiciones de aplica-
ción de la prueba en las dos ocasiones son esencialmente iguales, entonces se con-
siderará que la prueba es fiable en el sentido de que se observa una significativa
estabilidad en las puntuaciones.
Es evidente que, si se determina que el test se debe aplicar a los mismos suje-
tos y en las mismas condiciones, hay que ser extremadamente cuidadosos en la
verificación de que esas premisas se cumplen. Uno de los problemas a los que
con mayor frecuencia se hace alusión en la literatura es al posible efecto de apren-
dizaje del sujeto durante la realización de la prueba, que influirá en sus resulta-
dos cuando esa misma prueba la realiza por segunda vez. Este efecto se elimi-
na, o al menos puede quedar paliado, si se deja transcurrir un tiempo suficiente
entre ambas aplicaciones de la prueba. Esta solución, sin embargo, no siempre
es posible, bien porque no se puedan tener disponibles los mismos sujetos, o
porque no se puedan reproducir las mismas condiciones en un tiempo poste-
rior, o bien, porque el rasgo que se está evaluando pueda también sufrir varia-
ciones en ese intervalo de tiempo, porque se produzca algún hecho o alguna
intervención que lo modifique. Este último sería el caso, por ejemplo, cuando
se aplicara un test para valorar un tipo de disfunción o patología, y entre una
aplicación y otra de la prueba algunos de los sujetos estuvieran recibiendo tra-
tamiento terapéutico.
Formas paralelas
Formalmente se entiende por formas paralelas de un mismo test a las que cum-
plen las condiciones dadas en el Apartado 2.3. En la práctica, se suelen construir
dos pruebas de forma paralela que resulten ser prácticamente equivalentes, de
manera que las pruebas pudieran ser intercambiables.
Esta forma de obtener medidas repetidas, destinadas a la posterior obten-
ción del coeficiente de fiabilidad de la prueba, elimina una de las dificultades
que presenta el método del test-retest, puesto que ambas pruebas se aplicarían
a los sujetos en el mismo momento y, por lo tanto, se tiene un control más direc-
to de que el sujeto las realiza en las mismas condiciones, aunque se alargaría el
tiempo de aplicación. En este caso, habría que tener en cuenta si la respuesta
de una forma influye en la otra y la longitud de las pruebas. A veces es conve-
niente hacer un pequeño descanso entre aplicaciones, para que las respuestas
no estén contaminadas por un efecto de fatiga en los sujetos que las cumpli-
mentan.
El gran inconveniente que tiene esta modalidad es el de que multiplica el
esfuerzo en el proceso de construcción y selección de ítems. En la actualidad, en
bastantes tipos de pruebas ya se han construido los ítems con anterioridad y
se tiene disponible un gran banco de ítems de los que se conocen sus caracte-
rísticas, gracias a las técnicas de la teoría de la respuesta al ítem (TRI) que trata-
remos en capítulos posteriores.
División en dos partes
Se trata en este caso de poner en relación las puntuaciones entre dos partes del
mismo test, actuando ambas como si fuesen dos formas paralelas. La división del
test en dos partes se puede llevar a cabo de muy distintas formas, sin embargo,
para realizarla correctamente con el propósito de calcular la fiabilidad, hay que
tener en cuenta cómo se ha diseñado el test. En un test con ítems muy homogé-
neos, cualquier división en dos partes iguales se puede aceptar como adecuada.
Por el contrario, en aquellos casos, muy usuales en la práctica del diseño y la cons-
trucción, en los que el test va creciendo en dificultad a medida que se avanza en
su ejecución; o bien, en aquellos otros en que sin ser de dificultad creciente, se les
ha introducido al principio un cierto número de ítems de pequeña dificultad con
el fin de motivar al sujeto, no sería conveniente realizar una división en dos par-
tes sin tener en cuenta dichas características. Los primeros ítems de una de las
partes serían más fáciles que los de la otra si se hiciese, por ejemplo, la división
eligiendo los n/2 primeros para una de las partes.
Una de las divisiones en dos partes, que tiende a paliar las dificultades ante-
riormente mencionadas, es aquella en que se eligen por un lado los elementos que
ocupan los lugares pares del test y por otro los impares, para utilizarlos como dos
formas paralelas. De esta forma los ítems que componen las dos partes en las que
queda dividido el test tienen dificultades similares.
La fiabilidad obtenida correlacionando las partes de un mismo test propor-

ciona coeficientes que no se pueden interpretar en el mismo sentido que la fiabi-
lidad calculada utilizando los datos obtenidos al administrarlo de forma repetida,
ya sea el mismo test en distintas ocasiones o sus formas equivalentes.
Cuadro 3.4
Cuando en el Capítulo 5 se estudie el significado del coeficiente de fiabili-

dad alfa, se hará una discusión más amplia de la conveniencia de usar una
u otra forma, dependiendo del contexto y de la finalidad del test.
Otra de las anotaciones que debemos hacer aquí, saliendo al paso de
posibles confusiones, es la de que las medidas repetidas (entre las que son
usuales el test-retest, formas paralelas y división en dos partes) deben cum-
plir las condiciones formales de paralelismo para que se las utilice como
medidas paralelas. Si las medias y las varianzas de las medidas repetidas no
son significativamente iguales, no se puede hacer uso de todas aquellas pro-
piedades de las medidas que se han deducido de las condiciones de para-
lelismo.
Es relativamente frecuente encontrar en nuestro idioma la expresión divi-
sión en dos mitades en vez de división en dos partes. Preferimos utilizar esta
última, aclarando que aunque frecuentemente las dos partes son iguales, no
es necesariamente así en todas las ocasiones y en esos casos de no equi-
valencia o de diferentes longitudes de las partes, el tratamiento es ligera-
mente distinto (véase por ejemplo Feldt y Brennan, 1989). Quizá con la expre-
sión dos mitades se trate de evitar confusiones sobre la equivalencia e
igualdad de longitud entre las partes.
m3.4. Cálculo práctico de los coeficientes e índices de fiabilidadm
En este apartado se dan tres ejemplos de cómo pueden calcularse en la práctica

los coeficientes e índices de fiabilidad. Se utiliza un número reducido de sujetos
para facilitar los cálculos, pero el lector debe entender que en realidad habrá que
utilizar un número de sujetos muy superior para poder generalizar a una pobla-
ción, cumpliendo siempre la condición de que las muestras sean representativas

de dicha población.
Ejemplo 3.1
Las puntuaciones X y X' que se dan en la Tabla 3.1 se han obtenido como
resultado al administrar dos pruebas supuestamente paralelas a siete sujetos
que se asume que son una muestra representativa de la población para la que
se construye esa prueba. Las puntuaciones de X y X' varían entre cero y 15 pun-
tos. Se trata de calcular la fiabilidad de la prueba y de discutir los procedimientos,
así como los resultados.
Tabla 3.1. Puntuaciones de siete sujetos en un cuestionario de quince ítems.
Sujetos
Puntuaciones
1 2 3 4 5 6 7
X 7 10 14 13 6 9 4
X' 9 11 13 13 7 7 3
Comoquiera que la modalidad elegida para calcular la fiabilidad de la prue-

ba ha sido la de correlación lineal entre dos formas paralelas, el primer paso es
comprobar si las puntuaciones X y X' se pueden considerar paralelas, contras-
tando la igualdad de sus medias y varianzas.
Calculados esos estadísticos en ambas pruebas sus valores son:
1 i=7 1 i=7
X = E( X ) = ∑ Xi = = 9 ; X ′ = E( X ′) = ∑ X i′ = = 9
63 63
N i=1 7 N i=1 7
∑ ( X i − X )2 ∑ ( X i′ − X ′)2
7 7
s2X = i=1
= = 11.43 ; s2X′ = i=1
= = 11.43
80 80
N 7 N 7
obteniéndose que sX = sX' = 3.38.

Los resultados permiten el uso de ambas pruebas como medidas paralelas,
y puede calcularse el coeficiente de fiabilidad de la prueba, que según (2.12) es:
∑ ( X i − X )( X ′i − X ′)
rXX′ = = = 0.92
1 1 74
N s X s X′ 7 11.43
Por lo tanto, se infiere que el coeficiente e índice de fiabilidad de las prue-

bas son:
ρ XX′ = 0.92 ; ρ XV = ρ XX′ = 0.96
El resultado obtenido indica que la prueba tiene una fiabilidad elevada.

Puesto que el coeficiente de fiabilidad rXX' es menor (o igual) que la unidad, el
valor del índice siempre será mayor (o igual) que el del coeficiente. En este
ejemplo, los valores obtenidos para el índice y coeficiente de fiabilidad indi-
can que la prueba es muy fiable. Si los datos, como se ha supuesto, se han
obtenido de muestras representativas de las poblaciones, tanto de ítems como
de sujetos, la prueba tiene suficiente precisión para utilizarla como instrumento
de medida.
Ejemplo 3.2
Supóngase ahora que los valores de X y X ' dados en la Tabla 3.1 no se

han obtenido aplicando dos pruebas diferentes, supuestamente paralelas,
sino en replicaciones de una misma prueba y que se desea conocer la fiabi-
lidad de la prueba.
Si las condiciones de aplicación en este ejemplo responden a las exigidas
a la modalidad test-retest, detalladas en el Apartado 3.3, y los datos son idén-
ticos a los de la Tabla 3.1, no hay necesidad alguna de contrastar nuevamente
la hipótesis de paralelismo. El cálculo de la fiabilidad y su interpretación ya están
dados en el ejemplo anterior.
Ejemplo 3.3
En la Tabla 3.2 se presentan los datos de tres sujetos que han respondido
a los ocho ítems de los que consta una prueba. Se quiere calcular la fiabilidad
de la prueba de la que sólo es posible disponer de los datos relativos a una sola
aplicación.
En este caso hipotético, el único método posible es el de la división en dos
partes. Una opción es la de correlacionar las puntuaciones de los ítems 1, 3, 5
y 7 con las de los ítems 2, 4, 6 y 8. Es decir, establecer la correlación entre los
ítems que ocupan los lugares pares con los de los impares. Se trata de calcu-
lar la correlación entre los valores que se dan en la Tabla 3.3:
Tabla 3.2. Datos de tres sujetos en una prueba de ocho ítems.
Ítems
Sujetos
1 2 3 4 5 6 7 8
a 10 10 8 4 6 9 8 8
b 9 12 6 4 7 8 9 6
c 10 8 10 6 8 6 10 8
Total 29 30 24 14 21 23 27 22
Tabla 3.3. Puntuaciones de los ítems en lugares impares y pares.
Impares: X 29 24 21 27
Pares: X ' 30 14 23 22
Calculada la correlación, el coeficiente es rXX' ≅ 0.52. En este caso se con-

cluiría que la prueba es fiable, pero que su fiabilidad es muy moderada y que,
salvando las precisiones que se han hecho en el Cuadro 3.3, esa fiabilidad debe-
ría mejorarse antes de aplicar la prueba. En otros apartados de esta obra (4.1,
4.2, 4.3 y 5.7) se dan indicaciones de cómo mejorar la fiabilidad de las pruebas.
Cuadro 3.5
Los ejemplos anteriores se presentan en el marco de la TCT, que es donde

se acuña el término fiabilidad, y están sujetos a más limitaciones de las que
serían deseables en cuanto al número de ítems y de sujetos, habiendo acu-
dido a pequeños tamaños con la finalidad de que el lector pueda hacer los
cálculos sin el uso de programas de computador. Sin embargo, en los casos
reales el volumen de cálculo no es un problema, pues los cálculos de coefi-
cientes de fiabilidad en muchas de sus formas vienen implementados en
programas de software como el SPSS. En todo caso, el lector debe tener
siempre en cuenta que en un supuesto real debe asegurarse de que se cum-

plen las condiciones básicas que legitiman los procesos de inferencia que
se realizan.
En cualquier supuesto en el que sea necesario construir una prueba y,
por lo tanto, conocer la fiabilidad de esa prueba, se tiene que tener en cuen-
ta el tipo de prueba, la forma de obtener las medidas repetidas, las condi-
ciones de aplicación, etc. Si, como es lo usual, el cálculo de la fiabilidad es
uno de los pasos en el proceso de construcción de una prueba; cuyo obje-
tivo último es el de aplicarla de forma estándar a una determinada pobla-
ción, hay que asegurarse de que los sujetos a quienes, con carácter experi-
mental, se les administra la prueba, constituyen una muestra representativa
de aquella población y de que el tamaño muestral elegido permite hacer pos-
teriores inferencias con el nivel de confianza deseado. Esto significa que
habrá que controlar, entre otras, variables socio-culturales, así como la edad
y el sexo o el género, u otras. Además habrá que documentarse sobre los
procedimientos estadísticos para que los tamaños de muestra sean los ade-
cuados para hacer las inferencias con las debidas garantías.
m3.5. Otras ecuaciones para el cálculo de la fiabilidadm
En el caso en que se calcule la fiabilidad correlacionando los elementos situados

en los lugares pares con los de los impares, se puede hacer uso de la ecuación de
Rulon o de la de Flanagan y Guttman. Ambas ecuaciones, aunque se desarrolla-
ron de forma independiente, son similares.
Si se hace la división del test en dos partes, se puede poner en relación cada
elemento situado en el lugar impar con su correspondiente par. Así, para un test
con un número par de elementos n, si se denomina a los ítems por su número de
orden en la composición del test, se pondrían en relación los elementos de las
parejas: (1, 2), (3, 4), …, (2n –1, 2n).
Conocidos los valores de la variable X (puntuación) de todos los sujetos en
todos y cada uno de los ítems o elementos de la prueba, se pueden poner en rela-
ción todas las parejas de puntuaciones (Xi, Xp ), denotando por Xi a los ítems que
ocupan una posición impar, y por Xp a aquellos que ocupan la posición par corres-
pondiente.
Ejemplo 3.4
Se quiere conocer las medias, las varianzas y las desviaciones típicas de
los datos de la Tabla 3.4, que son los valores obtenidos en los 16 ítems de una
prueba, que se administran a 8 sujetos, dando separadamente los valores en
los ítems que ocupan un lugar impar o par, así como los valores de las diferen-
cias entre ellos.
Tabla 3.4. Valores obtenidos en una prueba que consta de 16 ítems.
Sujetos
1 2 3 4 5 6 7 8
Ximpar = Xi 15 14 16 10 9 10 12 10
Xpar = Xp 16 19 12 18 10 7 10 12
Xp-i = Xp – Xi 1 5 –4 8 1 –3 –2 2
Los valores medios, varianzas y desviaciones típicas de las tres variables

consideradas son:
X i = 12 σ 2X = 6.25 σ X i = 2.50
i
X p = 13 σ 2X = 15.75 σ X p = 3.97
p
X p−i = X p − X i = 1 σ 2X = 14.50 σ X p − i = 3.81

p−i
Ecuación de Rulon
Es una forma de cálculo de la fiabilidad mediante la expresión:
σ 2X p−i
ρ XX ′ = 1 −
σ 2X
(3.6)
donde la puntuación total es X = Xp + X i y la de la diferencia entre los ítems

que ocupan lugares pares e impares es Xp–i = Xp – X i .
Cuadro 3.6
La ecuación (3.6) puede deducirse a partir de la expresión de la varianza de

las variables Xp y X p–i, bajo los supuestos del modelo de Spearman.
Si es n el número total de elementos de la prueba, la variable Xp–i tendrá
n/2 elementos y la varianza de esa variable es:
∑ ( X p−i − X p−i )2 ∑ [( X p − X i ) − ( X p − X i )]
n/ 2 n/ 2 2
σ 2X = 1
= 1
p−i n/2 n/2
Sustituyendo las puntuaciones observadas por sus correspondientes

verdaderas, y teniendo en cuenta que tanto para los elementos de los
lugares pares como para los de los impares se trata de una prueba reali-
zada por los mismos sujetos en las mismas condiciones, estas puntuacio-
nes verdaderas serán idénticas tanto si los ítems están en un lugar par
o impar. Es decir, X p = V + e p y X i = V + e ¡, por lo tanto, X p = V = X i .
Luego:
∑ [( V + ep − V ) − ( V + ei − V )] ∑ ( ep − ei )2
2
σ 2X = =
p−i n/2 n/2
Esta expresión es equivalente a las siguientes:
∑ {[ep − E(ep )] − [ei − E(ei )]} ∑ [ep − E(ep )]

2 2
σ 2x = = +
p−i
∑ [ei − E(ei )] ∑ [ep − E(ep )] [ei − E(ei )] = σ 2

n/2 n/2
2
+ −2 ep
+ σ e2
n/2 n/2 i
en las que se han sustituido los términos ep y ei por [ep – E(ep)] y [ei – E(ei)],
respectivamente. Ello es posible ya que, si se tienen en cuenta las hipóte-
sis del modelo E(ep ) = E(ei ) = 0.
Por otra parte, al desarrollar el cuadrado de la diferencia, el término del
doble producto expresa la covarianza entre los errores ep y ei que es nula,
ya que por hipótesis los errores no están correlacionados.
Luego σ 2Xp – i = σ 2e i + σ 2e p = σ 2e .
Al sustituir σ 2e por su equivalente σ 2Xp – i en la expresión general del coefi-

ciente de fiabilidad, se tiene que:
σ 2V σ e2 σ 2X
ρ XX' = = 1− = 1− p−i
σ 2X σ 2X σ 2X
que es la expresión dada para la ecuación de Rulon.
De la ecuación de Rulon se deduce que la fiabilidad de una prueba se puede

conocer si se conoce la varianza total de la prueba y la de la variable de las dife-
rencias entre los elementos que ocupan los lugares pares e impares.
diata. Puesto que σ X2 ≥ σX2 p-i , el cociente entre ambas varianzas es positivo y menor
La interpretación de esta expresión, como coeficiente de fiabilidad, es inme-
o igual a la unidad, al estar σ X2 p-i en el numerador de (3.6). Por lo tanto:
a) ρXX' toma los valores de un coeficiente de fiabilidad 0 ≤ ρXX' ≤ 1.

b) El valor 0 para ρXX' se obtiene cuando σ X2 p-i = σ X2 . Toda la varianza es
varianza error.
c) El valor 1 para el coeficiente de fiabilidad (su cota superior) se alcanza cuan-
do la varianza de las diferencias es cero.
Cuadro 3.7
Siguiendo con el ejemplo de la Tabla 3.4, para calcular la fiabilidad median-

te la ecuación de Rulon, además de la varianza de la variable Xp–i, habrá que
calcular la de la variable X. Al ser esta variable aleatoria suma de otras dos,
X = Xi + Xp, su varianza es la suma de las varianzas de cada una, más la cova-
rianza entre ellas [2 cov (Xp, Xi)]. Las varianzas de ambas variables y la de las
diferencias ya se han calculado anteriormente y la covarianza puede obte-
nerse de la relación:
σ 2X = σ 2X + σ 2X − 2 cov( X p , X i )
p−i p i
de donde
2 cov( X p , X i ) = σ 2X + σ 2X − σ 2X = 15.75 + 6.25 − 14.50 = 7.50

p i p−i
resultando
σ 2X = σ 2X + σ 2X + 2 cov( X p , X i ) = 15.75 + 6.25 + 7.50 = 29.50

p i
Sustituyendo estos valores se obtiene:
σ 2X
ρ XX′ = 1− p−i
= 1− = 0.51
14.5
σ 2X 29.5
para el valor de la fiabilidad de esa prueba.
Ecuación de Flanagan y Guttman
La ecuación que dan estos autores responde a la expresión:
 σ2 + σ2  4 ρ
X pX i σ X p σ X i
ρ XX ′ = 2 1 −
Xi 
=
Xp
 σ 2X  σ 2X
(3.7)
 
donde todos los términos tienen el mismo significado que el dado anteriormente.
Cuadro 3.8
La ecuación de Flanagan y Guttman se puede derivar directamente de la

dada por Rulon, aunque, como ya se ha dicho, estos autores la desarrollan
independientemente.
La comprobación es inmediata, ya que:
σ 2X σ 2X − σ 2X
ρ XX′ = 1− p−i
= p−i
=
σ 2X σ 2X
 
σ 2X + σ 2X + 2 ρ X p X i σ X p σ X i −  σ 2X + σ 2X − 2 ρ X p X i σ X p σ X i 
 p 
=
p i i
σ 2X
que se obtiene sustituyendo las varianzas de una suma (X = X p + Xi) y una

diferencia (Xp –Xi) de variables por sus correspondientes expresiones, sien-
do ρXpXi el coeficiente de correlación lineal entre las variables Xp y Xi.
Reordenando términos se obtiene la expresión:
4 ρ Xp Xi σ Xp σ Xi
ρ XX′ =
σ 2X
que es equivalente a la ecuación de Rulon, pero cuyo cálculo aparenta ser

más simple.
Usando los datos de la Tabla 3.4 se obtiene que
 15.75 + 6.25 
ρ XX′ = 2 1−  = 0.51
 29.5 
Sabiendo que ρXpXi σXpσXi = 3.75 (Cuadro 3.7) se obtiene también:
ρ XX′ = = 0.51
(4 )( 3.75)
29.5
resultados que coinciden con el obtenido anteriormente con la fórmula de

Rulon.
Puntos clave
3 La fiabilidad mide la precisión de las medidas en los tests y cuestionarios. Con-

ceptualmente indica con qué fuerza (cuantía de la correlación) están linealmen-
te correlacionadas las puntuaciones que se observan al aplicar la prueba y las
que serían las puntuaciones verdaderas de los sujetos en el rasgo que se pre-
tende evaluar.
3 La puntuación verdadera del sujeto no es directamente observable, por lo que
se hacen hipótesis, en el contexto del modelo lineal de Spearman, para poder
calcular esas correlaciones, utilizando solamente puntuaciones empíricas. Esto
es posible cuando las correlaciones se calculan entre medidas paralelas o tau-
equivalentes.
3 En tests compuestos por varios grupos formando una batería, la fiabilidad tam-
bién se evalúa mediante correlación entre puntuaciones observadas y verdade-
ras, teniendo en cuenta que el cálculo de esa correlación se hace con puntua-
ciones empíricas y que intervienen todas las variables componentes.
3 La fiabilidad en el sentido de estabilidad de las puntuaciones se obtiene con
aplicaciones repetidas de una misma prueba, o de pruebas equivalentes.
3 La fiabilidad que da cuenta de la consistencia interna entre los ítems o elemen-
tos de la prueba se puede obtener correlacionándolos. Hay diferentes formas
de hacerlo, una de ellas es dividir el test en dos partes y correlacionar las pun-
tuaciones de cada uno de los ítems de una parte con las de su correspondien-
te ítem en la otra.
3 Las fórmulas de Rulon y de Guttman miden la consistencia interna y calculan la
fiabilidad a partir de una sola aplicación del test, correlacionando (en el orden
en que están dadas) las puntuaciones de los ítems que ocupan los lugares pares
con los correspondientes que ocupan los lugares impares.
3 La consistencia interna se suele calcular mediante coeficientes que no exigen
el paralelismo, como el denominado coeficiente alfa, que se va a introducir en
el quinto capítulo de este texto.
Actividades
r Piense en alguna característica que desee medir y formule un conjunto de

preguntas. Discútalas con algún compañero y con el profesor. Prepare con
ello un test.
r Si la fiabilidad indica precisión ¿por qué tiene sentido definir su medida
como el cociente entre dos varianzas?
r Comente cuánto tiene de formal y/o de ingenioso inferir la fiabilidad de
una prueba de la correlación entre medidas paralelas.
r Si la fiabilidad no puede ser negativa ¿es correcto hablar de índice de fia-
bilidad, siendo éste la raíz cuadrada (que puede ser un valor positivo o nega-
tivo) del valor de un coeficiente de correlación denominado coeficiente de

fiabilidad?
r Calcule la fiabilidad por distintos métodos, compare y discuta la diversidad
de resultados
a) desde el punto de vista de su valor
b) desde el punto de vista de sus diferentes significados
r Si no lo ha hecho en el ejercicio anterior, divida su test en dos partes, de
dos formas diferentes, una en la que se conserve el orden de presenta-
ción (una parte la constituyen los 50% primeros ítems y el otro 50% los
siguientes), la otra en pares, impares y aplique la fórmula de Rulon. ¿Cuá-
les son los resultados? ¿Son muy diferentes? Si es así, analice las posibles
causas.
r Explique en una página a qué se debe que distintas formas de calcular la
fiabilidad tengan diferente significado: e.g., estabilidad versus consistencia
interna.
Fiabilidad
Variabilidad de las puntuaciones
y longitud de las pruebas 4
En el capítulo anterior se explicita que el valor que se obtiene para indicar
la fiabilidad de un test puede depender, entre otras cosas, del tipo de fiabi-
lidad que se mida, ya sea la estabilidad o la homogeneidad interna de las
puntaciones. También, con sólo observar la ecuación (3.2), se puede infe-
rir que la fiabilidad depende de la varianza de las puntuaciones observadas.
ã La fiabilidad calculada para un test está afectada por la variabilidad

de las puntuaciones de la muestra sobre la que se calcula.
ã Los cambios en la longitud de una prueba, ya sea porque se añaden
nuevos elementos, o bien por supresión de algunos de los existen-
tes, cambian la fiabilidad de esa prueba.
ã Cómo afecta la varianza de las puntuaciones en el test a su fiabilidad.
m4.1. Fiabilidad y variabilidad de las puntuacionesm
Cuando se va a estimar la fiabilidad de una prueba, el valor que se obtiene para

esa fiabilidad es mayor cuanto mayor es la varianza de las puntuaciones en esa
prueba de los sujetos que componen la muestra.
Al estudiar las propiedades de las pruebas (tests, cuestionarios, inventarios, etc.)
son muchas las posibles muestras aleatorias representativas que se pueden extraer
de una población en la que se pretende medir un rasgo mediante una determina-
da prueba. Por lo tanto, el coeficiente de fiabilidad de esa prueba, obtenido corre-
lacionando medidas paralelas, mostrará valores diferentes, pues las puntuaciones,
X y X', variarán de unos grupos a otros y de unas muestras a otras. En principio,

se espera que esas diferencias no sean significativas si las muestras son realmente
representativas de la población a la que representan. Es decir, la muestra debe refle-
jar toda la variabilidad que exista en la población en relación con aquello que se
pretende medir. Por lo tanto, en el estudio de la fiabilidad es esencial tener en cuen-
ta estas consideraciones, pues dado un valor para la fiabilidad, es necesario poder
determinar hasta qué punto la medida dada de la precisión de la prueba está afec-
tada por esa variabilidad. Este estudio se realiza comparando las varianzas de las
puntuaciones obtenidas por diferentes muestras en las mismas pruebas. A conti-
nuación se van a establecer esas relaciones entre variabilidad de las puntuaciones
y fiabilidad, es decir, entre heterogeneidad de las muestras y precisión de la prue-
ba. Por simplicidad, aquí se va a ilustrar considerando sólo dos muestras, aunque
es obvio que se puede generalizar a un número arbitrario de ellas.
Sea una prueba X, siendo X' una prueba paralela, y sean A y B dos muestras
aleatorias extraídas de la población para la que se construye la prueba X. Los dos
pares de conjuntos de puntuaciones que se obtienen aplicando pruebas paralelas
en las muestras A y B son (XA, X'A ) y (XB, X'B ) con:
{ } { } { }
X A = X A j ; X′A = X′A j ; X B = X B j ; X′B = X′B j{ }
Correlacionando ambos pares de valores muestrales se obtienen los coefi-
cientes de fiabilidad:
rX A X ′A ; rX BX ′B
teniendo así dos coeficientes de fiabilidad para una misma prueba. Se podrían
obtener tantos coeficientes como muestras representativas diferentes se extrai-
gan de esa población.
Los coeficientes de fiabilidad se relacionan con las varianzas de las puntua-
ciones mediante (2.15)
(
s2eA = s2X A 1 − rX A X ′A )
s2eB = s2X B (1 − rX X′ )
B B
Capítulo 4. Fiabilidad: Varianza y longitud 101
y estas expresiones permiten poner en relación las varianzas de ambas muestras

con los coeficientes de fiabilidad respectivos, si se tiene en cuenta la suposición
de igualdad de las varianzas de los errores, s2eA = s2eB.
En ese caso es:
s2X A (1 − rX A X ′A ) = s2X B (1 − rX BX ′B ) (4.1)
por lo que la relación entre ambas varianzas es:
1 − rX BX ′B
=
s2X A
1 − rX A X ′A
(4.2)
s2X B
de donde se deduce que la fiabilidad de un test aumenta a medida que aumenta

la varianza de las puntuaciones muestrales en dicho test, puesto que, como se
observa en la ecuación (4.2), las varianzas de las puntuaciones en dos muestras
diferentes son inversamente proporcionales a las diferencias a uno de las corres-
pondientes fiabilidades obtenidas con esas muestras. Así, por ejemplo, si se da la
desigualdad:
rX BX ′B > rX A X ′A
y puesto que ambos coeficientes de fiabilidad no pueden tomar más valores que
aquellos contenidos en el intervalo [0,1], se tiene que:
1 − rX BX ′B < 1 − rX A X ′A ; <1
s2X A
s2X B
y por lo tanto:
s2X A < s2X B
De aquí se deduce que, para cualquier par de muestras ( J, L) se verifica la relación:
s2X J > s2X L ⇔ rX JX ′J > rX L X ′L

es decir, que la fiabilidad de un test obtenida con una muestra más homogénea
en cuanto a sus puntuaciones en ese test, será menor que la fiabilidad obtenida
para el mismo test con otra muestra en la que haya más variabilidad entre las pun-
tuaciones de los sujetos.
La fiabilidad en una de las muestras se puede obtener conociendo la calcula-
da en otra y las varianzas de las puntuaciones en ambas muestras:
rX BX ′B = 1 − (1− rX X′ )
s2X A
(4.3)
s2X B
A A
Al hacer deducciones, téngase siempre en cuenta que estas afirmaciones se

hacen a partir del supuesto de igualdad de las varianzas error en ambas muestras.
Si este supuesto no se cumpliera, se estaría sobrestimando la fiabilidad de aque-
lla muestra que tuviera mayor varianza error.
Si se conoce la fiabilidad de una prueba obtenida con dos muestras proce-
dentes de la misma población, se puede inferir en qué muestra las puntuaciones
son más homogéneas y estimar la relación que existe entre las varianzas.
Ejemplo 4.1
Un cuestionario X, destinado a medir neuroticismo en estudiantes de doc-

torado, se ha administrado a dos muestras aleatorias, las muestras A y B. La
muestra A se ha elegido mediante el procedimiento de muestreo estratificado
con dos criterios de estratificación: tamaño de la universidad y tipo de estudios.
La muestra B se ha elegido por el procedimiento de muestreo aleatorio simple.
Los coeficientes de fiabilidad obtenidos con las muestras A y B son:
rX A X′A = 0.90 ; rXB X′B = 0.80
Aplicando (4.2), se puede conocer la homogeneidad relativa de las mues-

tras con respecto a las puntuaciones en el test:
s2X 1− 0.80
= =2
1− 0.90
A
s2X
B
o sea, que la varianza de las puntuaciones en la muestra A es mayor (el doble

en este caso) que en la B, lo que se refleja en que la fiabilidad obtenida con la
muestra A es superior a la obtenida con la B.
Si se conociera la varianza de las puntuaciones en ambas muestras y la fia-
bilidad en una de ellas, se podría calcular la fiabilidad de la otra muestra utili-
zando la relación (4.3). Por ejemplo, a partir de:
rX A X′A = 0.90 ; s2X = 100 ; s2X = 50

A B
se obtiene que el valor de la fiabilidad en la muestra B es 0.80.
m4.2. Fiabilidad y longitud de las pruebasm
En este apartado se estudia cómo afecta la longitud de la prueba a la precisión

con la que esa prueba realiza la medida.
La longitud de una prueba viene dada por el número de elementos o de ítems que
la componen. Se puede comprobar que la fiabilidad de un test psicométrico aumen-
ta con su longitud. Por lo tanto, se puede aumentar la precisión de una prueba si se
aumenta su longitud mediante la adición de elementos paralelos. Aumentar la longi-
tud de la prueba añadiendo elementos paralelos, no es, en general, directamente apli-
cable a los cuestionarios o inventarios que miden personalidad, o actitudes, y hay que
tener en cuenta si la prueba está constituida por grupos de ítems que miden diferen-
tes factores o dimensiones del rasgo o del constructo que se pretende medir. En este
tipo de pruebas, la fiabilidad se suele obtener como coeficiente de consistencia inter-
na y, además de exigir a la prueba una fiabilidad adecuada, hay que exigírsela también
a cada una de las dimensiones o factores que componen la prueba.
Cuadro 4.1
Es necesario hacer precisiones acerca de lo que se entiende por elemento,

componente o ítem de una prueba, así como longitud. Los tests psicomé-
tricos están compuestos por ítems a los que podríamos llamar de forma
redundante “elementos elementales”, y la longitud del test usualmente coin-
cide con ese número de ítems. También a veces se considera elementos a

ciertas agrupaciones de ítems, algunas de ellas conocidas en la literatura
bajo la denominación de subtests y otras como dimensiones. El cálculo de
la puntuación obtenida en el test se puede hacer sumando las puntuaciones
en cada uno de los ítems, o bien en las de cada uno de los subtests o partes
que componen la prueba. La medida total de la prueba se obtiene por adi-
ción de las medidas de sus componentes, refiriéndonos así a las compo-
nentes como a cada uno de los ítems, o bien, a cada uno de los elementos
o de las partes constituyentes de la prueba.
En adelante, a menudo se va a tratar con conceptos, ecuaciones y rela-
ciones en los que se hace uso de la longitud de un test y, en otros casos,
nos referiremos al número de componentes de un test. En el primer caso nos
solemos referir al número de ítems del test, pero el segundo es más general,
pues llamamos número de componentes al número de elementos o partes
que integran el test, ya sean éstos de carácter elemental como son los ítems,
o bien, conjuntos de ellos. El número de componentes coincidirá con el de
ítems cuando cada una de esas componentes esté formada por un solo ítem.
Lord y Novick, en su obra Statistical theories of mental test scores (1968,
pág. 82), dicen que por longitud del test entienden el número de compo-
nentes que comprende el test compuesto, refiriéndose al test total o test
compuesto como a la suma de las componentes y a la medida como a la
medida compuesta y a sus partes como a las medidas componentes. En
todo caso, cuando la notación que se dé a la longitud n de una prueba pue-
da resultar equívoca se explicitará a qué se está haciendo referencia.
Ecuación de Spearman-Brown
La ecuación que expresa la relación entre la fiabilidad y la longitud de un test es la

denominada ecuación de Spearman-Brown. Esta ecuación permite calcular la fia-
bilidad RXX' de un nuevo test, construido a partir de otro establecido cuya fiabili-
dad rXX' es conocida, aumentando k veces su longitud con elementos paralelos.
R XX ′ =
k rXX ′
1 + ( k − 1) rXX ′
(4.4)
En esta ecuación se utiliza la letra r (minúscula) para indicar la fiabilidad ini-

cial y R (mayúscula) para la obtenida por modificaciones del test inicial.
La ecuación (4.4) lleva el nombre de los dos psicólogos que simultánea e inde-
pendientemente la propusieron, aunque en muchas ocasiones, en la literatura se
refieren a ella como profecía, quizá porque con un simple cálculo, que no lleva
más de unos segundos, se pueden predecir las variaciones de la fiabilidad del test
inicial, al duplicar, triplicar, etc. la longitud de ese test. Esto es, con sólo calcular:
2 rXX ′ 3 rXX ′ … k rXX ′

rXX ′ ;
1 + rXX ′ 1 + 2 rXX ′ 1 + ( k − 1) rXX ′
; ; ;
se puede pronosticar la validez de los nuevos tests a partir del test inicial (k = 1).
La ecuación (4.4) se suele interpretar considerando valores enteros y positivos de
k, pero como tendremos ocasión de comprobar más adelante, esta relación es
válida para cualquier valor de k real y positivo.
La deducción de la ecuación de Spearman-Brown se realiza en el Cuadro 4.2.
Por razones didácticas, se hace para k = 2 y luego se generaliza para cualquier
aumento de la longitud un número de veces k ≥ 2.
Cuadro 4.2
Deducción de la ecuación de Spearman-Brown
A) Caso de longitud doble (k = 2)
Supóngase construido un test X1 y una forma paralela de este test X'1. Si se

construye otro test X2, y una forma paralela a él X'2, que tengan la misma longi-
tud y que a su vez sean paralelos al test X1, se puede construir un nuevo test
X, formado por X1 y por X2, cuya longitud será el doble que la del test X1 inicial.
La fiabilidad del test X1 se mide mediante el coeficiente de correlación rX1X'1.
La fiabilidad del nuevo test X = X1 + X2, en que se ha duplicado el núme-
ro de elementos con respecto al contenido en el test X1, se calculará hallan-
do la correlación lineal entre X y otro test paralelo a él, sea éste X' = X'1 + X'2:
R XX′ =
{[ ][
cov( XX ′) E X − E( X ) X ′ − E( X ′)
=
]}
σ X σ X′ σ X σ X′
Desarrollemos esta expresión, sustituyendo previamente tanto X como

X' por la suma de sus componentes.
Numerador
{( ( )
E X1 − E X1 + X 2 − E X 2 ( )) (X1′ − E (X1′ ) + X 2 − E (X ′2 ))} = 4 rX X′ σ 2X 1 1 1
donde el segundo miembro de la igualdad anterior resulta de considerar que

la esperanza matemática de cada uno de los cuatro productos resultantes
son covarianzas como la siguiente:
{[
E X1 − E ( X1) ] [X1′ − E ( X1′ )]} = cov (X1, X1′ ) = rX X′ σ X σ X′ = rX X′ σ 2X
1 1 1 1 1 1 1
en donde, σ X1σ X'1 = σ 2X1 por tratarse de formas paralelas.
Denominador:
Por paralelismo, la varianza de la variable X es igual a la de X', por lo

tanto, en el denominador de la expresión se tiene que σ Xσ X' = σ 2X . Como
esta varianza es:
[
σ 2X = E X − E( X ) ] { [
= E X 1 + X 2 − E( X 1 ) + E( X 2 )]} =
2 2
= σ 2X + σ 2X + 2 rX1X 2 σ X1 σ X 2
1 2
y por las condiciones de paralelismo se pueden considerar las siguientes

igualdades:
σ 2X = σ 2X ; rX1X 2 = rX1X′1
1 2
tomando entonces la varianza de X la expresión:
σ 2X = 2 σ 2X + 2rX1X1′ σ 2X = 2 σ 2X (1+ rX1X1′ )

1 1 1
Sustituyendo numerador y denominador de RXX' por las expresiones obte-

nidas se tiene que:
4 rX1X1′ σ 2X 2rX1X1′
R XX′ = =
1+ rX1X1′
1
2 σ 2X (1+ rX1X1′ )
1
que es la ecuación de Spearman-Brown para un test X cuya longitud es el

doble de la del test inicial X1.
B) Caso general
Un desarrollo análogo al realizado anteriormente conduce a la ecua-

ción general, al considerar un test X compuesto por un número k de tests
paralelos, siendo:
X = X1 + L + X k
En el numerador de la expresión RXX' se obtendrán k × k = k2 productos

covarianza, todos ellos equivalentes, pudiéndose denotar cualquiera de ellos
por una expresión como la siguiente:
( )
cov X 1, X 1′ = rX1X1′ σ 2X
1
En el denominador, la varianza de X se puede sustituir por la expresión

general de la varianza de una suma de variables:
σ 2X = σ 2X + L + σ 2X + k (k − 1) σ X i σ X j rX iX j
1 K
que, debido a la condición de paralelismo entre cualesquiera Xi, Xj, que se

les ha impuesto, es equivalente a
σ 2X = k σ 2X + k (k − 1) σ 2X rX1X′1
1 1
por lo que:
k 2 rX1X′1 σ 2X
[1+ (k − 1) r ]
k rX1X1′
R XX′ = =
1+ (k − 1) rX1X1′
1
k σ 2X X 1X 1′
1
que es la ecuación general de Spearman-Brown.

Los valores de k
En la ecuación de Spearman-Brown se calcula el aumento de la fiabilidad cuan-

do, bajo condiciones de paralelismo, se aumenta un número k de veces la longi-
tud de la prueba. Sin embargo, también se puede utilizar esa expresión para recal-
cular la fiabilidad de una prueba al disminuir su longitud, al suprimir elementos
paralelos. En este caso k tomaría valores menores que la unidad 1 (mayores que
cero; 0 < k < 1), puesto que se ha convenido que k = 1 para el test inicial.
Este proceso de supresión de elementos paralelos, al igual que el de adición,
puede tener un interés práctico. Supóngase que se dispone de un test muy fiable
pero que a su vez es muy largo, perdiendo por esta razón parte de su utilidad a
efectos prácticos. Una primera pregunta sería ¿cuánto disminuirá la fiabilidad de
este test si se eliminan un número nj de elementos paralelos? O bien esta otra,
¿cuántos elementos se pueden eliminar para que el nivel de fiabilidad sea uno pre-
determinado como admisible para esa prueba, aunque éste sea menor que el actual?
Ambas cuestiones se resuelven usando la ecuación (4.4), dando a k valores posi-
tivos menores que la unidad, como se muestra posteriormente en el Ejemplo 4.4.
Variaciones de la fiabilidad con la longitud
La fiabilidad aumenta o disminuye con aumentos o disminuciones de la longitud

de la prueba, pero esas variaciones no son proporcionales al número de elemen-
tos añadidos o suprimidos, como se puede deducir de la ecuación (4.4). En la
Tabla 4.1 se dan los resultados de la fiabilidad calculada con la ecuación (4.4) para
algunos valores de k y algunas fiabilidades iniciales, teniendo en cuenta que para
el test inicial es siempre k = 1.
Las variaciones de RXX' con k para estos mismos valores de rXX' se pueden
observar también en la Figura 4.1, donde las curvas indican variaciones de la fia-
bilidad entre k = 0 y k = 8. Por lo tanto, en esa figura se pueden apreciar las varia-
ciones de la fiabilidad cuando se aumenta (k > 1) o se disminuye la longitud (valo-
res de k entre cero y uno). Se ha trazado una línea vertical (con trazo discontinuo)
paralela al eje de ordenadas en k = 1 (cuya intersección con las curvas marca la
fiabilidad inicial), con el objeto de apreciar mejor las variaciones de la fiabilidad
(creciente o decreciente) a partir de esos valores iniciales de la fiabilidad. Se ha
representado también con trazo discontinuo una línea horizontal para R = 1, que
es la asíntota a la que tienden todas las curvas, con mayor o menor velocidad.
Tabla 4.1. Valores de fiabilidad (R) en función de la fiabilidad inicial (r)

para algunos valores de k.
r k = 0.5 k=2 k=4 k=6 k=8
0.1 0.053 0.182 0.308 0.400 0.470

0.3 0.176 0.462 0.632 0.720 0.774
0.5 0.333 0.667 0.800 0.857 0.889
0.7 0.538 0.824 0.903 0.933 0.949
0.9 0.818 0.947 0.973 0.982 0.986
Figura 4.1. Curvas de variación de fiabilidad en función de la longitud,

para los valores de fiabilidad inicial dados en la Tabla 4.1.
De la observación de la Figura 4.1 y los valores de la Tabla 4.1 puede inferir-

se que:
a) Para un valor dado de rXX' el valor de RXX' aumenta con k.

b) Este aumento es pequeño a partir de valores de k grandes, pues si se sus-
tituye k por k + 1 en la ecuación (4.4) se obtiene prácticamente el mismo
valor para RXX' .
c) Las curvas para valores altos de k tienen menores pendientes (crecen más
lentamente con k).
d) Cuando se parte de fiabilidades relativamente bajas (rXX' < 0.50) es nece-
sario un valor excesivamente grande de k para llegar a tener fiabilidades
apreciables.
e) Todas las curvas tienden asintóticamente (aunque con muy diferente velo-
cidad) al valor asintótico de RXX' = 1.
f) Al disminuir la longitud (k < 1) disminuye la fiabilidad y la cuantía de esa
disminución depende de k y de la fiabilidad inicial.
Formalmente se puede comprobar que siempre que rXX' < 1 se verifica la rela-
ción de desigualdad siguiente:
1 + (k – 1) rXX' > k rXX'
y por lo tanto siempre debe cumplirse que RXX' ≤ 1.
Consecuencias:
Las consecuencias que se derivan de las relaciones entre fiabilidad y longitud
son importantes en la práctica de la construcción de tests, pues permiten dar res-
puesta a preguntas tales como las siguientes:
a) ¿Se puede conseguir un test con fiabilidad apreciable o moderadamente
alta a partir de un test con muy escasa fiabilidad?
b) ¿Se puede conseguir un test con fiabilidad unidad añadiendo elementos
paralelos a un test inicial con rXX' elevada?
c) ¿Hasta qué punto se debe alargar un test para aumentar su precisión?
d) ¿Cuál sería la longitud total de un test, añadiendo elementos paralelos a uno
dado, si se quiere obtener un determinado valor para su fiabilidad?
e) ¿Se pueden acortar los tests? ¿Cómo evaluar las consecuencias en cuanto
a la modificación de su fiabilidad?
Las respuestas a estas preguntas u otras similares que se podrían plantear son
inmediatas:
A la cuestión a) hay que responder negativamente por razones prácticas, pues-
to que llegar a esos niveles de fiabilidad implicaría aumentos de longitud tales que
el test inicial quedaría reducido a una parte insignificante con respecto al test resul-
tante. Eso es prácticamente inviable o, al menos, incoherente. Por ejemplo, para
aumentar la fiabilidad de un test de 30 elementos y fiabilidad rXX' = 0.15 hasta
valores del coeficiente de 0.60 o de 0.78 se tendrían que añadir al test inicial 225
elementos en un caso y 573 en el otro. De esta primera cuestión se deduce que
los tests escasamente fiables deben despreciarse en su forma original y no tratar
de mejorarlos aumentando su fiabilidad adicionándoles elementos paralelos.
Para dar respuesta a la cuestión b) hay que considerar cuáles son las implicaciones
que tiene el que se pueda obtener el valor uno para RXX' . Si es RXX' = 1, entonces
1=
k rXX ′
1 + ( k − 1) rXX ′
de donde se deduce que k rXX' = 1 + (k – 1) rXX' y esta igualdad sólo puede darse
si rXX' = 1. Por lo tanto, la obtención de valores RXX' = 1 implica un test inicial en
el que necesariamente tiene que ser rXX' = 1; y si este test era perfecto en cuanto a
precisión, no cabe aumentar su longitud para aumentar su fiabilidad. Lo que sí se
puede deducir de estas cuestiones es que para obtener valores de RXX' próximos a
la unidad, es necesario partir de tests iniciales con valores de rXX' elevados.
La respuesta a la cuestión c) implica a la respuesta dada a las dos cuestiones
anteriores y a la propiedad de “frenado” que tiene la curva de crecimiento de la
fiabilidad. En primer lugar se debe llegar a un test final con un número modera-
do de ítems y, si prescindiéramos de todos los inconvenientes que conlleva un test
muy largo, todavía cabría preguntarse ¿para qué alargar un test si la ganancia en
precisión puede ser realmente despreciable? Las consideraciones sobre el núme-
ro de ítems y la ganancia en precisión deben combinarse conjunta y adecuada-
mente en cada caso particular.
Las respuestas a las preguntas d) y e) están implícitas en lo anterior, sin embar-
go se van a tratar específicamente en el siguiente apartado.
Cambios en la longitud para valores prefijados de la fiabilidad
La cuestión sobre cuánto habrá que aumentar o disminuir la longitud de un test

para obtener un determinado grado de precisión, puede surgir en la práctica por
tres razones fundamentales:
1) Porque el objetivo último para el que se construye la prueba exige que ésta
alcance un determinado nivel de precisión.
2) Porque el autor de un test desee investigar si es posible obtener una mejo-
ra apreciable en la precisión de la prueba con economía de medios. Es decir,
si podría mejorar su precisión sin necesidad de añadir un gran número de
elementos.
3) Porque desea acortar la prueba, o que esté interesado en utilizar solamen-
te una de sus partes.
En cualquiera de esas situaciones se puede hacer uso de la ecuación de Spear-

man-Brown, pues el propósito es el cálculo de k para conocer, a través de él, la
longitud del nuevo test con fiabilidad prefijada.
Esta relación viene dada por la ecuación:
R XX ′ (1 − rXX ′ )
k=
rXX ′ (1 − R XX ′ )
(4.5)
La ecuación (4.5) puede deducirse fácilmente de (4.4) y permite calcular el

número k de veces que hay que aumentar la longitud del test inicial para conse-
guir una precisión prefijada, dada por el valor asignado a RXX' .
En todo ello, se está dando por supuesto que se ha cuidado lo sustantivo, es
decir, que se han analizado los contenidos del test y de los ítems con los que va a
aumentar la longitud, o de los que van a suprimir, en su caso.
Ejemplo 4.2
Un test tiene 20 ítems y su coeficiente de fiabilidad es rXX' = 0.48. ¿Cuántas

veces habría que aumentar su longitud para obtener otro con coeficiente de fia-
bilidad de al menos 0.73? ¿Cuántos ítems nuevos y paralelos sería necesario
construir?
En primer lugar se calcula
(1− 0.48)
k ≥ 00..73
48 (1− 0.73)
= 2.93
y se observa que se necesitaría casi triplicar su longitud, o sea, habría que pasar
de 20 a 59 ítems. Por lo tanto, para conseguir el objetivo deseado habría que
construir 39 nuevos ítems, o elegirlos de un banco de ítems paralelos, si lo hubie-

ra. Dado que hay que construir el doble de los ítems que se tenían, una pre-
gunta pertinente es si convendría desechar los 20 ítems de partida y empezar
con unos nuevos ítems que tuvieran una fiabilidad inicial mucho mayor.
Ejemplo 4.3
De un conjunto de ítems se han elegido 20 para construir un test con fiabi-

lidad r = 0.52. Con el fin de aumentar la fiabilidad se ha convenido en añadir
más ítems. Por ello, se desea conocer:
a) Los valores de la fiabilidad en función del número de veces que se aumen-

ta la longitud, tomando el test dado como test unidad.
b) Basándonos en la información obtenida en a) ¿qué longitud y fiabilidad ten-
drá el test que se seleccionaría como adecuado, construido a partir del test
inicial?
c) ¿Cuál es el menor número de elementos que hay que añadir al test dado
para conseguir un test con fiabilidad mayor, o al menos igual a r = 0.71?
¿Qué longitud resultaría para este nuevo test?
d) Se ha tomado la decisión de que la longitud del test no supere los 28 ítems.
En ese caso ¿qué fiabilidad se puede conseguir si el procedimiento segui-
do es el de añadir al test inicial ocho ítems paralelos?
Solución:
a) El cálculo de la variación de la fiabilidad se realiza aplicando la ecuación (4.4),

obteniéndose los valores que se dan en la Tabla 4.2.
Tabla 4.2. Valores de la fiabilidad del test X al multiplicar por k su longitud.
k 1 2 3 4 5 6
RXX' 0.52 0.68 0.76 0.81 0.84 0.87
Con estos seis valores se observa que R crece con k, que ambas mag-
nitudes están directamente relacionadas y que el crecimiento de RXX' se ve
frenado a medida que k crece.
b) Son varias las respuestas que se pueden dar a esta cuestión, dependiendo de
los objetivos y de las condiciones en las que se construye el test, en su sen-
tido más general. Se debe tener en cuenta la extensión, las características y
las disponibilidades del banco de ítems, así como las cualidades psicométri-
cas de cada uno de los ítems que se van a elegir para formar parte de la prue-
ba. Si se desea que el test tenga una fiabilidad muy elevada, no parece que el
test inicial del que aquí se parte sea muy adecuado para conseguirla añadiendo
elementos paralelos. En cualquier caso, para aumentar la fiabilidad aumen-
tando la longitud del test, se debe ser especialmente cuidadoso en el proce-
so, pues se pueden plantear problemas, como por ejemplo, el no paralelismo
entre las puntuaciones que proporcionan los ítems, o que no se deba alargar
lo que parece necesario, porque a partir de una determinada longitud, la fati-
ga influya significativamente en las respuestas, etc.
En el caso hipotético en el que los ítems del test que se esta aquí con-
siderando fuesen de rápida ejecución y que no aparecieran problemas espe-
ciales en su construcción, se optaría por un test conteniendo 80 elementos
(k = 4). Esta decisión sólo se tomaría si, como se está suponiendo, la prue-
ba no resultara excesivamente larga, por ejemplo, en un test de lectura don-
de los ítems fuesen palabras, u otro tipo de prueba en la que se den las con-
diciones indicadas. Con esa longitud, la fiabilidad esperada, que se obtiene
a través de la igualdad (4.4), es un valor aceptable como medida de la pre-
cisión de la prueba. Además, a partir de ese valor, los cambios en longitud
que se podrían realizar para aumentarla no estarían justificados.
c) Para calcular el menor número de elementos que es necesario añadir al test
inicial para que el nuevo test tenga fiabilidad igual o mayor que 0.71, se usa
la ecuación (4.5), resolviendo la desigualdad:
k ≥ 0.71 (1 – 0.52) / 0.52 (1 – 0.71) = 2.26

de donde se concluye que la longitud mínima del nuevo test debe ser:
n ≥ (20) (2.26) = 45.2

y como no existen fracciones de ítems, diremos que el número mínimo de
ítems requerido para que el nuevo test cumpla las condiciones exigidas es
de 46. Al estar el test inicial constituido por sólo 20 elementos, habrá que
añadirle al menos 26 elementos paralelos. Por lo tanto, la respuesta a la cues-
tión es que el menor número de elementos que hay que añadir al test inicial
es 26 y que la longitud mínima que deberá tener el test con la precisión desea-
da es 46 elementos. Ahora bien, este resultado teórico lleva a plantearse
una nueva cuestión que sería objeto de debate, pues ¿hasta qué punto con-
viene añadir tantos elementos? ¿incluso en un número superior a la longi-
tud del test inicial?
d) Si se determina cuál es la longitud máxima del test, que en este caso par-
ticular se ha fijado en 28 elementos, el cálculo de la fiabilidad máxima
que se puede obtener con este número de elementos se puede encontrar
teniendo en cuenta el valor k en ese aumento de la longitud. Aquí, el paso
de 20 a 28 elementos supone una proporción en el aumento de la longitud de
k = 1.4.
Por lo tanto, según la ecuación (4.4), la fiabilidad que se podría conse-
guir para este nuevo test, añadiendo ocho elementos paralelos al test ini-
cial, es:
R= = 0.60
(1.4 )(0.52)
1+ (1.4 − 1) 0.52
lo que indica un aumento apreciable de la fiabilidad que pasa de 0.52 a

ser 0.60.
Ejemplo 4.4
Se ha construido un test de comprensión verbal que consta de n 1 = 125

ítems y cuyo coeficiente de fiabilidad es 0.96.
a) ¿Cuánto disminuirá la fiabilidad si, una vez determinado que por las condi-
ciones en las que se debe administrar el test, el número idóneo de ítems es
aproximadamente igual a 90?
Planteado así, el test final tendrá una longitud n2 menor que la del inicial
y la relación entre ambas, es n2 = k n1 (pues k = n2 / n1), que proporciona
para k un valor de k = 90/125 = 0.72 < 1, ya que n2 < n1.
La fiabilidad del nuevo test es:
R XX′ = = 0.945
(0.72) (0.96)
1 + (0.72 − 1) 0.96
que sigue siendo una fiabilidad elevada para la prueba, con la ventaja adi-
cional de una reducción muy apreciable del número de ítems. La pérdida en
fiabilidad de sólo quince milésimas se considera pequeña y, por lo tanto, la
supresión de 35 ítems es plausible, e incluso se podría estudiar la conve-
niencia de eliminar algunos ítems más.
b) Se piensa que sería adecuado un coeficiente de fiabilidad igual o mayor que
0.86. ¿Cuál es el número máximo de ítems o elementos que se pueden eli-
minar para mantener el nivel de precisión deseado?
En este caso, utilizando la relación (4.5) se obtiene:
0.86 (1− 0.96)

k= = 0.256
0.96 (1− 0.86)
La longitud del nuevo test será n2 = 125k = 32 ítems. Por lo tanto, aun redu-
ciendo el número de ítems aproximadamente a la cuarta parte, se obtendrían
niveles de precisión que se han considerado aceptables para el test.
m4.3. Relaciones entre fiabilidad, longitud y varianzam
En los apartados anteriores se ha expuesto cómo afecta a la fiabilidad la varian-

za de las puntuaciones en el test obtenidas en distintas muestras. También se
ha discutido en qué condiciones varía la fiabilidad cuando cambia la longitud
del test. Estos temas, que se han expuesto de forma separada, están interrela-
cionados.
La razón de que al aumentar la longitud del test con elementos paralelos aumen-
te la fiabilidad es porque se supone que se aumenta la variabilidad y la varianza de
la puntuación verdadera crece más rápidamente que la del error, disminuyéndo-
se así la contribución de este término error a la varianza total observada, y obte-
niéndose tests más fiables. La comprobación formal de las relaciones entre fiabi-
lidad, longitud y varianza, en el caso de doblar la longitud y en el caso general se
aporta en los Cuadros 4.3 y 4.4, respectivamente. Estas deducciones no son nece-
sarias, si se aplican ciegamente las fórmulas, pero son imprescindibles para com-
prender cómo se producen esas relaciones.
Cuadro 4.3
Longitud doble: k = 2
Supóngase que se aumenta la longitud de un test X1 por adición de otro test

paralelo X2 de manera que el test X = X1 + X2 es un test de longitud doble de
la del test inicial Xl.
Las varianzas de las puntuaciones observadas, verdaderas y del error de
este nuevo test X vendrán dadas por las expresiones:
Var (X) = Var (X 1 + X 2 ) = σ 2X + σ 2X + 2rX1X 2 σ X1 σ X 2

1 2
Var (V) = Var (V1 + V2 ) = σ 2V + σ 2V + 2rV1V2 σ V1 σ V2

1 2
Var (e) = Var (e1 + e 2 ) = σ 2e + σ 2e + 2re1e2 σ e1 σ e2

1 2
Teniendo en cuenta el supuesto del modelo re1e2 = 0, y las condiciones

de paralelismo por las que V1 = V2 ; σ 2e 1 = σ 2e 2 ; σ 2X1 = σ 2X2 ; rX1X'1 = rX1X2 = rX2X'2
las varianzas anteriores reducen sus expresiones a las siguientes:
Var (X) = 2σ 2X (1+ rX1X1′ )

1
Var (V) = 4 σ 2V
1
Var (e) = 2σ 2e
1
Al ser el coeficiente de fiabilidad, por definición,
σ 2V
R XX′ =
σ 2X
al sustituir las varianzas verdadera y observada por sus respectivas expre-

siones, se tiene que:
σ 2V 4 σ 2V σ 2V 2rX1X1′
R XX′ = = =2 ⋅ =
1
1+ rX1X1′ 1+ rX1X1′
1 1
σ 2X 2 σ 2X (1+ rX1X1′ ) σ 2X
(4.6)
1 1
que es la expresión de la ecuación de Spearman-Brown para un test de lon-

gitud doble, obtenida anteriormente por otra vía.
A través del procedimiento seguido en este cuadro se hace patente por qué
aumenta la fiabilidad con el aumento de la longitud. En la expresión (4.6) se pue-
de advertir que cuando un test inicial X1 duplica su longitud, la varianza de la pun-
tuación verdadera de ese test, en el numerador, se multiplica siempre por 4,
en tanto que la varianza de la puntuación observada, en el denominador, se mul-
tiplica por un valor menor (entre 2 y 4, siendo 4 solamente cuando la fiabili-
dad inicial fuese uno). Si se duplica la longitud del test y teniendo en cuenta que
σ X2 = σ V2 + σ e2 , la varianza de la puntuación verdadera crece en mayor proporción
(casi el doble) que la de la observada, por lo que necesariamente se ve reducida la
proporción de varianza error y el nuevo test resulta ser más fiable que el test inicial.
Cuadro 4.4
Caso general
Lo expuesto en el cuadro anterior se puede generalizar a la composición

de k tests paralelos. Si el test X está compuesto por k elementos paralelos,
X = X1 + … + XK, la longitud de este test es k veces la del X1 inicial. Debido
a las condiciones del modelo, referidas en el Cuadro 4.3, y teniendo en cuen-
ta que rVi V'i = 1 para todo i, las varianzas de las puntuaciones observadas,
verdadera y error son:
σ 2X = k σ 2X + k (k − 1) σ 2X rX1X1′ = k σ 2X [1+ (k − 1) rX1X1′ ]

1 1 1
σ 2V = k σ 2V + k (k − 1) σ 2V rV1V1′ = k σ 2V [1+ (k − 1)] = k 2 σ 2V

1 1 1 1
σ 2e = k σ 2e + k (k − 1) σ 2e reie j = k σ e2
1 1 1
Por lo tanto:
k 2 σ 2V σ 2V k rX1X1′
R XX′ = =k ⋅ =
1
1+ (k − 1)rX1X1′ 1+ (k − 1) rX1X1′
1 1
k σ 2X [1+ (k − 1)rX1X1′ ] σ 2X
1 1
que es la ecuación de Spearman-Brown para el caso general en que se mul-

tiplica por k la longitud de un test.
Una discusión análoga a la que se ha hecho en el caso de k = 2 se puede hacer

con respecto a por qué hay un aumento de precisión cuando se aumenta la lon-
gitud. Esto se explica a tenor de las variaciones que sufren las varianzas de la pun-
tuación verdadera y la del error, con respecto a las del test inicial. Al aumentar k
veces la longitud del test X1 con elementos paralelos, la varianza de la puntuación
verdadera queda multiplicada por k2 (pasa de σ V2 1 a k2 σ V2 1) y la del error sólo por
k (pasa de σ 2e1 a kσ 2e1), como se puede ver en las deducciones que se han hecho
en el Cuadro 4.4. Por lo tanto, al aumentar la longitud con elementos paralelos,
la varianza de la puntuación verdadera crece más rápidamente que la del error,
disminuyéndose así la contribución de este término error a la varianza total obser-
vada, obteniéndose tests más fiables.
Puntos clave
3 Las muestras de los participantes en el proceso de construcción de pruebas

deben ser lo más heterogéneas posible en cuanto al rasgo del que se pretende
hacer la medición, pues se ha demostrado que a mayor varianza de las pun-
tuaciones observadas, mayor valor del coeficiente de fiabilidad.
3 En el contexto del modelo de Spearman, se puede aumentar la fiabilidad de un
test, añadiéndole elementos paralelos.
3 La ecuación de Spearman-Brown se puede utilizar para calcular el aumento teó-
rico de la fiabilidad cuando se aumenta k veces su longitud.
3 El aumento de la fiabilidad con el de la longitud se produce porque al aumentar
la varianza de las puntuaciones observadas, aumenta en mayor medida la de
las puntuaciones verdaderas que la del error.
3 La ecuación de Spearman-Brown puede ser útil para estimar cuántos elemen-
tos se deben añadir a un test inicial, cuya fiabilidad es conocida, para aumen-
tar esa fiabilidad hasta un valor prefijado.
3 Los tests con poca fiabilidad deben reformularse y no tratar de mejorarlos aña-
diendo elementos paralelos.
3 La ecuación de Spearman-Brown también puede ser útil para estimar la reduc-
ción en el valor de la fiabilidad si se acorta la prueba.
3 En la práctica hay que llegar a un compromiso entre fiabilidad y longitud, sin olvi-
dar lo sustantivo de la prueba y que la ganancia en fiabilidad no se produce si
no se aumenta la varianza de las puntuaciones.
Actividades
r Razone y escriba por qué no son ciertas o son imprecisas las siguientes afir-
maciones:
1. Un test más largo es más fiable.
2. Al aumentar la longitud de un test aumenta su fiabilidad.
3. El aumento de la fiabilidad, añadiendo ítems paralelos, es proporcional

al número de elementos añadidos.
4. La fiabilidad de un test crece linealmente con el aumento de su longitud.
5. Una curva exponencial describe adecuadamente el aumento de la fia-
bilidad de un test en relación con el número de veces que aumenta su
longitud.
r Haga un supuesto acerca de un test (número de ítems, fiabilidad, etc.) y cal-
cule la fiabilidad que teóricamente podría obtenerse si dobla la longitud del
test. Considere si es o no realista dicho valor, en cuanto a que se hubiera
podido alcanzar experimentalmente. Discútalo a la luz de los valores de las
varianzas.
r Calcule la fiabilidad que teóricamente tendría el test si se elimina 1/3 de
sus elementos.
r Elija al azar 1/3 de los ítems de ese test (si la longitud n no es múltiplo de
tres, redondee al número entero más próximo) y calcule la fiabilidad del
test en el que se han suprimido esos elementos. Discuta el valor de esa fia-
bilidad comparándolo con la que había obtenido con el test completo.
r Deduzca, explicando cada paso, las ecuaciones que justifican teóricamen-
te que el aumento de la longitud de un test puede producir un aumento de
su fiabilidad.
r Haga consideraciones sobre lo que implica la afirmación de Lord y Novick
en su obra Statistical theories of mental test scores (1968, pág. 82), cuando expre-
san que por longitud del test entienden el número de componentes que compren-
de el test compuesto.
r Busque en la docimoteca uno o varios tests compuestos por subtests y/o
por diferentes factores. Discuta las diferencias, si las hay, entre subtest y
factor haciendo consideraciones sobre las fiabilidades del test total y de
las partes.
Fiabilidad
Consistencia interna: El coeficiente α 5
Para calcular el coeficiente de fiabilidad en el contexto de la teoría clásica
pueden seguirse distintos diseños para obtener medidas repetidas. Como
se ha expuesto en el Capítulo 3 los métodos que comúnmente se tratan en
los manuales son: (a) aplicación repetida del mismo test, método test-retest
(b) aplicación de formas equivalentes del test y (c) subdivisión del test,
generalmente en dos partes, correlacionando, por ejemplo, los elementos
que ocupan los lugares pares con aquellos que ocupan los lugares impa-
res, o la correlación ítem-test.
Los métodos (a) y (b) de obtención de datos para calcular el coeficiente
de fiabilidad proporcionan una estimación de lo que se podría llamar esta-
bilidad de las puntuaciones, pues las magnitudes que se correlacionan son las
puntuaciones obtenidas en la prueba en dos ocasiones diferentes, ya sea
respondiendo a formas paralelas, ya sea respondiendo a la misma prueba
en distintos momentos temporales. El diseño (c) da un sentido distinto a
la fiabilidad. En este caso, la fiabilidad habría que interpretarla como con-
sistencia interna entre los distintos elementos o partes del test, por ejemplo,
si las partes elegidas son las dos mitades del test, la correlación entre las
puntuaciones de ambas partes es un coeficiente de fiabilidad que no será
un indicador de la estabilidad de las puntuaciones, sino de la consistencia
existente entre las partes de ese test. De forma análoga se puede inter-
pretar la correlación ítem-test, esto es, la correlación entre las puntuacio-
nes de cada ítem particular con el resto de los ítems que componen el test.
El coeficiente α aporta una forma diferente de concebir y calcular el
coeficiente de fiabilidad, pues se basa en la magnitud de las covariaciones
entre los distintos elementos en relación con la varianza total de la prue-
ba, en lugar de en la correlación entre medidas paralelas.
Todas las formas que se proponen para el cálculo de la fiabilidad son

aceptables, la única condición es que se debe dar a la fiabilidad calculada
mediante cada una de ellas su correcta interpretación. Los diseños que más
se utilizan son los del tipo (c), entre otras razones, porque las dificultades
y costes que en la práctica comportan los otros dos diseños son mucho
mayores. El cálculo de la fiabilidad con valores obtenidos mediante cual-
quiera de los métodos es inmediato, aun cuando se maneje un gran núme-
ro de datos, pues los métodos están implementados en el software de
muchos de los paquetes comerciales. Una cuestión importante que hay
que abordar es el análisis de los datos y el de las condiciones de aplicación
de la prueba, ya que con un mismo test o cuestionario se pueden obtener
distintos valores o estimaciones de su fiabilidad. Una discusión amplia
acerca de las ventajas e inconvenientes que conllevan estos diseños y apro-
ximaciones a la fiabilidad se puede ver en Stanley (1971).
ã La forma general de cálculo del coeficiente de fiabilidad que indica

consistencia interna: el coeficiente α.
ã Algunas formas derivadas de la forma general, aplicables en casos
particulares y relaciones entre esas formas.
ã Que α es la cota inferior de la fiabilidad de un test.
ã El cálculo de la consistencia interna entre partes del test (subtests)
que tienen un número diferente de elementos: el coeficiente β.
ã El cálculo de α con técnicas de análisis de la varianza.
ã El cálculo de algunos coeficientes de fiabilidad derivados de valo-
res obtenidos con técnicas de análisis factorial.
ã Cómo se interpreta la cuantía del coeficiente, cómo se puede detec-
tar si su valor está sobrestimado o subestimado y en qué casos algu-
no de los métodos que se pueden considerar se cree que es el más
apropiado.
m5.1. El coeficiente α y las ecuaciones de Kuder-Richardsonm
En psicometría se puede calcular la fiabilidad de una prueba relacionando dife-

rentes partes de ella, como ocurre, por ejemplo, cuando se hace la división en
Capítulo 5. Fiabilidad: Consistencia interna 123
dos partes. Para ello se hace uso de toda la información que proporcionan la
varianza y la covarianza de los valores muestrales en los diferentes elementos
que se considera que componen esa prueba. A este tipo de fiabilidad se la deno-
mina consistencia interna y a la ecuación para calcularla, coeficiente alfa, que
es el valor que estima la consistencia entre los elementos que componen la
prueba.
Coeficiente α
Una forma general de cálculo de la fiabilidad como índice de la consistencia inter-

na de las puntuaciones viene dada por la siguiente expresión:
 
σ 2X − ∑ σ 2X i  ∑ σ 2X i 
n n
n  i=1 
α= i=1 = 1−
n
n −1 σ 2X n −1  σX 
(5.1)
 
2
 
donde X representa la prueba completa, formada por n componentes o elemen-

tos Xi (i = 1, 2, …, n), siendo σ 2X la varianza de las puntuaciones de la prueba y
σ X2 i la varianza de la i-ésima componente. La diferencia entre las varianzas en el
numerador de esta ecuación corresponde a la suma de las covarianzas entre todos
los pares de elementos o componentes de la prueba. La ecuación (5.1) fue deno-
minada coeficiente α por Cronbach en 1951, pudiéndose obtener como la cota
inferior de la fiabilidad de un test.
Ecuaciones de Kuder-Richardson
La ecuación general del coeficiente α admite otras expresiones como casos par-
ticulares. Entre ellas, hay que considerar el caso en que cada una de las compo-
nentes Xi sea un único ítem, y que ese ítem sea dicotómico. Esto es, las com-
ponentes del test son sus n ítems y cada ítem no admite más que una de dos
alternativas de respuesta, que son exhaustivas y mutuamente excluyentes, por
ejemplo: correcto e incorrecto. Si las probabilidades asociadas a la respuesta
correcta e incorrecta son pi y qi = 1 – pi, respectivamente, la varianza para todo

elemento Xi será:
σ 2X i = pi q i = p i (1 − pi )
Al sustituir esta expresión en la ecuación del coeficiente α, se tiene la ecua-
ción (5.2), que es la número veinte de las obtenidas por Kuder y Richardson:
σ 2X − ∑ pi (1 − pi )
n
KR 20 = i=1
n
n −1 σ 2X (5.2)
donde pi es la proporción de sujetos que responden correctamente al ítem i. Esta
proporción pi es una medida de la dificultad del ítem referida al grupo que cons-
tituye la muestra de examinados o grupo normativo.
Si en lugar de tomar para cada ítem sus parámetros pi y qi se utiliza para todos
ellos el mismo índice de dificultad, sustituyendo cada uno por la media aritméti-
ca de todos ellos,
p = ∑ pi / n
i
se tiene otra versión para el coeficiente de fiabilidad, que es la ecuación número

veintiuno de las obtenidas por Kuder y Richardson.
n σ X − n p (1 − p )  npq 
KR 21 = = 1 − 2 
2
n
n −1 σX n −1  σX 
2
(5.3)
Cuadro 5.1
Los primeros trabajos publicados siguiendo esta metodología de cálculo de

la fiabilidad fueron el de Kuder y Richardson en 1937 y el de Richardson y
Kuder en 1939, en los que desarrollan, entre otras, las ecuaciones conoci-
das como KR20 y KR21. La denominación corresponde a las siglas de los
autores y los números que las acompañan responden al orden en el que se
calcularon. En esta misma línea y época se encuentran también los trabajos
de Jackson y Ferguson publicados en 1941, menos citados en la literatura.
En general, entre estos dos coeficientes se da la desigualdad siguiente:
KR 20 ≥ KR 21
La igualdad se producirá solamente en el caso en que todos los ítems tengan

la misma dificultad, o sea, cuando para cualesquiera ítems i, j sea pi = pj , en con-
secuencia, qi = qj .
Cuadro 5.2
Es fácil comprobar que KR20 = KR21 cuando todos los ítems tienen la mis-
ma dificultad. Si es p1 = p2 = … = pn , también será q1 = q2 = … = qn . Deno-
tando genéricamente pi = p y qi = q, el término
∑ pi qi
n
i=1
en (5.2) será igual a npq = np q que es como aparece en la ecuación (5.3).
m5.2. El coeficiente α: Cota inferior de la fiabilidadm

en tests compuestosm
un test compuesto, demostrando que se verifica la desigualdad ρXX' ≥ α. O sea, se

Este apartado está dedicado a la obtención de la cota inferior de la fiabilidad en
va a demostrar que el coeficiente de fiabilidad calculado correlacionando medidas

paralelas es mayor que el calculado mediante α, dándose la igualdad sólo en el caso
en que las componentes del test sean paralelas o, al menos, tau-equivalentes.
En el Cuadro 5.3 se presenta la demostración para el caso más simple, que es
aquel en que el test solamente está compuesto por la suma de dos componentes.
Esta demostración la realizó en primer lugar Guttman en 1945, y por ello, estas
relaciones se suelen conocer como las desigualdades o ecuaciones de Guttman.
El caso más general en que el test esté compuesto por n componentes se presenta
en el Cuadro 5.4. Las ecuaciones de Kuder-Richardson son un caso particular del
coeficiente α cuando se alcanza la cota inferior.
Estas relaciones se presentan en la literatura como dos teoremas (cuyas demos-

traciones se dan en los Cuadros 5.3 y 5.4), y se enuncian a continuación junto con
sus corolarios:
Teorema 1
Sean X1, X2 dos medidas cuyas respectivas puntuaciones verdaderas son V1 y V2;
y sea X = X1 + X2 una medida compuesta con puntuación verdadera V. Entonces:
 σ2 + σ2 
ρ XX ′ = ρ2XV ≥ 2 1 − 1 2 2 
X X
 σX 
(5.4)
Corolario 1
Si X1 y X2 son dos tests con puntuaciones paralelas, la expresión (5.4) para

ρXX' es idéntica a la ecuación (4.4) con k = 2. Las dos componentes son el test
inicial X1 y el test X2, compuesto por los elementos paralelos adicionados, actuan-
do X1 y X2 como dos subtests para formar el test X de longitud doble.
Cuadro 5.3
Para la demostración de (5.4) se parte de una desigualdad, que es trivial, al

ser positivo o cero el cuadrado de cualquier valor.
[σ V − σ V2 ] ≥0
2
1
y desarrollando el cuadrado se tienen las siguientes desigualdades:
σ 2V + σ 2V − 2 σ V1 σ V2 ≥ 0; σ 2V + σ 2V ≥ 2 σ V! σ V2
1 2 1 2
y teniendo en cuenta:
ρ V1V2 = ρ V1V2 ≤ 1
cov( V1, V2 )
σ V1 σ V2
y que
entonces:
σ V1 σ V2 ≥ cov( V1, V2 )
( )
σ 2V + σ 2V ≥ 2 cov V1 , V2 ≥ 2 cov V1 , V2
1 2
( )
Por otra parte, sustituyendo esta desigualdad en:
σ 2V = σ 2V + σ 2V + 2 cov( V1, V2 )
1 2
σ 2V ≥ 4 cov( V1, V2 )
El coeficiente de fiabilidad del test resulta ser:
σ 2V
ρ2XV = ≥
4 cov( V1, V2 )
σ 2X σ 2X
Por la igualdad de las covarianzas: cov (V1, V2) = cov (X1, X2), y teniendo
en cuenta que σ 2X = σ 2X1 + σ 2X2 + 2 cov (X1, X2)
σ 2X − σ 2X − σ 2X  σ2 + σ2 
= 21− 1
X2 
ρ2XV ≥ 2
 
1 2 X
σ 2X σX
 
2
con lo que queda demostrado el teorema cuando sólo hay dos componentes.
Teorema 2
Sean X1, X2, …, Xn un conjunto de n medidas con puntuaciones verdaderas
V1, V2, …, Vn y sea X una medida compuesta por una suma de Xi, cuya puntua-
ción verdadera es V. Entonces se verifica que:
 n 
 ∑σ X 2
n  i=1 i 
ρ XX ′ = ρ2XV ≥α= 1−
n −1  σ 2X 
(5.5)
 
 
Cuadro 5.4
Como en el teorema anterior, se parte de la desigualdad
σ 2V + σ 2V ≥ 2 cov Vi , Vj ≥ 2 cov Vi , Vj
i j
( ) ( )
Sumando para todo i ≠ j se tiene que:
 
∑ ∑σ 2Vi + σ 2Vj  ≥ 2∑ ∑ cov( Vi, Vj ) (a)
i≠ j i≠ j
Teniendo en cuenta la identidad:
 
∑ ∑σ 2Vi + σ 2Vj  = n∑ σ 2Vi + n∑ σ 2Vj = 2n∑ σ 2Vi
n n n n n
i=1 j=1 i=1 j=1 i=1
y la identidad:
       
∑ ∑σ 2Vi + σ 2Vj  = ∑ ∑σ 2Vi + σ 2Vj  + ∑ ∑σ 2Vi + σ 2Vj  = 2∑ σ 2Vi + ∑ ∑σ 2Vi + σ 2Vj 
n n n n n n
i=1 j=1 i= j i≠ j i=1 i≠ j
con lo que la anterior desigualdad (a) es equivalente a la siguiente desi-

gualdad:
2n∑ σ 2V − 2∑ σ 2V ≥ 2∑ ∑ cov( Vi, Vj )

n n n
i=1 i=1 i≠ j
i i
o bien, a la expresión:
(n − 1) ∑ σ 2V ≥ ∑ ∑ cov( Vi, Vj )
n n
i=1 i≠ j
i
de donde:
∑ ∑ cov( Vi, Vj )
n
∑ σ 2Vi ≥ i≠ j
n
i=1 n−1
y al ser:
σ 2V = Var (∑ Vi ) = ∑ σ 2V + ∑ ∑ cov( Vi, Vj )

n n n
i=1 i=1 i≠ j
i
sustituyendo en esta expresión el término
∑ σ 2Vi
n
i=1
por el segundo miembro en la desigualdad anterior, se obtiene que:
∑ ∑ cov( Vi, Vj )
n
+ ∑ ∑ cov( Vi, Vj ) = ∑ ∑ cov( Vi, Vj )

i≠ j
σ 2V ≥
n
n n
n−1 i≠ j n − 1 i≠ j
Al ser la varianza del test total X igual a la expresión:
σ 2X = ∑ σ 2X + ∑ ∑ cov( X i, X j )
n
i≠ j
i
i
se obtiene que las covarianzas son iguales a la diferencia:
σ 2X − ∑ σ 2X = ∑ ∑ cov( X i, X j ) = ∑ ∑ cov( Vi, Vj )

n n
i≠ j i≠ j
i
i
Por lo tanto, para el coeficiente ρXX' se obtiene la desigualdad siguiente:
 
σ 2X − ∑ σ 2X  ∑ σ 2X 
n n
σ 2V n  i=1 i 
ρ XX′ = ≥ i=1
= 1−
n i
σ 2X n−1 σ 2X n − 1 σ 2X 
 
 
Con lo que queda demostrado que el valor del coeficiente de fiabili-

dad de un test, obtenido por otro método, resultará ser mayor que el coe-
ficiente alfa.
Corolario 2
Si X1, X2, …, Xn son medidas paralelas, entonces la expresión de α es idénti-

ca a la ecuación de Spearman-Brown para la fiabilidad de un test compuesto por
n elementos.
Este resultado lo puede comprobar fácilmente el lector teniendo en cuenta
que al considerarse medidas paralelas, se da la igualdad entre las varianzas σ 2Xi
para todo i (i = 1, 2, …, n).
m5.3. Casos particulares del coeficiente αm
La expresión dada para α mediante los teoremas de la sección anterior, tomada

tanto como igualdad como desigualdad, ha generado muchas investigaciones como
las de Kuder y Richardson (1937), Rulon (1939), Dressel (1940), Hoyt (1941), Gutt-
man (1945), Cronbach (1951), Cureton (1950), etc.; dando a veces lugar a otras
ecuaciones obtenidas como casos particulares de ésta más general. Éste es el caso
de las ecuaciones de Kuder-Richardson, ya dadas, cuando las componentes del test
son ítems dicotómicos. Es fácil demostrar que el coeficiente α se reduce a la ecua-
ción KR20, también conocida bajo la nomenclatura α(20), así como la ecuación KR21
se conoce como α(21). Como se ha indicado anteriormente α(20) ≥ α(21), dándose
la igualdad, si y sólo si, todas las pi son idénticas.
Ecuaciones de Rulon y de Flanagan y Guttman
La ecuación (3.7) de Flanagan y Guttman es un caso particular de la expresión (5.1)

del coeficiente α, para el caso de un test que se divide en dos conjuntos de ítems
correspondientes a los lugares pares e impares. En efecto, para n = 2 y sustituyendo
∑ σ 2X i = σ 2X impares + σ 2X pares
en la expresión (5.1), se obtiene directamente la ecuación (3.7). En el Cuadro 3.8
se demostró que las ecuaciones de Flanagan y Guttman y de Rulon son equiva-
lentes, por lo que la expresión (3.6) de la ecuación de Rulon puede considerarse
también un caso particular de la expresión general (5.1) del coeficiente α.
Ecuación de Hoyt
En esta forma de cálculo de la fiabilidad, además de la varianza de la puntuación
elementos i, j (i ≠ j) con i, j = 1, 2, …, n. En el Cuadro 5.5 se comprueba que la

total, es necesario conocer la media de las covarianzas entre todos los pares de
ecuación (5.6) de Hoyt se puede obtener de la expresión general (5.1) dada para
el coeficiente alfa, en la que se sustituyen las covarianzas entre las componentes
por la covarianza media:
n2 ρX i X j σ X i σ X j
α=
σ 2X
(5.6)
Cuadro 5.5
Para un test compuesto por n elementos: X = X1 + … + Xn se tiene que
   n 
 σ 2X − ∑ σ 2X   ∑ σ 2X + ∑ ρ X i X j σ X i σ X j − ∑ σ 2X 
n n n
α=
n  i=1  = n  i=1 i≠ j i=1 
i i
 
i
n−1 σX  n−1 σX
   
2 2
 
   
y teniendo en cuenta que hay n (n -1) términos de la forma ρXi Xj σ Xi σ Xj , se

tiene que
∑ ρ X iX j σ X i σ X j = n (n − 1) ρ X iX j σ X i σ X j
n
i≠ j
Sustituyendo en la ecuación anterior, se obtiene:
n n (n − 1) ρ X iX j σ X i σ X j n ρ X iX j σ X i σ X j
2
α= =
n−1 σ 2X σ 2X
que es la ecuación dada por Hoyt para un test compuesto en el que se conoce
la covarianza media de sus componentes, así como la varianza del compuesto.
En los siguientes ejemplos se obtendrá la fiabilidad con datos de muestras

pequeñas, aunque la fiabilidad de las pruebas se determina en la práctica con mues-
tras cuyo tamaño sea suficiente para poder hacer inferencias a la población con
las suficientes garantías. Además, los cálculos se suelen hacer utilizando los pro-
gramas que están implementados en muchos paquetes de software para estudios
estadísticos y psicométricos.
Ejemplo 5.1
En la Tabla 5.1 se dan las puntuaciones que han obtenido diez personas
en un test compuesto por 6 subtests que miden el mismo rasgo. La cova-
rianza media entre estos subtests es 0.68 y se desea calcular la consistencia
interna de la prueba.
Tabla 5.1. Puntuaciones totales en un test con seis componentes.
Personas 1 2 3 4 5 6 7 8 9 10
Puntuaciones Xi 11 10 8 17 9 21 7 3 11 23
En este caso, se debe utilizar la ecuación de Hoyt (5.6), puesto que no se

tienen más datos de los subtests componentes de la prueba que el promedio
de sus covarianzas. La varianza de las puntuaciones en la totalidad de la prue-
ba se puede calcular con los datos de la Tabla 5.1, siendo:
[
σ 2X = E ( X i2 ) − E ( X ) ] = 180.40 − 122 = 36.40
2
Por lo tanto:
α=
(36) (0.68) = 0.67
36.4
que es el valor estimado para el coeficiente de consistencia interna de la prueba.
Ejemplo 5.2
Antes de asignar sujetos a distintos grupos, se ha considerado necesario
disponer de una prueba breve donde se evidencien datos relativos a sus res-
pectivas capacidades en fluidez verbal, habilidad numérica y razonamiento. Para

tal fin se ha construido un test T compuesto por otros tres tests, que van a actuar
como subtests componentes de ese test.
El test A para evaluar la fluidez verbal consta de tres ítems consistentes
cada uno de ellos en escribir el máximo número de palabras que completan fra-
ses, en un tiempo determinado. La puntuación en estos ítems se corresponde
con el número de palabras escritas que tengan sentido.
El test B, diseñado para evaluar la habilidad numérica, consta de seis ítems
consistentes cada uno de ellos en la resolución de una operación numérica. En
este test se le asigna valor 1 a la respuesta correcta y cero a la incorrecta.
El test C es de razonamiento. Se plantean cuatro problemas, asignando a
cada uno el valor 0 si la solución dada es incorrecta y 1 si es correcta.
Se desea conocer la fiabilidad de cada uno de los subtests y del test com-
puesto usando los datos de 10 sujetos que se dan en la Tabla 5.2, considerán-
dose que es una muestra aleatoria de la población a la que el test va destinado.
Tabla 5.2. Puntuaciones de 10 sujetos en cada uno de los ítems de tres subtests.
Test A Test B Test C

Sujetos
1 2 3 1 2 3 4 5 6 1 2 3 4
1 4 6 1 0 1 1 0 1 1 0 1 1 0
2 5 4 1 1 1 0 1 0 1 1 1 1 0
3 3 4 1 0 0 1 0 1 0 1 0 0 1
4 6 8 3 1 0 1 1 0 1 1 1 1 1
5 4 4 1 0 1 1 0 1 0 0 1 1 0
6 8 8 5 1 0 1 1 1 0 1 1 1 1
7 4 3 0 1 0 1 0 0 0 0 1 1 1
8 2 1 0 1 0 0 0 1 0 1 0 0 0
9 5 4 2 1 1 0 1 1 1 1 1 0 1
10 9 8 6 1 1 1 1 1 1 1 1 1 1
Total 50 50 20 7 5 7 5 7 5 7 8 7 6
Solución
En primer lugar se habrá de elegir, de acuerdo con las características de los

datos, cuál es el procedimiento más adecuado para calcular la fiabilidad, tan-
to de la prueba completa como la de cada subtest. La primera observación que
se puede hacer es que sólo se dispone de un dato por persona e ítem, es decir,
no se dispone de medidas repetidas obtenidas por procedimientos tales como

test-retest o la aplicación de formas paralelas.
En el test A, los sujetos pueden obtener puntuaciones cualesquiera dentro
de los números enteros y positivos. En los tests B y C, sin embargo, las pun-
tuaciones son dicotómicas, asignando cero al error y uno al acierto. La batería,
por lo tanto, está compuesta por subtests con distinto sistema de puntuación y
en este sentido también es heterogéneo. El cálculo de la fiabilidad para los cua-
tro tests T, A, B y C, a partir de los datos disponibles, obliga a que éste se reali-
ce a través del coeficiente alfa, en su forma general para el test total T y para el
subtest A, y mediante las ecuaciones de Kuder-Richardson para los tests B y C.
En la Tabla 5.3, deducida de la Tabla 5.2, se dan las puntuaciones de los
sujetos en cada uno de los tests, para facilitar el cálculo de la media y de la
varianza en cada uno de los subtests A, B y C, así como las del test total T.
Subtest A
Este subtest está compuesto por tres componentes que se corresponden

con los ítems que lo forman. Las medias y las varianzas para cada una de las
tres componentes Ai son:
X A 1 = 5 ; X A 2 = 5 ; X A 3 = 2 ; σ 2A = 4.2 ; σ 2A = 5.2 ; σ 2A = 3.8

1 2 3
Los valores de la media y de la varianza de las puntuaciones en el test A

(los dados en Tabla 5.3, donde XA = {11, 10, 8, 17, 9, 21, 7, 3, 11, 23}) son:
X A = 12 ; σ 2A = 36.4
Aplicando la ecuación general de α dada en (5.1) se tiene:
3  4.2+5.2+ 3.8  3  13.2 

αA = 1−  = 1 −  = 0.956
2 36.4  2  36.4 
Tabla 5.3. Puntuaciones totales de los sujetos en cada uno de los tests del compuesto.
Puntuaciones Sujetos
Tests 1 2 3 4 5 6 7 8 9 10
A 11 10 8 17 9 21 7 3 11 23
B 4 4 2 4 3 4 2 2 5 6
C 2 3 2 4 2 4 3 1 3 4
T 17 17 12 25 14 29 12 6 19 33
Subtest B
Para calcular la fiabilidad de este subtest se utiliza la ecuación (5.2), donde

el número n de componentes coincide con el número de ítems dicotómicos, o
sea, n = 6 y sus respectivas probabilidades son:
p1 = 0.7; p2 = 0,5; p3 = 0.7; p4 = 0.5; p5 = 0.7; p6 = 0.5

q1 = 0.3; q2 = 0.5; q3 = 0.3; q4 = 0.5; q5 = 0.3; q6 = 0.5
siendo, por lo tanto:
∑ pi qi = 1.38
6
i=1
La media y la varianza de las puntuaciones en este subtest (Tabla 5.3) son:
X B = 3.6 ; σB2 = 14.6 − ( 3.6)2 =164

.
Sustituyendo los correspondientes valores calculados en la ecuación de α20,

se tiene que:
6  1.38 
α 20 = 1 −  = 0.19
5  1.64 
La consistencia interna es un valor pequeño y habría que contrastar si es o

no significativamente diferente de cero.
Subtest C
De forma análoga a lo indicado para el test B, se calculan para el test C las

respectivas proporciones, siendo n = 4 en este caso.
p1 = 0.7; p2 = 0.8; p3 = 0.7; p4 = 0.6

q1 = 0.3; q2 = 0.2; q3 = 0.3; q4 = 0.4
∑ pi qi = 0.82
4
i=1
La varianza de las puntuaciones del test C es:
(
σ C2 = 8.80 − 2.80 ) = 0.96
2
luego:
4  0.82 
α 20 = 1−  = 0.194
3  0.96 
lo que indica que, como el anterior, este subtest posee una escasa consisten-
cia interna. Valor que, de poder admitirse, habría que contrastar previamente si
es significativamente diferente de cero.
Test compuesto
El test tiene tres componentes cuyas varianzas son:
σ 2A = 36.40; σB2 = 1.64; σ C2 = 0.96
pudiéndose obtener además la varianza de las puntuaciones totales XT, que se

dan en la Tabla 5.3.
Los valores de la media y de la varianza de la variable XT son:
(
X T = 18.40 ; σ 2T = 401.40 − 18.40 ) = 62.84
2
El coeficiente de fiabilidad para el test compuesto de los subtests A, B y C es:
3  σ 2A + σB2 + σ C2  3  38.9 
α= 1 −  = 1 −  = 0.571
2 σT  2  62.84 
2
La consistencia interna del test compuesto resulta ser moderada y al inter-

pretarlo se debe tener en cuenta la escasa fiabilidad de los subtests compo-
nentes B y C que forman parte de la prueba.
m5.4. El coeficiente βm
En el caso en que no se disponga de los datos de todos y cada uno de los ítems de
un test, siendo los elementos de ese test los distintos subtests que lo forman, y si
estos subtests tienen distinto número de elementos, el valor que proporciona el
coeficiente α es una subestimación de la fiabilidad del compuesto. El coeficiente
β (Raju, 1977), que es una generalización del coeficiente α, viene a solucionar este
problema, coincidiendo su valor con el de α en el caso en que todos los subtests
tengan el mismo número de elementos, como se demuestra en el Cuadro 5.6. La
expresión de β, por lo tanto, incluye, además de las varianzas de cada uno de los
componentes del test, su número de elementos. Para Xj subtests (j = 1, 2, …, k),
que contienen un número nj de ítems, que en principio es diferente de unos sub-
tests a otros, el coeficiente β es:
σ 2X − ∑ σ 2X
k
j=1
β=
j
  nj 2 
(5.7)
σ 2X 1− ∑   
k

j=1 n 
 
donde:
σ 2X es la varianza del test global, esto es, la de todas las puntuaciones que
componen la batería.
σ 2Xj es la varianza de cada uno de los subtests.
n = ∑ nj
k
es el número total de ítems que forman X.
j =1
Cuadro 5.6
Comprobemos que el coeficiente α = β en el caso en que todos los subtests

tuviesen la misma longitud.
En efecto, si es n1 = n2 = … = nk, entonces, el número total de elemen-
tos será k veces el número de los de cualquiera de los subtests:
n = ∑ nj = k nj
k
j =1
con lo que el término del denominador que multiplica a σ 2X en la ecuación

(5.7) es:
k n   n k 2 k k −1
1− ∑   = 1 − k 
2
 = 1− 2 =
j
j =1 
n  n  k k
que sustituido en la ecuación (5.7)
σ 2X − ∑ σ 2X σ 2X − ∑ σ 2X
k k
j=1 j=1
β= =
j j
k
 k − 1 k −1 σ 2X
σ 2X  
 k 
da como resultado la ecuación (5.1), que es la del coeficiente α para un test

formado por k componentes.
m5.5. Cálculo de α con técnicas de análisis de varianzam
Los ítems de una prueba se puede considerar que son medidas repetidas de la
variable que esa prueba pretende evaluar. Bajo esta perspectiva, se puede evaluar
la consistencia interna de la prueba haciendo uso de las técnicas de análisis de la
varianza, como ya lo hiciera Hoyt en 1941. Si es Xpi la puntuación del sujeto p en
el ítem i, se pueden calcular las puntuaciones medias de N sujetos que responden
a n ítems.
En ese caso, para una prueba con n ítems o componentes, el cálculo de α se
realiza mediante la igualdad:
α=
nF
1 + nF
(5.8)
donde F es una función de las medias cuadráticas entre sujetos (MCentre ) y la media
cuadrática residual (MCres ) dada por la expresión:
MCentre − MCres
F=
n MCres
siendo cada MC igual a su suma de cuadrados (SC) dividida por los correspon-
dientes grados de libertad (g.l.):
( )
 2
SCentre = n NE X p − X  = n ∑ X p2 − n N X 2
  p
MCentre = SCentre N −1
SCres = ∑ ∑ X pi2 + n N X 2 − n∑ X p2 − N∑ X 2i
N n
p=1 i =1 p i
MCres = SCres ( N − 1)( n − 1)
Los análisis suelen involucrar un número considerable de datos y los cálculos

se realizan con el software que incluyen los paquetes estadísticos para los ANOVA,
aunque esos cálculos son muy simples cuando las variables son dicotómicas y la
matriz de datos (N sujetos × n ítems) es de pequeñas dimensiones, como se ilus-
tra en el ejemplo siguiente.
Ejemplo 5.3
En la Tabla 5.4 se muestran los datos de las N = 10 sujetos, que responden

al test C de cuatro ítems del Ejemplo 5.2, que pueden considerarse medidas
repetidas.
Tabla 5.4. Puntuaciones en los ítems y las totales de los ítems ( Ti ) y de los sujetos ( Tp ).
Sujetos
Ítems
1 2 3 4 5 6 7 8 9 10 Ti
1 0 1 1 1 0 1 0 1 1 1 7
2 1 1 0 1 1 1 1 0 1 1 8
3 1 1 0 1 1 1 1 0 0 1 7
4 0 0 1 1 0 1 1 0 1 1 6
Tp 2 3 2 4 2 4 3 1 3 4 28
El cálculo de α utilizando técnicas de análisis de varianza requiere la eva-

luación de las siguientes cantidades:
a) La suma de los cuadrados de todos los valores de la tabla:
∑ ∑ X pi2 = 28
p i
b) El cuadrado de la media de todos los valores:
 T 2  28 2
X2 =   =   = 0.49
 nN   (4 )(10) 
c) La suma de los cuadrados de las medias de cada sujeto p:
 T 2 22 + 32 + L + 32 + 4 2
∑ (X p ) = ∑   = = 5.5
10
2 p
p p=1 n  42
d) La suma de los cuadrados de las medias de cada ítem:
∑ (X i )
T  72 + 82 + 72 + 62
= ∑ i  =
2
= 1.98
4
2
i 1 N 102
con lo que se obtiene
SCentre = n∑ X p2 − nN X 2 = 4 (5.5 − 4.9) = 2.40

p
SCres = 28 + (4 )(10)(0.49) − (4 )(5.5) − (10)(1.98) = 5.80
MCentre = = = 0.267
SCentre 2.40
N−1 9
( )( )
MCres = = = 0.215
SCres 5.80
n−1 N−1 27
En la construcción de F para el cálculo de α, téngase en cuenta que sólo

intervienen las medias cuadráticas de los sujetos y residual, ya que se han con-
siderado los ítems como medidas repetidas.
MCentre − MCres
F= = 0.060 ; α = = 0.194
nF
n MCres 1+ nF
El valor obtenido para α indica la escasa consistencia interna entre esos

ítems, pudiéndose comprobar que el valor obtenido para α es el mismo que el
obtenido en el Ejemplo 5.2, no dependiendo por lo tanto del procedimiento de
cálculo utilizado.
Esta forma de proceder marca los antecedentes de los conceptos y los méto-
dos que se han generado en la teoría de la generalizabilidad que se tratará en el
Capítulo 7 de esta obra, donde nuevamente veremos que por distintas vías se pue-
de calcular y obtener el mismo valor para el coeficiente de fiabilidad α.
m5.6. Coeficientes derivados del análisis factorial m
Cuando se construye una prueba es una práctica común realizar un análisis fac-
torial para detectar los posibles factores o dimensiones que están implícitos en
ese rasgo o constructo que se desea medir. El análisis se realiza a partir de los
valores que se obtienen al aplicar los n ítems que componen la prueba a una mues-
tra representativa, o sea, se analizan las Xi (i = 1, 2, …, n) variables que la com-
ponen. Algunas de las relaciones entre los ítems se ponen de manifiesto a través
de los valores de los pertinentes coeficientes que se estiman mediante esos aná-
lisis. La terminología del análisis factorial es necesaria, al menos para entender los
términos usados en los Cuadros 5.7 y 5.8 como son comunalidad o valores propios.
El lector interesado en estos índices puede consultar las referencias que de sus
autores que se dan en este texto y para las técnicas de análisis factorial lo remiti-
mos a las obras de Lawley y Maxwell (1971), Mulaik (1972), Gorsuch (1983),
Bryant y Yarnold (1995) o Thompson (2004), entre muchas otras existentes en la
literatura.
El coeficiente Ω
Éste es un coeficiente cuyo cálculo, además de tener en cuenta las varianzas de

los ítems y las covarianzas entre ellos, incluye la denominada comunalidad del ítem
(parte de la varianza de ese ítem que queda explicada por los factores comunes),
que se estima cuando se realiza un análisis factorial. Por lo tanto, este coeficien-
te sólo tiene sentido calcularlo cuando se ha realizado un análisis para detectar los
distintos factores o dimensiones que componen el rasgo o el constructo que se

pretende medir. Este coeficiente omega, propuesto por Heise y Bohrnstedt (1970)
se calcula mediante las ecuaciones (5.9) o (5.10) que se dan en el Cuadro 5.7.
Cuadro 5.7
El coeficiente omega se define como
∑ σ 2X i − ∑ σ 2X i hi2
n n
( )
i =1 i =1
Ω = 1−
∑ cov X i, X j
(5.9)
i, j
donde σ X2 i representa la varianza de cada uno de los ítems, h2i son cada una
de sus comunalidades estimadas mediante la técnica de análisis factorial y
el denominador es la suma de las covarianzas entre todos los pares posi-
bles (i, j; i ≠ j) de ítems.
Una forma alternativa de cálculo del coeficiente omega es:
n − ∑ hi2
n
i =1
Ω = 1−
n + 2∑ ρ X iX j
(5.10)
i≠ j
donde cada uno de los términos tiene el significado dado anteriormente y el

término
∑ ρ X iX j
i≠ j
es la suma de las correlaciones entre los ítems.
Obsérvese que en las ecuaciones (5.9) y (5.10), fijado el numerador, cuanto

mayor es la covarianza o la correlación entre los ítems, menor es el cociente y, por
lo tanto, mayor es el coeficiente Ω. Ahora bien, una mayor covarianza o correla-
ción entre los ítems revela una mayor consistencia interna entre ellos, que es lo
que el coeficiente Ω mide. El coeficiente Ω sobrestima el valor α de la consis-

tencia interna.
El coeficiente θ
La consistencia interna de los ítems de un test se puede interpretar como que

todos esos ítems miden un rasgo unitario. Si el rasgo tiene más de una dimensión,
las técnicas de análisis factorial permiten detectar los diferentes factores que lo
componen. Mediante esta técnica se obtienen los valores λ i, denominados valores
propios de cada uno de los i factores, que informan de la varianza que explica cada
uno de ellos (antes de hacer rotación de los factores). Los valores propios se orde-
nan de mayor a menor, de forma que el valor λ1 es el primer factor, o sea, que es el
que explica mayor varianza. Cuanta más varianza explique un solo factor, más
probable es que el test sea unidimensional.
Cuadro 5.8
Carmines y Zeller (1979) propusieron el coeficiente theta para medir la con-

sistencia interna, el cual toma la forma:
n  1
θ= 1− 
n − 1  λ1 
(5.11)
donde n es el número de ítems del test y λ1 es primer valor propio, es decir,

el del factor que detenta la mayor varianza explicada.
El valor del coeficiente θ está en relación directa con el de λ1. Para una lon-
gitud dada n, a mayor valor de λ1 mayor será el valor de θ, lo que indica que los
ítems están más interrelacionados y, para un λ1 suficientemente grande, el rasgo
o el constructo que mide la prueba se podría considerar que es unidimensional.
En cualquier caso, si se ha realizado un análisis factorial de los datos, es porque
se presupone que el rasgo o constructo que mide la prueba tiene más de una
dimensión, esto es, que puede estar compuesto por más de un factor, y que hay
uno o más ítems incluidos en la prueba que dan cuenta de ellos. Por lo tanto, el
coeficiente θ es un buen indicador de la unidimensionalidad. Como con cualquier
otro coeficiente, también con θ se da la desigualdad α ≤ θ, aunque este coeficiente
se haya calculado por un método aparentemente diferente a los correlacionales
anteriormente reseñados. Las relaciones entre α y los coeficientes calculados intro-
duciendo valores estimados mediante análisis factorial es: α ≤ θ ≤ Ω.
m5.7. Variaciones de la fiabilidadm
El análisis de las variaciones de la fiabilidad es importante en los estudios psico-

métricos ya que, puesto que la fiabilidad no se mide en el sentido más usual del
término, sino que se infiere, el coeficiente obtenido dependerá de las caracterís-
ticas del método de estimación elegido y las de las muestras utilizadas para reali-
zar la inferencia.
Un mismo test puede proporcionar distintas estimaciones de la fiabilidad cuan-
do se administra a distintos sujetos y en distintas condiciones. Como se ha visto
en los desarrollos teóricos, las muestras o los grupos más homogéneos con res-
pecto al rasgo que el test pretende medir proporcionan coeficientes de fiabilidad
menores que aquellos que son más heterogéneos, aun cuando no varíen las con-
diciones de aplicación. Por todo ello, hay que conocer cómo se interpreta la cuan-
tía de los coeficientes, cuáles son los métodos y formas de cálculo más apropia-
das en determinados casos, en qué casos los valores de la fiabilidad podrían estar
subestimados o sobrestimados, etc.
Cuantía
No hay normas estrictas para que se acepte o no un test por el valor de su coefi-
ciente de fiabilidad. La aspiración al construir una prueba es que su precisión sea
la mayor posible, pero no hay valores fijos que definan a priori si el coeficiente
obtenido es adecuado. Aun cuando generalmente los coeficientes de fiabilidad de
las pruebas estándar suelen ser valores superiores a 0.80, también hay casos en
los que se aceptan valores mucho menores. Hay quienes interpretan que se pue-
den tomar en consideración valores del coeficiente a partir de 0.50, pero ésta no
es una regla que se deba seguir, puesto que la precisión exigida para el instrumento
de medida dependerá, entre otros condicionantes, de las características de aque-

llo que se pretende medir y de los objetivos programados a los que la prueba tie-
ne que servir. Por ejemplo, se debe exigir a los tests una mayor precisión cuando
éstos vayan dirigidos a la realización de pronósticos individuales que cuando se
destinen a realizar pronósticos colectivos.
La fórmula de cálculo
La estimación de la fiabilidad en los tests denominados de velocidad, así como

en aquellas pruebas con datos obtenidos mediante las modalidades de test-retest
o de formas equivalentes supuestamente paralelas o tau-equivalentes, no exige
el cálculo del coeficiente alfa en cualquiera de sus versiones, ya que el signifi-
cado de este coeficiente es el de la consistencia y además elevaría innecesaria-
mente el nivel de exigencias, puesto que alfa proporciona la cota inferior de la
fiabilidad del test.
El coeficiente alfa y las ecuaciones de Kuder-Richardson solamente se deben
usar cuando se trate de tests muy homogéneos, en el sentido de que midan un
rasgo unitario, ya que lo que reflejan esos índices y coeficientes es la homogenei-
dad de sus componentes, ya sean ítems o grupos de ítems. Para aquellas pruebas
que midan más de un rasgo, el valor obtenido por los métodos de alfa o de
Kuder-Richardson darían probablemente fiabilidades equívocamente bajas y, por
lo tanto, inapropiadas.
En aquellos tests o cuestionarios que se supone que evalúan más de un rasgo
de un mismo constructo, o cuando en un cierto rasgo interviene más de una dimen-
sión, sería necesario hacer uso de técnicas específicas de análisis para identificar
esas dimensiones o factores. Las técnicas de análisis factorial permiten esa iden-
tificación y proporcionan los datos (valores propios, etc.) que permiten calcular
la fiabilidad, como los coeficientes θ y Ω anteriormente mencionados.
Un problema diferente es la evaluación del efecto de los factores. Esto es, cuando
se quieren estudiar los efectos que ejercen sobre la fiabilidad la heterogeneidad
de los sujetos, las variaciones en las condiciones de aplicación de la prueba u otros
factores que, sin duda, pueden estar afectando a las puntuaciones. Estos estudios
usualmente se hacen mediante las técnicas del análisis de la varianza (ANOVA).
Un caso especial de estudio de tales efectos sistemáticos sobre la fiabilidad, basa-
do en las técnicas del ANOVA y que tiene entidad propia dentro del ámbito de
la psicometría, es la teoría de la generalizabilidad desarrollada por Cronbach que se

tratará en el Capítulo 7 de esta obra.
Aplicación de la ecuación de Spearman-Brown
Se ha demostrado que la cota inferior de la fiabilidad, dada por alfa, se iguala

al valor de la fiabilidad calculada por cualquier otro método, sólo en el caso en
que las componentes sean paralelas o tau-equivalentes. Por ello, al aumentar la
fiabilidad de los tests con elementos paralelos, hay que ser extremadamente
cuidadosos con las condiciones de paralelismo, puesto que al aplicar la ecua-
ción de Spearman-Brown para calcular la fiabilidad del test, es fácil que se esté
sobrestimando, o subestimando, el valor de la fiabilidad. Si, por ejemplo, los
ítems son esencialmente tau-equivalentes, tanto α como KR20 subestiman la
fiabilidad.
Un caso de sobrestimación de la fiabilidad es el siguiente:
Ejemplo 5.4
En un test de n = 20 ítems y fiabilidad r = 0.60, si para aumentar su fia-

bilidad se le añaden otros 20 ítems, el valor de la fiabilidad del nuevo test,
calculada mediante la ecuación de Spearman-Brown, es:
ρ XX′ = = 0.75
2 (0.60)
1+ 0.60
Limitándose estrictamente a aplicar la ecuación y dar por bueno ese resul-

tado, se puede observar que al doblar la longitud se ha producido un aumen-
to sustancial de la fiabilidad, pasando el valor del coeficiente de 0.60 a 0.75.
Sin embargo, habría que haber tenido en cuenta que el aumento de la fiabi-
lidad depende directamente de la varianza de los elementos añadidos.
Supóngase el caso extremo en el que la varianza de las puntuaciones de
esos 20 elementos añadidos es nula. Si la varianza es nula, es porque todos
los sujetos dieron la misma puntuación en la prueba, es decir, las puntua-
ciones en los nuevos elementos son iguales para todos los sujetos. Al aña-
dir al test esos 20 elementos, lo único que se ha conseguido realmente es
sumar una constante a cada una de las puntuaciones anteriormente obteni-
das, pero, en realidad, no se ha aumentado la fiabilidad del test. Luego el
aumento de 0.15 en el valor de la fiabilidad es ficticio y, en este caso, la acep-

tación del valor obtenido aplicando la ecuación de Spearman-Brown condu-
ce a una sobrestimación de la fiabilidad del test resultante.
Por lo tanto, la aplicación indiscriminada de la ecuación de Spearman-Brown

en tests en los que la adición de elementos paralelos se hace descuidadamente, sin
comprobar las condiciones de paralelismo y estudiar los efectos de las varianzas,
pueden dar valores equívocos para la fiabilidad.
Variaciones de la fiabilidad en relación con la longitud del test

y la homogeneidad de los grupos
Hay dos aplicaciones prácticas importantes que se pueden derivar del com-
portamiento de la fiabilidad a través de las ecuaciones de Spearman-Brown, una
es la de poder hacer comparaciones entre fiabilidades de tests con distintas lon-
gitudes, y la otra es la de calcular los efectos que sobre la fiabilidad tiene la com-
posición de subtests, a partir de tests conocidos con fiabilidad dada.
En el primer caso, cuando se tienen tests con distintas longitudes y con dis-
tintas fiabilidades, el test más largo probablemente aparecerá como más fiable, y
esta mayor fiabilidad se puede deber precisamente a que es más largo. Por lo tan-
to, para comparar la fiabilidad de diferentes tests, se debería estimar la fiabilidad
de esos tests bajo el supuesto de que fuesen de igual longitud. Por otra parte, es
práctica común construir subtests a partir de tests dados. En este caso, también
hay que tener en cuenta los efectos que la varianza de los elementos que van a
constituir el nuevo test tiene sobre los resultados obtenidos de la aplicación direc-
ta de la ecuación de Spearman-Brown. Subtests muy cortos tienden a tener fia-
bilidades sustancialmente más bajas que las de aquellos más largos de los que han
sido extraídos. Por lo tanto en la práctica es necesario analizar el comportamien-
to de los tests acortados y cuidar los procesos de comparación entre tests muy
cortos.
Finalmente, considérese que, debido a las variaciones muestrales, se pueden
también asignar valores equívocos a la fiabilidad. Hay que vigilar especialmente
aquellos casos en los que es elevada la proporción de la varianza error σe2 en rela-
ción con la varianza σ2X .
Ejemplo 5.6
La varianza de las puntuaciones con un test en una muestra A de una pobla-
ción es sA2 y la fiabilidad calculada en esa muestra es r = 0.64, de donde se esti-
maría un valor de la varianza error s e2 = 9. El mismo test se ha aplicado a toda
la población, obteniéndose que la varianza es σ 2 = 225 y fiabilidad ρ = 0.96,
comprobándose que el valor de la varianza error es el mismo que en la mues-
tra σ e2 = 225 (1 – 0.96) = 9. Si se hace uso de la relación (2.3), se tiene que:
25 = s2V + 9 y 225 = σ 2V + 9
A
donde se puede observar que en la muestra la aportación a la varianza total

de la componente error es del 36%, siendo sólo del 4% cuando se conside-
ra toda la población.
Aun cuando se obtuviese en distintas aplicaciones el mismo valor para la varian-

za error, una mayor aportación a la varianza total de la componente que corres-
ponde a la puntuación verdadera, se traduce en un aumento de la fiabilidad. Por
lo tanto, en el cálculo de la fiabilidad debe compararse la varianza observada con
la varianza error. Si σ X2 >> σ e2, se tiene garantía de precisión del test. Si no es así,
se corre el riesgo de que σ 2X ≈ σ 2e y que gran parte de las diferencias individuales
que se aprecian con el test se deban a errores de medida.
Bajo los supuestos de igualdad de la varianza error, se pueden considerar dos
muestras X1 y X2 y utilizando la relación (4.3) se tiene que:
s2X 2 − s2X1 (1 − rX1X1′ )

rX 2 X ′2 =
s2X 2
que permite estimar el coeficiente de fiabilidad de un test, utilizando una mues-

tra con varianza conocida.
Ejemplo 5.7
Al aplicar un test X a dos muestras A y B procedentes de una misma
población, se obtienen dos conjuntos de puntuaciones cuyas varianzas son
respectivamente s A2 = 9 y s B2 = 13. Si el coeficiente de fiabilidad calculado con
la muestra A es 0.70, calcule el coeficiente de fiabilidad de la muestra B.
13 − 9 (1− 0.70)
rXB X′B = = 0.79
13
El coeficiente de fiabilidad de la prueba X es mayor si se usa la muestra

B, luego debe preferirse esta muestra a la A para construir las bases del gru-
po normativo, ya que es más representativa (mayor variabilidad en los datos)
de la heterogeneidad existente en la población.
Cuadro 5.9
Métodos para componer tests que permitan obtener la máxima fiabilidad

posible para el compuesto mediante la asignación de distintos pesos a
las componentes y la variación de sus longitudes pueden encontrarse en el
Capítulo 5 de Lord y Novick (1968, págs. 119-124), en el que también se da
un procedimiento de maximización de la fiabilidad del compuesto, cuando
las componentes tienen una longitud fija.
Como conclusión de este apartado diremos que, para que sean correctas las
interpretaciones que se dan a un determinado coeficiente de fiabilidad, hay que
conocer y analizar el método, las características de las muestras y en qué condi-
ciones se ha calculado ese coeficiente. En la obra de Feldt y Brennan (1989) se
pueden consultar diferentes métodos para estimar la fiabilidad y en qué condi-
ciones deben aplicarse. En Osburn (2000) se hace una evaluación de la adecua-
ción de los diversos estimadores de la consistencia interna y en Santisteban y Alva-
rado (2001, págs. 37-51) se pueden consultar algunos aspectos no tratados aquí
sobre paralelismo, tau-equivalencia y el coeficiente alfa.
Puntos clave
3 Una forma de fiabilidad que mide la relación entre las diferentes partes de un
test es su consistencia interna.
3 La forma más general de estimar la consistencia interna la proporciona el coe-
ficiente α.
3 Hay ecuaciones específicas para calcular la consistencia interna en tests con
ítems dicotómicos, o en pruebas en las que la consistencia interna se estable-
ce entre las dos partes en las que se ha dividido esa prueba. Todas ellas se pue-
de considerar que son diferentes versiones del coeficiente α.
3 El coeficiente α es la cota inferior de la fiabilidad. En algunos casos, la fiabilidad
calculada mediante α está subestimada.
3 Para calcular la consistencia interna entre subtests con distinto número de ele-
mentos es más apropiado el coeficiente β que el coeficiente α, pues éste es uno
de los casos en los que utilizando α se subestima la fiabilidad.
3 El coeficiente α se puede obtener también a través del estadístico F, calculado
a partir de las medias cuadráticas entre sujetos y la residual.
3 Hay coeficientes de fiabilidad que se pueden obtener haciendo uso de algunos
de los valores derivados de la aplicación de las técnicas de análisis factorial.
3 Los coeficientes que hacen uso de algunos valores derivados del análisis fac-
torial calculan la interrelación entre los factores intervinientes por lo que, de algu-
na manera, esos coeficientes también son indicadores de la dimensionalidad de
la prueba.
3 La interpretación correcta de los coeficientes de fiabilidad involucra diferentes
aspectos. La simple aplicación de las fórmulas puede conducir a decisiones
erróneas, como que se esté sobrestimando o subestimando la fiabilidad.
3 En todas las interpretaciones de los coeficientes de fiabilidad para establecer
las características psicométricas de una prueba hay que analizar la cuantía de
la varianza de las puntuaciones. Que la varianza de las puntuaciones observa-
das sea mucho mayor que la de los errores es una garantía de precisión de las
pruebas.
3 El coeficiente α es la cota inferior de la fiabilidad.
Actividades
r Haga una breve disertación sobre las similitudes y diferencias del coefi-
ciente α con otros coeficientes de fiabilidad, indicando sus ventajas e incon-
venientes.
r Razone por qué y en qué condiciones se da la relación de desigualdad entre
los coeficientes KR20 > KR21.
r Compruebe que, cuando las n componentes consideradas en la ecuación
de α son paralelas, esta ecuación coincide con la general de Spearman-Brown,
para la fiabilidad de un test compuesto por n elementos.
r Vuelva sobre el test o los tests que ha elaborado como una actividad lleva-
da a cabo en el Capítulo 3. A la luz de la información dada en este capítu-
lo, calcule y compare los nuevos coeficientes de fiabilidad. Por ejemplo,

dicotomice la variable, agrupando las respuestas en sólo dos clases y calcu-
le nuevamente la fiabilidad.
r Haga una exposición razonada de los problemas que pueden surgir en la
determinación de la precisión de las pruebas, tanto en el cálculo del coefi-
ciente de fiabilidad, como en su interpretación.
r Haga nuevos supuestos sobre los diferentes ejemplos expuestos en este
capítulo y compare los resultados.
r Comente las propiedades psicométricas del cuestionario de agresividad
publicado por Santisteban et al. (2007).
r Los ítems del cuestionario arriba mencionado los puede encontrar en San-
tisteban y Alvarado (2009). Aplíquelo a muestras de escolares, y compare
los valores de los coeficientes alfa que obtenga para la prueba completa y
los de sus factores con los que proporcionan los autores.
r Con la información que se da en el Ejemplo 5.2 del test compuesto por
tres subtests con 3, 6 y 4 elementos respectivamente, suponga que no se
tiene información detallada de cada persona en cada ítem. Calcule el coe-
ficiente de fiabilidad α.
Inferencias
Estimación y contrastes de significación 6
Los procedimientos estadísticos de estimación y de contraste de hipótesis
se utilizan en la TCT, tanto para obtener estimaciones de los valores de las
puntuaciones verdaderas, como para hacer comparaciones entre las pun-
tuaciones que se obtienen en los tests. También estos métodos se utilizan
para hacer inferencias acerca de los valores de los coeficientes de fiabilidad
de los tests, ya sean obtenidos por correlación o sean coeficientes alfa.
ã Cómo se puede estimar y predecir la puntuación verdadera a partir

de las puntuaciones observadas.
ã Cómo hacer comparaciones inter e intrasujeto, utilizando las pun-
tuaciones que proporcionan uno o más tests.
ã La distinción entre distintos tipos de errores, pues es necesario cono-
cer las desviaciones típicas de las diferentes distribuciones mues-
trales, para hacer correctamente las inferencias, mediante interva-
los de confianza y contrastes de hipótesis.
ã Contrastes de hipótesis sobre si el coeficiente de fiabilidad pobla-
cional es significativamente igual a cero o a un determinado valor.
ã Contrastes sobre la igualdad entre diferentes valores del coeficiente de
fiabilidad α, en muestras independientes y en muestras relacionadas.
m6.1. Predicciones de la puntuación verdaderam
La puntuación verdadera V se puede predecir haciendo uso de las puntuaciones

X observadas, en el contexto del modelo lineal de Spearman, presentado en el
Capítulo 2. Una consecuencia que se deriva de las hipótesis de este modelo es que
la media de las puntuaciones observadas es el estimador de la media de la pun-
tuación verdadera de la población, como se comprobó en el Apartado 2.2. Par-
tiendo de ese supuesto, los valores estimados para V se pueden obtener hacien-
do uso de la ecuación de regresión lineal de la variable V sobre la variable X:
σV
V − V = ρ XV (X − X)
σX
(6.1)
en donde V se puede sustituir por X , pero tanto σV como ρXV son también valo-
res desconocidos. Teniendo en cuenta las relaciones (2.4) y (2.12), se puede sus-
tituir ρXV por σV / σX , obteniéndose la igualdad:
σ V σ 2V
ρ XV = = ρ XX ′
σ X σ 2X
(6.2)
con lo que la ecuación de regresión toma la forma:
V − V = ρ XX ′ (X − X ) (6.3)
resultando así que una vez conocidos V = X y ρXX' , (que se estiman a partir de los
valores observados) se puede predecir el valor de la variable V para cualquier valor
de la variable X, mediante la ecuación de regresión (6.3). Las predicciones de las
puntuaciones verdaderas se hacen en función de las correspondientes puntuacio-
nes observadas, que pueden venir dadas como puntuaciones directas X, o en pun-
tuaciones diferenciales, cuando están centradas en la media: x = ( X − X ) o bien en
puntuaciones tipificadas: zX = x / σX . En cada uno de estos casos, el valor esti-
mado de V, que se denota por V$, se obtendrá mediante las ecuaciones siguientes:
a) Para puntuaciones directas:
V$ = ρ XX ′ (X − X ) + X (6.4)
b) Para puntuaciones diferenciales o centradas en la media:
v$ = x ρ XX ′ (6.5)
Capítulo 6. Inferencias: Estimación y contrastes 155
donde v$ es la puntuación verdadera estimada, que al igual que las puntua-

ciones x, también viene dada en puntuaciones diferenciales: v$ = V$ − V .
c) Para puntuaciones X tipificadas:
z$ V = z X ρ XX ′ (6.6)
En este caso, las puntuaciones estimadas para V también serán puntuaciones

tipificadas. La ecuación (6.6) se obtiene de (6.3) teniendo en cuenta (6.2) y que
zx = x / σx y zv = v / σv .
En todos los casos se puede pasar de unas ecuaciones a otras, dependiendo
de los datos de las puntuaciones observadas de los que se disponga, ya que son
las mismas aunque se diferencian en el punto tomado como origen y/o en la uni-
dad de medida de la escala.
Ejemplo 6.1
En un test los valores de la media, la varianza y la fiabilidad para una deter-

minada población son respectivamente: X = µ̂ = 52 ; σ 2X = 25 y rXX´ = 0.75. ¿Qué
valor de la puntuación verdadera se podría predecir a un sujeto de esa pobla-
ción cuya puntuación directa observada sea de 67 puntos?
Se dispone de datos suficientes para obtener la estimación de la puntua-
ción verdadera en cualquiera de las modalidades indicadas:
a) La puntuación verdadera estimada en puntuaciones directas es:
( )
Vˆ = 0.75 67 − 52 + 52 = 63.25
b) La puntuación verdadera estimada en puntuaciones diferenciales (centra-

das en la media) es:
( )( )
vˆ = 0.75 67 − 52 = 11.25
c) La puntuación verdadera estimada en puntuaciones tipificadas es:
zˆ V = 3 0.75 = 2.60
ya que la puntuación tipificada zX = (67 – 52)/5 = 3.

Ejemplo 6.2
A partir de los resultados anteriores se puede inferir el valor de la varianza

de la puntuación verdadera:
σˆ V = = = 4.33
vˆ 11.25
zˆ V 2.60
obteniéndose para la varianza de la puntuación verdadera el valor σ 2V = 18.75.

Se puede comprobar que la estimación de la varianza no viola los su-
puestos del modelo, pues si se tiene en cuenta que bajo esos supuestos
se da la relación (2.3), sustituyendo los valores dados en el Ejemplo 6.1, se
tiene que:
σ 2e = σ 2X − σ 2V = 25 − 18.75 = 6.25
que es un resultado igual al valor obtenido utilizando la ecuación (2.15), pues

para la varianza error también se obtendría que es:
σ 2e = 25 (1− 0.75) = 6.25
m6.2. Errores de medida, de estimación y de predicciónm
En el modelo lineal que da soporte a la teoría clásica y en el modelo de regresión

se puede distinguir entre distintos tipos de errores: el error de medida, que se
explicita en las hipótesis del modelo, el error derivado de la estimación, que es el
que se obtiene como diferencia entre la puntuación verdadera y su correspon-
diente valor estimado y el error de predicción, que es la diferencia entre la pun-
tuación estimada como verdadera y la puntuación observada. Es necesario hacer
distinciones entre cada uno de estos tipos de errores, y conocer las desviaciones
típicas de sus correspondientes distribuciones cuando se usan en casos prácticos,
en especial cuando se trata de hacer inferencias. Por ello vamos a tratar en primer
lugar los diferentes tipos de errores para estudiar posteriormente la relación
entre ellos.
Tipos de errores
Error de medida
El error de medida viene dado por la diferencia entre la puntuación observa-

da y la verdadera
e=X−V (6.7)
siendo e una variable aleatoria cuya distribución y propiedades ya se han expues-

to en el Capítulo 2. A la desviación típica de la distribución de esa variable se le
denomina error típico de medida y su expresión ya dada en (2.15) es:
σ e = σ X 1 − ρ XX ′ (6.8)
Error de estimación
Se denomina error de estimación de la puntuación verdadera o simplemente

error de estimación, a la diferencia entre la puntuación verdadera y su valor pre-
dicho mediante regresión lineal.
ε = V − V$ (6.9)
La desviación típica de la distribución de los errores de estimación se puede

calcular mediante la expresión:
σ ε = σ X ρ XX ′ 1 − ρ XX ′ (6.10)
Cuadro 6.1
La expresión de σε dada en (6.10) se obtiene calculando la varianza de la

variable:
ε = V − V̂
La varianza de la variable ε es:
[
σ 2ε = E ε − E (ε) ] [
= E (V − Vˆ ) − E ( V − Vˆ ) ] {[ ] [
= E ( V − E ( V ) − Vˆ − E ( Vˆ ) ]} =
2 2 2
[ ]
= E V − E ( V ) + E ρ XX′ X − E ( X ){ [ ]} − 2 ρ XX′ {[V − E ( V )] [X − E ( X )]} =
2 2
= σ 2V + ρ2XX′ σ 2X − 2 ρ XX′ ρ XV σ V σ X = ρ XX′ σ 2X + ρ2XX′ σ 2X − 2ρ2XX′ σ 2X =

= σ 2X ρ XX′ (1− ρ XX′ )
Llegando a esta última expresión sustituyendo σ 2V y ρXV σ V por su valor

dado en (6.2). Por lo tanto, la desviación típica del error de estimación es la
expresión (6.10) dada anteriormente.
Error de predicción
Este error se obtiene como diferencia entre la puntuación observada y la ver-

dadera estimada.
∆ = X − V$ (6.11)
La desviación típica de este error es:
σ ∆ = σ X (1 − ρ XX ′ ) (6.12)
Cuadro 6.2
La expresión de σ∆ se deduce de la ecuación general para la varianza de la

variable ∆, sustituyendo V̂ por la ecuación (6.4):
[
σ 2∆ = E ∆ − E ( ∆ )] [
= E ( X − Vˆ ) − E ( X − Vˆ ) ] =
2 2
{[ ]
= E X − E ( X ) − ρ XX′ [X − E ( X )]} = E {[X − E (X)] [1− ρ ]} (
= σ 2X 1− ρ XX′ )
2 2 2
XX ′
cuya raíz cuadrada es la expresión dada en (6.12) para σ∆.

Relación entre los errores
Entre los errores típicos de medida, estimación y predicción se dan las siguientes
relaciones:
σ ε2 = σ e2 ρ XX ′ (6.13)
σ 2∆ = σ e2 (1 − ρ XX ′ ) = σ e2 − σ ε2 (6.14)
Por lo tanto, las varianzas de los errores de estimación y de predicción son

menores que las de los errores de medida, dándose la igualdad sólo cuando se
obtenga fiabilidad ρXX' = 1, en cuyo caso es σ∆ = σε = σε = 0. Como se deduce
de (6.14), en este modelo el error de medida es igual a la suma de los errores de
estimación y predicción (σ 2e = σ 2ε + σ 2∆ ). Para las distribuciones de los Ejemplos
6.1 y 6.2 se obtienen los siguientes valores: σ 2ε = 6.25; σ 2ε = 4.69; σ 2∆ = 1.56.
m6.3. Intervalos de confianza para la puntuación verdaderam
La puntuación verdadera, V, correspondiente a una determinada puntuación obser-

vada, X, no se puede conocer, pero puede pronosticarse mediante regresión y
también puede estimarse que estará comprendida entre dos valores que delimi-
tan un intervalo de confianza. Este intervalo se puede determinar suponiendo
que el error de medida, e = X – V sigue una distribución normal (o t de Student
para pequeñas muestras). Por lo tanto, se pueden fijar dos valores – zα y + zα (o
bien – tα y + tα ) entre los que, con probabilidad (1 – α) se pueda aseverar que se
encuentra esa puntuación verdadera. El intervalo es simétrico, siendo α/2 la pro-
babilidad de que haya valores menores que – zα y mayores que + zα en una u otra
cola de la distribución, como muestra la Figura 6.1.
a) Intervalo de confianza con puntuaciones directas:
X −z α σ e ≤ V ≤ X + z α σ e (6.15)
b) Intervalo de confianza con puntuaciones diferenciales:
x − zα σ e ≤ v ≤ x + zα σ e (6.16)
c) Intervalo de confianza con puntuaciones tipificadas:
z X − z α 1 − ρ XX ′ ≤ z V ≤ z X + z α 1 − ρ XX ′ (6.17)
donde σe = σX (1 – ρXX' )1/2 y el factor zα es el valor de la variable que en

la distribución N(0, 1) entre – zα y + zα, (o, en su caso, entre – tα y + tα
bajo la distribución t de Student) delimita un área de probabilidad 1 – α.
Figura 6.1. Intervalo de confianza de amplitud 1 – α bajo una distribución normal.
Cuadro 6.3
Los intervalos de confianza para los valores de V se construyen al conside-

rar que, fijado un nivel de probabilidad α, el valor tipificado del error de medi-
da estará entre los valores –zα y + zα. Esto es, que con probabilidad 1 – α:
e− e
−z α ≤ ≤ zα
σe
– = E (e) = 0, se tiene que
y al ser e = X – V y además e
X−V
−z α ≤ ≤ zα
σe
o sea: – zα σe ≤ X – V ≤ zα σe. Restando X a todos los términos y cambián-

dolos de signo, cambiando por lo tanto el sentido de las desigualdades, se
tiene la ecuación (6.15) para ese intervalo en puntuaciones directas.
Si las puntuaciones observadas vienen dadas como puntuaciones dife-

renciales, se obtiene el intervalo restando X = V a todos los miembros de la
ecuación (6.15):
(X − X) − zα σ e ≤ V − V ≤ (X − X) + zα σ e
que es la expresión (6.16).
Si las puntuaciones están tipificadas, el intervalo será:
X−X σ V−V X−X σ

− zα e ≤ ≤ + zα e
σX σX σV σX σX
Sustituyendo σe por su expresión en (6.8) y adoptando la notación para

las puntuaciones tipificadas, se obtiene la ecuación (6.17).
d) Intervalo de confianza utilizando la puntuación verdadera estimada, V$.
En el Apartado 6.1 se ha expuesto cómo pronosticar la puntuación verdade-

ra haciendo uso de la ecuación de regresión, pero sigue sin conocerse V, ya que
esa medida también está afectada por el error del valor de estimación ε = V – V$.
Si se supone que esa variable error sigue una distribución normal de forma aná-
loga a lo que se ha supuesto con el error de medida, e, el intervalo de confianza
será:
V$ − z α σ x ρ XX ′ 1 − ρ XX ′ ≤ V ≤ V$ + z α σ x ρ XX ′ 1 − ρ XX ′ (6.18)
Ejemplo 6.3
Las puntuaciones de un test tienen media X = µ̂ = 36 , varianza σ 2X = 64 y

fiabilidad ρxx' = 0.64. La puntuación observada de un sujeto en este test es de
46 puntos. Se desea conocer:
a) El intervalo de confianza en el que, con una probabilidad p = 0.95, se encon-
traría la puntuación verdadera del sujeto.
b) Cuál será el valor puntual que se le estimaría para su puntuación verdadera.
c) El intervalo de confianza en el que con probabilidad p = 0.95 esté el valor
estimado de la puntuación verdadera de ese sujeto.
Solución:
La aplicación directa de lo anteriormente expuesto da respuesta a estas

cuestiones, siempre que se considere que los errores se distribuyen según una
ley normal. (Téngase en cuenta la condición de homocedasticidad exigida a los
modelos mencionada en Apartado 2.1.)
a) De acuerdo con la expresión (6.15) ese intervalo de confianza se construye

bajo una distribución normal de media cero y desviación típica:
σ e = σ X 1− ρ XX′
Para un nivel de confianza 1 – α = 0.95, los valores de la variable de la

distribución normal N(0,1) que delimitan ese área son zα = ± 1.96. El interva-
lo de confianza para V viene dado por Xi ± 1.96 σε. Luego en puntuaciones
directas ese intervalo es:
46 − (1.96)(8) 1− 0.64 ≤ V ≤ 46 + (1.96)(8) 1− 0.64

36.59 ≤ V ≤ 55.41
En puntuaciones centradas en la media y en puntuaciones tipificadas,

según las expresiones (6.16) y (6.17), los intervalos de confianza son res-
pectivamente:
0.59 ≤ v ≤ 19.41
0.07 ≤ z v ≤ 2.43
luego con un nivel de confianza 1 – α = 0.95, la puntuación diferencial ver-

dadera está entre los valores 0.59 y 19.41 y la tipificada entre 0.07 y 2.43,
obteniéndose esos valores para los extremos de este último intervalo median-
te la relación:
46 − 36 46 − 36
− 1.96 1− 0.64 ≤ z V ≤ + 1.96 1− 0.64
8 8
b) La ecuación de la recta de regresión que predice los valores de V̂ en fun-

ción de los valores de X es:
Vˆ = ρ XX′ ( X − X ) + X = 0.64 ( X − 36) + 36 = 0.64 X + 12.96
Para la representación gráfica de esa recta, basta con elegir dos pares
de puntos (X, V) cualesquiera, con lo que queda determinada. Tomando, por
ejemplo, los puntos (0, 12.96) y (50, 44.96) se obtiene la Figura 6.2.
Para un valor particular de X = Xi = 46, la puntuación verdadera estima-

da mediante regresión es:
V̂ = (0.64)(46) + 12.96 = 42.40
que es la puntuación que se puede predecir de acuerdo con la recta de regre-

sión ajustada.
Figura 6.2. Recta de regresión de la puntuación verdadera sobre la observada.
c) Haciendo uso de la desigualdad (6.18) el intervalo de confianza cubriendo

un área de probabilidad 1 – α = 0.95 viene dado por:
42.40 − 1.96(8) 0.64 1− 0.64 ≤ V ≤ 42.40 +1.96(8) 0.64 1− 0.64

34.87 ≤ V ≤ 49.93
Este intervalo incluye tanto al valor observado como al predicho median-

te regresión, como puede observarse en la Figura 6.3. Si se toma α = 0.01,
el intervalo de confianza se amplía al aumentar la probabilidad contenida en
ese intervalo 1 – α = 0.99. El valor zα bajo la distribución N(0,1) es zα = ± 2.58,
y el intervalo resultante es:
32.49 ≤ V ≤ 52.31
Obsérvese que al aumentar la probabilidad (1 – α) de que un cierto valor

se encuentre dentro de un intervalo, el intervalo se amplía, y si se amplía sufi-
cientemente, siempre se puede conseguir que un cierto valor se encuentre

incluido en el intervalo. Por ello, a veces, la afirmación de que a mayor pro-
babilidad (1 – α) mayor precisión, puede resultar equívoca.
Figura 6.3. Distribuciones de las puntuaciones poblacionales observadas (⋅⋅⋅⋅) y las ver-
daderas estimadas (). Intervalos de confianza de la puntuación verdadera con proba-
bilidad 0.95, utilizando los errores de medida (flechas cerradas) y de estimación (flechas
abiertas). X = V = 36 ; Xi = 46 ; Vˆ i = 42.4 .
m6.4. Contrastes de mediasm
Mediante los tests estadísticos de hipótesis se puede contrastar si las diferencias

observadas entre diferentes conjuntos de puntuaciones son estadísticamente sig-
nificativas, o si se pueden atribuir al azar. En el estudio de las diferencias entre las
puntuaciones en tests psicométricos, en muchas ocasiones es necesario realizar
algunos de estos contrastes, como se ha visto en los Ejemplos 2.3 y 2.4. El inte-
rés puede estar centrado en contrastar las diferencias entre una determinada mues-
tra y la población, o en las diferencias interindividuales o en las intraindividuales.
En estadística a estos contrastes se les menciona generalmente como tests de con-
traste de una sola media, o entre medias de muestras independientes o entre mues-
tras relacionadas, respectivamente.
Cuadro 6.4
La hipótesis que se contrasta es la hipótesis de no diferencia, o hipótesis

nula H0, frente a la alternativa o las alternativas. En las comparaciones entre
medias las distribuciones de probabilidad que siguen los estadísticos de con-
traste son aproximadamente normales (o t de Student si las varianzas son
desconocidas, o cuando las muestras son pequeñas), y los contrastes se
plantean bajo la hipótesis de igual frente a diferencia, que es un contraste
bilateral, en el que las zonas de aceptación y de rechazo se distribuyen como
se indica en la Figura 6.1. Cuando el contraste indica el signo de esa dife-
rencia, por ejemplo, H1 : µ1 > µ2, el contraste es unilateral y el área de recha-
zo de H0 : µ1 = µ2 se situará en la cola de la derecha de la distribución, como
se muestra en la Figura 6.4. Esta área α estaría en la cola de la izquierda si
la hipótesis alternativa fuese H1 : µ1 < µ2.
Figura 6.4. Área de aceptación de la hipótesis nula (1 – α) y de rechazo (sombreada)

en un contraste unilateral bajo una distribución normal.
Diferencias entre la media de una muestra y la de la población
Una vez construido y estandarizado un test con media poblacional µ y desviación

típica σ, se puede contrastar si la media X de una determinada muestra de tama-
ño N es igual a la de la población. El estadístico de contraste es:
X −µ X −µ
z= =
σX σX N
(6.19)
que se distribuye como una normal cuando la varianza de la población sea cono-
cida. Si esta varianza fuese desconocida, el estadístico de contraste es:
X −µ X −µ
t= =
sX N − 1
(6.20)
sX
donde sX es la desviación típica de la muestra. La ecuación (6.20) se obtiene al

sustituir σX en (6.19) por su estimador, σ$X, que es la raíz cuadrada de la cuasiva-
rianza muestral (6.21). En este caso, el estadístico t dado por (6.20) se distribuye
como una t de Student con n – 1 grados de libertad.
σ$ X =
√ ∑( X i − X )2
N −1
(6.21)
Téngase en cuenta que:
σ$ X
√
=
sX
N N −1
Ejemplo 6.4
La media y la desviación típica de un test estandarizado (referidas al grupo

normativo) son respectivamente µ = 100 y σ = 10. Se quiere conocer si la apti-
tud media de una determinada muestra de esa población, evaluada con ese
test, supera a la de la población. El tamaño de la muestra es N = 80 y la media
y la desviación típica de las puntuaciones en esa muestra han sido 110 y 8 res-
pectivamente.
Puesto que la varianza poblacional es conocida, el estadístico de contras-
te y su valor son:
110 − 100
z= = 8.94
10 80
En el caso en que la varianza de la población no fuese conocida, el esta-

dístico de contraste sería:
110 − 100
t= = 11.11
8 79
En ambos casos se rechaza la hipótesis de no diferencia entre medias, con

un nivel de significación α = 0.05.
Diferencia de medias en muestras independientes
El contraste de la diferencia de medias entre muestras independientes se realiza

cuando se quiere inferir si dos muestras pertenecen o no a la misma población.
Este contraste se suele realizar con diseños intersujeto. Se supone que las mues-
tras que se comparan son aleatorias, que son representativas de las poblaciones
de las que se extraen y que sus medias X 1 y X 2 están normalmente distribuidas.
También se supone la homogeneidad (igualdad) de varianzas entre las poblacio-
nes y que las observaciones son también independientes.
En el caso de comparación entre las medias de las puntuaciones de dos mues-
tras en las que se mide un rasgo mediante un test, el estadístico de contraste es:
X1 − X 2
z=
σ 2X1 σ 2X 2
(6.22)
+
N1 N2
σ 2X1− X 2 . En el caso usual de que no se conozca, se sustituye por su estimador y

Este estadístico toma diversas formas, dependiendo de si se conoce o no
el estadístico sigue una distribución t de Student con N1 + N2 – 2 grados de liber-
σ 2X1− X 2 = σ 2X1 + σ 2X 2 . Las formas que adopta el estadístico t para diferentes casos
tad. Al ser las muestras independientes la covarianza es cero y por lo tanto,
particulares: igualdad o diferencia en los tamaños muestrales, igualdad o diferen-

cia de las varianzas de los estimadores de la varianza en ambas muestras para esti-
mar el error estándar, etc. se pueden encontrar en los manuales de estadística (e.g.,
Amón, 1984; Pardo y San Martín, 1994 en español; y Howell, 2002 en inglés).
En el contexto de la TCT, generalmente tienen mayor interés los contrastes
entre muestras relacionadas que entre muestras independientes. Además, los con-
trastes entre muestras relacionadas son más sensibles para detectar el efecto de los
errores experimentales. Es decir, que la probabilidad de rechazar la hipótesis nula
es mayor cuando se usan muestras relacionadas que cuando se usan muestras inde-
pendientes. Por ello, vamos a tratar un poco más extensamente este supuesto.
Diferencia de medias en muestras relacionadas
Este método se usa para contrastar la diferencia entre las medias de dos muestras
en las que cada una de las puntuaciones en una muestra está emparejada con una
de la otra muestra. En estadística se suele denominar contraste de la diferencia de
medias entre muestras relacionadas, o de muestras dependientes, o bien de mues-
tras pareadas. En el contexto de las puntuaciones de los tests, el estudio de estas
diferencias se puede plantear de diferentes formas, dependiendo del objetivo que
se persiga, que estará ligado al diseño con el que se han obtenido los datos: medi-
das repetidas en forma de test-retest, o formas equivalentes del mismo test o en
muestras pareadas. En el primer caso, sería un estudio intrasujeto, pudiendo ser
intersujeto en el segundo.
En un diseño intrasujeto, cada sujeto aporta un par de puntuaciones (X, Y)
y la hipótesis nula es que la media de las diferencias entre las medias de esos
dos conjuntos de puntuaciones es cero. Es decir, que en la población es
µ X − µ Y = µ X − µ Y = 0 , siendo las diferencias entre las medias muestrales
– –
d = X – Y. Para una muestra con un número Np de pares de puntuaciones, el
estadístico de contraste es:
( X − Y ) − (µ X − µ Y ) d
z= = o t= = =
d d d
σd σd N Np − 1
(6.23)
sd s d sd
que sigue una distribución t de Student con Np – 1 grados de libertad. La des-

viación típica de la distribución muestral se obtiene mediante la expresión:
∑ d 2i −  ∑ d i 
2
sd = N 
 p 
(6.24)
Np
El error típico σ d puede adoptar diferentes formas para su expresión en el

contexto de la TCT, considerando que las medidas pareadas poseen ciertas pro-
piedades. Por ejemplo, si las medidas X e Y son medias paralelas o si provienen
de dos formas de tests en los que a priori no se supone el paralelismo. En ambos
casos, las puntuaciones de cada par, para cada sujeto, están representadas por su
puntuación media en todos los ítems del test. En el caso particular en que las
medidas X e Y de esos tests fuesen paralelas, denotémoslas con X y X', la des-

viación típica de la media de las diferencias toma la forma:
σ d = σ X 2 1 − ρ XX ′ (6.25)
de acuerdo con la expresión que se deduce en el Cuadro 6.5 para la varianza σ d

2
cuando las puntuaciones son paralelas, siendo ρXX' el coeficiente de fiabilidad

del test.
Si las puntuaciones pareadas corresponden a las de los ítems en dos tests X1
y X2 que miden el mismo rasgo, sin presumir a priori la condición de paralelismo,
entonces, la distribución de las medias de las diferencias en la población, de acuer-
do con la expresión de la varianza deducida para este caso en el Cuadro 6.5, es:
σ d = σ 2X1 (1 − ρ X1X1′ ) + σ 2X 2 (1 − ρ X 2 X ′2 ) (6.26)
Expresión que en el caso de igualdad de varianzas toma la forma:
σ d = σ X 2 − ρ X1X1′ − ρ X 2 X ′2 (6.27)
En estos casos particulares, se puede hacer uso de estas expresiones y utili-

zarlas para el cálculo del valor del estadístico dado en (6.23).
Cuadro 6.5
Deducción de las expresiones de σ d para muestras relacionadas, que dan lugar

2
a las ecuaciones (6.25) y (6.26).

Para medidas paralelas X y X´, la varianza de la distribución de las medias
de las diferencias es:
(
σ 2d = E ( X − X ′) − E ( X − X ′) ) = E ( X − X ′) 2
2
ya que por paralelismo, E(X) = E(X' ) y sustituyendo X = V + e, se tiene que:
σ 2d = E ( V + e − V ′ − e′)2 = E (e − e′)2 = σ 2e + σ e2′ =

= σ 2X (1− ρ XX′ ) + σ 2X′ (1− ρ XX′ ) = 2 σ 2X (1 − ρ XX′ )
estableciéndose las últimas igualdades por ser nula la correlación entre los
errores, haciendo uso de la expresión (2.15) e igualando las varianzas de X
y X´ por ser medidas paralelas. Por lo tanto, la desviación típica de la distri-
bución corresponde a la expresión (6.25) dada anteriormente.
Para pares provenientes de medidas X1 y X2 en pruebas equivalentes
pero no necesariamente paralelas se tiene que:
σ 2d = σ 2X = σ 2X + σ 2X − 2 ρ XX′ σ X1 σ X 2 =
1− X 2
{ [ ]}
1 2
= E ( V1 + e1 ) − ( V2 + e 2 ) − E ( V1 + e1 ) − ( V2 + e 2 )
2
Ahora bien, al medir los dos tests el mismo rasgo en las mismas perso-
nas, puede considerarse que sus puntuaciones verdaderas son iguales,
V1 = V2. Además, por hipótesis del modelo, E(e1) = E(e2) = 0. Luego:
σ 2d = σ 2X = E (e1 − e 2 )2 = σ e2 + σ e2 =
1− X 2 1 2
= σ 2X (1− ρ X1X1′ ) + σ 2X (1− ρ X 2 X′2 )

1 2
De donde se deduce la expresión (6.26) o su equivalente (6.27) para el

caso de igualdad de varianzas.
Ejemplo 6.5
Utilizando dos tests paralelos se ha obtenido que el coeficiente de fiabili-

dad del test es ρXX' = 0.91, siendo la varianza poblacional σ X2 = σ X2' = 16. La pun-
tuación media que obtiene una muestra de sujetos en el test X es de 20 pun-
tos, siendo 16 la que obtiene en su correspondiente paralelo. ¿Se puede decir
que son significativas esas diferencias?
Se trata de un contraste de diferencias de medias relacionadas, por lo que
el estadístico de contraste viene dado por (6.23). Ahora bien, como las medi-
das pareadas se han obtenido en dos tests paralelos, se puede hacer uso de
la expresión (6.25) para el error estándar de medida, y teniendo en cuenta que
se conoce la varianza poblacional, el valor del estadístico de contraste es:
20 − 16
z= = 2.36
4 2 1− 0.91
Comparando este valor con los de la distribución N (0,1) se observa que,

con α = 0.05, el valor z calculado pertenece a la zona de rechazo de la hipóte-
sis nula, en un contraste bilateral. Si se ampliara la zona de aceptación de la
hipótesis a un área de probabilidad 1 – α = 0.99, entonces el valor calculado z
pertenecería a la zona de aceptación de H0, (– 2.58 < 2.36 < 2.58), pudiéndose
aceptar esa hipótesis a ese nivel α = 0.01 de significación.
Ejemplo 6.6
Las puntuaciones de dos tests que evalúan comprensión verbal siguen dis-
tribuciones N(0,1). Las fiabilidades de esos tests son 0.92 y 0.78 respectiva-
mente. Las puntuaciones tipificadas que se obtienen en ambos tests con una
muestra son z1 = 2.6 y z2 = 1.8 respectivamente. ¿Se puede afirmar que exis-
ten diferencias en las puntuaciones de los sujetos cuando resuelven los ele-
mentos de una y otra prueba?
Las puntuaciones son técnicamente comparables, pues en ambos casos
se da la puntuación tipificada (normalizada en este supuesto). Si las puntua-
ciones pareadas fuesen puntuaciones directas procedentes de mediciones en
diferentes escalas, sería necesario que se transformasen las puntuaciones a
escalas comparables, para poder interpretar la cuantía de las diferencias y hacer
comparaciones. Al ser dos tests que miden el mismo rasgo, con varianzas igua-
les y de los que se conocen sus fiabilidades, se puede usar la expresión (6.27)
para la desviación típica de la distribución en la expresión (6.23) y considerar
que σX = σz = 1 en las dos poblaciones. El estadístico de contraste toma el valor:
2.6 − 1.8
z= = = 1.46
0.8
σX 2 − 0.92 − 0.78 0.547
Comparando el valor obtenido para el estadístico con los valores de la distri-

bución normal, en un contraste bilateral y con α = 0.05, es zα/2 = ± 1.96, luego
–1.96 < 1.46 < 1.96, aceptándose la hipótesis de no diferencia.
Lo usual es que se utilicen las medidas relacionadas no como un medio para

comparar dos tests, como en los ejemplos anteriores, sino para comparar el com-
portamiento de un mismo sujeto en diferentes tareas, o las diferencias entre las
puntuaciones que dan a un mismo test pares de sujetos relacionados, por ejem-
plo, padre e hijo, o sujeto experimental y su control. También es muy habitual uti-
lizar diseños intrasujeto para contrastar si ha habido cambios en alguna caracte-

rística del sujeto después de alguna intervención dirigida a modificar sus valores,
como se trata en el Ejemplo 6.7.
Ejemplo 6.7
Un psicólogo investiga sobre una terapia que, según su opinión, reduce los
niveles de ansiedad. Para evaluar el posible efecto de la terapia en un estudio
piloto, dispone de un test estándar para la medición de la ansiedad, que aplica
a una muestra de seis pacientes antes y después de la terapia. Las puntuacio-
nes X de los pacientes en ese test se dan en la Tabla 6.1. A la vista de tales
resultados ¿qué se podría concluir acerca de dicha terapia?
Tabla 6.1. Valores en el test de ansiedad antes y después de la terapia.
Paciente 1 2 3 4 5 6 ∑ di
X1 (antes) 35 52 29 40 37 43
X2 (después) 27 41 30 48 34 41
di 8 11 –1 –8 3 2 15
Calculada la media y la varianza de las diferencias:
d= = 2.5; s2d = = 37.58; sd = 6.13

15 225.5
6 6
La hipótesis que se va a contrastar es la hipótesis H0 , que establece que

no hay diferencias entre los niveles medios de ansiedad antes y después de
la terapia. Comoquiera que no se conocen los valores medios de las diferen-
cias en la población ni sus varianzas, para realizar el contraste se utilizan sus
estimaciones a partir de los valores muestrales. Aquí se conocen las puntua-
ciones globales de cada sujeto en el test, antes y después de la terapia. Hacien-
do uso de esa información, se puede obtener la media de esas diferencias y
su desviación típica y utilizar para el contraste el estadístico dado en (6.23),
obteniéndose:
t= = 0.91
2.5
6.13 / 5
Comparando los valores del estadístico con los de la distribución t de Stu-

dent para 5 grados de libertad y a un nivel de significación α = 0.05 (tα, 5 = 2.571),
hay que aceptar la hipótesis de no diferencia. Ahora bien, la cuestión plantea-
da es si la terapia disminuye los niveles de ansiedad. Por lo tanto, lo que se
espera es que los valores medios de X1 sean mayores que los de X2, y lo que
se trata de contrastar es la hipótesis nula H0 frente a la alternativa H1, que se
puede expresar como:
H : d > 0
H0 : d = 0  1
H1 : µ1 > µ 2
El estadístico de contraste es el mismo, pero el contraste es unilateral, dejan-

do sólo en la cola de la derecha de la distribución la zona de rechazo de H 0.
Para 5 grados de libertad, el valor t0.05, 5 = 2.015 delimita un área de probabili-
dad 1 – α = 0.95 (Figura 6.3) para la zona de aceptación de H0, pudiéndose recha-
zar al nivel de significación α = 0.05 sólo si el valor calculado para t hubiese sido
mayor que tα = 2.015. Luego se concluye que la terapia no disminuye los nive-
les de ansiedad. Sin embargo, el terapeuta observa en los datos alguna dismi-
nución en cuatro de los seis sujetos analizados. Puede deducir que con una
muestra tan pequeña y con una varianza de las diferencias tan grande, no podía
esperar un valor alto para el estadístico de contraste que le permitiese recha-
zar la hipótesis de no diferencia, ni que de esos datos se puedan extraer con-
clusiones que se puedan generalizar.
Finalmente hay que reseñar que los diseños intrasujeto son muy eficientes,
porque se puede usar un menor número de sujetos, en comparación con los dise-
ños intersujeto, y porque este diseño incrementa la potencia del test estadístico
con respecto a H0, es decir, que aumenta la probabilidad de rechazar H0 cuando
es falsa.
m6.5. Significación e inferencias de los coeficientes de fiabilidadm
En capítulos anteriores se han dado diversas opciones de cálculo para los coefi-
cientes de fiabilidad. Resumidamente, se podría decir que en unos casos la fiabi-
lidad se calcula mediante correlación entre medidas paralelas ρXX' y que en otros
se hace poniendo en relación las varianzas de las componentes con respecto a la
varianza total, como se hace en el cálculo del coeficiente α y los que de él se deri-
van como casos particulares. Por ello, para hacer inferencias, se debe distinguir
entre uno u otro tipo de coeficientes. Los problemas más importantes que se plan-
tean en cualquiera de los casos son contrastar si un valor muestral del coeficien-
te es significativamente igual a uno poblacional, o comparar la igualdad entre dos
o más de estos coeficientes obtenidos tanto en muestras independientes como
en muestras relacionadas.
En estos apartados se seguirán utilizando letras latinas, rXX' = r, para el coefi-
ciente de correlación muestral y griegas, ρXX' = ρ, para el correspondiente pobla-
cional. En el caso de coeficientes alfa, se denotará por α el coeficiente poblacio-
nal y por α$ el muestral.
Contrastes de coeficientes de correlación
Para los coeficientes de fiabilidad calculados como coeficientes de correlación,

los dos casos más usuales son contrastar si un coeficiente tiene un valor aprecia-
ble, o sea, que es significativamente diferente de cero, o si se puede considerar
igual a uno dado. Para realizar estos contrastes, se utilizan los estadísticos y sus
distribuciones, que en estadística matemática se han derivado para tal fin y cuyas
expresiones, en uno y otro caso, se encuentran en los manuales de estadística y
que aquí se corresponden con las expresiones (6.28) y (6.30).
Si es rXX' = r el coeficiente de fiabilidad obtenido en una muestra de tamaño N, la
ρXX' = 0, frente a la alternativa, de que ρXX' ≠ 0, se contrasta mediante el estadístico:

hipótesis nula que establece que ese coeficiente proviene de una población en la que
N−2
t=r
1− r
(6.28)
que sigue una distribución t de Student con N – 2 grados de libertad. Por ello, la
región crítica para un nivel α es t : t < t1-α/2; N-2 ; t > tα/2; N-2 .
Si de lo que se trata es de contrastar que ese coeficiente de fiabilidad r pertene-
ce a una población en la que ρXX' tiene un valor ρ = ρ1 distinto de cero, entonces
se hacen las transformaciones:
1 1+ r 1 1+ ρ
z r = ln ; zρ = ln
2 1− r 2 1− ρ
(6.29)
y el estadístico de contraste es:

z r − zρ
z=
N−3
(6.30)
1
que sigue una distribución normal N (0,1). Por lo tanto, para un nivel α, la región
crítica, en un contraste bilateral, es z : z < z1-α/2 ; z > zα/2, siendo la región de
aceptación z : z1-α/2 ≤ z ≤ zα/2.
Las distribuciones que se usan para delimitar las zonas de aceptación y de
rechazo de la hipótesis nula son las que asintóticamente siguen los estadísticos
que se utilizan para hacer esos contrastes, bajo el supuesto de que H0 es cierta.
Por ello, hay que advertir que para realizar el contraste entre dos coeficientes
poblacionales utilizando el estadístico dado en (6.30), se debe exigir a las mues-
tras ciertas condiciones asintóticas que, desde un punto de vista práctico, se pue-
den resumir en que el tamaño muestral no sea pequeño, no debiendo usarse para
este contraste tamaños de muestra menores de 30 elementos.
Ejemplo 6.8
El coeficiente de fiabilidad de un test es rXX' = 0.98. En una muestra de tama-

ño N = 55, se ha obtenido un coeficiente rXX' = 0.95. Se quiere contrastar si se
puede considerar que no existen diferencias significativas entre el valor mues-
tral y el poblacional.
Para contrastar la hipótesis de no diferencia, se utiliza el estadístico de con-
traste dado en (6.30), obteniéndose previamente los valores de zr y de zr median-
te (6.29)
1 1+ 0.95 1 1+ 0.98
zr = = 1.83 ; zρ = ln = 2.30
2 1− 0.95 2 1− 0.98
ln
El valor del estadístico de contraste es:
1.83 − 2.30
z= = − 3.39
1 55 − 3
Para α = 0.05, la zona de aceptación de la hipótesis nula son los valores

incluidos en el intervalo (–1.96, 1.96). Por lo tanto, al no pertenecer el valor del
estadístico a ese intervalo, se rechaza la hipótesis de no diferencia entre ambos
coeficientes, a ese nivel de significación. Tampoco se aceptaría si se amplía el

intervalo de aceptación de H0 hasta contener un área de probabilidad de 0.99
(α = 0.01). Luego se rechaza la hipótesis de que esas diferencias no son sig-
nificativas.
Contrastes para coeficientes α
La forma de los coeficientes α como relación entre varianzas explica que los esta-
dísticos de contraste suelen seguir distribuciones F de Fisher-Snedecor (son simi-
lares a los de los procedimientos ANOVA). Los contrastes de hipótesis más usua-
les acerca de α generalmente se refieren a si el valor de α es significativamente
igual a otro dado, o si diferentes valores de α, calculados en muestras indepen-
dientes o en muestras relacionadas son significativamente iguales. La forma de
los estadísticos y sus distribuciones se pueden seguir en las diferentes obras que
tratan la estimación de la fiabilidad mediante las técnicas del análisis de la varian-
za. A efectos de su utilización práctica en casos concretos, se da aquí la forma de
algunos de esos estadísticos y sus distribuciones.
Contrastes con una muestra
Si es α$ el valor del coeficiente de fiabilidad obtenido en una muestra de tama-

ño N al cumplimentar una prueba de n elementos, para contrastar si ese valor
muestral α$ es significativamente igual a un determinado valor α poblacional, se
ha derivado un estadístico de contraste (e.g., véase Feldt et al., 1987, págs. 94-96)
que toma la forma de la expresión (6.31):
1− α
F( N − 1),( N − 1)( n − 1) =
1 − α$
(6.31)
que sigue una distribución F de Fisher-Snedecor con (N – 1) y (N – 1)(n – 1) gra-

dos de libertad. Acudiendo a los valores de esta distribución para aceptar o recha-
zar la hipótesis nula de no diferencia entre α$ y α.
Ejemplo 6.9
Un test de fluidez verbal que consta de 60 elementos se administra a una

muestra de 51 escolares, obteniéndose un valor de la fiabilidad α$ = 0.82. Se
quiere dar respuesta a dos cuestiones, la primera es si es significativo ese coe-
ficiente, es decir, si es diferente de cero y, la segunda, si se puede admitir que
el valor poblacional de la fiabilidad es α = 0.90.
Las hipótesis nula y alternativa en cada uno de esos dos casos son:
a) Ho : αˆ = α = 0 b) Ho : αˆ = α = 0.90
H1 : αˆ = α ≠ 0 H1 : αˆ = α ≠ 0.90
Aplicando (6.31) se obtienen los valores correspondientes de los estadísti-

cos, que para a) y para b) son respectivamente:
1− 0 1 − 0.90
a) F = = 5.56 b) F = = 0.56
1 − 0.82 1 − 0.82
valores que en cada caso hay que comparar con los de la distribución F a un
nivel de significación α. Elegido α = 0.05, se rechaza la hipótesis nula en el caso a)
y se acepta en el caso b) pues el valor de Fα; (N – 1), (N – 1) (n – 1) = F0.05; 50, 2950 = 1.35.
Es decir, el coeficiente es diferente de cero y además su valor no difiere signi-
ficativamente de 0.90.
Contrastes con dos o más muestras
Si lo que se quiere contrastar es la no diferencia entre los coeficientes calcu-

lados en dos muestras independientes de tamaños N1 y N2, el estadístico que se
propone en la literatura para llevar a cabo este contraste es:
1 − α$ 1
F( N1 − 1),( N2 − 1) =
1 − α$ 2
(6.32)
que sigue una distribución F con (N1 – 1) y (N2 – 1) grados de libertad.

Cuando las comparaciones se quieren realizar entre más de dos coeficientes,
tanto para muestras independientes como en muestras relacionadas, la obtención
de las distribuciones muestrales para los estadísticos que permitan realizar esos
contrastes es más complicada, teniéndose que recurrir a transformaciones artifi-
ciosas que no ha lugar a que se traten en esta obra. Los estadísticos para estos
casos de comparaciones múltiples se dan en el Cuadro 6.6 y están tomados de las
expresiones que dan Feldt et al. (1987).
Cuadro 6.6
Comparación entre K coeficientes α, obtenidos de k muestras, siendo α$i el

valor de alfa en cada muestra i, Ni el tamaño de la muestra y ni el número de
ítems.
La hipótesis que se va a contrastar es H0 : α1 = α2 = … = αk frente a la hipó-
tesis alternativa de que algunos (dos o más) de esos valores sean diferentes.
Para muestras independientes, el estadístico de contraste es:
∑ ((1 − αˆ i )−1 3 − u)
k 2
i =1
χk2 −1 ≅
S2
Para muestras relacionadas, el estadístico de contraste es:
∑ ((1 − αˆ i )−1 3 − u)
k 2
i =1
χk2 −1 ≅
S 2 − Sjk
En ambos casos los estadísticos se distribuyen aproximadamente como

una χ2 con k – 1 grados de libertad. Por lo tanto, para aceptar o rechazar la
hipótesis de igualdad entre todos los coeficientes a un cierto nivel de probabi-
lidad p, hay que comparar el valor del estadístico con el de la distribución χ k2 – 1
en un contraste bilateral, donde la zona de aceptación de la hipótesis nula es
un área 1 – p, bajo χ 2k – 1.
2
Los valores de u y de S que aparecen en esos estadísticos se obtienen
mediante las siguientes expresiones:
u =∑ ; S2 = ∑ ; Si2 =
k
1 k
Si2 2
i =1 k (1 − αˆ i )1 3 i =1 k 9 (Ni − 1) (1− αi )2 3
˜
Los valores de Ñi se obtienen de forma diferente para muestras indepen-

dientes y para muestras relacionadas. Para muestras independientes es:
N (n − 1)
N˜ i = i i
ni + 1
Para muestras relacionadas es:
N (n˜ − 1) ∑ S jk
N˜ i = N˜ = ; n˜ = ; S jk = ; Sjk =
k 2rij
n˜ + 1 9 (N˜ − 1)(1− αˆ j ) (1 − αˆ k ) k (k − 1) / 2
∑1 ni
k 13 13
i =1
siendo rij las correlaciones entre cada uno de los tests con cada uno de los
otros k – 1 con los que se está comparando.
Para realizar los contrastes se manejan una gran cantidad de datos y los cálcu-
los son tediosos, sobre todo cuando se trata de comparaciones múltiples, pero para
todos y cada uno de los casos hay software disponible para realizar estas compara-
ciones. Por ejemplo, en el paquete estadístico SPSS están implementados todos los
contrastes que aquí se exponen y, en cualquier caso, facilitan la realización de todos
los cálculos que llevan al valor del estadístico que permite tomar las decisiones.
Las ecuaciones que se presentan en el Cuadro (6.6) son una de las muchas for-
mas que se han propuesto para establecer comparaciones entre valores del coefi-
ciente alfa. Por ejemplo, en un artículo Woodruff y Feldt (1986) presentaron once
procedimientos estadísticos para comparar m coeficientes α, presentando algunos
ejemplos y simulación Monte Carlo para estudiar la precisión de los procedimientos
con resultados asintóticos. Además de contrastes de hipótesis, también se han pro-
puesto formas de obtención de intervalos de confianza. Para tratar las inferencias
acerca de α, remitimos al lector interesado a las publicaciones de Feldt (e.g., Woo-
druff y Feldt, 1986; Feldt et al., 1987; Feldt, 1990) y a la de Fan y Thompsom (2001).
Puntos clave
3 Los métodos estadísticos inferenciales se utilizan para la estimación de las pun-

tuaciones verdaderas y en el contraste de las diferencias entre puntuaciones y
entre coeficientes de fiabilidad.
3 La media de la puntuación observada estima la de la verdadera y para las infe-

rencias acerca de V se utiliza la regresión lineal.
3 Para las inferencias (intervalos de confianza y contrastes de hipótesis), hay que
conocer la distribución muestral de la variable.
3 En los contrastes de hipótesis hay que conocer la distribución probabilística del
estadístico que se utiliza para el contraste y cómo se distribuyen las regiones
de aceptación y de rechazo de la hipótesis nula, de acuerdo a como se han for-
mulado las alternativas.
3 En las comparaciones de medias, los diseños intrasujeto (test-retest, formas
equivalentes, etc.) son más eficientes que los intersujeto, pues necesitan menos
tamaño de muestra y el diseño incrementa la potencia del test estadístico con
respecto a H0 .
3 Calculado un coeficiente de fiabilidad, se puede contrastar si su valor es o no
significativamente diferente de cero, o de otro valor poblacional.
3 En los contrastes de coeficientes de fiabilidad los estadísticos utilizados siguen
distribuciones de probabilidad diferentes, dependiendo de si lo que se contras-
ta son coeficientes de correlación o coeficientes α.
3 Los coeficientes de fiabilidad r se contrastan, bien frente a cero o a otro valor
poblacional r, en la forma usual que en estadística se realizan los contrastes entre
correlaciones. Los estadísticos para esos contrastes siguen distribuciones nor-
males, o t de Student.
3 Los coeficientes de fiabilidad α se contrastan mediante estadísticos que siguen
distribuciones F de Snedecor o χ2 de Pearson.
3 Pueden realizarse contrastes múltiples entre coeficientes de fiabilidad, tanto con
muestras independientes como con muestras relacionadas.
Actividades
r Replique los Ejemplos 6. 1 y 6.3 considerando intervalos de confianza más

amplios y discuta las implicaciones que conlleva esa decisión.
r En relación con la cuestión anterior, discuta si es posible construir siempre
un intervalo de probabilidad que incluya el valor que se está estimando.
r Represente gráficamente los intervalos de confianza de los Ejemplos 6.1
y 6.3, y superponga sobre el mismo gráfico los obtenidos en la actividad
anterior.
r En los Ejemplos 6.1, 6.2 y 6.3 los coeficientes de fiabilidad generalmente
se consideraría que son demasiado bajos para estandarizar un test. ¿Cuáles
serían las inferencias para la puntuación verdadera en esos tres casos si la

fiabilidad del test fuese 0.96?
r Comente de forma razonada las diferencias en los resultados obtenidos en
la actividad anterior, cuando la fiabilidad es 0.65 y cuando es 0.96.
r En el Ejemplo 6.2, observando las predicciones que posibilita la línea de
regresión, ¿es posible que a una persona con 0 puntos en la prueba se le
estime una puntuación verdadera de 12 puntos y que a otra que obtiene 60
puntos se le estime un valor para su puntuación verdadera menor que 52?
r ¿Podría en algún caso coincidir la puntuación observada con la verdadera
y con la verdadera estimada?
r Razone por qué puede ser equívoco, cuando se trata de la construcción de
intervalos de confianza, afirmar que a mayor probabilidad mayor precisión.
r Se ha construido un test de rendimiento y se discute si los resultados en
ese test serían o no diferentes bajo el efecto de alguna droga (e.g., cafeína).
Suponga valores medios y varianzas para las muestras de los que la toman
(o se les administra) y los que no. Contraste la hipótesis de no diferencia
entre ambas medias, considerándolas una vez como muestras indepen-
dientes (los tamaños de los grupos deben ser iguales) y otra como relacio-
nadas. Discuta los resultados.
r Los coeficientes de fiabilidad obtenidos para un test son r = 0.23 y α$ = 0.19.
Desde el punto de vista estadístico, ¿se puede afirmar que ambos coeficien-
tes son significativamente diferentes de cero?
r Busque en la docimoteca un test, aplíquelo a diferentes muestras, calcule
α$i en cada una de las i muestras, compare los valores y decida si se puede
aceptar la hipótesis de igualdad entre esos coeficientes.
r Con un test que evalúa agresividad administrado a 2208 escolares se han
obtenido los valores de cuatro coeficientes α$i (Santisteban et al., 2007, Tabla
1). Plantee diferentes hipótesis acerca de esos coeficientes, realice los per-
tinentes contrastes y discuta los resultados.
r Realice una actividad similar a la anterior con los siguientes datos: Una
muestra está compuesta por adolescentes varones (n = 469) y la otra por
adolescentes hembras (n = 623). Los valores de α$i en los cuatro factores
(agresividad física, verbal, ira y hostilidad) y el de la puntuación global
fueron respectivamente 0.82, 0.76, 0.69, 0.72 y 0.88 en varones y 0.83,
0.72, 0.66, 0.68 y 0.88 en hembras. La escala contiene 29 ítems corres-
pondiendo 9 a la subescala agresión física, 5 a agresión verbal, 7 a ira y 8

a hostilidad.
r Con los datos de las actividades anteriores, haga comparaciones múltiples
entre los coeficientes α obtenidos en las cuatro muestras (preadolescentes
y adolescentes varones y hembras) en los diferentes factores.
r Discuta la influencia del número de ítems de las escalas (la global y las subes-
calas), así como de los tamaños muestrales, en los valores de α estimados
utilizando los datos de las actividades anteriores.
Teoría de la generalizabilidad
¿Cómo afectan a las medidas
las distintas facetas y fuentes de error? 7
La variabilidad de las mediciones psicológicas puede provenir de diver-
sas fuentes, que son las diversas facetas que se pueden considerar al esta-
blecer las estrategias en los procedimientos de medición. Todas ellas afec-
tarán a la calidad de esas mediciones, por lo que considerar una sola fuente
de error en la TCT puede asumirse como una simplificación de la reali-
dad. En la teoría de la generalizabilidad (TG) se considera que los erro-
res provendrán de diversas fuentes y habrá que analizarlos para estable-
cer la precisión y lo adecuado de las inferencias que se deriven de esas
medidas. Por lo tanto, la teoría de la generalizabilidad se aleja del mode-
lo de la TCT fundamentalmente en que basa sus decisiones en los resul-
tados de los análisis de los distintos factores (facetas, en la terminología
de la TG) que influyen en las mediciones del factor o faceta de interés
(faceta diferencial).
ã La lógica en la que se basa la teoría de la generalizabilidad y su ter-

minología.
ã Las principales diferencias y analogías con la TCT.
ã El análisis psicométrico y la interpretación de algunos diseños
simples.
ã La distinción entre los llamados estudios G y estudios D.
ã Las inferencias basadas en las componentes de la varianza, genera-
das con las técnicas del ANOVA.
ã El cálculo de algunos coeficientes de generalizabilidad y su uso en
la toma de las decisiones.
m7.1. Conceptos básicos y terminologíam
La denominada teoría de la generalizabilidad (denotada por TG, o teoría G) es el

marco psicométrico en el que se encuadran teorías y procedimientos que, aban-
donando el sentido correlacional dado a la fiabilidad en la TCT, permiten el aná-
lisis de múltiples aspectos o facetas que pueden afectar a la calidad de las medi-
das. La teoría nace de los intentos de superar las limitaciones que el contexto
clásico impone a la fiabilidad y en especial la legitimidad de sus inferencias. Esta
forma de abordar los problemas, a la que Cronbach dio la denominación de gene-
ralizability, se desarrolla a lo largo de los años cincuenta del siglo pasado, incluso
con anterioridad (Hoyt, 1941), si bien su exposición más completa y sistematiza-
da se encuentra en la obra de Cronbach et al. (1972). Varias décadas más tarde
Cronbach y Shavelson (2004) publicaron un documento sobre el uso masivo del
coeficiente α, argumentando las ventajas que tiene la teoría de la generalizabili-
dad sobre este coeficiente en la evaluación de la fiabilidad.
La perspectiva de la teoría G es establecer el grado en que las puntuaciones
que se obtienen con un número limitado de observaciones, obtenidas en ciertas
condiciones, representan a las puntuaciones que se podrían obtener disponiendo
de un gran número de ellas, a lo que se le denomina el universo de observaciones admi-
sibles. Por ejemplo, si se dispone de cuatro ítems para medir la agresividad, en el
contexto de la TG el psicómetra se puede preguntar si debe incluir ítems que
midan otros aspectos, por ejemplo, la impulsividad, o si esos ítems que está admi-
nistrando, tanto por su número como por sus contenidos, pueden ser represen-
tativos de todos aquellos otros posibles ítems que midan la agresividad. Lo que
se quiere estudiar, por lo tanto, es si los ítems que se proponen generan puntua-
ciones que sean representativas, o sea, que las condiciones en las que se han obte-
nido sean generalizables, en el sentido de que esas puntuaciones sean consistentes
con las que se hubieran obtenido si todos esos posibles ítems que potencialmen-
te miden ese rasgo (el universo de ítems) se hubieran administrado. Además, si la prue-
ba la han administrado y evaluado distintos profesionales, el psicómetra también
puede querer estudiar ese otro factor y preguntarse si quienes han hecho la apli-
cación son representativos de todos los posibles evaluadores que pudieran haber
efectuado esas mediciones. Por lo tanto, el problema se puede plantear tomando
en consideración una o varias fuentes de error.
En la teoría clásica se ha expuesto la importancia que tiene para el cálculo de
la fiabilidad la identificación y el control de las condiciones en la aplicación de las
Capítulo 7. Teoría de la generalizabilidad 185
pruebas, por ejemplo, en las aplicaciones test-retest, pruebas equivalentes, etc. En

la TG, las puntuaciones que se obtienen se considera que son muestras de un uni-
verso de observaciones. El universo describe las condiciones en las que se obtie-
nen las puntuaciones de la prueba, por lo tanto, se considera que existen dife-
rentes universos posibles en la aplicación de una prueba, y quien construye esa
prueba debe dar cuenta del universo particular o de los universos en que se han
obtenido las puntuaciones.
En la terminología de la teoría G, a esas condiciones o estrategias que se han
utilizado para la medición se las denomina facetas y, como se ha dicho, en un estu-
dio se pueden estar considerando una o múltiples facetas. Siguiendo el ejemplo
de la medición de la agresividad, si varios participantes cumplimentan un con-
junto de ítems, el estudio es de una sola faceta, pero si además en el estudio inter-
vienen diversos observadores, entonces también se podrán evaluar las diferencias
entre los observadores, adoptándose una estrategia de diseño de dos facetas. Se
puede advertir que en ese análisis hay tres factores que influyen en la puntuación,
los participantes, los ítems y los observadores. Sin embargo, el diseño es de dos
facetas porque el objetivo del estudio es la detección de las diferencias individuales
(las diferencias entre los sujetos), siendo los ítems y los observadores los que
el psicómetra considera que son las fuentes de error y constituyen las dos face-
tas de generalización. A los sujetos del estudio se les denomina a veces faceta de dife-
renciación.
En la TG, la puntuación universo de un sujeto se considera que es la media de sus
puntuaciones obtenidas en todas las condiciones del universo de generalización.
Esta puntuación universo se puede considerar análoga a la puntuación verdade-
ra V en la teoría clásica, como media de las puntuaciones observadas. Ahora bien,
comoquiera que en los estudios TG se pueden definir diferentes universos de
generalización, a un sujeto se le pueden asignar diferentes puntuaciones univer-
so, lo que no es factible en relación con la puntuación V, ya que en el contexto de
la TCT se supone que es una sola la puntuación verdadera V de cada sujeto cuan-
do realiza una determinada prueba, o pruebas paralelas.
La TG no considera adecuado lo que la teoría clásica había establecido en psi-
cología y en educación, que era considerar que un instrumento de medición es
adecuado si su coeficiente de fiabilidad es elevado. Desde la perspectiva de la TG,
la presentación de los problemas y las soluciones que se dan en la TCT, o teoría
débil de las puntuaciones verdaderas, se percibe como una simplificación de los pro-
blemas, incluso se les tilda de cierta ambigüedad, presentándose muchos aspec-
Cuadro 7.1
Los avances que se produjeron a principios del siglo XX en algunas técnicas

estadísticas no se aplicaron en psicometría hasta mediados de ese siglo.
Una de las razones que esgrimieron varios autores es que en la medición de
aptitudes el efecto principal se debe a los sujetos (son la principal contribu-
ción a la varianza total en un ANOVA) y que las condiciones de observación
sólo son secundarias. No obstante, se abre paso la línea crítica que surge
del análisis de las debilidades de la TCT en algunos aspectos, que llevan en
ocasiones a inconsistencias e incluso a conclusiones erróneas en la con-
cepción de los coeficientes de fiabilidad y sus repercusiones en temas como
la atenuación o las formulaciones de Spearman-Brown.
Entre los primeros autores que defienden el análisis de las diferentes
fuentes de varianza está Thorndike (1947), quien clasifica las fuentes de varia-
ción en cinco categorías: I) duraderas y generales del sujeto, II) duraderas
pero específicas, III) temporales y generales, IV ) temporales y específicas y
V) otras. La componente duradera y general (e.g., la aptitud) es la que casi
siempre busca información de las diferencias individuales. Aunque recono-
ce como facetas a las distintas formas del test, o a las diferentes ocasiones
de aplicación, no dice cómo el psicómetra puede estimar su influencia. Las
publicaciones de Cronbach de esa época también aportan muy poco en
cuanto a los procedimientos, aunque da argumentos para adoptar el análi-
sis multifaceta como una técnica estándar: I) que las consideraciones ex-
plícitas de algunas facetas en el proceso de medición disipan algunas
ambigüedades ocultas en la TCT, II) que puede dar información sobre las
interacciones, a lo que no se tiene acceso por otros métodos, III) que res-
ponde a cuestiones que formalmente requieren conjuntos separados de datos
y IV) que permite diseñar procedimientos de medición más eficientes.
En la concepción y primeros desarrollos de la TG merecen mención des-
tacada Gulliksen, quien en 1936 realiza un análisis formal multifaceta de la
consistencia de un test. Cronbach sigue a Guttman en cuanto a llamar face-
tas a lo que también podría denominarse factores, para evitar evocar en los
psicólogos asociaciones con el análisis factorial. Guttman (1953) augura a
esta línea éxitos futuros en la ciencia psicométrica. Cureton dirige una tesis
doctoral (Loveland, 1952) donde se analizan las componentes sujetos, oca-
siones y formas del test, así como sus interacciones. En 1955 Burt, a partir
del material de Fisher, prepara para sus alumnos un documento comprensi-
vo sobre la aplicación del análisis de la varianza a los problemas de fiabili-
dad, considerando fuentes de variación separables. Referencias más actua-
les y muy útiles para introducirse en este tema son las obras de Shavelson
y Webb (1991) y la de Brennan (2001), incidiendo la primera más en los aspec-
tos conceptuales y la segunda en los aspectos más técnicos.
tos de la TCT como casos particulares de los planteamientos y de los procedi-

mientos de la teoría de la generalizabilidad.
El argumento fundamental que viene a constituir el núcleo de la TG es la
consideración de que existen distintas fuentes de variación (de error) que afec-
tan a las puntuaciones observadas, como pueden ser las distintas formas con las
que se presenta el test, o las condiciones en las que se aplica, o las diferencias
entre evaluadores, etc. El análisis de estas fuentes de variación se realiza con la
técnica del análisis de la varianza (ANOVA), en sus distintas versiones para los
diferentes tipos de diseños. Sin embargo, la TG aporta su propia formulación
para el análisis y la interpretación de los coeficientes. Las técnicas del ANOVA
se utilizan fundamentalmente para generar los estimadores de los componentes
de la varianza para cada factor.
La TG distingue entre los estudios G y estudios D. En un estudio G se reco-
gen los datos a partir de los cuales se pueden hacer las estimaciones de las com-
ponentes de la varianza, siguiendo un determinado procedimiento. En un estu-
dio D se reúnen los datos proporcionados por el estudio G con el propósito de
tomar decisiones o extraer conclusiones acerca de las diferencias individuales o
en relación con algún criterio (Cronbach et al., 1972).
En la TG el término condiciones se utiliza en un sentido muy general, pudien-
do referirse a los ítems, a las formas del test, a las ocasiones, etc. En la estimación
de la fiabilidad en la TG se está interesado en la extensión o generalización al uni-
verso de condiciones, a partir de un conjunto de ellas que se considera que es una
muestra aleatoria de dicho universo. Los supuestos que, en principio, subyacen a
las formulaciones son:
a) El universo debe estar descrito de forma no ambigua, de manera que en

todo momento se conozca qué condiciones están incluidas en él. El núme-
ro de condiciones puede ser o no finito, y no se hacen suposiciones del
contenido del universo, ni de las propiedades estadísticas de las puntua-
ciones en las distintas condiciones.
b) Las condiciones son experimentalmente independientes.
c) Las puntuaciones de los sujetos, observadas en las diferentes condiciones,
son valores en una escala de intervalo.
d) Las condiciones de experimentación se muestrean aleatoriamente a partir
del universo de condiciones, y los sujetos son una muestra representativa
de la población que se estudia.
En el plan de observación, el psicómetra puede especificar el universo de las

condiciones, identificando las facetas fijas y las aleatorias, así como el plan de
muestreo y el diseño experimental que mejor se ajuste a sus condiciones y a sus
propósitos. En la TG también se han planteado cuestiones acerca de la validez
de las inferencias, distinguiendo ente validez interna y externa (Campbell, 1957;
Campbell y Stanley, 1963; Cronbach et al., 1972).
La estrategia de considerar estudios de una sola faceta es muy común en
cierto tipo de cuestionarios como los de personalidad, aunque la inclusión de
varias facetas en un estudio suele enriquecer los análisis, pues el conocimiento
de las diferentes componentes de la varianza proporciona información de cómo
cada una de ellas afecta a las puntuaciones. Desde este punto de vista se está
implícitamente considerando que las facetas que se incluyen en el estudio son
facetas aleatorias, pues los niveles o formas de cada una de ellas que se usan en
el estudio son muestras aleatorias de sus universos. Por el contrario, si en el
estudio se incluyen todos los niveles o formas de una determinada faceta, o
cuando se incluyen sólo unas pocas pero no se quiere generalizar a partir de
ellas, entonces se considera que esa faceta es una faceta fija. En los estudios mul-
tifaceta se pueden usar diseños mixtos en los que se pueden incluir una o más
facetas fijas y una o más facetas aleatorias. Los diseños comunes en la TG son
los diseños cruzados y los anidados. En los diseños cruzados, se obtienen los
datos para todas las posibles combinaciones de los niveles de las diferentes face-
tas. En los diseños anidados no todas esas posibles combinaciones están repre-
sentadas en el diseño.
A continuación se hace una breve exposición de los procedimientos consi-
derando las dos fases, la primera en la que se llevan a cabo los estudios G para
verificar la constancia de las mediciones en la variable de interés a través de las
diferentes condiciones, y la segunda, en la que los resultados de los estudios G
se utilizan para los estudios D, dirigidos a la toma de decisiones. En ambos apar-
tados se pondrán ejemplos de diseños cruzados, pero estos estudios admiten
diseños experimentales más complejos, dependiendo de los objetivos y de las
condiciones que se establezcan. En cualquier caso, la elección del diseño y cómo
se ha de hacer el tratamiento de los datos para el cálculo de las medias cuadrá-
ticas que conducen a la estimación de las componentes de la varianza, se pue-
den encontrar en obras especializadas en el tema, como el texto clásico de Winer
(1971), o en una versión más actual (Winer et al., 1991). Se pueden seguir los
procedimientos para llevar a cabo análisis de la varianza con diferentes diseños
en textos de estadística general como el de Amón (1984) y de Pardo y San Mar-

tín (1994), en español, o el de Howell (2002), en inglés.
m7.2. Estudios Gm
Los estudios G corresponden a la fase en la que, tras planificar y diseñar el pro-

cedimiento, se estiman y se interpretan las componentes de la varianza de cada
una de las facetas.
En esta fase del estudio hay que hacer uso de los procedimientos del ANOVA,
realizando la partición de la varianza total en sus distintas componentes. Se obtie-
nen las sumas de cuadrados para calcular las medias cuadráticas y, a partir de ellas,
se estiman las componentes de la varianza de cada una de las facetas, así como las
de las interacciones, si las hubiera.
Al comparar la magnitud de esas varianzas, si la componente de la varianza
atribuible a los sujetos es mucho mayor que las de las demás componentes, enton-
ces se considera que la medición que proporciona el test es bastante estable, es
decir, que no está influida en demasía por las condiciones. Si, por el contrario, esa
varianza fuese relativamente pequeña en relación con el resto de las componen-
tes de varianza estimadas, la variabilidad no sería atribuible a los sujetos, sino a las
condiciones en las que se han realizado las mediciones. A continuación se estu-
dian los diseños más simples de una y dos facetas.
Diseño de una faceta
En un diseño de una faceta se obtienen las medias cuadráticas correspondien-

tes a los sujetos (p), ítems (i) y residual (res), de la misma forma que se obtienen
usando las técnicas de análisis de la varianza (ANOVA) y que están implemen-
tadas en los paquetes de software estadístico. No obstante, para ayudar a la com-
prensión del significado de los procedimientos, en el Cuadro 7.2 se ilustra cómo
se hace la partición de la varianza total en sus distintas componentes, en el caso
de un factor y cómo se obtienen tanto la suma de cuadrados SC, como las medias
cuadráticas MC.
Cuadro 7.2
Para ilustrar el procedimiento se parte de un diseño muy simple, un diseño

cruzado p x i. Para hacer la partición de la varianza total en sus distintos
componentes, se descompone la puntuación diferencial de cada sujeto p en
cada condición i (ítem), Xpi , en los siguientes sumandos:
( ) ( ) (
X pi − X = X p − X + X i − X + X pi − X p − X i + X ) (7.1)
siendo los dos primeros sumandos las desviaciones de las medias de Xp y de

Xi respecto a la media global (los errores ep y ei respectivamente). El último suman-
do es lo que se denomina residual (el de la interacción epi). Estos efectos se
supone que son independientes, con media cero. Por lo tanto, la suma de cua-
drados (SC) de esas diferencias, para todos los sujetos y todas las condiciones,
es la dada a continuación por la ecuación (7.2). La suma de cuadrados atribui-
ble a los sujetos es la (7.3), la atribuible a los ítems es la (7.4) y la residual la (7.5):
SCtotal = ∑ ∑ X pi − X( ) = ∑ ∑ X pi2 − npni X 2

2
(7.2)
p i p i
SCp = ni ∑ X p2 − npni X 2 (7.3)

p
SCi = np ∑ X i2 − npni X 2 (7.4)

i
SCres = SCtotal − SCp − SCi (7.5)
Las medias cuadráticas, en cada caso, se obtienen dividiendo cada una

de estas sumas de cuadrados por sus correspondientes grados de libertad,
que son respectivamente (np – 1) para los sujetos, (ni – 1) para las condicio-
nes y para el residual (np – 1) (ni – 1). Por lo tanto:
MCp = ; MCi = ; MCres =

SCp SCi SCres
np − 1 ni − 1 (np − 1) (ni − 1)
(7.6)
Una vez obtenidas las medias cuadráticas de las diversas fuentes: sujetos (MCp ),
ítems (MCi ) y residual (MCres ), se procede al cálculo de los coeficientes. En tan-
to que el ANOVA proporciona información de los efectos principales (y sobre
un término error) mediante un test de significación, la TG aporta sus métodos

propios. Los estudios G no requieren llevar a cabo tests de significación. Lo que
se hace es estimar los componentes de varianza en el diseño, con el fin de calcu-
lar un coeficiente, optimizar ese coeficiente y estimar las puntuaciones del uni-
verso (generalizar).
En este diseño cruzado de una faceta, las ecuaciones que se utilizan para esti-
mar las componentes de la varianza son las que aparecen en la Tabla 7.1, siendo
los valores relativos de estos componentes los que indican la contribución de cada
una de las facetas a la variabilidad total. En el Ejemplo 7.1 se pueden seguir estos
procedimientos.
Tabla 7.1. Ecuaciones para la estimación de las componentes de la varianza

en un diseño cruzado de una faceta.
Fuentes de variación Componentes de varianza
MCp − MCres
Sujetos σ p2 =
np
MCi − MCres
Condiciones σ i2 =
ni
Residual σ res
2
= MCres
Ejemplo 7.1
Para medir la agresividad se suministran cuatro ítems a cuatro grupos de

escolares de diferentes edades, obteniéndose las puntuaciones medias de cada
grupo que se presentan en la Tabla 7.2. Puesto que los cuatro grupos de suje-
tos responden a todos los ítems, el diseño es un diseño cruzado (sujetos × ítems).
En este ejemplo cada grupo actúa como un sujeto promedio (que representa al
grupo). Los grados de libertad son: para los sujetos np – 1 = 3, para los ítems
ni – 1 = 3, para el residual (np – 1) (ni – 1) = 9 y para el total np ni –1 = 15.
Realizados los cálculos pertinentes con un programa informático, o hacien-
do uso de las ecuaciones (7.2) a (7.6), se obtienen los valores de las sumas de
cuadrados y de las medias cuadráticas que se presentan en la Tabla 7.3. En esa
tabla se dan también los valores de las componentes de la varianza, calcula-

das mediante las expresiones que se han dado en la Tabla 7.1. En la última
columna de la Tabla 7.3 se da el peso relativo de cada componente, es decir,
el de su contribución a la varianza total.
Tabla 7.2. Puntuaciones medias de cuatro grupos de escolares de diferentes edades

en cuatro ítems de un cuestionario de agresividad.
Ítems del cuestionario de agresividad

Sujetos Medias
Física Verbal Ira Hostilidad
Niñas 2 2 2 2 2
Niños 4 3 3 2 3
Adoles. Hembras 4 4 5 3 4
Adoles. Varones 6 5 4 5 5
Medias 4 3.5 3.5 3 3.5
Tabla 7.3. Resultados de ANOVA y generalizabilidad para los datos de la Tabla 7.2.
Fuentes Suma de Medias Componentes

%
de g.l. cuadrados cuadráticas de
Varianza
variación SC MC varianza
Sujetos 3 20 6.67 1.56 76

Ítems 3 2 0.67 0.06 3
Residual 9 4 0.44 0.44 21
Total 15 26 2.06 100
En los resultados de este ejemplo se puede observar el gran tamaño de la

componente de la varianza σ p2 en relación con el resto de las componentes. Este
resultado indica que el efecto principal se debe a las diferencias en agresividad
entre los grupos de participantes. Si se consideran estos resultados como rela-
ciones señal/ruido, este efecto de los sujetos (según su género y grupo de edad)
sería una fuerte señal y el residual sería el ruido del sistema. La proporción con
que contribuye la varianza de los ítems a la varianza total es casi despreciable,
no pudiendo considerarse a los ítems como una fuente de variabilidad en la detec-
ción de las diferencias entre los cuatro grupos de escolares.
Los resultados obtenidos en el Ejemplo 7.1 pueden tomarse como repre-

sentativos de lo que es deseable obtener en un estudio de una sola faceta, diri-
gida a evaluar las diferencias entre los sujetos, que en este caso son los cuatro
grupos de escolares. En la Tabla 7.2 puede apreciarse que los niveles de agre-
sividad aumentan en el orden, niñas < niños < adolescentes hembras < ado-
lescentes varones, lo que se refleja en la Tabla 7.3 como una fuerte señal de la
faceta sujeto, que permitirá que en el correspondiente estudio D esta faceta
pueda generalizarse. En la Tabla 7.2 se observa también que casi todos los gru-
pos presentan mayores niveles en el ítem agresividad física que en los demás
ítems. Sin embargo, la contribución a la varianza total de la faceta ítem (Tabla 7.3)
es muy pequeña y probablemente no permitiría que esa faceta fuera objeto de
generalización.
Diseño de dos facetas
En muchas situaciones los diseños incluyen más de una faceta que pueden
estar influenciando la calidad psicométrica de las medidas. La mayor diferen-
cia con los casos de una sola faceta reside en que, además de las MC de cada
una de las facetas, hay que obtener las de todas las interacciones, aumentan-
do considerablemente los cálculos. Lo usual es usar programas diseñados para
la TG o realizar los cálculos con el software disponible para los ANOVA.
Conocidas las MC, se procede a la estimación de las varianzas. En la Tabla 7.4
se dan las ecuaciones para el cálculo de las componentes de la varianza, en el
caso de dos facetas y un diseño cruzado p × i × j (sujetos × ítems × observadores),
siendo np, ni y nj el número de elementos considerados en el diseño en cada
una de las facetas.
Para hallar las componentes de la varianza se disponen los cálculos de forma
similar a como se ha realizado en el diseño de una faceta, teniendo en cuenta que
ahora, además de los efectos principales de cada faceta, hay que tener en cuenta
las nuevas interacciones.
A continuación se da un ejemplo de un estudio de dos facetas, en el que tam-
bién se ha medido la agresividad de cuatro grupos de escolares, incluyendo aho-
ra la influencia de otra posible fuente de variabilidad, los observadores que eva-
lúan la prueba.
Tabla 7.4. Ecuaciones para la estimación de las componentes de la varianza

en un diseño cruzado de dos facetas.
Fuentes de variación Componentes de varianza
MCp − MCpj − MCpi + MCres

Sujetos (p) σ p2 =
ni nj
MCi − MCpi − MC ji + MCres

Ítems (i) σ i2 =
np nj
MC j − MCpj − MC ji + MCres
Observadores (j) σ 2j =
np ni
MCpi − MCres
Sujetos × Ítems σ pi
2
=
nj
MCpj − MCres
Sujetos × observadores σ pj
2
=
ni
MCij − MCres
Ítems × observadores σ ij2 =
np
Residual σ res
2
= MCres
Ejemplo 7.2
Siguiendo el ejemplo de la prueba de agresividad y usando los mismos cua-

tro ítems, supóngase que tres observadores diferentes (A, B y C) son los que
evalúan a los escolares. Los datos medios por grupo obtenidos con un diseño
cruzado de dos facetas se muestran en la Tabla 7.5.
De forma análoga a como se hizo en el ejemplo de una faceta se calculan
(utilizando ahora las ecuaciones dadas en la Tabla 7.4) las varianzas que se dan
en la Tabla 7.6.
En este Ejemplo 7.2 puede observarse que también la componente de varian-
za de la variable objetivo, los sujetos, representa la mayor proporción de la
varianza total (en este caso alrededor del 50%), lo que indica una fuerte señal.
Este resultado es muy positivo pues, como veremos en los estudios D, los coe-
ficientes de generalizabilidad usualmente están dirigidos a evaluar la precisión
Tabla 7.5. Datos en un diseño cruzado de dos facetas.
Observadores
A B C
Sujetos Medias
Ítems Ítems Ítems
F V I H F V I H F V I H
Niñas 2 2 2 2 2 3 3 2 2 2 3 2 2.25
Niños 4 3 3 2 3 3 3 2 3 2 2 3 2.75
Adol. H 4 4 5 3 4 3 3 4 4 3 2 3 3.50
Adol. V 5 5 4 4 5 4 3 3 5 4 3 3 4.00
Nota: F, V, I y H se refieren a los ítems de agresividad (física, verbal, ira y hostilidad). Adol. H y Adol. V
indican adolescentes hembras y varones respectivamente.
Tabla 7.6. Resultados de ANOVA y de generalizabilidad para los datos de la Tabla 7.5.
Fuentes Suma de Medias Componentes

%
de g.l. cuadrados cuadráticas de
Varianza
variación SC MC varianza
Sujetos 3 21.75 7.25 0.551 49.6

Ítems 3 4.417 1.472 0.086 7.7
Observador 2 2.0 1.0 0.044 4.0
Suj. × Ítem 9 5.083 0.565 0.069 6.2
Suj. × Obs. 6 2.5 0.417 0.019 1.7
Item × Obs. 6 2.058 0.343 0.000 0.0
Residual 18 6.617 0.343 0.343 30.8
Total 47 43.250 1.112 100.0
de las estimaciones de las diferencias individuales, es decir, la consistencia

interna de sus puntuaciones a través de los ítems, los observadores, etc. En
la Tabla 7.6 se puede advertir que las contribuciones a la varianza de los ítems
o de los observadores son muy pequeñas en comparación con la proporción
debida a la variable sujetos, que era la variable de interés. Igualmente la mag-
nitud de las interacciones sujetos × ítems y sujetos × observadores son tam-
bién relativamente pequeñas, lo que indica la consistencia de las diferencias
entre los sujetos (los grupos) a través de ítems y de observadores. Por lo tan-
to hay que considerar que, en principio, sólo hay una señal fuerte debida a los
grupos de sujetos, siendo el resto ruido.
Al igual que se ha expuesto al evaluar la consistencia interna en la TCT (Capítu-

lo 5), que haya mucha variabilidad entre los participantes es muy deseable y es una
cuestión relevante en los procesos de medición. Si el interés está centrado en las
diferencias individuales, o sea, que los sujetos sean la faceta de diferenciación (los
grupos, en los ejemplos dados), lo deseable es que el cociente entre σ 2p y la varian-
za total sea un valor alto pues, como se ha indicado anteriormente, ése es el valor
de la señal. Cuando las estrategias que se han elegido para la medición y el dise-
ño son las adecuadas, las puntuaciones de los sujetos son estables a través de las
condiciones (ítems, observadores, ocasiones, etc.). En caso contrario, la debilidad
del estudio se muestra cuando las puntuaciones de los participantes sufren fluc-
tuaciones a través de las condiciones, siendo las de un mismo participante unas
veces altas y otras bajas. El objetivo de los estudios G es detectar estos efectos y
extraer conclusiones.
m7.3. Estudios Dm
Puesto que la información de los estudios G se utiliza para tomar decisiones (admi-
sión en la universidad, selección de personal, etc.), tras los estudios G se realizan
estudios D para optimizar las estrategias que lleven a la toma de decisiones ade-
cuadas. Se puede decir, por lo tanto, que un estudio D es la segunda fase en un
estudio de generalizabilidad.
Comoquiera que las varianzas proporcionan la información de cuanto con-
tribuye cada faceta a la varianza total, el coeficiente de generalizabilidad se pue-
de considerar como un indicador de la intensidad de la señal, pudiéndose consi-
derar que el coeficiente de generalizabilidad responde a la relación:
Coeficiente de generalizabilidad =
señal
señal + ruido
La señal vendrá dada por la componente de la varianza del factor en el que se
está interesado, y el ruido vendrá dado por la varianza residual, a la que se le puede
sumar la de otras componentes, variando ese término ruido en número y tipo de
componentes, dependiendo del diseño y de que la decisión sea relativa o absoluta.
Las decisiones se consideran relativas si se toman relacionando las puntua-
ciones del sujeto con las de los componentes de un grupo o población, consi-
derándolas absolutas cuando se basan en si una puntuación determinada supera
o no una puntuación de corte, o si se puede considerar que pertenece a un deter-

minado grupo o clase de puntuaciones. Por ejemplo, si en un proceso de admi-
sión hay que seleccionar al 25% de los aspirantes que se presentan a la prueba,
entonces se elegirán aquellos sujetos cuyas puntuaciones estén por encima del
tercer cuartil, con independencia de si en términos absolutos esas puntuaciones
son realmente muy altas. Sin embargo, si la elección se hace teniendo sólo en
cuenta que se alcance una determinada puntuación, se dice que se realiza una
decisión absoluta.
Un ejemplo de decisión relativa es cuando una empresa necesita contratar a diez
personas para un puesto con un determinado perfil. A la selección se presentan
100 aspirantes y se contrata a los 10 que obtienen las mejores puntuaciones en las
pruebas. Por el contrario, para que un alumno obtenga la máxima calificación en
una disciplina, su puntuación debe pertenecer a una determinada categoría,
(por ejemplo, se califica con sobresaliente sólo si obtienen más de 9 puntos sobre
10), con independencia de cuantos alumnos de su curso o de su universidad la
hayan alcanzado.
En la TG, diferenciar entre ambos tipos de decisiones tiene importantes impli-
caciones, pues al realizar los estudios D a partir de los coeficientes de generaliza-
bilidad, que son los indicadores de la relación [señal / (señal + ruido)], esta dife-
renciación afecta a cómo se concibe el ruido en cada caso. La diferencia entre
decisiones absolutas y relativas afecta al número de componentes de varianza que
contribuyen al ruido cuando se computan los coeficientes. Comúnmente, las deci-
siones absolutas conllevan la consideración de un mayor número de esas com-
ponentes que las relativas, por lo que los coeficientes de generalizabilidad que se
obtienen en las decisiones relativas suelen ser mayores que en las absolutas.
Coeficientes de generalizabilidad y toma de decisiones
Quienes usan los tests desean maximizar la calidad de sus medidas y, en conse-
cuencia, la de sus predicciones y quieren que todo ello se realice con la mayor efi-
ciencia posible. Por ejemplo, si la faceta de diferenciación son los sujetos y la
varianza atribuible a los ítems σ 2i es muy grande, quiere decir que esta faceta con-
tribuye en gran medida al ruido y el psicómetra debe buscar alguna estrategia para
intentar reducir esa varianza. Por lo tanto, cuando en el estudio G se advierte que
la varianza de alguna o de varias facetas es alta, puede plantearse aumentar el
número de elementos o de niveles de una o de varias facetas, con el fin de asegu-

rarse una mayor precisión en la generalización.
Por ejemplo, se pueden añadir nuevos ítems y alargar el test, que es una estra-
tegia que también se adopta en la TCT para aumentar la fiabilidad. Al igual que
en la TCT parece razonable intentar añadir el menor número posible de ítems,
por economía de recursos (e.g., tiempo y dinero) entre otras razones, aunque bus-
cando la mayor utilidad y eficiencia de la prueba. En la TCT (Apartado 4.3) se ha
demostrado que al aumentar la longitud del test con elementos paralelos, la varian-
za de la puntuación verdadera crece más rápidamente que la del error, disminu-
yéndose así la contribución de este término error a la varianza total observada,
obteniéndose tests más fiables. Desde la TG no se plantea el concepto de parale-
lismo, sino que se analizan las variaciones en el coeficiente de generalizabilidad
al aumentar (o disminuir) el número de niveles de la faceta o de las facetas en cues-
tión, el número de ítems en este caso. Éste es un caso típico en el que se reco-
mienda realizar un estudio D.
Los coeficientes de generalizabilidad toman valores entre cero y uno, indi-
cando el extremo inferior (cero) la ausencia de señal y el valor uno la ausencia de
ruido. Estos conceptos se comparten con los de los coeficientes de fiabilidad en
la TCT donde, si no hay varianza error, toda la varianza observada corresponde
a la de la puntuación verdadera y la fiabilidad es uno. Como se podrá comprobar
más adelante (Ejemplo 7.3), el coeficiente de generalizabilidad es igual al coefi-
ciente α para algunos diseños.
Diseño de una faceta
En estos diseños, expondremos en primer lugar los coeficientes dirigidos a la

toma de decisiones relativas ρ2 y posteriormente los de las absolutas φ 2 .
Decisiones relativas
En un diseño (p × i), si la estrategia que se adopta para tomar decisiones es la

consideración del número de ítems, para optimizar la decisión habrá que hacer
uso de la estimación de las varianzas de cada una de las fuentes de variabilidad,
que se ha realizado en el estudio G. Si se denota por n'i el número de ítems que
se está considerando en un caso particular, la expresión:
σ 2p
ρ2p =
σ 2res
(7.7)
σ 2p +
n′i
es el coeficiente de generalizabilidad relativo, si la faceta de interés son los su-

jetos.
Este coeficiente permite estudiar las variaciones de la señal en relación con la
longitud de la prueba, tomándose las decisiones en concordancia con la infor-
mación que proporciona ese coeficiente, buscando la mejor relación entre el tama-
ño de la prueba y el valor del coeficiente.
Los valores posibles para los coeficientes de generalizabilidad estarán entre
cero y uno, como el coeficiente α, así como otros coeficientes de fiabilidad de la
TCT. Veamos un ejemplo donde se analizan las variaciones de los valores del coe-
ficiente dado en la expresión (7.7) para diferentes n'i, tomándose la decisión en
función del tamaño de ese coeficiente.
Ejemplo 7.3
Con el diseño y los datos de la Tabla 7.2 y con los resultados del estudio G
dados en la Tabla 7.3, tómese una decisión acerca de si se pudiera reducir, o si
se debe aumentar el número de ítems de la prueba.
Para tomar esa decisión, en primer lugar, se hace uso de la ecuación (7.7)
para obtener el coeficiente de generalizabilidad relativa, teniendo en cuenta que
en ese diseño se han utilizado 4 ítems (los niveles o condiciones) de esa face-
ta aleatoria. Por lo tanto:
ρp2 = = = 0.934
1.56 1.56
1.56 +
0.44 1.67
4
El coeficiente es suficientemente elevado y no habría que plantearse aña-

dir nuevos ítems. Por el contrario, la propuesta sería reducir ese número si la
pérdida en precisión no fuese muy elevada. No obstante, también se quiere
valorar la ganancia en precisión que se obtendría si se añadiesen algunos ítems
y cómo se relacionarían estos valores con los que se hubieran obtenido usan-
do los métodos de la TCT.
a) Los valores estimados para el coeficiente, si en lugar de 4 utilizaran 2 o 3

ítems, son respectivamente:
ρp2 = = = 0.876
1.56 1.56
1.56 +
0.44 1.78
2
ρp2 = = = 0.912
1.56 1.56
1.56 +
0.44 1.71
3
por lo que, a la vista de los resultados, puede tomarse la decisión de pres-

cindir de uno de los ítems.
b) Los valores del coeficiente en los casos en que se añadiera uno, dos o cua-
tro ítems a los cuatro iniciales serían 0.946, 0.955 y 0.966 respectivamente.
c) Para comparar estos coeficientes con los que se hubieran obtenido usando
los métodos de la TCT, el coeficiente α se calcula con la ecuación (5.1) uti-
lizando los datos de la Tabla 7.2
4 20 − 6
α= = 0.933
3 20
comprobándose que el valor de ρ p2 coincide con el de α. Si para aumentar la fia-

bilidad del test se dobla la longitud añadiendo elementos paralelos, aplicando
la ecuación (4.4) de Spearman-Brown se obtiene:
R XX′ =
(
2 0.933 ) = 0.966
1+ 0.933
que es el mismo valor que el obtenido para ρ 2p cuando en la ecuación (7.7) se

considera que n'i = 8.
Decisiones absolutas
En el diseño de una faceta descrito anteriormente, el coeficiente de generali-
zabilidad para decisiones absolutas, se obtiene mediante la ecuación:
σ 2p
φ 2p =
σ2 σ2
(7.8)
σ 2p + i + res
n′i n′i
que, como se ha indicado anteriormente, añade más componentes al término rui-

do que en las decisiones relativas.
Ejemplo 7.4
Utilizando el mismo diseño del caso anterior y la información proporciona-

da por su estudio G (Tabla 7.3) para esa estrategia basada en cuatro ítems, se
tiene que el valor del coeficiente de generalizabilidad absoluto es:
φp2 = = 0.926
1.56
1.56 + +
0.06 0.44
4 4
que, como era de esperar, es menor que el coeficiente obtenido para las deci-
siones relativas. Aun así, el coeficiente es bastante elevado, pero si se quiere
aumentar, se puede proceder de manera análoga a lo realizado anteriormente.
Por ejemplo, si la estrategia de mejora de la prueba consiste en aumentar en
dos el número de ítems, el valor esperable es:
φp2 = = 0.949
1.56
1.56 + +
0.06 0.44
6 6
lo que supone un aumento considerable en el coeficiente. Por lo tanto, se debe-

rá valorar la pertinencia y los costes de añadir dos ítems, ya que supone multi-
plicar por 1.5 la longitud de esa prueba.
Diseño de dos facetas
Al igual que en el caso de una faceta, se exponen los coeficientes para las deci-
siones relativas y a continuación los de las absolutas.
Decisiones relativas
Los coeficientes de generalizabilidad en cualquier diseño, también en los

multifaceta, se pueden considerar como la razón entre la señal y la señal más el
ruido. En el caso de un diseño de dos facetas en el que la faceta de diferencia-

ción o faceta objetivo sean los sujetos y las de generalización sean los ítems y
los observadores, el coeficiente de generalizabilidad relativo viene dado por la
ecuación:
σ 2p
ρ2p =
σ 2pi σ pj
(7.9)
σ2
σ 2p + + + res
2
n′i n′j n′i n′j
siendo n'i el número de ítems y n'j el de observadores que se han considerado en

el estudio, bajo los supuestos de que esos niveles, o formas, en cada una de esas
dos facetas son muestras aleatorias de sus respectivos universos.
Conocidas las varianzas estimadas se pueden estudiar las variaciones del coe-
ficiente de generalizabilidad, usando la ecuación (7.9), de forma similar a como
se ha hecho en el caso de una faceta. Sin embargo, con este diseño se pueden
obtener estimaciones del coeficiente variando tanto el número de ítems como el
de observadores.
Decisiones absolutas
Para la toma de decisiones absolutas, en el caso de dos facetas en el ejemplo

que se viene considerando (p × i × j), el coeficiente viene dado por la expresión:
σ 2p
φ 2p =
σ 2i σ j σ pi σ pj σ ij σ res
(7.10)
σ 2p + + + + + +
2 2 2 2 2
n′i n′j n′i n′j n′i n′j n′i n′j
que contiene más términos de varianza en el denominador que el coeficiente diri-

gido a la toma de decisiones relativas. Concretamente aquí se incluyen los com-
ponentes de varianza para el efecto del ítem, del observador, y el de la interacción
ítem × observador, que no están incluidos en el coeficiente dado en (7.9).
Ejemplo 7.5
Con los datos calculados en el estudio G del Ejemplo 7.2 (Tabla 7.6) se pue-
den plantear al menos dos cuestiones:
a) Si hay que bajar los costes reduciendo el número de ítems y/o el de

observadores, ¿cuánto, teóricamente, se pierde en precisión en uno y otro
caso?
b) ¿Cuál sería la ganancia en precisión que teóricamente se podría obtener si
se aumenta el número de ítems y/o el de observadores?
Lo primero que hay que saber es si el coeficiente se va a utilizar para la toma

de decisiones absolutas o relativas. En cualquier caso, calculémoslos para
ambas decisiones con los datos obtenidos en el estudio G con la prueba que
se ha administrado.
Haciendo uso de la ecuación (7.9) se calcula el valor del coeficiente de gene-
ralizabilidad para la toma de decisiones relativas:
ρp2 = = = 0.89
0.551 0.551
0.551 + + +
0.086 0.044 0.343 0.616
4 3 12
Para la toma de decisiones absolutas, sustituyendo los correspondientes

valores en (7.10), se obtiene que el valor del coeficiente es:
φp2 = = 0.86
0.551
0.551+ + + + + +
0.086 0.044 0.069 0.019 0.00 0.343
4 3 4 3 12 12
Para dar respuesta a las cuestiones que se han planteado, se pueden hacer
estimaciones teóricas manipulando el número de ítems y el de observadores.
Algunos de los valores de los coeficientes de generalizabilidad calculados para
la toma de decisiones absolutas y relativas, considerando diferentes números
de ítems y de observadores, se dan en la Tabla 7.7
El aumento del número de niveles en una o en ambas facetas aumenta el
valor de los coeficientes, tanto si son decisiones absolutas como relativas. Como
también se puede observar en el ejemplo de la Tabla 7.7, los coeficientes para
las decisiones relativas son mayores que para las absolutas. Se deberá adop-
tar la combinación que optimice las decisiones, teniendo siempre en cuenta que
usualmente el error que afecta a las decisiones absolutas es mayor que el que
afecta al de las relativas y que, por ello, son las decisiones relativas las que son
más generalizables.
Tabla 7.7. Coeficientes estimados utilizando componentes de varianza

para distintos niveles de las facetas, ítems y observadores.
Número de niveles Coeficientes para la toma de decisiones
n'i n'j ρ2p φ 2p
1 1 0.54 0.50
2 1 0.68 0.64
3 1 0.75 0.71
4 1 0.78 0.75
4 2 0.86 0.83
4 3 0.89 0.86
4 4 0.91 0.88
5 3 0.91 0.88
6 2 0.89 0.87
6 3 0.92 0.89
m7.4. Diseños anidados versus diseños cruzadosm
En todos los desarrollos anteriores se han supuesto diseños cruzados, esto es, que
todos los sujetos se cruzan con todas las condiciones. En el caso en el que se tuvie-
se una muestra de 100 sujetos, 12 ítems y 2 observadores (evaluadores), el diseño
cruzado (p × i × j) proporcionaría un total de 100 × 12 × 2 = 2400 observaciones.
Sin embargo, si por razones de economía se decide dividir la muestra de sujetos
entre los observadores, asignándolos de forma aleatoria y de manera que cada uno
de los observadores se ocupe de evaluar sólo a la mitad de los sujetos, entonces se
tiene un diseño anidado [(p : j) × i], que daría como resultado 2 (50 × 12) = 1200
observaciones. Del mismo modo, se podría haber decidido adoptar otra estrate-
gia, por ejemplo, dividir los ítems entre los evaluadores de manera que uno de ellos
aplicará 6 ítems a todos los sujetos y el otro los otros seis. En este caso, se tiene un
diseño anidado [p × (i : j)], que produce también 1200 observaciones.
Para los análisis hay que tener en cuenta, por lo tanto, que los sujetos reciben
sólo algunos de los niveles de las facetas de generalización. En este caso, no todas
las combinaciones de ítems y observadores están representadas en el diseño. En
general, se tiene un diseño anidado cuando no está incluida en el estudio toda
posible combinación de dos facetas.
El uso de estos diseños tiene importantes implicaciones. Por ejemplo, si en

los estudios G de una faceta (sujetos e ítems), a cada sujeto se le administra par-
te (una muestra aleatoria) de los ítems disponibles, entonces, los estimadores de
la varianza estarán afectados por esta restricción, como también sucederá en los
diseños multifaceta. En el diseño cruzado de dos facetas que se presenta en la
Tabla 7.4 se pueden estimar hasta un total de siete efectos, tres de ellos corres-
ponden a los efectos principales de las facetas (sujetos, ítems y observadores),
otros tres a los pares de interacciones y el último al residual. Sin embargo, si los
ítems están anidados en observadores, entonces no se pueden estimar más que
un total de cinco efectos. La razón es que no se obtienen las varianzas estimadas
para σ 2i y para σ 2pi , ya que al estar repartidos los ítems entre los observadores, no
pueden detectarse de forma separada esos efectos.
Las exposiciones más amplias y detalladas de cómo llevar a cabo los análisis
con estos diseños escapan a los objetivos de esta obra, aunque el lector interesa-
do puede encontrarlas en múltiples fuentes y existen programas de software libre
(e.g., MGENOVA) que son específicos para el tratamiento de la TG. Solamente
añadir que, aunque la primera fase del estudio, el estudio G, se haya realizado con
un diseño cruzado, esto no impide que el psicólogo decida optar por un diseño
anidado en los posteriores estudios D. En ese caso, deberá tener en cuenta las
diferencias en los componentes de la varianza entre uno y otro diseño.
Finalmente, reiterar que los estudios TG admiten una gran variedad de dise-
ños experimentales más o menos complejos y que, para la elección del diseño ade-
cuado en cada caso, remitimos al lector a la literatura sobre diseños experimen-
tales de la que hay textos especializados y que también es muy abundante en los
contextos de la estadística aplicada. Los análisis se pueden hacer con software
específico para la TG u obteniendo las componentes de varianza con ayuda de
paquetes estadísticos (e.g., SPSS) que incluyen análisis de la varianza para dife-
rentes diseños.
Puntos clave
3 La TG considera que las mediciones pueden estar afectadas por múltiples fuen-
tes de error, en lugar de un término único como se considera en el modelo de
Spearman.
3 La TG amplía el concepto de fiabilidad de la TCT al considerar que diferentes

facetas pueden afectar a las mediciones y, por lo tanto, a sus cualidades psi-
cométricas.
3 Los análisis de los efectos de las facetas se basan en los procedimientos del
análisis de la varianza, aunque la TG proporciona las herramientas para la esti-
mación de los efectos de cada faceta, dando las ecuaciones para la obtención
de sus varianzas estimadas.
3 Los sujetos, las condiciones o niveles de las facetas que entran en el estudio, son
muestras aleatorias de sus respectivas poblaciones o universos. Sin embargo, cuan-
do el estudio incluye todos los niveles de una determinada faceta, o no se está inte-
resado en su generalización, esa faceta pasa a ser una faceta fija.
3 Las condiciones son experimentalmente independientes.
3 A los estudios que llevan a la estimación de los efectos de las facetas se les lla-
ma estudios de generalización o estudios G.
3 Los resultados de los estudios G se pueden utilizar para la toma de decisiones,
generando los denominados estudios D.
3 Las decisiones en los estudios D se basan en los valores de los coeficientes de
generalizabilidad, que se definen como el cociente entre la señal y la señal más
el ruido.
3 Los coeficientes de generalizabilidad son diferentes cuando se trata de deci-
siones absolutas o de decisiones relativas, pues difieren en las componentes
del ruido.
3 El coeficiente de generalizabilidad (precisión) se puede aumentar o disminuir
variando el número de niveles de las facetas.
3 Una estrategia para aumentar la precisión, análoga a la que se adopta en la TCT,
puede ser aumentar el número de ítems.
3 El tipo de diseño (cruzado, anidado, etc.), el número de facetas y su considera-
ción de fijas o aleatorias tiene implicaciones en los cálculos y en las interpreta-
ciones, tanto en los estudios G como en los D.
Actividades
r Enuncie tres ítems que midan la agresividad física en niños (puede tomar-
los de Santisteban y Alvarado, 2009). Obtenga las respuestas a estos ítems
de 10 niños en dos ocasiones distintas y realice estudios G, considerando
que los ítems y las ocasiones son las facetas de generalización.
r A la vista de los datos que se dan en el Ejemplo 7.3 y ya que la prueba pro-
puesta es muy corta, ¿cree que la mejor opción sería aumentar su longitud
hasta alcanzar la máxima precisión? ¿Qué supondría esa opción?¿Qué acon-

sejaría que se hiciera? ¿Por qué?
r Compruebe que, en el caso anterior, el valor que se obtiene para el coefi-
ciente de generalizabilidad cuando se aumenta el número de ítems es el
mismo que si al test inicial se aplica la ecuación de Spearman-Brown.
r En el Ejemplo 7.5, combine distintas posibilidades, además de las dadas en
la Tabla 7.7, y discuta cuáles serían las mejores opciones, tanto para la toma
de decisiones relativas como absolutas.
r Explicite con un ejemplo concreto las implicaciones que en un sistema de
selección tendrían las opciones elegidas en la actividad anterior.
r En un diseño cruzado (p × i × j) = 200 × 20 × 6 plantee distintas opciones
para pasar a diseños anidados. Indique el número de observaciones que se
obtendrían en cada caso.
r Genere una tabla de datos ficticios para algunos de los diseños anteriores,
y con el software adecuado haga estudios D para los diferentes supuestos.
La validez
¿Qué es la validez? 8
El concepto de validez ha ido evolucionando a lo largo de casi un siglo,
habiéndose propuesto varias definiciones de validez en el transcurso de esa
evolución. La definición más básica de validez es que un estudio es válido
cuando mide aquello que pretende medir. Por lo tanto, en psicometría, la vali-
dez es el grado en que el test (test, cuestionario o inventario) mide aquello que se supone
que está midiendo. Esta forma de definir la validez es la más común debido a
su claridad y simplicidad, pero es una simplificación de lo que actualmente
se entiende por validez, que es el grado en que la evidencia y la teoría dan
soporte a las interpretaciones que se hacen de las puntuaciones de los tests
en relación con los propósitos de uso para los que esos tests se han construi-
do. Esta definición más compleja apunta a que hay varios tipos de validez.
ã El concepto de validez y su evolución.
ã Diferentes significados y denominaciones de la validez.
ã Las distintas acepciones que se han dado a la validez de los tests,
respondiendo a los distintos propósitos para los que los tests se han
utilizado.
ã Las exigencias de validez no son exclusivas de los instrumentos de
medición en psicología, sino que se extienden al ámbito de todas las
ciencias.
m8.1. El concepto de validezm
En psicometría se suele decir que un instrumento de medida (test, cuestionario, inven-

tario, etc.) tiene validez cuando mide lo que pretende medir. A su vez, las medidas de lo
que se pretende medir, no son mediciones directas sino que casi siempre se infieren
desde otras medidas, por lo que también habrá que plantearse cuál es la validez de
esas inferencias. Por lo tanto, parece que la validez es uno de los requisitos que se
deben exigir que cumplan tanto las medidas como los instrumentos de medida.
La evaluación de la validez de los instrumentos de medida psicométricos ha
sido siempre un aspecto considerado primordial y requerido para su uso. No
obstante, la concepción actual de la validez ya no responde solamente a esa orien-
tación puramente pragmática y empirista que caracterizó a la psicometría en la
primera mitad del siglo XX. El concepto de validez ha evolucionado como con-
secuencia de los cambios conceptuales que se han ido produciendo en el ámbi-
to de la psicometría, ampliándose este concepto a otros campos de la psicología
en los que es necesaria la medición, e incorporando nuevas técnicas. En la actua-
lidad los principios de la validez no sólo se aplican a las inferencias que se hacen
usando las puntuaciones derivadas del test, sino que también incluyen a todas
aquellas que se han ido generando en pasos intermedios, pues también esas pun-
tuaciones deben ser consistentes con las aptitudes, las conductas o cualquier tipo
de atributos que sean objeto de evaluación. En consecuencia, no solamente el
término validez, sino también el término puntuación hay que considerarlo aquí
en un sentido amplio, pues incluye el resultado de cualquier asignación y/o codi-
ficación que se haga de las observaciones, que tienen que ser consistentes con la
realización del test, el cuestionario u otra forma de evaluación, así como con sus
posteriores interpretaciones. Por todo ello, la validación ya no se considera que
es la etapa final del proceso de construcción del instrumento de medida, sino
que es un aspecto fundamental que tiene una fuerte influencia en todo el pro-
ceso. Ha sido Messick (1989/1993, 1995) quien probablemente más ha contri-
buido a que se abran paso estas propuestas, defendiendo un concepto unifica-
do de validez que integrara a todas las posibles fuentes de información que ayuden
a la validación, incluyendo desde las puntuaciones hasta las consecuencias socia-
les del uso de los tests, consiguiendo así que se abandone la idea más primitiva
de que primero se construye el test, procurando que sea muy fiable, para poste-
riormente, en la etapa final, someterlo a estudios de validación.
Al exponer las cualidades psicométricas de un test, las medidas más significati-
vas, además de la precisión, son las que se refieren a su validez, que pueden ser varias,
pues en la validez se pueden considerar diferentes aspectos. Además, los estudios de
validez no tienen restricciones en cuanto al modelo en el que se ha basado la cons-
trucción de la prueba, lo que no sucede con los estudios de fiabilidad, en su acep-
Capítulo 8. Validez: Concepto y tipos 211
ción de correlación entre puntuación verdadera y observada, que son exlusivos del
modelo lineal clásico. Una prueba es válida si cumple los objetivos para los que se
construyó, con independencia del tipo de modelo formal que se adopte, ya sean linea-
les (TCT), modelos basados en distribuciones probabilísticas como la binomial (Lord,
1965), o la de Poisson (Rasch, 1960) cuyo uso actualmente es poco frecuente, u otros
modelos no lineales ampliamente utilizados, como los de la TRI (Capítulos 11 y 12),
así como otros cualesquiera que se propongan. No se debe caer en la presunción de
construir un modelo cuya cualidad fundamental sea la estética formal a través de sus
formulaciones matemáticas o computacionales, incluso de sus resultados. Hay que
validar el modelo dándole legitimidad. Los tests de inteligencia o de personalidad
serán válidos si generan puntuaciones que permitan discriminar entre sujetos que
varían en inteligencia, o que reflejan los rasgos más significativos de su personalidad.
Un test dirigido a la selección de personal para la realización de una tarea determi-
nada será válido si sus puntuaciones están en estrecha relación con aquellas aptitu-
des o habilidades fundamentales que posibilitan la buena ejecución de esa tarea, inclui-
da la adaptación del sujeto al medio, pero esto no es más que un ejemplo de uno de
los aspectos de la validez. Trataremos algunos de esos aspectos y los métodos más
usuales para valorarlos en el contexto de la teoría de tests, aunque las limitaciones
que impone un texto de estas características no nos permiten abordar el tema en
toda su extensión, dimensiones y profundidad.
m8.2. Tipos de validezm
En la literatura han venido apareciendo desde principios del siglo XX diversos

tipos y denominaciones de la validez, ligados a diferentes concepciones de la vali-
dez y al uso de los tests. En el Cuadro 8.1 se hace una breve reseña histórica, que
ilustra su evolución hasta principios de los años cincuenta del siglo XX.
Cuadro 8.1
En los albores del siglo XX, en sus intentos por generar los mejores tests posi-
bles para evaluar la aptitudes intelectivas, Binet y Simon (1908) generaron
un procedimiento para elegir los mejores ítems utilizando el criterio de dife-
renciación por edad, basándose en las teorías de la psicología evolutiva. Esto
constituyó uno de los primeros intentos de dar validez a esas pruebas. Pos-
teriormente, la validez se evaluó mediante el coeficiente de correlación entre
las medidas que proporciona el test (predictoras) y las de otra variable que
sirve como criterio de si ese test mide lo que se pretende (Hull, 1928; Gullik-
sen, 1950a). Los errores de medida, que afectan tanto a las variables pre-
dictoras como a las que miden el criterio, hacen que el coeficiente de corre-
lación entre ellas sea menor del que resultaría si esas variables estuvieran
exentas de errores. Este problema lo abordó Cureton (1950), incluyendo el
concepto de atenuación en sus definiciones y fórmulas de la validez. Cure-
ton además distinguía entre lo que es la validez del test, su poder predicti-
vo y lo que denominó relevancia, que es la correlación entre las puntuacio-
nes verdaderas, tanto del predictor como del criterio. Las propuestas de
Cureton no tuvieron eco en la comunidad científica, que aceptó casi unáni-
memente la definición de coeficiente de validez y las consideraciones de
Gulliksen (1950a), quien ligaba la validez de un test con la predicción de un
criterio específico. Esto implica que un test tendrá tantos coeficientes de vali-
dez como usos se hagan de él. El que un test sólo se puede validar como
medida de un determinado criterio fue el pensamiento dominante de la épo-
ca y autores como Anastasi (1950) afirmaban también que decir que median-
te un test se puede medir algo distinto a su criterio es pura especulación.
Todo ello es fiel reflejo del positivismo lógico, que es el marco filosófico en
el que se desarrolló la psicología de la época. Uno de los pocos que disin-
tieron fue Rulon (1946), quien defendía que los tests de rendimiento acadé-
mico en diferentes materias no requieren de un criterio externo para su vali-
dación, pues ellos mismos constituyen su propio criterio, ya que la revisión
del test se hace por expertos en la materia, mostrándose así la validez de su
contenido. Por su parte, Cronbach (1949/1990) distinguía entre validez lógi-
ca (qué es lo que mide el test) y la validez empírica (cuál es su relación con
un criterio), discutiendo los problemas de la validez de contenido en los tests
educativos.
A lo largo de varias décadas, el pensamiento predominante fue, por lo
tanto, que la validación consiste en comprobar la capacidad del test para
predecir un determinado criterio de conducta, ya sea ésta observable en el
futuro, o en el momento, acuñándose los términos de validez predictiva y de
validez concurrente para indicar si las medidas del test predictor y del test
criterio se han tomado o no en el mismo momento. No obstante, durante esa
época de mediados del siglo XX, aparecieron múltiples denominaciones para
designar a la validez, tomadas de las diferentes metodologías estadísticas
y/o de la aplicación de técnicas de análisis de los ítems que se iban incor-
porando a la psicometría. Guilford (1946) introdujo el concepto de validez
factorial, que proporciona la información de qué es lo que realmente mide el
test en términos de factores y pesos, anticipando una de las técnicas actua-
les más relevantes para la validación del constructo. Gulliksen (1950b) intro-
dujo el concepto de validez intrínseca, que es muy similar al de validez fac-
torial, en la que los factores relevantes se detectan estudiando los patrones
de covarianza. Por su parte, Anastasi (1954) dividía la validez en aparente,
de contenido, factorial y empírica.
A mediados de los años cincuenta del siglo XX tres asociaciones norteamerica-

nas muy implicadas en la generación y uso de los tests intentaron unificar criterios.
La American Psychological Association (APA), la American Educational Research
Association (AERA) y el National Council on Measurement in Education (NCME),
con la colaboración activa de psicómetras como Cronbach y Meehl, publicaron las
recomendaciones técnicas para la construcción de tests psicológicos y de otras téc-
nicas diagnósticas. En estas recomendaciones (APA, 1954; Cronbach y Meehl, 1955)
se proponían cuatro tipos de validez: concurrente, predictiva, de contenido y de constructo,
donde se daba el mayor peso a la validez empírica (concurrente y predictiva), defen-
diéndose que el test debía validarse en función del uso que se le pretendía dar. No
obstante, ya se apuntaba también hacia un nuevo tipo de validez, la validez de cons-
tructo, como medida de un atributo o cualidad, aunque esa validación se concebía
como algo excepcional que sólo se debía usar en aquellos estudios que requiriesen
el desarrollo de tests en los que las técnicas de validación convencionales no fueran
apropiadas, por ejemplo, cuando se necesitase interpretar las puntuaciones del test
que no fuese posible definir de otro modo, o que no hubiese criterios o universos
de contenido que pudieran aceptarse como adecuados para definir la cualidad que
se iba a medir, etc. Otro paso importante hacia el futuro que se daba en estas reco-
mendaciones fue indicar que la validación no es responsabilidad solamente del edi-
tor del test, sino que también lo es de aquellos expertos que lo utilicen.
Las revisiones a las recomendaciones técnicas que se hicieron en los años 1966
y 1974 pasaron a llamarse Normas (Standards) para tests educativos y psicológicos.
Se introdujo entonces en esas normas el concepto de la validez relativa a un crite-
rio, que incluye la validez concurrente y la predictiva, dando lugar a que se expli-
citen los tres tipos de validez ya clásicos: contenido, criterio y constructo, aunque es la
validez de constructo la que con el paso del tiempo se ha considerado que es
la que incluye a las distintas facetas y fuentes de validación. Loevinger (1957)
ya había adelantado la idea de que toda la validación es de constructo, pero no es
hasta la edición de las Normas de 1985 cuando se hace explícita una concepción
unitaria de la validez, como consecuencia de las interrelaciones que se establecen
entre diferentes mediciones del rasgo o del comportamiento de interés y las pun-
tuaciones en el test que se pretende validar, considerándose entonces los tipos de
validez mencionados en las ediciones anteriores como diferentes evidencias o fuen-
tes de validez. No obstante, existe en la redacción de esas normas una cierta ambi-
güedad, ya que se elaboran conjuntamente entre psicólogos y educadores, entre
quienes se concibe y se desarrolla de forma desigual esta concepción unitaria de
la validez. Estas deficiencias las pone de manifiesto Messick (1989/1993, 1995),
quien, como se ha mencionado en el apartado anterior, defiende la validez como
un concepto único, integrando en el proceso todas las posibles fuentes que sirvan
al objetivo de la validación, incluyendo todos sus aspectos. En las Normas de 1999
(AERA, APA y NCME, 1999), se define la validez como una evaluación global del
grado en el que la teoría y la evidencia apoyan las interpretaciones de las puntua-
ciones que se hacen en cada uso específico de los tests, poniéndose así de mani-
fiesto la relevancia de la validez en el desarrollo y en la evaluación de los tests. Este
cambio se debe a diversos psicómetras y al propio Cronbach (1975, 1989), quien
revisa sus planteamientos anteriores. Sin embargo, es a Embretson (1983) a quien
se debe sin duda la mayor y más relevante aportación a lo que actualmente signi-
fica la validación de constructo en la construcción de tests y en la investigación
psicológica, poniendo de manifiesto la relevancia del test como instrumento de
medición de las diferencias individuales. No bastará con establecer las redes de
relaciones entre conceptos, sino que será necesario, como requisito previo, que el
constructo esté adecuadamente representado. Es decir, en la validación del cons-
tructo se debe establecer tanto la representación del constructo como la perspec-
tiva nomotética, basada en las características de la red de relaciones entre el test y
otras medidas del constructo (Alvarado y Santisteban, 2006).
Puede decirse que actualmente en psicología y educación hay consenso en cuan-
to a defender un concepto unificado de la validez. Se considera que el concepto
central es la validez de constructo con el que se conectan todas las demás eviden-
cias de la validez: las de contenido, las empíricas y teóricas de lo apropiado de las
interpretaciones, las de las puntuaciones en relación con el dominio y la estructura
del constructo, las del contexto de evaluación, las del significado de las puntuacio-
nes, así como las de las consecuencias que se deriven de la aplicación del test. En la
Figura 8.1 se presenta un diagrama que resume los cinco tipos de validez que se
explicitan en las Normas vigentes (AERA, APA y NCME, 1999). Así, el problema
de la validez de los tests y su estudio se extiende desde la teoría que apoya el cons-
tructo objeto de medición, hasta las consecuencias derivadas de la aplicación del
test, incluidas las consecuencias adversas que se pueden derivar de la debilidad o de
la falta de validez de la prueba, ya sea porque la prueba está contaminada con ítems
irrelevantes, o porque no se han incluido en ella todos los aspectos relevantes del
constructo, o por otras causas. Aun cuando la enumeración de los diferentes aspec-
tos de la validez parece ilimitada y no todos están presentes en el proceso de vali-
dación, se ha abierto paso un concepto unificado de la validez y que en ese proce-
so comparten responsabilidad tanto los que construyen las pruebas, que tienen que
dar indicios suficientes de la buena o fuerte validez de la prueba, como los usuarios,
que tienen que justificar la pertinencia de su uso en esa aplicación concreta.
Según estas normas, la actual perspectiva, no exenta de críticas, considera que
el proceso de evaluación consiste en obtener evidencias suficientes que apoyen
las interpretaciones que se hacen de las puntuaciones del test, prestando especial
atención al contenido de los tests, a su estructura interna, a los procesos psicoló-
gicos que intervienen en los procesos para dar respuesta a los tests, a las asocia-
ciones entre las puntuaciones en el test con las de otras variables y, como se ha
mencionado, a las consecuencias del uso de los tests, que representan uno de los
aspectos más controvertidos.
Figura 8.1. Los cinco tipos de validez que se explicitan en las Normas de 1999.
El concepto unitario de validez que reflejan las Normas de 1999 integra la

evaluación de distintas facetas que se tratan con más detalle en los siguientes
apartados.
m8.3. Validez en relación con el contenidom
La validez de contenido hace referencia a la relevancia y al alcance del conteni-

do. Imagínese que está poniendo mucho esfuerzo y tiempo en el estudio de la
disciplina de psicometría, debido a diversas razones, una porque los conceptos
que incluye le parecen de interés, otra porque los considera básicos para enten-
der muchos otros en el ámbito psicológico y porque quisiera dedicarse en el futu-
ro a abordar problemas de evaluación psicológica. En consecuencia, le está dedi-
cando mucho tiempo y esfuerzo a su estudio y tiene mucho interés en obtener
una buena calificación en el examen final, al que va razonablemente confiado,
pues aunque hay temas y aspectos que conoce mejor que otros, considera que
tiene un buen nivel general de conocimientos. Realizado ese examen, no está
satisfecho y la calificación que obtiene es algo más que mediocre. ¿Por qué?, se
pregunta. Sus condiciones personales eran excelentes para rendir en ese examen.
¿Qué ha sucedido? Nada extraño, le comenta un compañero, quien justifica su
no extrañeza diciendo “acabo de suspender porque de los quince temas de los
que consta el temario, me han preguntado el único que no me sabía”. La razón
es que el examen carecía de la validez necesaria. El examen cuyo objetivo era
evaluar los conocimientos adquiridos en el curso introductorio de psicometría,
se ha centrado solamente en uno de los quince temas del programa y en un ejer-
cicio práctico para evaluar el dominio en la ejecución de un programa compu-
tacional para la estimación de los parámetros de modelos psicométricos. Es decir,
parece ser que el problema fue que el examen carecía de la suficiente validez de
contenido. Parece razonable pensar, y era de esperar, que si lo que se iba a eva-
luar eran los conocimientos básicos de psicometría, las cuestiones deberían
haber estado dirigidas a detectar si el alumno había adquirido el nivel de cono-
cimiento adecuado de esos conceptos básicos, si sabía interpretarlos correcta-
mente y si conocía los procedimientos formales y las técnicas para aplicarlos. Lo
que se espera de este tipo de pruebas de evaluación es que no sean parciales (ses-
gadas) en cuanto a los contenidos, es decir, que no primen caprichosamente unos
en favor de otros y que además se centren en lo fundamental, en lo más relevante
y no en lo colateral, irrelevante o anecdótico. Es decir, se debe revisar la validez

del contenido de la prueba.
Los procedimientos para la validación del contenido consisten fundamen-
talmente:
a) En el examen sistemático del contenido de la prueba para determinar si

cubre todos esos contenidos, es decir, que es una muestra representativa
del dominio de conducta que se pretende medir.
b) En el análisis de la relevancia de esos contenidos, pues deben incluir todo
lo que es esencial o relevante, sin perjuicio de que también se incluyan cues-
tiones colaterales o irrelevantes, pero sabiendo que lo son y tratándolas
como tales. Por lo tanto, en la validación del contenido se trata de analizar
tanto la representación como la relevancia del contenido (Anastasi y Urbi-
na, 1997; Santisteban, 1990a).
Para establecer la validez de contenido se requiere un análisis sistemático del

dominio o área de conducta. Este análisis deben realizarlo expertos que consta-
ten que los ítems del test cubren todos los aspectos importantes y que todos y
cada uno de esos aspectos están debidamente representados, incluyendo la pro-
porción correcta de ítems. La validez del contenido no se aprecia mediante una
lectura más o menos detallada del test, que incluso puede hacerla cualquier par-
ticipante en la prueba, concluyendo que es válido, pues esto sería sólo un juicio
sobre la validez aparente del test. Establecer la validez del contenido exige conocer
muy bien, en amplitud y en profundidad, el constructo del que se quiera realizar
la medición, así como las conexiones con sus manifestaciones observables. De
este modo, un experto, y sólo un experto, podrá concluir si la prueba tiene vali-
dez de contenido porque incluye todos los aspectos relevantes.
La validez de contenido se introduce desde el inicio del proceso de construc-
ción de la prueba mediante la elección de los ítems adecuados. Tras un proceso
previo de revisión de la literatura pertinente, se establecen las especificaciones de
la prueba que han de seguir los especialistas a los que se encomienda la redacción
de los ítems, precisando las áreas o temas de contenido, los objetivos o procesos
que han de evaluarse y la importancia relativa de temas y procesos individuales.
Las especificaciones finales han de incluir el número de ítems de cada tipo que
hay que preparar para cada área de contenido.
Validez de contenido versus validez aparente
La validez aparente está muy relacionada con la validez de contenido, pero no

pueden ni deben confundirse. La validez aparente no es una validez desde un pun-
to de vista técnico, pues es el grado en que la medición parece estar relacionada
con un determinado constructo, según el juicio emitido por una persona no exper-
ta, que en muchos casos suele ser la persona que aplica el test o quien lo cumpli-
menta. Esto es, la validez aparente no aporta pruebas de lo que se mide, sino de
lo que parece que se mide, por ello hay quien la ha llamado validez de sillón, pues
se establece cuando una persona examina el test y concluye que mide o no el ras-
go de interés, sin más comprobaciones. Sin embargo, la validez de contenido es
el grado en que los contenidos de una medida reflejan fielmente los del dominio
del constructo que se está evaluando, y quienes deciden sobre ello no son inex-
pertos o aficionados, sino verdaderos expertos en el campo, tanto en la vertien-
te teórica como en la empírica. Ahora bien, aunque la validez aparente no suele
ser crucial cuando se considera la validez del test desde un punto de vista psico-
métrico, puede tener importantes implicaciones cuando se usa ese test. Por ejem-
plo, muchas veces el no tenerla puede provocar una escasa cooperación de las
personas que cumplimentan la prueba, por lo que es una estrategia que se debe
considerar en ciertos tests, como los que valoran rendimiento.
Por todo ello, las evidencias de la validez de contenido son las que hay que
considerar en la validación del constructo, sin olvidar que en determinadas situa-
ciones la validez aparente puede ser necesaria y tener importantes implicaciones
cuando se usan los tests.
m8.4. Asociaciones con otras variables: Evidencias de validezm

convergente y discriminantem
La validez convergente y discriminante surge cuando se establecen las relacio-

nes entre las puntuaciones del test con las de otras variables externas que las jus-
tifiquen, es decir, que evidencien su validez. Esas variables externas pueden
incluir medidas de algún criterio que se espera que prediga el test, o relaciones
con otros tests que se supone que miden el mismo constructo, o con los que
estén inversamente relacionados o, incluso, con algún otro con el que no está
relacionado.
Las evidencias de validez convergente y discriminante reflejan el grado en que

las puntuaciones de un test muestran patrones de asociación con otras variables, que
se puedan considerar congruentes. Las evidencias de validez convergente se obtie-
nen estableciendo relaciones entre medidas de constructos similares y las de validez
discriminante se obtienen cuando esas relaciones se establecen con medidas de cons-
tructos diferentes. La red nomológica que acompaña a un constructo sugiere que
una medida de ese constructo debe estar fuertemente asociada con algunas medidas
de otros constructos y muy débilmente relacionada con las de otros.
Se han propuesto diferentes métodos para evaluar la validez convergente y
discriminante. Las relaciones entre diferentes métodos de medida pueden ayudar
a elaborar y a comprender mejor el significado e interpretación de la puntuación.
En la literatura se proponen métodos correlacionales, entre ellos:
a) Los que están focalizados en las asociaciones entre las puntuaciones del
test y un número muy pequeño de variables específicas, que son críticas
para su evaluación. Es decir, el estudio de la validez se centra en una o en
muy pocas variables que se consideran el criterio más relevante. Por ejem-
plo, para publicitar las cualidades psicométricas del test SAT (Scholastic
Assesment Test) se hacen referencias a su validez relacionándola solamente
con las predicciones en el éxito académico. En el estudio mencionado sobre
el SAT, la validez está basada en las correlaciones entre las puntuaciones
en ese test y un conjunto específico de variables criterio relacionadas con
el rendimiento académico, y se argumenta que es un estudio realizado en
diversos centros, con la participación de ciento diez mil estudiantes (Colle-
ge Board, 2006). En realidad, para establecer este tipo de validación no es
necesario tener grandes tamaños de muestra, pues estos estudios de vali-
dez son adecuados siempre y cuando se puedan generalizar.
b) A veces el número de variables de la red nomológica no se puede restrin-
gir a un número muy pequeño de ellas. Por ejemplo, cuando la red nomo-
lógica incluya una amplia variedad de variables de otros constructos con
diferentes niveles de asociación con el que se estudia. En esos casos, se sue-
len establecer las correlaciones entre todas las variables, obteniéndose una
matriz de correlaciones entre los indicadores del constructo que se estudia
y las medidas con las que se considera que pueden estar relacionadas. Las
decisiones acerca de la validez se toman examinando la cuantía e interpre-
tando las correlaciones desde el punto de vista conceptual que los autores
del test tienen acerca del constructo objeto de la medición. Aunque los psi-
cómetras se enfrentan con un gran número de datos y no hay un criterio
claro de selección y discernimiento en cuanto a los límites de lo que se pue-
de o no considerar para establecer la validez, esta aproximación a la eva-
luación de la validez es bastante común.
c) Otra aproximación es la que utiliza las matrices multimétodo-multirrasgo, en
las que se establecen las correlaciones entre dos o más rasgos medidos por
dos o más métodos. Las medidas e interpretaciones de esta aproximación
propuesta por Campbell y Fiske (1959) se exponen en el siguiente capítulo.
d) La cuantificación de la validez de constructo (QCV), que es un método
más reciente que los anteriores (Westen y Rosenthal, 2003), se basa en que
el psicómetra debe cuantificar el grado en que se ajustan sus predicciones
teóricas a un conjunto de correlaciones convergentes y discriminantes y
cómo se comportan al respecto los datos. El procedimiento QCV se pue-
de resumir en tres pasos. En el primero, el psicómetra hace predicciones
claras y concretas sobre los patrones de correlaciones convergentes y dis-
criminantes que espera encontrar para establecer la validez. Por ejemplo,
se puede establecer a priori que los factores que miden la sensibilidad indi-
vidual al ruido en preadolescentes están correlacionados con los de la agre-
sividad y con los de la impulsividad. En segundo lugar, se administran los
cuestionarios que miden la sensibilidad al ruido (e.g., SENSIT, Santisteban,
1990b), la agresividad (e.g., AQ, Buss y Perry, 1992; Santisteban et al., 2007)
y la impulsividad (e.g., BIS-11, Patton et al., 1995; versión española de Recio
et al., 2004). Se recogen los datos y se calculan las correspondientes corre-
laciones. Finalmente, los psicómetras deben evaluar el grado en que los
patrones de correlaciones obtenidos se ajustan a los predichos. Esta eva-
luación se realiza atendiendo al tamaño del efecto y a los resultados del test
de significación. La propia concepción del procedimiento requiere que se
sea muy cuidadoso en la elección de las variables con las que establecer las
asociaciones y en la interpretación de los resultados pues, por ejemplo, valo-
res bajos del tamaño del efecto puede que no indiquen una escasa validez,
ya que se pueden obtener tamaños del efecto bajos si el conjunto de las
correlaciones predichas no es el apropiado. Cuestiones similares se pueden
plantear en relación con las altas correlaciones. Por lo tanto, el uso de este
método requiere el análisis minucioso, tanto de los aspectos conceptuales
como de los metodológicos y estadísticos.
m8.5. Validez en los procesos de respuestam
Las evidencias de validez en los procesos de respuesta se refieren a la coinci-

dencia o concordancia que debe existir entre los procesos psicológicos que ponen
en juego los sujetos que responden al test y los que teóricamente se supone que
deberían utilizar. Muchas medidas psicológicas están basadas en ciertos supues-
tos sobre cuáles son los procesos psicológicos que las personas utilizan cuando
cumplimentan el test. Sin embargo, si esos procesos no fueran los que usan los
participantes en la prueba cuando cumplimentan el test, entonces la medición
puede estar dando puntuaciones que no son interpretables en el sentido que se
pretendía por parte de quien o quienes están construyendo el test. Sirva como
ejemplo un estudio sobre si la presencia de ruido ambiental afecta al recuerdo
a corto plazo. Para ello los investigadores construyen una prueba consistente en
listas de palabras categorizadas, que tras su lectura los participantes deben recor-
dar. Todos los sujetos realizan las pruebas en presencia (Leq = 80 dB) y en ausen-
cia de ruido (Leq = 35dB), por lo que se les divide en grupos para contrabalan-
cear el efecto del orden, tanto en la presentación de las listas, como en la de las
condiciones de ruido y de silencio en las que se administran las pruebas. A pesar
de que otros factores cognitivos como la inteligencia, la facilidad para estable-
cer relaciones, etc. van a influir en los resultados individuales en la prueba, es
razonable asumirlos como una constante, esto es, suponer que esas variables
efectan de la misma manera a todos los grupos, pues la asignación de los parti-
cipantes a los grupos se ha hecho de forma aleatoria. Los investigadores implí-
citamente están suponiendo que en presencia de ruido los sujetos deben asig-
nar más recursos atencionales para mantener el mismo nivel de rendimiento en
el recuerdo de palabras. Los resultados indican que el número de palabras recor-
dadas es significativamente mayor en silencio que en presencia de ruido. No obs-
tante, analizando las respuestas se detecta que los tiempos empleados por algu-
nos participantes son sistemáticamente menores en los ensayos que realizan en
presencia de ruido. La razón es que no han seguido las instrucciones en cuanto
a que cuando completen un ensayo pasen al siguiente presionando la tecla enter,
pues esos participantes, en lugar de intentar completar la prueba, acortan sus
tiempos de respuesta porque el ruido les resulta molesto, siendo ésta la princi-
pal razón por la que dan un menor número de palabras recordadas en presen-
cia de ruido. Por lo tanto, las inferencias que pudiera hacer el psicólogo con esos
datos no son válidas en relación con sus propósitos, aunque podrían haberle
pasado inadvertidas porque de alguna manera las propicia el procedimiento expe-

rimental. ¿No estaría acaso midiendo, sin proponérselo, la sensibilidad indivi-
dual al ruido? Por lo tanto, en los procedimientos para establecer la validez de
una prueba, y muy especialmente la de la validez de constructo, se deben incluir
la validez de los procedimientos y de los procesos que intervienen en la emisión
de la respuesta.
m8.6. Validez en relación con el criteriom
Este tipo de validez indica cuál es la eficacia del test en la predicción de algún tipo
de comportamiento futuro del sujeto en situaciones específicas. Por ejemplo,
podría utilizarse un test sobre razonamiento abstracto para predecir el éxito de
un alumno en la disciplina de matemáticas. Esta predicción será tanto más preci-
sa cuanto mayor sea la validez del test de razonamiento como predictor del ren-
dimiento en matemáticas. A veces se utilizan varios tests en lugar de uno solo para
predecir un criterio. Por lo tanto, la validez relativa al criterio se juzga como el gra-
do de relación entre el test (o el conjunto de tests) que actúa como predictor y
otra variable de interés que actúa como criterio.
Las mediciones de la variable con la que se evalúa el criterio se pueden reali-
zar al mismo tiempo que la del predictor o predictores, dándole entonces a la vali-
dez la denominación de validez concurrente. En el caso en que se haga en momen-
tos diferentes, se denomina validez predictiva. Las diferencias entre ambas no se
basan lógicamente en el tiempo que transcurre entre una y otra medición, sino en
si el objetivo está centrado en el diagnóstico (concurrente) o en la predicción de resul-
tados futuros (predictiva).
La validez en relación con el criterio, aunque se podría haber incluido en el
Apartado 8.4, tiene características especiales que la diferencian de otros tipos de
validez, y merece mención explícita en las clasificaciones clásicas de los tipos
de validez. Además, en torno a este tipo de validez se han desarrollado muchos
métodos para hacer más precisas las predicciones y más eficiente la toma de deci-
siones, como se va a comprobar en los siguientes capítulos.
Los problemas que se han identificado que afectan a la validez en relación con
el criterio son muchos de ellos comunes a otros tipos de validez. En la literatura
(e.g., Croker y Algina, 1986) se mencionan, por ejemplo, la no correcta identifi-
cación del criterio, la insuficiencia del tamaño muestral, la falta de fiabilidad del
predictor, del criterio o de ambos, la contaminación o el sesgo en los juicios que

definen el criterio, así como las limitaciones que tiene en la toma de decisiones el
haber obtenido el coeficiente de validez utilizando un rango limitado de puntua-
ciones, pues ese coeficiente estará atenuado debido a los errores de medida. Una
exposición más detallada de estos problemas se puede consultar en la obra de
Alvarado y Santisteban (2006).
m8.7. Validez de la estructura interna del testm
La estructura interna de un test viene dada por las relaciones que se establecen
entre diferentes partes de ese test, ya sea entre todos los ítems en su conjunto, ya
sea entre aquellos que se incluyen en cada uno de los posibles grupos de ítems
que forman el test. En cualquier caso, para que un test se interprete como medi-
da válida de un determinado constructo, es necesario verificar que la estructura
que se ha adoptado para el test coincide con la estructura en la que teóricamen-
te está basado el constructo.
Este concepto se puede comprender fácilmente si se acude a un ejemplo con-
creto. Consideremos el test de agresividad AQ (Aggression Questionnaire de Buss
y Perry, 1992) o bien la adaptación que se ha hecho de ese test a preadolescentes
y adolescentes AQ-PA (Santisteban et al., 2007; Santisteban y Alvarado, 2009).
Esos tests tienen una estructura tetrafactorial, pues los 29 ítems de los que cons-
tan se agrupan en cuatro factores o componentes de agresividad: física, verbal,
ira y hostilidad. Estos tests, que proporcionan una medida global de la agresivi-
dad, también proporcionan información sobre la contribución de cada una de
esas cuatro componentes a esa medida global. La validación de constructo para
ese test requiere que se verifique que ese test mide agresividad, que se puede con-
siderar que está formado por cuatro factores, y que esos factores tienen sentido
y significado dentro del constructo, en concordancia con la estructura teórica de
ese constructo.
El establecimiento de la estructura de un test se basa en su primer estadio en
los supuestos en los que descansa la teoría y también usualmente en estudios pre-
vios. Por ejemplo, los estudios que definen la agresión se han focalizado en las
intenciones, las expresiones y la influencia de factores afectivos, llevando a sub-
dividirla en varias clases tales como física, verbal, directa, indirecta, impulsiva o
conscientemente controlada. El AQ, que ha mostrado tener una buena validez
de constructo, proviene de un inventario que desarrollaron Buss y Durkee (1957),

y de su interesante evolución presentamos un breve resumen en el Cuadro 9.5.
del próximo capítulo.
m8.8. Validez de constructom
La validez de constructo está fuertemente ligada a un contexto teórico en el que

se considera que la fundamentación conceptual de un constructo debe incluir las
conexiones entre ese constructo y otros constructos psicológicos. A esas inter-
conexiones entre un constructo y otros relacionados es a lo que se le ha llamado
red nomológica (Cronbach & Meehl, 1955). En la práctica, es poco realista tratar
de especificar la red nomológica completa, como lo reconoció el propio Cron-
bach (1975, 1989), así como otros autores (e.g., Campbell, 1960; Payne et al., 2007),
además de que hay que considerar que las generalizaciones sobre las que se cons-
truyen las redes nomológicas sufren cambios a lo largo del tiempo. La validez de
constructo no siempre es bien entendida, o el conocimiento acerca de ella no
suele ser muy profundo. Generalmente se tiende a presentar esta validez como
una técnica, en tanto que lo que indica su concepto es que debe ser una aporta-
ción al desarrollo de la teoría y al progreso del conocimiento de aquello que se
está estudiando. Esto es, la validez de constructo concierne más a lo que es capaz
de especificar acerca de la naturaleza del constructo psicológico que subyace a
las mediciones, que a demostrar que un test mide aquello que se supone que mide.
La esencia de esa concepción de la validez de constructo la exponen Cronbach
y Meehl (1955) de una forma muy sencilla y gráfica, usando solamente simples
correlaciones entre dos variables, mediante un ejemplo muy apropiado para los
estudiantes.
Con el trabajo de Embretson (1983) se pone de manifiesto el qué y cómo se
debe abordar la validación del constructo, al considerar que en todo el proceso
es la representación del constructo (que la relaciona con la identificación de los meca-
nismos teóricos que subyacen a la realización de la tarea) la que debe interactuar
con la perspectiva nomotética. En el enfoque propuesto por Embretson las espe-
cificaciones del test se construyen desde la teoría y, posteriormente, las implica-
ciones de estas especificaciones se estudian empíricamente. De este modo, la
representación del constructo es una fase de estudio en el proceso de su valida-
ción. Las especificaciones sobre cada uno de los ítems se consideran como teoría
de una tarea, y la teoría se pone a prueba mediante modelos matemáticos que

intentan explicar los constructos. Así, después, en el proceso de construcción del
test, cuando se realiza la estimación de las propiedades cuantitativas de los ítems
con respecto a los constructos teóricos, se pueden descartar aquellos ítems que
no reflejen las propiedades teóricas que se desea que estén presentes en el test
que se está construyendo (Alvarado y Santisteban, 2006).
Los aspectos de la validez de constructo que se consideran relevantes para la
medición en Psicología y en Educación (Messick, 1995) son los relativos a:
(1) Contenido: relevancia del contenido, representatividad del dominio de los

contenidos y calidad técnica del instrumento de medición.
(2) Sustantivo: justificación teórica y evidencia empírica de que los procesos
que los sujetos ponen en juego al cumplimentar las pruebas están bien
relacionados con las tareas que se proponen en esas pruebas.
(3) Estructural: evaluación de la estructura de las puntuaciones en relación
con la estructura del constructo.
(4) Generalización: examen de en qué grado las propiedades e interpretacio-
nes que se hacen a partir de las pruebas se pueden generalizar a otros gru-
pos, a otras situaciones o a otras tareas.
(5) Establecimiento de relaciones convergentes y discriminantes.
(6) Consecuencias: valoración de las implicaciones e interpretaciones de las
puntuaciones, así como las posibles fuentes de no-validez relacionadas
con la equidad, el sesgo, etc.
Desde esta perspectiva que engloba todos los aspectos de la validez, la correc-
ta validación es una responsabilidad compartida entre quien construye el test y
quien lo utiliza. Quienes desarrollan el test deben especificar el marco concep-
tual en el que sitúan el constructo, su especificidad, los propósitos de la eva-
luación y cómo sus medidas se relacionan con las de otras variables. También
deben justificar la pertinencia de sus decisiones en cada uno de los pasos en el
proceso de validación, así como la generalización y las limitaciones de su uso y
aplicaciones. Quienes utilizan el test son, en último término, los responsables
de su correcta aplicación, de la corrección de las interpretaciones y de si está o
no justificado su uso con el propósito y en la situación particular para la que se
utiliza.
Volviendo nuevamente a Cronbach y Meehl (1955) se podría convenir con

ellos en que el estudio de la validez de constructo de un test no es esencialmen-
te diferente a los procedimientos científicos generales para el desarrollo y con-
firmación de las teorías. Por lo tanto, estas definiciones y descripciones no son
de gran ayuda, particularmente para establecer la validez de constructo en un
determinado estudio, pues es una mera exposición que la explicita, pero la tarea
de establecer esa validez es bastante más difícil. La validacion del constructo es
tan complicada porque básicamente implica muchos aspectos diferentes.
Una perspectiva para la validación del test en la que se enfatiza la conexión
entre los tests y los constructos psicológicos es la que presentan Borsboom
et al., (2004). Estos autores sugieren que el único aspecto relevante en la vali-
dación del test es si las respuestas del test están afectadas por el constructo que
el test está intentando medir. Esto es, un test es una medida válida de un cons-
tructo si, y sólo si, ese constructo tiene influencia y es el verdadero responsa-
ble de las respuestas que dan los que responden al test. Desde este punto de
vista es desde el que estos autores rechazan el argumento de que las conse-
cuencias de la realización del test son relevantes en la validación del test. Ellos
incluso discuten que las correlaciones entre las puntuaciones del test y las medi-
das de otros atributos sean directamente relevantes para la validación del test.
En lugar de ello sugieren que el objetivo primordial en el estudio de la validez
es poder ofrecer una explicación teórica del proceso que conduce a la medida
resultante.
La validez es crucial tanto en los ámbitos de la investigación como en la prác-
tica psicológica. Concretamente en el ámbito de los tests, si no tuviesen validez,
serían inútiles en la contrastación de hipótesis en relación con las teorías, en la
medición de atributos psicológicos y en las predicciones y toma de decisiones. En
la práctica, muchas decisiones se toman basándose total o parcialmente en la infor-
mación que proporcionan los tests. Se toman decisiones en la selección y con-
tratación de personal, en la admisión en la universidad, en el diagnóstico clínico,
etc., y esas decisiones afectan a los individuos y a las organizaciones. Por ello, la
validez de los tests tiene importantes implicaciones. No se trata pues de perder-
se en discusiones más o menos vacías sobre una u otra denominación, sino de
proveerse de los procedimientos que aseguren que los tests poseen la validez sufi-
ciente para conducir a conclusiones acertadas.
Puntos clave
3 La validez es el grado en que la teoría y las evidencias empíricas apoyan las

interpretaciones que se hacen de las puntuaciones del test, ya se hagan en rela-
ción con un marco conceptual o en relación con el uso específico que en cada
caso se haga del test.
3 El proceso de validación consiste en obtener esas evidencias empíricas que apo-
yen las interpretaciones.
3 Ni un conjunto de ítems, ni las medidas derivadas de ellos son por sí mismos
válidos o no válidos, pero sí lo son las interpretaciones que sus autores pueden
hacer de ellos. Por lo tanto, la validez no es del test, sino de su uso e interpre-
taciones.
3 La validez no es una cuestión de todo o nada, sino que tiene grados que se pue-
den evaluar.
3 Hay que elegir tests que muestren las suficientes evidencias de que su uso e
interpretación son los correctos, en el sentido de que responden a los objetivos
para los que se generó el test.
3 Se ha considerado la validez de constructo como el concepto esencial en la vali-
dez. Esta perspectiva engloba a las tradicionales (de contenido, relativa al cri-
terio y de constructo), de manera que todos los otros tipos de validez se deben
considerar y analizar bajo el foco de este concepto central.
3 La validez de constructo depende del contenido del test, de su estructura inter-
na, de los procesos psicológicos que intervienen al responder a los ítems del
test, de las asociaciones entre las puntuaciones del test con otras variables y
de las consecuencias que se derivan del uso del test.
3 El concepto de validez y sus clasificaciones han ido evolucionando a lo largo de
los años y se reflejan en las sucesivas publicaciones en los Standards for Edu-
cational and Psychological Testing. Es la visión de la validez desde la perspec-
tiva de las tres organizaciones más importantes en la construcción y aplicación
de tests. En las normas publicadas en 1999, las exigencias de la validez se extien-
den a las interpretaciones que se hagan, así como a las consecuencias que se
deriven de las aplicaciones de ese test.
Actividades
r Comente la siguiente frase: La validez del test se refiere a qué es lo que el

test mide y cómo lo mide.
r Ponga ejemplos de uno o varios constructos y haga una relación de las
características más relevantes de cada uno de ellos. En paralelo, en otra
columna, especifique las características de aquellos otros con los que teó-
ricamente se supone que deberían estar sus mediciones fuertemente aso-
ciadas y en una tercera columna, las de aquellos con los que deberían estar
no relacionadas o muy débilmente relacionadas.
r Enuncie hipótesis sobre las correlaciones (positivas o negativas) y la cuan-
tía en la que se darían las relaciones entre las variables especificadas en la
actividad anterior.
r Si dispone de tests o cuestionarios estandarizados de algunos de los cons-
tructos elegidos en la actividad anterior, haga un estudio piloto aplicando
esos tests o cuestionarios a las personas de su círculo más próximo.
La validez
Evaluación de las evidencias de validez 9
En el capítulo anterior se han presentado los conceptos de validez desde
distintas perspectivas. En este capítulo se va a tratar cómo se pueden eva-
luar esas evidencias de validez, teniendo en cuenta que la validez no es una
cuestión de todo o nada, de ser válido o no válido, sino que hay grados en
cuanto a la fuerza o debilidad de las evidencias de validez encontradas. La
validez es un factor decisivo para los usuarios de los tests, pero no hay un
valor preestablecido a partir del cual se dice que el test es o no es válido,
aunque todo test, cuestionario o inventario, debe haber mostrado necesa-
riamente que tiene validez suficiente para apoyar que, tanto su interpreta-
ción como su uso, son los adecuados.
ã Qué es el coeficiente de validez y cómo se estima.

ã Los procedimientos para obtener evidencias sobre la validez de con-
tenido.
ã Cómo los coeficientes de validez están influenciados por la fiabili-
dad de las muestras y por la longitud de las pruebas.
ã En qué consiste la atenuación.
ã La validez de las predicciones en un criterio basándose en la infor-
mación que da un test predictor o un conjunto de predictores.
ã Diferentes métodos para obtener evidencias de validez convergen-
te y discriminante.
ã Que a los coeficientes que son indicadores de la validez del test
hay que someterlos a pruebas estadísticas, para conocer su signi-
ficación y garantizar la validez de las inferencias que se hagan con
esa prueba.
ã Cómo se realiza el análisis de las evidencias de validez de la estruc-

tura interna de una prueba.
ã La evolución de un test hasta alcanzar la validez requerida.
m9.1. Validación del contenidom
El procedimiento habitual para la validación del contenido es confiar en el juicio

de los expertos que realizan un análisis racional sistemático del contenido del test
para decidir si es una muestra representativa del rasgo o conducta que se quiere
medir. Generalmente es una evaluación cualitativa, sin que apenas se hayan pro-
puesto indicadores o índices cuantitativos que den cuenta del grado de conexión
entre los contenidos del test y los objetivos para los que se construye. Una de las
propuestas cuantitativas es la de Gulliksen (1950b), que utiliza el análisis factorial
para comparar los resultados del test con el juicio de los expertos. También Tuc-
ker (1961) hace uso del análisis factorial para comprobar el efecto del evaluador,
es decir, si los juicios de los expertos diferían sistemáticamente. Sin embargo, las
condiciones exigidas a los datos para aplicar estas técnicas hacen pensar que no
son las más apropiadas para estos propósitos. Una técnica que no requiere un
gran número de datos y de evaluadores, como los que se exigen con el análisis
factorial, es la que propuso Cronbach, que consiste en que, siguiendo las mismas
pautas, dos equipos independientes de expertos construyan un test, teniendo así
dos tests supuestamente equivalentes. Se administran ambos tests a un mismo
grupo de n sujetos, obtiéndose dos conjuntos de puntuaciones X1 y X2 y se cons-
truye un índice C (veáse Conbrach, 1971), que cuando su valor se aproxima a la
unidad, se asume que las varianzas error de ambos tests son similares.
En general, los autores de tests dirigidos a la evaluación del rendimiento aca-
démico, así como los que los construyen en relación con un criterio específico,
conceden gran importancia a la validez de contenido, dando un conjunto de nor-
mas prácticas para conseguirla. Para mejorar este tipo de validez, algunos auto-
res como Popham (1978, 1984) han propuesto procedimientos específicos aso-
ciados al proceso de construcción y al análisis de los elementos. También Deville
y Prometric (1996) abogaron por el desarrollo de una técnica de validación empí-
rica, que combinara las evidencias del contenido con las del constructo que se
pretende medir, utilizando para ello la información proveniente de las especifi-
caciones para construir el test y los ítems, de los juicios de los expertos y de las
Capítulo 9. Validez: Evaluación 231
respuestas que se dan a esos ítems. Por su parte, Sireci y Geisinger (1992, 1995)
recomiendan el escalamiento multidimensional y análisis de conglomerados y de
clústers como estrategias de análisis para evidenciar la representatividad del con-
tenido. Para evaluar la representatividad del dominio, se han hecho también pro-
puestas desde la teoría de la generalizabilidad ( Jarjoura y Brennan, 1982; Sha-
velson et al., 1995) e incluso utilizando modelos de ecuaciones estructurales (Ding
y Hershberger, 2002). En cualquier caso, aunque la validez de contenido se deter-
mina a través de juicios subjetivos y no existen procedimientos ni índices ade-
cuados para estimarla, el uso de algunos de los análisis formales, como los arri-
ba indicados, ayuda a tomar decisiones. Muchos de esos procedimientos proveen
de buenos indicadores de cómo el contenido de los ítems se relaciona con el
objetivo, si su número y peso relativo son los adecuados en la composición de
ese test o incluso si hay aspectos que no se contemplan en ninguno de los ítems.
En cuanto a la aplicabilidad, la validación de contenido es una técnica apro-
piada para la evaluación del rendimiento académico y ocupacional, puesto que per-
mite responder a cuestiones básicas como si la prueba es una muestra representa-
tiva de los contenidos o de los rendimientos que se van a medir, o si cubre todos
los contenidos relevantes y si está razonablemente libre de la influencia de los irre-
levantes. Sin embargo, como indican Anastasi y Urbina (1997), la mera validación
de contenido puede ser inapropiada e incluso engañosa en los tests diseñados para
la medición de aptitudes y de la personalidad, pues aunque en la construcción de
todas las pruebas deben considerarse la representatividad y la relevancia del con-
tenido, la validación de estas pruebas debe hacerse mediante métodos formales
para la validación de constructo. En cualquier caso, la validez de contenido en nin-
gún caso se debe confundir con la validez aparente (Apartado 8.3), pues para la
validación del contenido existe una sistemática y algunos índices, además de que
son los expertos quienes deben realizarla.
m9.2. El coeficiente de validezm
El coeficiente de validez se define como el coeficiente de correlación entre dos

variables, una variable X que actúa como predictora y otra que evalúa lo que se
predice, a la que se denomina variable criterio Y:
ρ XY =
Cov ( X , Y )
σX σY
(9.1)
Si la relación es lineal, al ser ρXY = ρYX, la relación de validez es simétrica,

pues se obtendría el mismo valor del coeficiente si fuese Y la variable predictora
y X la variable criterio. No obstante, los procedimientos de construcción y de eva-
luación de pruebas son muy diferentes si van a actuar como predictoras o van a
evaluar las predicciones del sujeto en un rendimiento o en un comportamiento
particular en el que se esté interesado.
Las distinciones que se han hecho en el capítulo anterior entre validez con-
currente y predictiva no afectan al cálculo formal del coeficiente. Sin embargo,
se debe tener en cuenta que en el primer caso las medidas de X e Y se toman de
forma simultánea, considerándose que no se producen cambios ni en los suje-
tos ni en las condiciones que pudieran afectar a X y no a Y, o viceversa. Sin
embargo, esto no se puede suponer que ocurre al evaluar la validez predictiva,
pues transcurre un período de tiempo entre la medición del predictor y del cri-
terio, y en ese período se ha podido ganar experiencia, conocimientos o tener
lugar algún tipo de intervención que cambiara las condiciones, etc. Un coefi-
ciente de validez concurrente se obtendría si a los instructores de vuelo de una
empresa, que llevan ejerciendo adecuadamente su trabajo durante años, se les
evaluara su rendimiento a la vez que cumplimentaran un test X. La validez pre-
dictiva se obtiene si se seleccionan los instructores con el test X y después de
varios años se les evalúa su rendimiento.
Validez y fiabilidad
La definición dada del coeficiente de validez como correlación entre la variable

predictora y el criterio se puede situar en el contexto de la teoría clásica (TCT),
incluso se podría decir que la fiabilidad, como correlación entre dos medidas para-
lelas X y X', es una forma de validez.
Una cuestión relevante es el tratamiento del error. Las mediciones, tanto del
predictor como del criterio, no están exentas de error. Ahora bien, bajo los supues-
tos de los modelos de la TCT, las correlaciones entre las puntuaciones verdade-
ras del predictor VX y del criterio VY serán mayores que las de sus correspon-
dientes observadas:
ρ (VX , VY ) ≥ ρ (X , VY ) ≥ ρ (X , Y ) (9.2)
luego, el valor del coeficiente de validez empírico es menor que el que se obten-
dría si se dispusiera de las puntuaciones verdaderas. Es decir, el valor empírico del
coeficiente de validez está atenuado debido a los errores de medida. Para corregir-
lo, se ha propuesto una ecuación que tiene en cuenta la precisión de las medidas,
tanto del predictor como del criterio, es decir, sus fiabilidades. Esta ecuación es:
ρ XY
ρ VX VY =
ρ XX ′ ρ YY′
(9.3)
que es la ecuación de corrección por atenuación. Esta ecuación fue primeramente de-
sarrollada por Spearman bajo los supuestos del modelo clásico, donde con ρXY
se denota la validez empírica y ρXX' y ρYY' son los coeficientes de fiabilidad del
test y del criterio respectivamente (Cuadro 9.1). El lector debe estar atento para
no confundir los coeficientes de validez y de fiabilidad utilizados en esta ecua-
ción, pues se usa la misma letra griega ρ para todos ellos. Todos son coeficientes
de correlación (y formalmente iguales a la razón entre una covarianza entre dos
variables dividida por el producto de sus desviaciones típicas), pero en cada caso
las correlaciones difieren tanto en las variables como en su significado. Las varia-
bes X, X' o Y, Y' se utilizan en los coeficientes de fiabilidad del test y del criterio,
mientras que las variables X e Y se usan en los coeficientes de validez, refirién-
dose a la variable predictora y al criterio, siendo las variables VX y VY sus corres-
pondientes puntuaciones verdaderas.
Cuadro 9.1
La ecuación de atenuación se puede obtener de forma inmediata si, bajo los

supuestos del modelo de Spearman, la covarianza entre puntuaciones ver-
daderas se considerara equivalente a la de sus correspondientes observa-
das. Entonces:
Cov ( VX , VY ) Cov ( X, Y ) ρ XY σ X σ Y ρ XY
( )( )
ρ VX VY = = = =
σ VX σ VY σ VX σ VY σ VX σ VY σ VX / σ X σ VY / σ Y
y de acuerdo con la ecuación (2.12), los factores del denominador son los
índices de fiabilidad de X e Y respectivamente, obteniéndose la ecuación
(9.3) dada para el coeficiente de validez desatenuado.
La interpretación del cociente (9.3) es inmediata, pues en el caso en que tanto la

fiabilidad del test como la del criterio sean perfectas, valdrían uno. Al no haber erro-
res de medida, la validez empírica tendría un valor idéntico a la que se hubiese obte-
nido con las puntuaciones verdaderas. En el caso en que la fiabilidad del predictor o
del criterio fuese perfecta, entonces la ecuación (9.3) respondería a una de las formas:
ρ XY ρ
ρ XVY = ; ρVX Y = XY
ρ YY′ ρXX ′
(9.4)
A las ecuaciones (9.3) y (9.4) se las denomina fórmulas de atenuación o correc-

ción por atenuación pues, como se ha dicho, la idea que subyace es que el valor de la
correlación lineal entre las puntuaciones observadas es menor que el que se obten-
dría por correlación entre sus correspondientes puntuaciones verdaderas, porque esa
correlación obtenida empíricamente está atenuada por las imprecisiones que afectan
a las medidas empíricas. Por ello, si las fiabilidades (precisión de las medidas) se cono-
cen, se pueden utilizar para calcular las correlaciones desatenuadas entre esas medidas.
De lo anterior se deduce que la validez de los tests se puede mejorar aumen-
tando la fiabilidad del test predictor, o la del criterio, o la de ambos. Si de los tests
iniciales X1 e Y1 se derivan otros al mejorar sus fiabilidades, sean los tests X2 e Y2,
entonces se tendrá que cumplir que:
( ) (
ρ VX1 , VY1 = ρ VX 2 , VY2 )
Si se modifican los tests, hay diversos valores de correlación implicados en
una misma ecuación, generalmente calculados con valores muestrales. Para evi-
tar confusiones, en lugar de la letra griega ρ se van a usar las letras r y R para deno-
tar las fiabilidades iniciales (r) y mejoradas (R) para ambos tests:
rX1X1′ , rY1Y1′ y R X 2 X ′2 , R Y2 Y2′
Por la misma razón, también se van a utilizar las letras r y R para los coefi-
cientes de validez inicial y final, respectivamente. Usando las ecuaciones de ate-
nuación se tiene que:
rX1X1′ rY1Y1′
=
rX1Y1
(9.5)
R X 2 Y2 R X 2 X ′2 R Y2 Y2′
y de la igualdad anterior se deduce la siguiente:
R X 2 Y2 =
rX1Y1
(9.6)
rX1X1′ rY1Y1′
R X 2 X ′2 R Y2 Y2′
que es el coeficiente de validez, una vez mejoradas las fiabilidades en el test y en

el criterio.
Como casos particulares de la ecuación (9.6), se pueden obtener las que den
el valor de la validez cuando la fiabilidad se haya mejorado sólo en uno de los tests,
o la del predictor, o la del criterio. En esos casos, las correspondientes ecuacio-
nes se obtendrían considerando respectivamente las correlaciones de X2 con Y1,
o bien la de X1 con Y2. Esto es:
R X 2 Y1 = ; R X1Y2 =
rX1Y1 rX1Y1
(9.7)
rX1X1′ rY1Y1′
R X 2 X ′2 R Y2 Y2′
Casos especiales son aquellos en que se consigan fiabilidades perfectas en el

predictor RXX' = 1 o en el criterio RYY' = 1, lo que conduce a las ecuaciones de
atenuación (9.4) dadas anteriormente.
Ejemplo 9.1
Para predecir un criterio existe la posibilidad de elegir entre tres tests

predictores A1, A2 y A3, de los que se ha calculado su fiabilidad y su validez
empírica en relación con ese criterio, cuyos valores se dan en las dos pri-
meras filas de la Tabla 9.1. La fiabilidad del test criterio es ρYY' = 0.98. A la
vista de esos datos, ¿cuál es el test que preferentemente se debe elegir como
test predictor?
En principio, parece razonable elegir el test que presente mayor validez
empírica. No obstante, puesto que la validez está afectada por los errores de
medida, tanto en el predictor como en el criterio, se deberá tener en cuenta la
fiabilidad de esas medidas antes de tomar la decisión. Por lo tanto, se proce-
de a calcular la validez desatenuada, utilizando la ecuación (9.3), teniéndose
entonces los datos que figuran en la última fila de la Tabla 9.1.
Tabla 9.1. Fiabilidad, validez empírica y validez desatenuada.
Tests predictores
A1 A2 A3
Coeficiente de fiabilidad 0.40 0.50 0.20

Validez empírica 0.50 0.55 0.40
Validez desatenuada 0.80 0.79 0.90
Los resultados de la Tabla 9.1 indican que el test que potencialmente tiene
mayor validez es el A3, y el que menos el A2, aunque aparece como el de mayor
validez empírica. La decisión entonces estará condicionada a cuáles son las
características de ese test, si se puede o no mejorar su fiabilidad.
La corrección por atenuación es particularmente interesante cuando para

predecir un criterio se dispone de diferentes tests que inicialmente son muy
cortos, cada uno con distinta fiabilidad y validez, pero ninguno de ellos tiene
la suficiente validez para poderlo considerar como definitivo. En ese caso,
se debe mejorar alguno de ellos y parece razonable que para hacerlo se
elija aquel que presente la mayor validez potencial. Una forma que posiblemen-
te sea factible para realizar esa mejora sea aumentando su longitud, con las
debidas garantías, al menos en cuanto a preservar su validez de contenido,
estructura, etc.
Validez y longitud
Una de las formas de modificar la fiabilidad de un test es cambiando su longitud.

Como se ha demostrado en el Capítulo 4, el aumento de la longitud de un test,
bajo determinadas condiciones, produce un aumento de la fiabilidad. Análoga-
mente, la reducción en el número de elementos implica teóricamente una dismi-
nución de la fiabilidad. La atenuación y las modificaciones en la validez debidas
a cambios en la fiabilidad de los tests se pueden contemplar desde esta perspec-
tiva haciendo uso de la ecuación (4.4) de Spearman-Brown.
Si es rXX' la fiabilidad inicial y RXX' la fiabilidad de ese test al multiplicar por

k su longitud, la validez de ese test inicial rXY se verá modificada al cambiar la
fiabilidad, pasando a tomar un valor RXY. Este valor se calcula mediante la ecua-
ción:
R XY =
rXY
1 − rXX ′
(9.8)
+ rXX ′
k
que es la ecuación que da la validez que podría tener un test al multiplicar por k
veces su longitud, siendo sólo conocidas su fiabilidad y validez iniciales.
El valor máximo que teóricamente puede tomar la validez mediante este pro-
cedimiento es cuando aumentara indefinidamente la longitud (k → ∞), en cuyo
caso el valor de RXY viene dado por la igualdad:
R XY =
rXY
rXX ′
Cuadro 9.2
La ecuación (9.8) se deduce de la (9.5), relacionando los coeficientes inicial

y final, teniendo en cuenta que el test Y permanece inalterado:
= =
rXY rXX′ rYY′ rXX′
R XY R XX′ rYY′ R XX′
Elevando al cuadrado y sustituyendo RXX' por su expresión dada en (4.4)

se tiene que:
2
rXY
=
rXX′
=
(
1+ k − 1 rXX′)
( )
R 2XY k rXX′ k
1+ k − 1 rXX′
2
de donde despejando RXY y extrayendo la raíz cuadrada, se obtiene la expre-
sión (9.8).
En conexión con las relaciones anteriores, también se puede dar respuesta a

cuantos elementos habría que añadir a un test para que se modifique su fiabili-
dad y obtener así un valor prefijado para la validez. Se trata pues de conocer cuál
sería el valor de k que se debería utilizar para teóricamente obtener un valor de
la validez RXY. Ahora ese valor de la validez es conocido, porque es un valor pre-
fijado, y lo desconocido es k, que se puede despejar de la ecuación (9.8), tenién-
dose que:
1 − rXX ′
k= (9.9)
− rXX ′
2
rXY
R 2XY
Ejemplo 9.2
Se desea conocer cuántos elementos habría que añadir a un test de longi-

tud n = 10 con fiabilidad 0.82 y validez 0.66, para conseguir una validez de 0.71
y cuál sería el máximo valor esperable para esa validez, aumentando suficien-
temente la longitud.
Haciendo uso de (9.9), el valor de k para alcanzar ese valor es:
1− 0.82
k= = =4
0.18
 0.66 2 0.044
  − 0.82
 0.71
que indica que habría que multiplicar por 4 la longitud inicial, por lo que habría
que añadir 30 elementos. En la práctica esto sería inapropiado, y habría que des-
cartar ese procedimiento para aumentar la validez. El mayor valor se obtendría
con k = ∞, en cuyo caso el valor de la validez sería R = 0.73.
Ejemplo 9.3
La validez inicial de los tests A, B y C es 0.70, y las fiabilidades iniciales son

0.40, 0.50 y 0.56, respectivamente. Se quiere explorar cuáles serían las varia-
ciones teóricas de la validez de esos tests cuando se aumenta la longitud dos,

cuatro o seis veces, o se disminuye pasando a la mitad de elementos, o a la
sexta parte, o al 25% de los iniciales.
Los valores calculados utilizando la ecuación (9.8) se presentan en la
Tabla 9.2.
Tabla 9.2. Valores predichos para la validez en tests con diferentes coeficientes
de fiabilidad y diferentes longitudes.
Validez al multiplicar por k la longitud

Test Fiabilidad inicial
k =2 k =4 k =6 k = 1/2 k = 1/4 k = 1/6
A 0.40 0.84 0.94 0.99 0.55 0.42 0.35

B 0.50 0.81 0.89 0.92 0.57 0.44 0.37
C 0.56 0.79 0.86 0.88 0.58 0.46 0.39
Acotación del valor del coeficiente de validez
En los apartados anteriores se ha establecido cómo están relacionados los valo-

res del coeficiente de validez y la fiabilidad. Es fácil deducir que el coeficiente de
validez está acotado por el índice de fiabilidad, ya que se da la desigualdad:
ρ XY ≤ ρ XV
y dadas las relaciones (3.2) y (9.2), se tiene que ρ XY < ρ XV = ρ XX ′ .

Al estar acotado el coeficiente de validez por el índice de fiabilidad, se con-
cluye que la falta de fiabilidad de un test afecta a su validez en relación con un cri-
terio. Además, debido a la simetría del coeficiente de correlación lineal ρXY = ρYX,
se puede afirmar que no solamente la fiabilidad del predictor, sino también la del
criterio, afectan al valor del coeficiente de validez, que se ve atenuado, o reduci-
do, debido a los errores de medida, como se ha hecho explícito en el apartado
anterior.
Así, para valores cualesquiera entre cero y uno, si el coeficiente de fiabilidad
es, por ejemplo, ρXX' = 0.49, entonces el índice de fiabilidad es ρXV = 0.70 y el coe-
ficiente de validez está acotado por este valor.
Ejemplo 9.4
La fiabilidad de un un test calculada con una muestra de 300 personas es

ρXX' = 0.81. ¿Se puede considerar que el coeficiente de validez podría superar
este valor?
La respuesta es afirmativa, ya que el coeficiente de validez está acotado
por el valor del índice de fiabilidad, luego la cota para el coeficiente viene dada
por la desigualdad:
ρ XY ≤ ρ XX′ = 0.90
El valor del coeficiente de validez puede siempre superar, no al índice, pero

sí al valor del coeficiente de fiabilidad (excepto cuando es 1, pues serían iguales),
ya que los valores de las raíces cuadradas de números menores que la unidad (entre
cero y uno) son mayores que los de sus radicandos.
Coeficientes derivados del coeficiente de validez
El coeficiente de validez en relación con un criterio, como valor del coeficiente

de correlación lineal entre las variables predictora y pronóstico, se presenta en la
literatura bajo diferentes modalidades y denominaciones. Algunas de ellas son las
siguientes.
Coeficiente de determinación:
Se conoce como tal al cuadrado del coeficiente de validez y expresa la pro-

porción de la varianza del criterio que se puede predecir a partir del test. El coe-
ficiente de determinación siempre es un valor menor que el coeficiente de fia-
bilidad:
ρ2XY ≤ ρ XX ′
y es un indicador de la varianza pronosticable por el test.

Coeficiente de alienación:
Se define este coeficiente K como la raíz cuadrada de la diferencia a uno del

coeficiente de determinación.
K = 1 − ρ2XY (9.10)
El cuadrado de este coeficiente es igual a la relación entre las varianzas del

error de estimación (σ ε2 ) y la empírica (σ Y2 ) del test criterio, como se deduce en el
Cuadro 9.3 y se expresa en la siguiente ecuación:
σ ε2
K = 2
= 1 − ρ2XY
σ 2Y
(9.11)
de manera que si la validez fuese cero, toda la varianza observada en el criterio

sería varianza error. Por el contrario, un coeficiente de validez igual a la unidad
indicaría la máxima precisión en las estimaciones. Esto es:
ρ2XY = 0 → σ ε2 = σ 2Y
ρ2XY = 1 → σ ε2 = 0
En general, a medida que aumenta el coeficiente de validez, el cociente entre

la varianza del error y la observada en el criterio disminuye, y por lo tanto tam-
bién lo hace el cuadrado del coeficiente de alienación. Esto es, a medida que
aumenta la validez, aumenta la precisión en el pronóstico, puesto que disminuye
la componente de varianza que se debe al error de estimación.
Cuadro 9.3
La relación entre la varianza del error de estimación ε = Y − Ŷ y la varianza empí-

rica del test criterio, que se ha dado en la ecuación (9.11), se deduce de lo
[ ] {[ ] [ ]}
siguiente:
σ 2ε = E ( Y − Yˆ ) − E ( Y − Yˆ ) = E Y − E ( Y ) − Yˆ − E ( Yˆ ) =
2 2
[
=E Y−Y ] [ ] [
+ E Yˆ − ( Yˆ ) − 2E ( Y − Y ) ( Yˆ − Yˆ ) ]
2 2
Los dos primeros sumandos de este desarrollo son:
[
E Y−Y ] = σ 2Y
2
[
E Yˆ − ( Yˆ ) ] = ρ2XY
σ 2Y
E ( X − X )2 = ρ2XY σ 2Y
2
σ 2X
donde se ha sustituido Ŷ por su equivalente en la ecuación de regre-

sión que se da en la ecuación (9.22). Usando la misma sustitución para
Ŷ en el tercer sumando se obtiene:
[ ] σ
[ σ
]
E ( Y − Y ) ( Yˆ − Yˆ ) = ρ XY Y E ( Y − Y ) ( X − X ) = ρ XY Y Cov ( X, Y )
σX σX
y teniendo en cuenta que ρ XY = Cov ( X, Y ) ( σ X σ Y ) , se obtiene
[ ]
E ( Y − Y )( Yˆ − Yˆ ) = ρ2XY σ 2Y
Por lo tanto
σ 2ε = σ 2Y + ρ2XY σ 2Y − 2 ρ2XY σ 2Y = σ 2Y − ρ2XY σ 2Y = σ 2Y (1− ρ2XY )
de donde se deduce la relación dada en la expresión (9.11).
Coeficiente de valor predictivo:
Se denomina así al complemento a uno del coeficiente de alienación:
E = 1 − K = 1 − 1 − ρ2XY (9.12)
y, consecuentemente, lo que expresa es la probabilidad del pronóstico.

Ejemplo 9.5
El coeficiente empírico obtenido para la validez de un test es 0.90. Se quie-

re responder a:
a) ¿Cuál es el porcentaje de la varianza del criterio Y que es teóricamente pro-

nosticable por el test X?
b) ¿Es posible conocer el porcentaje de varianza que se puede atribuir al error?
c) ¿Cuál es el valor predictivo de ese test?
Por una parte, el coeficiente de determinación es 0.902 = 0.81, lo que indica

que el 81% de la varianza del criterio es teóricamente pronosticable por el test.
Para dar respuesta a b) se hace uso de las expresiones (9.10) y (9.11), con
lo que se obtiene que:
σ 2ε
K2 = = 1 − 0.81 = 0.19 ; K = 1− 0.81 = 0.44
σ 2Y
indicando el coeficiente de alienación que la varianza asociada al error en la

predicción es el 19% de la varianza total. Sólo en el caso en que la validez ten-
ga valor uno, la varianza error es cero, y para que esa varianza sea cero, los
errores de estimación son nulos (e = 0), o iguales a una constante.
c) El valor predictivo que se estima para ese test (según 9.12) es E = 0.56.
Validez y representación muestral
La definición del coeficiente de validez como un coeficiente de correlación entre

el predictor y el criterio está introduciendo la influencia de las varianzas de las
puntuaciones, tanto del predictor como del criterio. Por lo tanto, la variabilidad
de los sujetos de la población o de la muestra afecta al valor del coeficiente de la
validez. Cuanto menor sea la variabilidad de las puntuaciones, menor será el valor
de ese coeficiente y, por lo tanto, la validez. Se puede hacer aquí una discusión
análoga a la que se hizo en el Apartado 4.1 con respecto al efecto que la varianza
de los datos tiene sobre la fiabilidad.
El planteamiento hay que hacerlo desde el punto de vista de que, usualmente,
las pruebas no se aplican a las poblaciones, sino a muestras, y que la determina-
ción de la validez será tanto más precisa cuanto más representativa sea la mues-
tra de aquella población de la que se extrae. Cuanta más heterogeneidad exista
entre los elementos muestrales, mejor representada está la heterogeneidad exis-
tente en esa población. El caso más habitual en los procesos de selección es que
se tengan datos en el test X de un grupo amplio, por ejemplo del grupo de aspi-
rantes, teniéndose los datos en el test criterio Y solamente de un grupo más redu-
cido, el de seleccionados. Por lo tanto, el coeficiente de validez solamente se pue-
de calcular con los datos de ese grupo reducido. También se puede dar el caso en
el que la variable criterio haya sido la que incidentalmente se haya utilizado como
variable directamente selectiva. Se explicita a continuacón cómo variarían for-
malmente los coeficientes de validez en ambos casos:
a) Se tienen los datos X de un grupo amplio (aspirantes) y sólo se conocen

los de la variable Y de un subgrupo (seleccionados) de ese grupo. Por lo
tanto, se puede conocer la validez rXY para el grupo reducido, y se quiere
inferir cuál sería su valor RXY en el grupo amplio. Para ello se utiliza la
siguiente ecuación:
( )
R XY =
S X rXY
(9.13)
S2X rXY
2
+ 1 − rXY
2
s2X
donde se denotan con letras mayúsculas los estadísticos correspondientes

al grupo amplio y con minúsculas los del reducido. La desviación típica de
Y se obtiene mediante la ecuación:
SY = = s Y 1 − rXY + rXY
2
s Y S X rXY 2 2 SX
(9.14)
s X R XY s2X
b) Cuando la variable Y es la que se ha utilizado como variable directamente

selectiva, entonces son sus valores los que se conocen en el grupo amplio
y el coeficiente de fiabilidad se obtiene mediante la ecuación:
R XY = 1 −
(
s2Y 1 − rXY
2
) (9.15)
S2Y
y el valor de la desviación típica de la variable X se calcula mediante la expre-

sión:
S2Y − s2Y (1 − rXY

2
S X = X Y XY =
s S R sX )
(9.16)
s Y rXY s Y rXY
Cuadro 9.4
Las ecuaciones (9.13) a (9.16) se obtienen a partir de las relaciones de igual-

dad de los errores de medida
S Y 1− R 2XY = s Y 1− rXY
2
(9.17)
y de la ecuación de la igualdad de las pendientes en la regresión lineal:
= rXY Y
SY s
R XY (9.18)
SX sX
Por ejemplo, si se eleva al cuadrado la igualdad (9.17) y se ordenan tér-

minos se obtiene
s2Y
S2Y
(1− r ) = 1− R
2
XY
2
XY (9.19)
de donde se despeja RXY y se obtine directamente la expresión (9.15).

Por otra parte, si se despeja SY de (9.18), se eleva al cuadrado y se igua-
la al valor de S2Y despejado de (9.19) queda la igualdad
S2Y =
2
rXY s2Y S2X
=
(
s2Y 1− rXY
2
)
R 2XY s2X 1− R 2XY
y si se multiplican ambos miembros de esta ecuación por
1− R 2XY
s2X
s2Y
se obtiene
− S2X rXY = (1− rXY

2
rXY S2X 2 2
) s2X
R 2XY
de donde pasando S 2X r 2XY al segundo miembro, despejando R 2XY y hallando

la raíz cuadrada se obtiene la ecuación (9.13).
La ecuación (9.14) puede obtenerse despejando SY de (9.18) y poste-
riormente sustituyendo el valor de RXY por el dado en (9.13).
Se deja que el lector deduzca como un ejercicio la ecuación (9.16).
Ejemplo 9.6
Se han seleccionado 40 personas entre 200 para trabajar en una cadena de

montaje después de administrarles a todos ellos un test de habilidad manual (varia-
ble X). La varianza de las puntuaciones de los 200 aspirantes fue de 36 puntos,
y de 16 la de los seleccionados. Pasado el período de aprendizaje de esas 40 per-
sonas, se ha evaluado su rendimiento mediante el número medio de piezas por
día (variable Y) que insertan cada uno de ellos. La varianza de esos valores es 9 y
la correlación entre los valores X e Y de esas 40 personas es rXY = 0.78. Se desea
conocer cuál sería el valor que teóricamente se hubiera obtenido para la validez
si se hubiese podido calcular con los 200 aspirantes y cuál sería el valor estimado
de la varianza de sus puntuaciones en el criterio.
Haciendo uso de la ecuación (9.13) se tiene que:
6 (0.78)
( )
R XY = = 0.88
36 (0.78) + 16 1 − 0.78
2 2
obteniéndose el valor de la validez que se pide que es mayor que el obtenido con
40 participantes, pues se ha aumentado el tamaño y la variabilidad de la muestra.
El cálculo de la varianza de la variable criterio en el grupo amplio se puede
obtener haciendo uso del último miembro de la ecuación (9.14), aunque una vez
estimada la validez del grupo amplio, el cálculo puede reducirse utilizando la otra
forma de esa expresión (9.14):
S X s Y rXY (3)(6)(0.78)
4 (0.88)
SY = = = 3.99
s X R XY
Luego 15.89 sería el valor que se espera para la varianza de la variable criterio.
m9.3. Validez relativa al criteriom
Este tipo de validación indica cuál es la eficacia del test en la predicción de algún
tipo de comportamiento futuro del sujeto en situaciones específicas. Por ejem-
plo, un test de razonamiento abstracto se podría utilizar para predecir el éxito de
los alumnos en la disciplina de matemáticas. Esta predicción será más precisa
cuanto mayor sea la validez de esa prueba de razonamiento con respecto a poder
predecir el rendimiento en matemáticas.
La validez relativa al criterio se juzga por el grado de relación entre el test o
los tests que actúan como predictores y la variable que se va a predecir, o varia-
ble de interés, a la que se llama variable criterio. Si la relación entre predictores y
criterio se supone que es lineal, entonces, los coeficientes de correlación y de regre-
sión lineal pueden ser medidas apropiadas para evaluar esas relaciones.
Pronóstico mediante regresión lineal simple
La distribución conjunta de los valores de las variables X e Y proporciona los

datos de las distribuciones condicionadas de una variable sobre la otra. Si las rela-
ciones entre las variables son lineales, el modelo de regresión es una recta de la
forma dada en (9.20).
Y = aX + b (9.20)
La ecuación de esta recta de regresión de la variable criterio sobre la predic-

tora (Y|X) puede tomar la forma:
σY
Y − Y = ρ XY (X − X)
σX
(9.21)
A una persona g con puntuación Xg se le pronostica una puntuación en el

criterio:
Y$ g = aX g + b (9.22)
donde la pendiente de esa recta y la ordenada en el origen se obtienen mediante

las expresiones:
σY σ
a = ρ XY ; b = Y − ρ XY Y X
σX σX
Si en lugar de utilizarse puntuaciones directas se utilizan puntuaciones dife-

renciales o las tipificadas, la ecuación (9.21) se reduce a la (9.23) en puntuaciones
diferenciales y a la (9.24) en puntuaciones tipificadas:
σY
y = ρ XY
σX
x (9.23)
z Y = ρ XY z X (9.24)
Siendo:
x = X − X; y = Y − Y ; zX = x σ X ; zY = y σ Y
Intervalos de confianza
La estimación del valor de la puntuación en el criterio se puede obtener cono-

ciendo con qué probabilidad se encuentra ese valor entre dos dados. Es decir,
dando su intervalo de confianza. Para un valor estimado del criterio y fijado un
intervalo de amplitud 1 – α, el intevalo es:
I = ( Y$ − z α σ ε ; Y$ + z α σ ε ) (9.25)
donde σε es la dada en el Cuadro 9.3 (o en la ecuación (9.11)) y zα es el valor

correspondiente a la abscisa en una distribución N(0,1), para un intervalo que
contiene una probabilidad 1 – α. Este valor de zα hay que calcularlo teniendo
en cuenta la simetría del intervalo, teniéndose una probabilidad de α/2 en cada
una de las colas de la distribución. Esto es, la probabilidad contenida en el inter-
valo (– ∞, – zα ) es igual a α/2, y la contenida en (zα, ∞) = α/2 (a veces se adop-
ta la notación zα/2 en lugar de la genérica zα ).
Ejemplo 9.7
Se quiere utilizar un test X de inteligencia general para predecir un criterio

Y de rendimiento escolar. Aplicando ambas pruebas de forma concurrente se
han obtenido los siguientes valores para los estadísticos:
X = 26 ; Y = 5 ; S X = 4 ; S Y = 2 ; rXY = 0.72
Se desea conocer la ecuación de regresión y la puntuación que se le pue-

de pronosticar en rendimiento escolar a un estudiante que obtiene 30 pun-
tos en la prueba de inteligencia general.
La predicción se hace mediante la ecuación (9.21), por lo que la ecuación
de la recta de regresión es:
Y = 0.72
2
4
( )
X − 26 + 5 = 0.36 X − 4.36
y la puntuación que se le predice a la persona g que obtiene 30 puntos en el

test X es:
Yˆ g = 6.44
Si se quiere estimar Y mediante un intervalo de confianza, teniendo en cuen-

ta las relaciones (9.25) y (9.26) y para un valor de α = 0.05, se tiene que:
( )
z α = 1.96 ; σ ε = 2 1− 0.722 = 1.39 ; I = Yˆ ± z α σ ε = 3.72; 9.16
que es un intervalo amplio debido al tamaño de la varianza del error de

estimación. Hay que señalar que la construcción de intervalos de confianza
como el dado en (9.25) exige que se suponga la normalidad y la homoce-
dasticidad.
Pronósticos mediante una batería de predictores
En este caso se trata de hacer predicciones basándose en la información que apor-

tan dos o más variables predictoras. Éste es un caso general del que el anterior,
en que se considera una sola variable predictora, es un caso particular.
Es fácil describir situaciones en las que sean varias las variables que hay que
utilizar para predecir adecuadamente el criterio. Por ejemplo, se puede plantear
predecir el éxito escolar utilizando como predictoras pruebas que evalúen inteli-
gencia general, memoria y algunos rasgos de personalidad.
Si se supone que la relación es lineal y se denota por Y la variable criterio y
por X1, X2, …, Xn , a las variables predictoras, el modelo que las relaciona es:
Y = a + b1 X 1 +…+ bn X n (9.27)
siendo f(Y, X1, X2, …, Xn) la función de probabilidad conjunta y la media con-
( )
dicionada de la variable Y sobre las Xi es:
m y (x 1 , … , x n ) = E Y X 1 = x 1 , … , X n = x n (9.28)
siendo my la superficie de regresión de las medias condicionadas de Y con res-

pecto a las Xi.
Al igual que en el caso de una variable, el ajuste se hace por mínimos cuadra-
dos, de donde se deducen los valores de los parámetros {a, b1, …, bn}. La esti-
mación de estos valores, así como el del coeficiente de correlación múltiple, se
hacen con los programas apropiados, que están implementados en todos los paque-
tes estadísticos, por ejemplo en el SPSS.
A los valores estimados normalizados b∗i se los denomina pesos en la regresión,
ya que sus valores indican cuál es la contribución de cada una de las variables Xi en la
predicción del criterio Y. El valor del error típico de medida aquí se calcula mediante:
s Y • X1 , …, X n = s Y 1 − ρ2Y • X1 , …, X n (9.29)
donde
C′YX C−XX
ρ$ 2Y • X1 , …, X n =
1
C YX
(9.30)
s2Y
es el coeficiente de correlación múltiple entre los predictores y el criterio. Con C

se han denotado las matrices de varianzas y covarianzas entre las variables. El coe-
ficiente (9.30) indica la proporción de varianza del criterio explicada por su regre-
sión lineal con las variables predictoras. Este coeficiente se puede también esti-
mar mediante los coeficientes de regresión normalizados (pesos) utilizando la
relación:
ρ YY$ = ρ Y • X1 , …, X n = b1∗ ρ1Y + b∗2 ρ2 Y + … + b∗n ρnY (9.31)
donde ρiY (i = 1, 2, …, n) son las correlaciones de cada uno de los predictores

con el criterio.
Ejemplo 9.8
En la predicción de los valores en agresividad se ha hecho un estudio con

2400 escolares usando como predictoras las variables agresión física (X1), ver-
bal (X2), horas diarias viendo televisión (X3), horas diarias de videojuegos (X4),
horas diarias haciendo deberes (X5) y horas semanales de lectura extraescolar
(X6), y se ha obtenido la siguiente ecuación de regresión:
Y = 1.39 + 0.45 X 1 + 0.37 X 2 + 0.22 X 3 + 0.27 X 4 − 0.17 X 5 − 0.20 X 6
dada con coeficientes no estandarizados. El valor del coeficiente de correlación

múltiple es ρ = 0.80. Se desea interpretar esos resultados.
Previamente se ha contrastado la hipótesis H0 : bi = 0 frente a la alternativa
de que esos coeficientes son diferentes de cero. En todos los casos se ha recha-
zado la hipótesis nula con α < 0.01.
En primer lugar, se observa que en la ecuación de regresión se han inclui-
do todas las variables predictoras, ya que tras el contraste se ha comprobado
que los coeficientes son estadísticamente significativos. En el caso en que los
coeficientes de uno o más predictores no fueran significativos, esas variables
no se incluirían en la ecuación de regresión. Las variables que más aportan son
aquellas que tienen mayores coeficientes en valor absoluto. Las variables con
coeficientes negativos indican que se relacionan de forma opuesta con el cri-
terio. Las variables agresión física, verbal, horas diarias dedicadas a ver televi-
sión o a jugar con videojuegos se relacionan positivamente con los niveles glo-
bales de agresividad, en tanto que las horas dedicadas a los deberes y a la
lectura la disminuyen.
En cuanto a la interpretación del coeficiente de correlación múltiple, cuyo

valor es 0.80, indica que el 64% de la varianza de Y puede explicarse por su
regresión lineal con esos predictores, ya que ρ2Y • X , …, X = 0.64 .
1 6
Selección de las variables predictoras
En los procedimientos de inferencia mediante regresión, tal como se están expo-

niendo, implícitamente parece que se da por supuesto el conocimiento de cuáles
son las variables predictoras que hay que utilizar para un determinado criterio.
Esto en la práctica no es obvio, pues para un mismo criterio se puede considerar
un número k no pequeño de variables independientes que tengan influencia sobre
ese criterio y que pudieran ayudar a predecirlo.
En un intento de construir el modelo de predicción más completo y exacto posi-
ble, se puede pensar en incluir en ese modelo todas las variables que tengan rela-
ción con el criterio y que sea posible identificar. Esto usualmente no es realista, ni
desde el punto de vista teórico ni práctico. Entre otras razones, habría que consi-
derar los costes de un estudio casi exhaustivo de ese tipo, el despliegue de medios
humanos y materiales, junto con problemas de índole puramente formal, como
pueden ser los problemas de colinealidad. La necesidad de restringir a un número
p < k el de todas las posibles variables pedictoras y que, a su vez, se obtenga el mejor
modelo predictor posible, ha dado lugar a que se generen diferentes procedimien-
tos estadísticos de análisis que proporcionan la información necesaria para, en cada
caso, elegir las variables predictoras más adecuadas. En la literatura hay numerosas
obras (e.g., Darlington, 1990; Draper y Smith, 1981; Hocking, 1976) en las que se
describen distintos métodos que conducen a evaluar la precisión de la regresión y
cómo elegir un número determinado de predictores entre los k disponibles.
Entre los métodos propuestos están los procedimientos secuenciales, ya sea
porque se van incluyendo nuevas variables para mejorar las predicciones, ya sea por-
que se desea reducir la prueba y hay que prescindir de la aplicación de algunos de
los predictores. En cualquiera de los dos casos, con la adición o con la supresión de
las variables, hay que valorar en cada paso la calidad del modelo resultante.
La selección basada en regresiones parciales estudia las regresiones del criterio
con un conjunto de variables predictoras previamente elegidas. Se comienza cal-
culando todas las regresiones simples del criterio con cada una de las variables
predictoras. Evidenciando cuál sería la mejor opción (por ejemplo, basándose en

los valores de ρ$2 (ecuación (9.30)) si solamente se pudiese elegir una de ellas. Si
ese ajuste no fuese adecuado porque el porcentaje de la varianza explicada por la
regresión fuese muy pequeño, entonces se procedería a hacer la regresión de Y
con todos los pares de variables, y así sucesivamente, estudiando en cada caso la
precisión del modelo, y si la ganancia justifica la adición de nuevas variables.
El método secuencial más extendido y que se considera más eficaz es el deno-
minado regresión por pasos. Existen diferentes versiones y lo más común es que en
cada paso se seleccione el mejor conjunto de variables predictoras de un tamaño
determinado, sea (p – 1), teniendo en cuenta en el siguiente paso que el mejor
conjunto de tamaño p no contiene necesariamente al mejor subconjunto de tama-
ño (p – 1). Esto es, el que una variable sea idónea para que se incluya en una fase
de selección, no implica que lo sea en una fase posterior.
Los análisis de regresión, desde los más simples a los de mayor complejidad,
se llevan a cabo con la ayuda de paquetes estadísticos como el SPSS, donde vie-
nen además implementados diferentes algoritmos de selección. Esto es relevan-
te porque hay que reseñar nuevamente que, una vez decididos los predictores y
construido el modelo de regresión, se debe evaluar su calidad, mediante el cono-
cimiento del coeficiente de regresión múltiple, contrastes usando el estadístico F
u otros procedimientos que vienen implementados en los programas. Por último,
señalar que en la validación en relación con el criterio, a los problemas ya men-
cionados en el Apartado 8.6, hay que añadir que los criterios pueden cambiar a
lo largo del tiempo y que, a efectos prácticos, hay que tenerlo muy en cuenta al
establecer sus relaciones con los predictores.
m9.4. Evaluación de la validez convergente y discriminantem
Los constructos psicológicos se definen desde unos supuestos teóricos en los que
se incluyen sus conexiones con otros constructos, lo que en la literatura se llama
red nomológica. Esto implica que las mediciones en un constructo estén fuertemente
relacionadas con las de unos determinados constructos y débilmente relaciona-
das con las de otros. Podemos dar como ejemplo (Ejemplo 9.9) las evidencias de
validez convergente (Tabla 9.3) que se han encontrado para un cuestionario de
agresividad, estableciendo relaciones entre las puntuaciones en ese cuestionario
con las de otros que miden diferentes aspectos de la agresividad, así como con
medidas de impulsividad (Wittmann et al., 2008; Santisteban y Alvarado, 2009).

Una parte que es crucial en el proceso de validación de una prueba es establecer
en qué grado se puede definir un patrón de asociaciones entre el rasgo que mide
esa prueba y otros rasgos. En la literatura se presentan diversos métodos, que con-
llevan mayor o menor complejidad, pero que se pueden utilizar para evaluar el
grado en que las medidas muestran asociaciones convergentes y discriminantes.
Los distintos procedimientos responden a diferencias conceptuales y a diferen-
tes métodos estadísticos.
Ejemplo 9.9
En un estudio sobre agresividad realizado con 2208 escolares, se han estu-

diado las evidencias de validez convergente del cuestionario AQ-PA, estable-
ciendo las correlaciones de los sujetos en ese cuestionario con las que obtie-
nen en otros cuestionarios que proporcionan mediciones del mismo constructo
(agresividad) o de otro relacionado (impulsividad). Los cuestionarios han sido:
DIAS, que evalúa la agresión directa e indirecta, STAXI, que evalúa tres princi-
pales aspectos de ira (estado E, rasgo R y expresión AE) y EXPAGG, que eva-
lúa la expresión de la agresividad. Todas las pruebas están adaptadas a la pobla-
ción española y a los grupos de edad que se estudian, preadolescentes y
adolescentes. La impulsividad se ha evaluado con la versión española (Recio
et al., 2004) de la escala de impulsividad de Barrat (BIS-11). Las correlaciones
entre esas variables se dan en la Tabla 9.3.
Tabla 9.3. Correlaciones* entre mediciones de agresividad

(AQ-PA, STAXI, DIAS, EXPAGG) e impulsividad (BIS)**.
STAXI
DIAS EXPAGG BIS
E R AE
AQ-PA 0.42 0.67 0.62 0.67 0.49 0.55

E — 0.42 0.36 0.40 0.28 0.33
STAXI R — 0.62 0.61 0.37 0.50
AE — 0.62 0.33 0.53
DIAS — 0.40 0.50
EXPAGG — 0.25
* Todas las correlaciones son significativas (p < 0.001).

**Datos tomados de Santisteban y Alvarado, 2009.
Los datos de la Tabla 9.3 evidencian la validez convergente de la escala

AQ-PA, pues muestran correlaciones significativas con mediciones de diferen-
tes aspectos del mismo constructo, o sea, de la agresividad (con STAXI, DIAS y
EXPAGG), así como con uno relacionado como es la impulsividad (BIS-11).
Red nomológica y correlaciones
La red nomológica que rodea a un determinado constructo en algunos casos pue-

de reducirse a unas pocas variables muy específicas y relevantes. Si se hipotetiza
acerca de las asociaciones de esas variables con el constructo de interés en tér-
minos de validez convergente y discriminante, de que se confirmen o no esas pre-
sunciones, los psicómetras ponen o no en duda la validez de la prueba.
Muchas investigaciones en psicología clínica, evolutiva, social y de las organi-
zaciones suelen utilizar este método, focalizando el estudio en muy pocas varia-
bles o criterios externos que se consideran relevantes y poniendo el énfasis en la
cuantía de las correlaciones entre el constructo de interés y esos criterios. El pro-
blema surge cuando hay que considerar la validez predictiva de ese test y decidir
si se puede generalizar a otros estudios donde sea de interés la medida de ese cons-
tructo.
Comúnmente la generalización de la validez se hace utilizando muestras gran-
des y lo más heterogéneas posible. Sin embargo, en este tipo de estudios gene-
ralmente se utilizan muestras relativamente pequeñas. Entonces, para la genera-
lización de los resultados se suelen llevar a cabo pequeños estudios, incluso a cargo
de diferentes investigadores. Si hay concordancia (correlaciones positivas y de
tamaño al menos moderado) entre los resultados de esos diferentes estudios se
realiza la generalización. Se entiende que estos estudios son tan similares en las
condiciones que se pueden considerar como réplicas. En el caso en que los coe-
ficientes de validez de los diferentes estudios no sean similares, sino que cubran
un amplio rango de valores, entonces hay que examinar si, en efecto, esas dife-
rencias se deben a los procedimientos.
La limitación de la red nomológica responde a una perspectiva tanto concep-
tual como pragmática, como en su día ya señalaran autores como Cronbach, Camp-
bell o Scriben. No obstante, no siempre se pueden elegir unas pocas variables
relevantes sobre las que focalizar el estudio, sino que hay que estudiar las rela-
ciones del constructo con un número elevado de variables criterio. Por ejemplo,
en un estudio sobre perfeccionismo (Hill et al., 2004) se utilizan 23 variables cri-
terio y los autores establecen la validez mediante un análisis lógico de las inter-
correlaciones.
El método de Westen y Rosenthal
Otro de los métodos que se ha propuesto para evaluar la validez convergente y

discriminante es el propuesto por Westen y Rosenthal (2003), al que han deno-
minado cuantificación de la validez de constructo (QCV, sus siglas en inglés). Este
procedimiento se basa en si existe o no concordancia entre unas predicciones que
se hacen a priori acerca de las correlaciones convergentes y discriminantes y las
que posteriormente se obtienen en situaciones reales.
Este procedimiento se puede resumir en tres pasos. En el primero los psicó-
metras enuncian cuáles son sus predicciones sobre las correlaciones convergen-
tes y discriminantes. Esto requiere un análisis detallado de todas las variables y
aventurar un valor para las correlaciones entre cada uno de los constructos o de
las escalas que se van a relacionar. En el segundo paso se recogen todos los datos,
aplicando las pruebas pertinentes de todas y cada una de las escalas de las varia-
bles criterio que a priori se han considerado y se calculan las correlaciones entre
ambos conjuntos de correlaciones, el predicho y el calculado. El tercer paso con-
siste en valorar el ajuste entre lo hipotetizado y los resultados experimentales. Para
la valoración del ajuste entre los datos supuestos y los experimentales, los auto-
res usan dos tipos de resultados, uno basado en el tamaño de los efectos que refle-
jan la cantidad de evidencia de validez convergente y discriminante y el otro es
que, adicionalmente, realizan un test estadístico de contraste. El lector interesa-
do puede consultar estos procedimientos en la obra de Westen y Rosenthal, ante-
riormente citada.
Este método es objeto de críticas, pues presenta puntos débiles en la meto-
dología del ajuste e incoherencias en algunas correlaciones, pero ninguno de los
métodos mencionados que usan correlaciones están exentos de subjetividad, sobre
todo en lo que se relaciona con las interpretaciones de la cuantía de los coefi-
cientes. Una evaluación de la significación estadística del coeficiente de validez se
puede ver en Cohen (1992).
Matrices multirrasgo-multimétodo
La obtención de estas matrices y su interpretación es un método que se utiliza en

el estudio de la validez de constructo cuando se consideran dos o más rasgos que
se van a evaluar por dos o más métodos. Se trata de comprobar que las correla-
ciones entre los valores del mismo rasgo, obtenidos por diferentes métodos, son
superiores a las obtenidas entre diferentes rasgos, aun cuando las puntuaciones
que se correlacionan se hayan obtenido por el mismo método. Si las correlacio-
nes entre las puntuaciones del mismo rasgo son altas, aun cuando se evalúen con
diferentes métodos, se tiene una buena validez convergente. Sin embargo, si las corre-
laciones entre diferentes rasgos son pequeñas, aunque se emplee el mismo méto-
do, se obtiene una buena validez discriminante.
Considérense p métodos con los que se evalúan k rasgos. Los datos obtenidos
de las observaciones se podrán disponer en una matriz p × k en que cada elemen-
to Xij de la matriz indica el valor obtenido en el rasgo j evaluado por el método i.
Todas las intercorrelaciones posibles entre las variables resultantes de com-
binar rasgos con métodos se pueden disponer en una matriz de dimensiones
(p × k) × (p × k), a la que se la denomina matriz de validez, o matriz multirras-
go-multimétodo. La introducción de estas matrices por Campbell y Fiske (1959)
tuvo mucho éxito, pues es una forma de garantizar que las relaciones entre medi-
das del mismo constructo no se deben a artefactos derivados de la utilización de
un cierto método, como a veces se había detectado. En este método se pueden
observar cuatro tipos de correlaciones:
– Monorrasgo-monométodo: Son las obtenidas entre las medidas del mis-
mo constructo obtenidas por el mismo método.
– Monorrasgo-heterométodo: Son las obtenidas entre las medidas del mis-
mo constructo por diferentes métodos.
– Heterorrasgo-monométodo: Son las obtenidas entre las medidas de dife-
rentes constructos evaluados por el mismo método.
– Heterorrasgo-heterométodo: Son las obtenidas entre las medidas de dife-
rentes constructos evaluados por diferentes métodos.
Con el fin de ilustrar este método, Campbell y Fiske (1959) tomaron datos de
estudios de otros autores, comparando las intercorrelaciones de diferentes sub-
tests con los que se evaluaban aspectos de inteligencia social, memoria, com-
prensión y vocabulario.
Tabla 9.4. Matriz de correlaciones multirrasgo-multimétodo.
Método 1 Método 2 Método 3
Rasgos A1 B1 C1 A2 B2 C2 A3 B3 C3
Método 1 A1 .90
B1 .20 .89
C1 .38 .30 .76
Método 2 A2 .67 .22 .09 .93

B2 .22 .77 .10 .18 .94
C2 .11 .11 .56 .29 .18 .74
Método 3 A3 .66 .22 .11 .67 .42 .33 .94

B3 .13 .68 .12 .13 .66 .34 .17 .92
C3 .11 .11 .55 .24 .12 .58 .08 .16 .80
En la Tabla 9.4 se presenta un ejemplo de una matriz completa (con los cua-
tro tipos de correlaciones) en donde se han considerado tres rasgos (construc-
tos) A, B y C (e.g., comprensión, extraversión e inteligencia emocional), eva-
luados por tres métodos. Por simplicidad, se ha denotado con una letra el rasgo,
indicando su subíndice i (i = 1, 2, 3) el método de evaluación. La matriz de corre-
laciones es una matriz de 9 × 9 elementos y simétrica con respecto a la diago-
nal principal, ya que en la correlación lineal entre dos variables se da la simetría
(rXY = rYX). A partir de esa matriz, se puede deducir:
a) Que los términos de la diagonal principal (en negrita), son coeficientes

de fiabilidad de las pruebas que miden esos rasgos, ya que son las corre-
laciones entre medidas repetidas. Las fiabilidades de las pruebas que eva-
lúan el rasgo A (0.90, 0.93 y 0.94), así como las del B (0.89, 0.94 y 0.92)
son elevadas, siendo menores las correspondientes al test C (0.76, 0.74
y 0.80).
b) Las correlaciones (subrayadas) entre los rasgos evaluados por distintos
métodos son los indicadores de la validez convergente. Los tests tendrán vali-
dez convergente si los valores de esas correlaciones son significativos, pues
indican la estabilidad en la medida del constructo, aunque se haya evalua-
do por diferentes métodos y, en cualquier caso, deben ser mayores que las
heterorrasgo-heterométodo. Éste es el caso de los constructos presenta-
dos en la tabla, en donde, rA1A2 = 0.67, rA1A3 = 0.66 y rA2A3 = 0.67 son
valores moderadamente altos, como también lo son los de las correlacio-
nes monorrasgo-heterométodo para el constructo B (0.77, 0.68, 0.66) y
un poco menores para el C (0.56, 0.55, 0.58). También se observa que
estos valores son mayores que los de las correlaciones heterorrasgo-hete-
rométodo.
c) Las evidencias de validez de la adecuada diferenciación entre los constructos
vienen dadas por la validez discriminante. Esta validez se evidencia cuando
las correlaciones entre las mediciones de los constructos son bajas, aun
cuando esos constructos se evalúen con los mismos métodos. Ejemplos
de esos valores en la Tabla 9.4 son rA1C1 = 0.38, rA3C3 = 0.08, rB2C2 = 0.18,
etc. Estas correlaciones deben ser menores que las obtenidas para el mis-
mo rasgo por diferentes métodos.
d) En el caso en que se encuentre que las correlaciones que miden diferentes
rasgos con el mismo método (heterorrasgo-monométodo) sean sistemáti-
camente mayores que las correlaciones monorrasgo-heterométodo, hay
que pensar en la existencia de sesgos o de errores sistemáticos atribuibles
al método.
En consecuencia, el conjunto de los datos de la Tabla 9.4 muestran que las

pruebas que miden los tres constructos o rasgos tienen una adecuada validez con-
vergente y discriminante. Las conclusiones acerca de las evidencias de validez con-
vergente y discriminante utilizando este método se obtienen por simple inspec-
ción, como se ha detallado en los epígrafes anteriores. No obstante, desde que
Campbell y Fiske (1959) publicaron su trabajo, se han desarrollado nuevos pro-
cedimientos y se han propuesto diferentes técnicas, como las de los modelos de
las ecuaciones estructurales o las del análisis factorial (Widaman, 1985), que mejo-
ran de forma sustancial el establecimiento de la validez, y aunque esos procedi-
mientos van más allá de los objetivos de la discusión que aquí se plantea, el lec-
tor debe conocer que el tema no está cerrado y que los psicómetras siguen
construyendo sobre los cimientos del trabajo de Campbell y Fiske.
Los análisis de las matrices multirrasgo-multimétodo proveen de un método
muy adecuado para evaluar la validez de constructo, pues el análisis conjunto de
todos los patrones de correlacionales ayuda a la interpretación de las evidencias
Cuadro 9.3
En el Apartado 8.2 se hace referencia a las importantes aportaciones de Cron-

bach al establecimiento de la validez, así como la que en 1955 hacen Cronbach
y Meehl. Aun cuando ese trabajo supuso un gran avance conceptual, no apor-
ta ningún método estadístico para que se pueda evaluar la validez de cons-
tructo, y el de Campbell y Fiske se puede considerar que extiende y formaliza
las propuestas de Cronbach y Meehl. Hay que hacer notar que en esa época
los investigadores interesados en la descomposición de tareas utilizaban común-
mente las técnicas de análisis factorial y la representación del constructo se
confundía completamente con el enfoque nomotético. Desde ese punto de vis-
ta, las componentes que surgen del análisis factorial se basan en las correla-
ciones entre tareas, cuyas mediciones incluyen múltiples influencias. El éxito
de la propuesta de Campbell y Fiske radica en que, al presentar un panel com-
pleto de correlaciones, se pueden disipar algunas ambigüedades que apare-
cen en la evaluación de la validez de constructo cuando la varianza de los ras-
gos y la de los métodos están entremezcladas.
de validez convergente y discriminante cuando las puntuaciones, y por ende las

correlaciones, están afectadas por las varianzas, tanto de los rasgos como de los
métodos. Éste es un tema en el que, como se ha dicho, se han desarrollado pro-
cedimientos más sofisticados para el análisis estadístico de los datos que los aquí
expuestos, y que en la actualidad siguen generando trabajos, tanto en los investi-
gadores en medición como en los psicómetras. Sin embargo, si se toma en con-
sideración la relevancia de estos métodos, el número de aplicaciones que se refle-
ja en las publicaciones especializadas es mucho menor del esperable.
m9.5. Validez de la estructura interna del testm
La estructura interna de un test es la forma en la que se relacionan las distintas

partes de ese test. Si un test está diseñado para la medición de un determinado
constructo, las distintas partes del test, su estructura, deben reflejar los aspectos
básicos que teóricamente se ha considerado que constituyen ese constructo. La
definición del constructo y, en consecuencia, la estructura del test o del cuestio-
nario, se sustentan tanto en aspectos conceptuales como en los resultados obte-
nidos en investigaciones previas. En el Cuadro 9.5 se expone un caso de cómo

una prueba ha ido evolucionando basándose en esas experiencias.
Las evidencias de validez de la estructura interna de un test se pueden consi-
derar desde diferentes vertientes y todas ellas deben tener presencia en el proce-
so de validación, pues hay que verificar que puede haber partes del test (dimen-
siones) que, aun midiendo el mismo constructo, den cuenta de diferentes aspectos.
Además hay que confirmar que, en efecto, los ítems están asociados con cada una
de esas partes a las que se han asignado. Una de las fases fundamentales en la
construcción de un test es determinar su dimensionalidad, estableciendo cuantos
factores o dimensiones se considere que integran ese test. Si el estudio de la dimen-
sionalidad revela que el test está compuesto por dos o más factores, identifican-
do los ítems que los integran se pueden obtener las puntuaciones de las diferen-
tes subescalas, pero el test completo debe ser una medida global del constructo
de interés.
Un test tendrá validez en su estructura interna si ese test refleja la estructura
del constructo que pretende medir. Las correlaciones entre los ítems del test y
entre los diferentes factores o subesclas son las que dan cuenta de la validez de
su estructura interna. En el procedimiento que se sigue para establecer estos patro-
nes de correlaciones usualmente se hace uso de las técnicas del Análisis Factorial
(AF). El AF exploratorio se suele usar para establecer el número de factores que
componen el test. El AF confirmatorio se suele utilizar para corroborar en qué
medida determinados ítems corresponden a un determinado factor.
Cuadro 9.4
En la búsqueda de un cuestionario que midiera la agresividad se han desa-

rrollado un número considerable de instrumentos, todos basados en una
definición de la agresión que incluye intenciones, expresiones y factores afec-
tivos que la influencian. Uno de los más utilizados ha sido el inventario
de hostilidad de Buss y Durkee (1957), conocido con las siglas BDHI (Buss-
Durkee Hostility Inventory).
El BDHI está compuesto por 66 ítems con un formato de respuesta ver-
dadero-falso y se presenta dividido en siete subescalas. El punto más débil
de este cuestionario es que no utilizaron para su desarrollo métodos de aná-
lisis factorial, sino que los autores sólo se basaron en su validez aparente.
Atendiendo a las críticas que surgieron al respecto, Buss y Perry (1992), uti-
lizando métodos analíticos de análisis factorial, mejoraron considerablemente

el BDHI desarrollando el cuestionario conocido con las siglas AQ (Aggres-
sion Questionnaire).
En su evolución, el AQ pasó por diferentes etapas. Los autores primero
seleccionaron una muestra de 52 ítems, intentando aprehender seis dimen-
siones de agresión: agresión física, agresión verbal, ira, agresión indirecta,
resentimiento y suspicacia. Además, pasaron a un formato de respuesta de
tipo Likert, en lugar del formato de respuesta sí/no del BDHI. Los análisis fac-
toriales exploratorios de esos ítems con rotación oblimin condujeron a un
cuestionario de 29 ítems distribuidos entre cuatro factores designados como
agresión física, agresión verbal, ira y hostilidad. Buss y Perry (1992) descar-
taron 23 ítems porque no cumplían los requisitos establecidos (saturación
igual o mayor que 0.35 en algún factor), llegando así a la versión final del AQ
que consta de 29 ítems en cuatro subescalas. Las dos primeras, agresión
física y verbal, responden a la componente comportamental, en tanto que la
ira es la reacción afectiva que acompaña a la agresión, siendo la hostilidad
la que representa la componente cognitiva.
Las técnicas de AF, por lo tanto, son las que se suelen utilizar en los estudios
de la validez de la estructura interna del test. Por una parte, identificando si el
número de factores es adecuado y que el test proporciona una medida global del
constructo que se estudia. Por otra, se evalúa la validez de las asociaciones entre
los diferentes factores (si los hay), poniéndose de manifiesto mediante el AF cómo
es ese patrón de asociaciones. Por último, en el estudio de la validez de la estruc-
tura interna del test también se debe evaluar la pertenencia o no de un determi-
nado ítem a un determinado factor. Es decir, para establecer la validez se evalúa
en qué grado el ítem que está incluido en un factor está reflejando el aspecto par-
ticular de ese factor en el constructo y no el de otro factor.
Haciendo referencia a un caso concreto, como es el cuestionario AQ que se
describe en el Cuadro 9.6, se puede decir que además de tener la adecuada con-
sistencia interna de las subescalas, ha mostrado tener una buena validez de su
estructura interna, como comprobó en primer lugar Harris (1997) y además se
ha probado que es un instrumento útil para estudiar perfiles agresivos, así como
en la predicción de conductas violentas. Otros autores han corroborado la vali-
dez de su estructura y su estabilidad en estudios transculturales. En la Figura 9.1
se da el patrón de asociaciones, tanto entre ítems como entre factores, obtenido
mediante AF confirmatorio para el cuestionario AQ en una versión en español

adaptada a adolescentes.
Para llevar a cabo los cálculos que conducen a concluir sobre la validez de la
estructura interna de un test, es necesario que se tenga algún dominio sobre las
técnicas de AF. Para validar la estructura tetra-factorial del cuestionario AQ-PA
se ha utilizado análisis factorial confirmatorio con estimadores de máxima vero-
Figura 9.1. Factores de pesos estandarizados y correlaciones múltiples de agresión

física (PA), agresión verbal (VA), ira (A) y hostilidad (H) en una muestra de adolescentes
(Santisteban et al., 2007).
similitud para los parámetros, usando el programa AMOS 5.0. Hay que señalar
que el investigador debe elegir adecuadamente el método para la estimación de
los parámetros y posteriormente hacer comprobaciones sobre la bondad de ese
ajuste a través de los índices pertinentes. Los índices más usuales en estos casos
son los que se denotan con las siglas, GFI (Goodness of Fit Index), AGFI (Adjus-
ted Goodness of Fit Index) y RMSEA (Root Mean-Square Error of Approxi-
mation) que el lector interesado puede encontrar en la literatura especializada (e.g.,
Lawley y Maxwell, 1971; Mulaik, 1972; Gorsuch, 1983; Bryant y Yarnold, 1995;
Thompson, 2004). Entre los programas de software, se pueden usar los más gene-
rales como SPSS y SAS, u otros más específicos para estos propósitos entre los
que actualmente están EQS, AMOS y LISREL, siendo este último muy comple-
to y de uso generalizado.
Puntos clave
3 Cada tipo de validez suele tener su propio método de evaluación. Las eviden-
cias de la validez de contenido usualmente no se apoyan en índices, pero exis-
te una sistemática para ponerlas de manifiesto.
3 Los coeficientes de validez se definen en términos de correlaciones y están aco-
tados, tomando valores en el intervalo cerrado [0,1].
3 La fiabilidad de los tests influye directamente en su validez, que se ve atenuada
por los errores de medida.
3 La validez, al igual que la fiabilidad, varía con la longitud del test. La atenuación
y las modificaciones en la validez debidas a esas variaciones se pueden estu-
diar haciendo uso de la ecuación de Spearman-Brown.
3 La validez aumenta con la varianza de los valores muestrales.
3 La validez de los tests para predecir un criterio se evalúa por la calidad (exacti-
tud) de las predicciones basadas en la información que aportan esos tests (varia-
bles predictoras).
3 La contribución de cada una de las variables predictoras al criterio se evalúa por
la cuantía en la que su varianza contribuye a la varianza total.
3 Las relaciones entre variables predictoras y criterio se establecen mediante regre-
sión lineal, simple o múltiple, regresando la variable criterio sobre las predicto-
ras.
3 Si las variables predictoras no están prefijadas de antemano, sino que hay que
elegir un subconjunto entre las disponibles, se utilizan técnicas como la regre-
sión por pasos, optimizando las soluciones (número de predictores y varianza

explicada) en cada paso.
3 El estudio de las evidencias de validez convergente y discriminante es impor-
tante incluirlo en el procedimiento empírico de validación de los tests.
3 Uno de los métodos para evaluar el grado de convergencia y de discriminación
entre tests es el de las matrices multimétodo-multirrasgo, que son muy útiles,
ya sea en su versión original o incluyendo las nuevas aportaciones de sus pos-
teriores desarrollos.
3 En la evaluación de los coeficientes de validez (predictiva, convergente, discri-
minante) es necesario usar procedimientos de inferencia estadística para la
correcta interpretación de su cuantía y para asegurar la validez de las inferen-
cias que se hagan con el test.
3 La estructura de un test se determina cuando se estudia su dimensionalidad, lo
que generalmente se lleva a cabo mediante las técnicas de análisis factorial.
3 La validación de la estructura interna del test es fundamental en la evaluación
de constructo, pues da cuenta de en qué grado coinciden el test y sus subes-
calas con la estructura definida para el constructo.
3 La validez de la estructura interna se analiza generalmente examinando los
patrones de correlación entre los ítems que integran el test, así como entre
las subescalas. La técnica más usual de llevar a cabo esos análisis son las
del análisis factorial, implementando el estudio con indicadores de la bondad
del ajuste.
3 Abordar en la práctica psicométrica la estimación y la evaluación de las eviden-
cias de validez, que es de lo que trata este capítulo, requiere tener también cono-
cimientos avanzados de estadística (análisis de la varianza, regresión múltiple,
análisis factorial, etc.), así como conocimiento y manejo del software corres-
pondiente.
Actividades
r En el Ejemplo 9.1 el test con mayor validez empírica muestra la menor vali-
dez desatenuada. ¿Cómo se puede explicar esta aparente contradicción?
r En ese mismo Ejemplo 9.1, ¿se debe aceptar el test A3 como predictor sin
hacer más consideraciones? Obsérvese la cuantía de su fiabilidad.
r Las variaciones teóricas de la validez cuando se aumenta o se disminuye la
longitud se pueden representar gráficamente. Hágase la representación de
esas variaciones con los datos de la Tabla 9.2. Se recomienda expresar la
validez (en ordenadas) en función de k (en abscisas).
r Piense en algún criterio y en un predictor de los que pueda fácilmente obte-

ner mediciones (por ejemplo, un estudiante puede administrar una prue-
ba de razonamiento abstracto a sus compañeros para la predicción de sus
calificaciones en psicometría). Estudie la validez de las predicciones.
r Realice la práctica anterior considerando al menos la inclusión de otro pre-
dictor.
r Construya una matriz multimétodo-multirrasgo (a partir de sus propias
observaciones si le resulta posible) y discuta el significado de cada uno de
los valores o conjuntos de valores de esa matriz, en relación con los rasgos
que haya considerado y los métodos que haya propuesto.
r A partir de algún test (cuestionario o inventario) que contenga varias esca-
las y cuyo uso esté generalizado, discuta los aspectos más relevantes de la
validez de su estructura interna.
r Con los datos provenientes de la aplicación de un test que contenga varias
subescalas (si no dispone de los datos de un gran número de personas, pue-
de simularlos), aplique las técnicas de análisis factorial para comprobar si
sus datos reconfirman la estructura interna de ese test. (Recuerde que la
identificación del modelo, la estimación de los parámetros, etc. puede rea-
lizarlos con LISREL). Discuta los resultados en relación con los supues-
tos teóricos sobre la estructura interna de ese test.
La validez
Coeficiente de validez y toma de decisiones 10
El coeficiente de validez, definido como coeficiente de correlación lineal
entre un predictor y un determinado criterio, no da suficiente información
para tomar decisiones en muchas de las situaciones de la vida real. Cuan-
to mayor sea el coeficiente, mayor será la relación entre el test y el criterio,
pero se les plantean todavía diversos interrogantes a quienes tienen que
tomar decisiones basándose en este coeficiente. Por ejemplo, en selección
de personal puede plantearse, entre otras cuestiones, cuál es la probabili-
dad de que los seleccionados tengan después un buen rendimiento, aun-
que el coeficiente de validez del test sea elevado y se haya elegido a aque-
llos aspirantes que tienen las puntuaciones más altas en ese test.
ã Una primera aproximación a cómo discernir si un test puede ser o
no útil para realizar un diagnóstico.
ã Distintos tipos de errores que se pueden cometer en la toma de deci-
siones.
ã Los conceptos de sensibilidad y especificidad de las pruebas, así
como algunas de sus aplicaciones al diagnóstico.
ã Algunos procedimientos en los que el coeficiente de validez se toma
como punto de partida para tomar decisiones en la vida real, hacer
predicciones y evaluar sus efectos.
m10.1. Detección, clasificación y diagnósticom
Las relaciones entre el test predictor y el criterio se utilizan a menudo para hacer cla-
sificaciones y tomar decisiones. Por ejemplo, una determinada universidad tiene esta-
blecido que se admitirá a un estudiante sólo si supera el valor de corte. Esto quiere decir
que el criterio de admisión está dicotomizado. Situaciones similares son, por ejem-
plo, ser o no seleccionado para un puesto de trabajo, o si se posee o no un rasgo en
cierto grado, o cuando se toman decisiones de si un paciente presenta o no una deter-
minada patología (admitido versus no admitido, éxito versus fracaso, patológico versus
no patológico, etc.). Lo que se está suponiendo es que se establecen dos categorías
y un valor de corte, de manera que aquellos que obtengan ese valor de corte o supe-
rior, se clasifican en una de las categorías y el resto en la otra. Si se utiliza un test (o
una batería de tests cuya puntuación total sea X) para hacer esas clasificaciones en
relación con un criterio, ese test será tanto mejor como predictor, cuanto mayor sea
el número de sujetos que se clasifiquen correctamente. Para N predicciones los resul-
tados se pueden presentar en una tabla de contingencia 2 × 2, como en la 10.1.
Tabla 10.1. Tabla de contingencia.
Resultado predicho
mediante el test
Total
éxito fracaso
Situación real éxito a b a+b

(criterio) fracaso c d c+d
Total a+c b+d a+b+c+d=N
En las predicciones del test, como se observa en la Tabla 10.1, se pueden dis-
tinguir dos tipos de aciertos, en cuanto a que son coincidentes con las observacio-
nes o situación real (criterio). Los aciertos son los casos “a” en los que se predice
correctamente que habrá éxito, a los que se denomina verdaderos positivos y también
los casos “d” en los que se predice correctamente que no habrá éxito, o sea, que
habrá fracaso y se los denomina verdaderos negativos. Por lo tanto, el número total de
predicciones que coinciden con el criterio es a + d, siendo c + b el número de las
que no coinciden. Es decir, a + d es el número de casos correctamente predichos
por el test, siendo c + b el número de errores que se han cometido en la predicción
de N casos. Como N variará de una ocasión a otra, parece razonable que se den
valores relativos de esas cantidades, a las que se denomina tasas.
Capítulo 10. Validez: Clasificación y diagnóstico 269
Se denomina tasa de aciertos al porcentaje de predicciones correctas, esto es, a

la relación (a + d)/N expresada en porcentajes, a la que suele denominarse efica-
cia del test. Para la interpretación de la tasa de aciertos, se introduce otro concep-
to y es el de tasa base. Se denomina así a la mejor tasa de aciertos que se haya obte-
nido mediante otro test u otros procedimientos alternativos. Si la tasa de aciertos
hallada con el test X que se está utilizando es alta, pero inferior a la tasa base,
entonces no se considera que ese test sea un buen predictor, aun cuando la tasa
base se haya establecido por la simple observación y contabilización de casos.
Esto suele suceder, por ejemplo, en la predicción de casos raros, en los que la tasa
base de aciertos suele ser muy alta y no es fácil encontrar un test que pueda supe-
rar esa tasa base. Por lo tanto, no toda la discusión cabe hacerla basándose sólo
en la tasa de aciertos, pues puede que esa información no sea suficiente para sus-
tentar la toma de decisiones.
En la Tabla 10.1 se observa que se pueden cometer dos tipos de errores que
son distinguibles (los casos b y los c). Sin embargo, al calcular la tasa de aciertos,
y de forma similar la de errores, ambos tipos de errores se han considerado has-
ta ahora equivalentes, al menos implícitamente, pues no se ha hecho aún men-
ción a sus posibles diferencias, ni distinción alguna entre ellos. Los casos b son
falsos negativos, pues el test les pronostica fracaso y sin embargo entran en la cate-
goría de éxito en el criterio. Los casos c son falsos positivos, pues el test les pro-
nostica éxito y sin embargo no pertenecen a esa categoría.
Examinando el significado de los dos tipos de errores es obvio que en la mayo-
ría de las situaciones reales ambos tipos de errores no tienen la misma importan-
cia y que hay situaciones en las que las consecuencias derivadas de un tipo deter-
minado de error pueden ser graves. Por ejemplo, en el diagnóstico de enfermedades
o de ciertas patologías cuya detección conduce a la aplicación inmediata de una
determinada terapia. La comisión de errores como los c llevará a que, a individuos
que no padezcan la enfermedad, se les someta a la terapia, en tanto que otros que
la padecen (falsos negativos) estarán privados de ella. La gravedad de uno u otro
error habría que juzgarla en cada caso concreto y el experto debe tenerlo muy en
cuenta al fijar el punto o valor de corte para la toma de sus decisiones. También debe
conocer y tomar en consideración la precisión (fiabilidad) de las pruebas que está
administrando. Además, ese valor de corte no se debe dar nunca como definitivo,
sino que hay que revisarlo periódicamente a la vista de nuevas evidencias. Quienes
tienen que tomar este tipo de decisiones pueden también usar la teoría de la utili-
dad y otras técnicas específicas dirigidas a mejorar sus decisiones.
Ejemplo 10.1
Tras aplicar un test de agresividad a 200 personas y observar posterior-

mente su conducta, se obtienen los datos de la Tabla 10.2. ¿Cuál es la tasa de
aciertos?
Tabla 10.2. Datos obtenidos al aplicar el test.
Resultado predicho
mediante el test
Total
Agresivo No agresivo
Situación real Agresivo 100 20 120

(criterio) No agresivo 10 70 80
Total 110 90 200
Hay un total de 170 aciertos (los 100 casos positivos y los 70 negativos)
entre los 200 observados. Por lo tanto, la tasa de aciertos es del 85%, que pare-
ce relativamente alta. Entonces la siguiente pregunta a la que habría que res-
ponder es ¿se puede admitir en la práctica que ese test es un buen predictor?
Otra forma de enfocar este tema es abordarlo como el análisis de las medidas
de asociación entre dos variables, la del test predictor y la del criterio (Santiste-
ban, 1999). Los análisis son similares aunque con una perspectiva a veces ligera-
mente distinta en el significado de los datos (e.g., diagnóstico positivo o negativo
frente a presencia o ausencia de factor de riesgo), que está ampliamente tratada
en epidemiología y ciencias de la salud, en especial en el diagnóstico clínico.
Sensibilidad y especificidad
El efecto que tiene en la práctica el uso de un test específico también se puede

evaluar analizando su sensibilidad y especificidad. Estos dos conceptos están aso-
ciados a la potencialidad del test en cuanto a realizar una correcta identificación
de los casos cuando éstos se deben asignar a una de dos categorías.
La sensibilidad se define como la relación a/(a + b). Es la fracción de verda-

deros positivos (FVP), que refiere el número de éxitos o positivos predichos acer-
tadamente por el test en relación con el total de verdaderos positivos, es decir, en
relación con los verdaderos positivos predichos por el test más los “b” que el test
ha sido incapaz de predecir. Por lo tanto, la sensibilidad refleja la capacidad que
tiene el test para identificar correctamente los casos positivos.
La especificidad se define como la relación d/(c + d), que es complementaria
con la fracción de falsos positivos (FFP). A esta relación se la denomina fracción de
falsos negativos e indica el número de verdaderos negativos (fracasos) “d” en rela-
ción con el número total de casos negativos reales, tanto los que predice adecuada-
mente el test, “d”, como los que no predice, “c”. Por lo tanto, se llama especificidad
a la capacidad del test para identificar correctamente los fracasos o casos negativos.
En relación con estos datos se puede valorar el valor predictivo del test en
relación con el diagnóstico, tanto de casos positivos como de negativos.
A continuación se resumen las expresiones correspondientes a estas relaciones:
Sensibilidad =
a
a+b
(10.1)
Especificidad =
d
c+d
(10.2)
a +d
Eficacia =
a +b+c+d
(10.3)
Valor predictivo para casos positivos =

a
a +c
(10.4)
Valor predictivo para casos negativos =

d
b+d
(10.5)
Ejemplo 10.2
Supóngase que un test dirigido a detectar la presencia o no de una deter-
minada patología se administra a 100 personas y que se obtienen los resulta-
dos que se dan en la Tabla 10.3. Las categorías se han etiquetado como Sí y
No, indicando la presencia o ausencia de la patología.
Tabla 10.3. Presencia y ausencia de patología observada y diagnosticada por el test.
Resultado predicho
mediante el test
Total
Sí No
Sí 8 2 10
Situación real
No 12 78 90
Total 20 80 100
El número total de casos con patología son 10 y sin patología son 90, pudién-
dose observar que:
– los casos de verdaderos positivos son a = 8

– los verdaderos negativos son d = 78
– falsos positivos hay c = 12
– falsos negativos hay b = 2
– La sensibilidad o FVP, la especificidad y la eficacia son:
FVP = Sensibilidad = = = 0.80

a 8
a + b 10
1− FFP = Especificidad = = = 0.87

d 78
c + d 90
a+d
Eficacia = = = 0.86
86
a + b + c + d 100
La especificidad es complementaria a la fracción de falsos positivos (FFP),

que es el cociente entre c y (c + d). Por lo tanto FFP = 1 – especificidad = 0.13.
El valor predictivo del test en relación con su diagnóstico es:
= = 0.40
a 8
a + c 20
Valor predictivo para casos positivos:
= = 0.975
d 78
b + d 80
Valor predictivo para casos negativos:
A la vista de estos resultados se puede decir que la especificidad de ese test

es mayor que su sensibilidad y que, por lo tanto, tiene un valor predictivo de
negativos mayor que de positivos. Otro valor que puede derivarse de estos datos
es una primera estimación de la tasa base, que podría fijarse en 10/100 = 0.10,
pues hay 10 casos (con patología) en los 100 estudiados.
Curvas ROC
La limitación fundamental del enfoque hasta ahora expuesto estriba en la exi-

gencia del carácter dicotómico de la respuesta del test, que no permite estudiar
casos en los que las respuestas se dan como una variable continua o discreta mul-
ticategórica. Sin embargo, aunque la variable no sea dicotómica se puede dicoto-
mizar utilizando un valor de corte (nivel de decisión o umbral) y estudiar las tasas
de éxito (FVP) frente a la de falsas alarmas (FFP) al variar ese punto de corte, o
umbral de detección. Este procedimiento es la base del análisis mediante las cur-
vas ROC (Receiver Operating Characteristic Curves) que se desarrollaron para la
adecuada detección de señales de radar y posteriormente se aplicaron en psicofí-
sica, siendo hoy en día muy utilizadas en diagnóstico clínico, y en general, en todas
aquellas situaciones en las que hay que clasificar como señales los resultados obte-
nidos con unas determinadas medidas físicas o con mediciones psicológicas (dis-
tinguiéndolas de todo aquello que las acompaña pero que no es señal, o sea, del
ruido). Esto representa que hay que discriminar entre los verdaderos positivos
(señales) y los falsos positivos (ruido).
Para entender el fundamento de las curvas ROC supóngase que en el criterio
(situación real) las probabilidades de tener éxito y fracaso están dadas por dos cur-
vas normales como las de la Figura 10.1, en la que la media de la variable x es
superior para los éxitos que para los fracasos. Hay una zona de valores en que
ambas curvas se solapan y es donde se cometen errores. El problema es dónde
se pone el punto de corte para separar los éxitos de los fracasos optimizando el
resultado, pues si este valor está muy a la derecha bastantes éxitos se contabiliza-
rán como fracasos. Si se pone muy a la izquierda, se estarán contando como éxi-
tos algunos fracasos. La solución no está en igualar el número de errores de uno
u otro tipo, pues dependiendo de cada caso en particular hay que optimizar o la
FVP o la FFP.
Figura 10.1. Distribuciones hipotéticas de los resultados de aplicar un test a una

gran población. La variable X que evalúa la respuesta se supone que es continua.
Si se elige un valor, digamos x0, al que a partir de ahora llamaremos valor de

corte se tiene que:
La FVP o sensibilidad será el área bajo la curva de éxito a la derecha de ese
valor de corte (áreas sombreadas clara y oscura).
La FFP (1 – especificidad) será el área bajo la curva de fracasos a la derecha
de dicho valor de corte (área sombreada oscura).
Si se va cambiando el punto de corte, por ejemplo a la derecha de x0 tanto la FVP
como la FFP disminuyen, es decir, aumenta la especificidad. Si por el contrario el
punto de corte se sitúa a la izquierda de x0, por ejemplo en x1, la FVP aumenta (casi
a uno) y la FFP también aumenta, por lo que la especificidad disminuye.
La curva ROC se obtiene representando en ordenadas los valores de FVP y
en abscisas los de FFP para distintos valores de corte.
El valor de corte x0 de la Figura 10.1 se corresponde con el punto represen-
tado con un rombo en la Figura 10.2. Para otros valores de corte se obtienen otras
parejas de valores FVP, FFP, que como ya se ha dicho al representarlas, dan la
curva A de la Figura 10.2, a la que se denomina curva ROC. Por lo tanto, se pue-
de decir que una curva ROC es la representación gráfica de la sensibilidad fren-
te a la diferencia a uno de la especificidad, es decir, de la fracción de verdaderos
positivos frente a la de falsos positivos (FVP en ordenadas y FFP en abscisas).
En la Figura 10.2 se dan como ejemplo dos hipotéticas curvas ROC obteni-
das al aplicar dos tests, en las que se han considerado todos los posibles valores
de corte. Estas curvas ROC proporcionan una representación de la exactitud
alcanzada por cada test, reflejando el compromiso entre sensibilidad y especifi-
Figura 10.2. Curvas ROC de los tests A y B.
cidad. Si se modifica el valor de corte para aumentar la sensibilidad, sólo puede

hacerse a expensas de disminuir al mismo tiempo la especificidad. La diagonal
principal también representada en la Figura 10.2 corresponde a la siguiente igual-
dad: FVP = FFP, o sea, sensibilidad = 1 – especificidad para cualquier valor de
corte.
verdaderos positivos (a ) falsos positivos (c)

total positivos (a + b) total negativos (c + d)
=
Esta igualdad solamente se cumple si a d = b c, es decir, si los aciertos y desa-

ciertos (en relación con el total de éxitos y fracasos) son iguales, con indepen-
dencia del valor de corte utilizado, es decir son aleatorios.
La exactitud del test aumentará a medida que la curva se aleja de la diagonal
hacia el vértice superior izquierdo. Si la discriminación fuese perfecta (100% de
sensibilidad y 100% de especificidad) la curva pasaría por ese punto (FFP = 0,
FVP = 1). Así la curva A indica que es preferible utilizar este test que el que con-
duce a la curva B. La cuestión crítica es definir en cada caso “el valor de corte”
más conveniente dependiendo del tipo de problema que se vaya a diagnosticar,

es decir, cuanto se puede aumentar la sensibilidad a costa de la especificidad. Por
otro lado, las curvas ROC dadas en la Figura 10.2 son ideales, y se alejan de los
casos reales por varias razones: las poblaciones en las que se determina el núme-
ro de éxitos y fracasos son usualmente pequeñas, pudiendo o no representar ade-
cuadamente a la población total, las distribuciones que hemos supuesto norma-
les usualmente se desconocen y la variable X no es continua (por ejemplo, cuando
se usa una escala de Likert con 3 o 5 posibles alternativas para la respuesta). Estos
problemas se pueden abordar utilizando los paquetes de software libre o comer-
cial. Por ejemplo, el software que proporciona el paquete SPSS para estos análi-
sis, obtiene los pares de valores de los puntos de cada curva ROC, así como el
correspondiente gráfico. Esto permite hacer comparaciones rápidas entre dife-
rentes curvas, ya que la capacidad predictiva de una curva se visualiza por su ale-
jamiento de la diagonal principal.
m10.2. Interpretaciones y uso práctico del coeficiente de validezm
La correlación entre el test y la variable criterio se puede tomar como punto de

partida para la toma de decisiones en la vida real. Al respecto se han diseñado
varios procedimientos que utilizan el coeficiente de validez para tomar deci-
siones, hacer predicciones y evaluar sus efectos en la práctica. Entre ellos, expon-
dremos brevemente dos de los más conocidos, el BESD y las tablas de Taylor-
Rusell.
BESD
El BESD (de sus siglas en inglés, Binomial Effect Size Display) está diseñado para
ilustrar cuáles son las consecuencias que en la práctica puede tener tomar deci-
siones basadas en el coeficiente de validez. Ha sido descrito (Rosenthal y Rubin,
1979, 1982; Rosenthal, 1990; Rosenthal y Rosnow, 2008) como un método de
fácil comprensión y con el que, utilizando cálculos muy simples, se puede poner
de manifiesto el tamaño del efecto de una variable independiente sobre la tasa
de éxito, o de mejora en la variable criterio. Este efecto se expresa como un cam-
bio desde un porcentaje (0.50 – ρ / 2) a otro porcentaje (0.50 + ρ / 2), donde
ρ representa el coeficiente de correlación entre la variable dependiente (predic-

tora) y la variable criterio.
El método se basa en la clasificación de los participantes en dos categorías,
tanto en el predictor (puntuaciones altas y bajas en el test) como en el criterio
(buena y mala ejecución en la tarea) y en la utilización del coeficiente de correla-
ción entre el test y el criterio para estimar el número de personas que podrían estar
en cada una de esas categorías.
Este procedimiento se ha diseñado bajo el supuesto de que hay dos grupos
de igual tamaño y que la tasa de éxito es binomial con p = 0.50. Esto es, en un
grupo de 200 personas 100 obtienen puntuaciones altas o muy altas en el test y
las que obtienen las otras 100 personas son relativamente bajas. La pregunta es
¿cuántas personas que tienen puntuaciones altas y cuántas de las que tienen pun-
tuaciones bajas tendrán una buena ejecución en el criterio? Para dar la respuesta,
el BESD usa el coeficiente de validez, φ, obtenido mediante la ecuación:
φ=
(a d) − (bc)
(a + b) (a + c) (c + d) (b + d)
(10.6)
donde a, b, c y d tienen el mismo significado que el dado en la Tabla 10.1.

El caso más desfavorable que se podría contemplar es cuando el coeficiente
de validez fuese cero, es decir, que no hubiese correlación entre el test y el crite-
rio. En este caso, quien tenga que tomar las decisiones basándose en un test que
le lleva a obtener una información como la dada en la Tabla 10.4, lógicamente
desechará ese test pues ¿qué puede deducirse de esta tabla que sea diferente a cla-
sificar a una persona en una categoría u otra por puro azar?
Tabla 10.4. Ejemplo de BESD con una correlación ρ = 0.
Ejecución en la tarea
Puntuación
Total
en el test
Buena Pobre
Alta 50 50 100
Baja 50 50 100
Total 100 100 200
Por lo tanto, se supone que el coeficiente de validez ρ, o bien φ, son diferen-

tes de cero, y el procedimiento que se sigue es el que se da en la Tabla 10.5.
Tabla 10.5. Tabla estándar de BESD.
Condiciones:
Fracaso Éxito Total
Puntuación en el test
Alta 100 (0.50 + φ/2) 100 (0.50 – φ/2) 100

Baja 100 (0.50 – φ/2) 100 (0.50 + φ/2) 100
Total 100 100 200
Las principales limitaciones del BESD provienen de que los grupos con pun-
tuaciones altas y bajas (o grupos tratamiento y control cuando se trate de tests clí-
nicos) deben ser de igual tamaño. Además, tampoco parece que se ajuste a la rea-
lidad considerar que la tasa de éxito sea del 50%, o sea, suponer que la mitad de
la muestra tendrá éxito en el criterio y la otra mitad no. Por ello, aunque es un pro-
cedimiento muy intuitivo, algunos autores han criticado su uso (Hsu, 2004). No
obstante, este método se utiliza en el cálculo del tamaño del efecto y es útil si no
se violan sus supuestos. Presentaremos un ejemplo para ilustrar cómo este méto-
do puede ser útil, siendo importante la información que aportan incluso coefi-
cientes de validez relativamente bajos.
Ejemplo 10.3
¿Qué podría decidir el director de recursos humanos con respecto a la

contratación de personal para su empresa si la correlación entre el test que
ha utilizado en su empresa para la selección y el criterio es de ρ = 0.60? Apli-
cando el procedimiento de la Tabla 10.5, se obtienen los valores dados en la
Tabla 10.6:
Según este procedimiento, se predice que 80 personas con puntuacio-
nes bajas en el test no tendrán éxito, y que 80 con altas puntuaciones sí lo
tendrán.
Tabla 10.6. Resultados BESD con ρ = 0.60.
Ejecución en la tarea
Puntuación
Total
en el test
Buena Pobre
Alta 80 20 100
Baja 20 80 100
Total 100 100 200
Si el director de recursos humanos decide contratar a aquellos que tuvie-

ran altas puntuaciones, puede esperar que el 80% de ellos tendrán éxito en
el trabajo para el que se les contrata, lo que no parece un mal porcentaje,
incluso es muy bueno si se puede permitir, dependiendo de las posibilidades
de la empresa y del coste de hacer la selección definitiva después de un perío-
do de prueba o de entrenamiento. Si hubiese utilizado un test con mayor vali-
dez, ρ = 0.80 por ejemplo, el porcentaje de éxitos entre los seleccionados con
las mejores puntuaciones subiría al 90%. No obstante, el director de recur-
sos humanos puede ser que sólo pueda contratar al 10% de los aspirantes,
y no al 50%. En este caso, sería más apropiado que acudiese a otro proce-
dimiento, por ejemplo, que hiciese uso de las tablas de Taylor-Russell, aun-
que también en este método, tanto el predictor (test) como el criterio se tra-
tan como variables dicotómicas.
Tablas de Taylor-Russell
En los párrafos anteriores se ha visto que, para aceptar que un test es válido para
la toma de decisiones en relación con un criterio dicotomizado, hay que evaluar
la tasa de aciertos que se obtiene con ese test en relación con la tasa base, si se
dispone de ella y que en muchos casos el coeficiente de validez de una prueba no
es suficiente para tomar decisiones en relación con un criterio. Para ilustrarlo,
situémonos en un caso de toma de decisiones en un proceso de selección de per-
sonal. En este contexto, quien tiene que tomar las decisiones, no solamente ten-
drá en cuenta el valor predictivo del test y su coeficiente de validez, sino también
el porcentaje de solicitantes que puede admitir y las evidencias obtenidas median-
te la aplicación de otras pruebas (por otros analistas o por él mismo), o por su
propia experiencia desempeñando el cargo. Un método que aúna estas informa-
ciones lo proporcionan las tablas de Taylor-Russell (1939), que son tan útiles como
sencillas de manejar y que han sido un antecedente de estudios posteriores reali-
zados desde el punto de vista de la teoría de la decisión. Estas tablas permiten
conocer la ganancia neta en la selección que es atribuible al test, teniendo en cuen-
ta la tasa base y la razón de selección. Los valores que aparecen en estas tablas
indican la proporción de personas que tendrán éxito, si para la predicción se hace
uso de las pruebas.
En esas tablas se consideran distintos aspectos, cuya información hay que
tener disponible para usarlas. Hay que conocer:
– El coeficiente de validez.
– La razón de selección, que es la proporción de solicitantes que se debe acep-
tar o que se van a contratar, etc.
– La tasa base, que es la proporción de éxitos de la que se tiene conocimien-
to, habiéndose obtenido esa información por medios diferentes al uso de
ese test.
Al depender las proporciones estimadas de éxitos que dan las tablas de estos
tres indicadores, cualquier cambio en alguno de ellos alterará la eficacia con la que
se hacen esos pronósticos.
Las tablas de Taylor-Russell son de doble entrada y hay una tabla para cada
tasa base que se considera. Las entradas de cada una de estas tablas son, por un
lado, diferentes razones de selección (0.05, 0.10, 0.20, 0.30, 0.40, 0.50, 0.60, 0.70,
0.80, 0.90, 0.95) y por la otra 21 valores diferentes de validez, dados de cinco en
cinco centésimas y ordenados en orden creciente, desde el valor del coeficiente
ρ = 0.00 hasta el valor 1.00. En el cuerpo de la tabla, para una determinada tasa
base, se da la proporción de personas seleccionadas que se considera que tendrán
éxito, de acuerdo con esos pares de valores de entrada (el coeficiente de validez
de la prueba y la razón de selección).
La mejor forma de comprender su sentido y utilidad es haciendo uso de algu-
na de esas tablas. Por ello, con el fin de poder ilustrar tanto los datos de sus con-
tenidos como su significado e interpretación, en la Tabla 10.7 se da una versión
simplificada de una de esas tablas. En la práctica se debe tener disponible no una
sola, sino todas las tablas. Un conjunto completo de ellas se pueden encontrar en
otras fuentes, además de las tablas originales, que se dan y se discuten en el artícu-
lo publicado por los autores (Taylor-Russell, 1939).
Tabla 10.7. Valores de la proporción de éxitos esperados para algunos valores de la razón
de selección y del coeficiente de validez de la prueba, en el caso particular
de que sea 0.60 la tasa base.
Razón de selección
Validez
0.05 0.10 0.30 0.50 0.70 0.90 0.95
0.00 0.60 0.60 0.60 0.60 0.60 0.60 0.60

0.10 0.68 0.67 0.65 0.63 0.62 0.61 0.60
0.20 0.75 0.73 0.69 0.66 0.64 0.62 0.61
0.30 0.82 0.79 0.73 0.69 0.66 0.62 0.61
0.40 0.88 0.85 0.78 0.73 0.68 0.63 0.62
0.50 0.93 0.90 0.82 0.76 0.70 0.64 0.62
0.60 0.96 0.94 0.87 0.80 0.73 0.65 0.63
0.80 1.00 0.99 0.95 0.88 0.78 0.66 0.63
0.90 1.00 1.00 0.99 0.94 0.82 0.67 0.63
0.95 1.00 1.00 1.00 0.97 0.84 0.67 0.63
1.00 1.00 1.00 1.00 1.00 0.86 0.67 0.63
Si la validez del test es 0.80 y se seleccionan el 30% de los aspirantes se espe-

ra, según la Tabla 10.7, que el 95% de los seleccionados tengan éxito. Para una
tasa base y validez dadas, la discusión sobre la información que proporcionan las
tablas y la de su utilidad se centra en el porcentaje de personas que pueden admi-
tirse, o contratarse, o sea, en la razón de selección. Si se va a admitir a la totalidad
de los aspirantes, entonces no es necesario aplicar prueba alguna, ni por supues-
to estudiar su validez. Aún más, si se van a seleccionar el 95% de los aspirantes,
tampoco parece muy útil el uso del test, pues aun en el caso hipotético de que su
validez fuese perfecta, con una tasa base de 0.60, el máximo rendimiento que se
podría obtener es elevar el pronóstico del número de personas que tendrían éxi-
to en un 3% (véanse los valores de la primera y última fila de la última columna).
Por lo tanto, quienes tengan la responsabilidad de hacer la selección deberán valo-
rar los costes en tiempo, recursos, etc. que suponen aplicar el test en relación con
el aumento de la precisión en el pronóstico.
Examinando detenidamente cada una de las tablas de Taylor-Russell se pue-
de observar que al ir aumentando el valor de la validez del test crece la precisión
en la predicción, y que a medida que crece la razón de selección, decrece la pre-

cisión de la predicción. Por lo tanto, cuando hay que hacer una selección para
algún propósito determinado o contratar para un trabajo a un número elevado
de personas, aunque la validez del test sea muy alta, las probabilidades de elegir a
personas cuyo rendimiento no sea adecuado también son altas. Por el contrario,
para una determinada tasa base, si la razón de selección es muy pequeña, un test,
aun teniendo una validez baja, puede mejorar sustancialmente el resultado del
proceso de decisión, ya que mediante ese test se seleccionará sólo a aquellos que
obtengan puntuaciones muy elevadas.
Cuadro 10.1
Según Cronbach, la validez no es el grado en que un test mide aquello que

se pretende medir, sino que la validez se refiere a las propiedades de las infe-
rencias que se pueden hacer con ese test. O sea, que la validez se refiere a
la calidad de los juicios y de las decisiones que se toman basándose en las
puntuaciones de ese test. Así, si el test se usa para contratar personal para
un determinado trabajo, la validez del test se refiere al grado en que ese test
es útil para tener éxito con esa contratación.
En 1928, Hull dijo que con los tests psicológicos muy raramente se
podrían hacer predicciones sobre el éxito en el desarrollo de una tarea (no
se obtendría una correlación con el criterio mayor que 0.30). Con esto, lo
que vino a decir es que los tests no son útiles en la selección de personal,
porque no predicen bien el éxito o el buen rendimiento en aquellas tareas
para las que se les selecciona. En su artículo, Taylor y Russell (1939) le
contestaron a Hull que a veces los tests pueden ser muy útiles en la selec-
ción de personal, incluso cuando la correlación entre el test y el criterio no
sea muy alta. A su vez, le señalaron que a veces los tests no son muy úti-
les para esos propósitos, aun cuando la correlación entre el test y el cri-
terio sea alta.
Decenas de años más tarde se puede afirmar que ese artículo ha sido
uno de los más famosos en el ámbito de la psicología industrial y de las orga-
nizaciones y que en ese contexto las tablas de Taylor-Russell han alcanza-
do cotas de popularidad muy altas en la toma de decisiones en relación con
la contratación y selección de personal.
Ejemplo 10.4
Supóngase que con una tasa base de 0.60 y con un test cuya validez es de
0.40 se han contratado 120 personas de un grupo de 400 aspirantes. ¿Cuán-
tos de esos contratados se espera que rindan bien en su trabajo?
En este caso, la razón de selección ha sido 120/400 = 0.30, y haciendo uso
de la Tabla 10.7 se observa un valor de probabilidad de 0.78. Luego se espera
que el 78% de los 120 contratados rinda bien en el trabajo, es decir, un núme-
ro aproximado de 94 de ellos.
Ejemplo 10.5
En otra empresa se juzga que es absolutamente necesario que al menos el

90% de los nuevos contratados den un buen rendimiento. Se conoce que es
0.60 la tasa base en ese puesto de trabajo. Además, visto el número de solici-
tantes, sólo pueden admitir al 10%, aunque el director de personal, por necesi-
dades del servicio, está negociando la posibilidad de que se pudiera llegar a con-
tratar hasta el 30%, si ello fuese posible, en cuyo caso, se le pide subir las
exigencias y que al menos el 95% de los contratados diera un buen rendimien-
to. Para realizar la selección quieren ayudarse de un test. ¿Qué validez debe tener
ese test para que se ajuste a esos requerimientos en cada uno de los casos?
Si la razón de selección es 0.10, se observa en la Tabla 10.7 que la validez
de ese test debe ser igual o superior a 0.50. En el caso en que la razón de selec-
ción pudiese alcanzar el valor de 0.30, con un porcentaje de éxitos igual o supe-
rior al 95%, el valor exigible para la validez es de al menos 0.80.
Ejemplo 10.6
En un empleo en el que la tasa base es 0.60, se necesitan 40 personas que

sean buenas trabajadoras. Para la selección se va a administrar a 100 aspi-
rantes un test cuya validez es 0.60. ¿A cuántos aspirantes habría que contra-
tar para asegurarse ese número necesario de buenos trabajadores?
De acuerdo con la Tabla 10.7 habría que contratar a 50 aspirantes.
En la Tabla 10.7 se pueden observar algunos datos que respaldan la respuesta

que Taylor-Russell dieron a Hull (Cuadro 10.1) acerca de la relación entre la vali-
dez y la utilidad de los tests en selección. Si un director de personal debe con-
tratar al 95% de los aspirantes, se puede esperar que un 37% de ellos no den buen
rendimiento, aun cuando utilice para la selección un test con validez unidad. Sin
embargo, si sólo contratara al 10%, es de esperar que el 100% de ellos diera un
buen rendimiento, aun cuando la validez del test fuese algo inferior, por ejem-
plo, 0.90. Más aún, si con esa razón de selección quien tiene que tomar las deci-
siones usa un test cuya validez fuese mucho menor, por ejemplo sólo 0.40, toda-
vía podría pronosticar un 85% en el porcentaje de éxitos. Las tablas de
Taylor-Russell se pueden aplicar a multitud de situaciones en las que el criterio
esté dicotomizado y se fije la razón de selección.
Ejemplo 10.7
Un terapeuta puede establecer dos categorías de pacientes, los que mejo-

ran sustancialmente y los que no. Sabe que su tasa base es de 0.60, ya que en
su larga experiencia ha comprobado que alrededor del 60% de sus pacientes
mejoran sustancialmente con la terapia. La demanda en su clínica es muy alta
y no puede aceptar más que al 70% de los pacientes que lo solicitan. Si para
admitir a los nuevos pacientes aplicara un test cuya validez fuese ρ = 0.80,
entonces sería considerable el aumento de su proporción de éxitos, pues sería
de 0.78, es decir un aumento de 0.18 sobre la tasa base.
Considerando todas las posibilidades y las ventajas de su uso ¿por qué no se

utilizan con mayor profusión estas tablas en algunos ámbitos, por ejemplo, en clí-
nica? Porque uno de los mayores problemas de estas tablas es que no distinguen
entre tipos de errores, como los que se han discutido a partir de la Tabla 10.1. Es
decir, la selección que se puede hacer utilizando las tablas son estimaciones de las
probabilidades de éxito de los seleccionados, pero nada se sabe de los no selec-
cionados ni de sus posibilidades de éxito.
m10.3. Análisis de la utilidadm
La validez, en el marco del análisis de la utilidad, se estudia en términos de coste

y beneficio. Esto es, ¿cuánto se gana usando el test? ¿Cuál es el coste de incluir la
aplicación de tests como parte del proceso de toma de decisiones?
Utilicemos un ejemplo muy simple de clasificación que tiene en la práctica

consecuencias inmediatas. En una empresa hay que tomar decisiones sobre la
contratación de personal. Los aspirantes se entrevistan con el dueño de la empre-
sa y con el director de personal, quienes acuerdan de forma independiente que
van a hacer la clasificación de los aspirantes en tres categorías: los que se contra-
tarían directamente (categoría A), los que se rechazarían (categoría B) y los que
se contratarían o no después de un período de prueba (categoría C). Una vez rea-
lizada la clasificación, cuyos resultados se presentan como Ejemplo 10.8, lo que
en primer lugar hay que preguntarse es ¿cuál es el grado de coherencia, entre
ambos? Si sus opiniones no son concordantes ¿deberían afrontar algunos costes
y aplicar otras pruebas para tomar las decisiones?
Por lo tanto, el análisis de la utilidad en estos contextos está relacionado con
la forma de llevar a cabo los procesos de clasificación, que en la práctica se reali-
zan por muchas vías. Formalmente se pueden abordar desde las técnicas estadís-
ticas de análisis multivariante, como los análisis de cluster o el análisis discriminante
en el que se pueden incluir los costes asociados a una mala clasificación, o median-
te fórmulas muy simples sobre la coherencia entre decisores (jueces), como el
coeficiente kappa.
Cuadro 10.2
El coeficiente kappa, κ, se genera para tratar de evaluar la coherencia entre

el diagnóstico que han emitido diferentes personas con los mismos datos, o
las calificaciones dadas por diferentes jueces, o las obtenidas por diferentes
métodos, etc. Es un coeficiente sencillo que puede ser negativo y cuyo lími-
te superior es el valor uno. Se basa en el número total de casos analizados y
en las frecuencias con las que se dan las coincidencias entre jueces.
Parece lógico que cuando dos jueces analizan un número N de casos
la proporción (o la frecuencia relativa) de coincidencias entre ellos supere
aquella que podría esperarse por azar. Por lo tanto, si es N el número de
casos analizados, fc la frecuencia (absoluta) de coincidencias observadas
y f e la de coincidencias esperadas, el coeficiente kappa responde a la
expresión:
fc − fe
κ=
N − fe
(10.7)
Ejemplo 10.8
En el caso que nos ocupa, el empresario ha clasificado a 33, 45 y 42 per-

sonas respectivamente en las categorías A, B y C y el director de personal ha
asignado 41, 45 y 34 personas en cada una de esas categorías. Calcule el valor
del coeficiente kappa para estas clasificaciones.
Tabla 10.8. Distribución de la clasificación de 120 aspirantes en tres categorías

realizada por los dos jueces.
Director de personal
Totales
A B C
A 15 8 10 33
Empresario B 10 25 10 45
C 16 12 14 42
Totales 41 45 34 120
La frecuencia total de coincidencias es fc= 15 + 25 + 14 = 54.

Las frecuencias esperadas para las casillas (A, A), (B, B) y (C, C) son
fAA =
(33)(41) = 11; fBB =
(45)(45) = 17 ; fCC =
(34)(42) = 12
120 120 120
por lo que fe = 11 + 17 + 12 = 40. Haciendo uso de la ecuación (10.7):
54 − 40
κ= = 0.17
120 − 40
se obtiene un valor del coeficiente κ que indica que la concordancia entre ambos
jueces es muy débil, aunque para ser rigurosos se debería contrastar estadís-
ticamente si ese valor es significativamente diferente de cero.
Aun cuando este método sólo proporciona información sobre la coherencia

entre jueces en cuanto al número de clasificados, en la literatura se pueden encon-
trar muchos otros índices obtenidos por diversos procedimientos estadísticos para
evaluar el grado de acuerdo entre jueces u observadores. Los resultados del Ejem-
plo 10.8 pueden ser un buen argumento para valorar la utilidad de administrar
pruebas específicas que ayudarán a esos empresarios en su toma de decisiones.
La utilidad también se puede evaluar en relación con las decisiones derivadas
de las tablas de Taylor-Russell, como propusieron los propios autores. La cues-
tión clave aquí es cuál es la mejor estrategia para aumentar la utilidad, ya que la
tasa de éxitos se puede incrementar aumentando el coeficiente de validez, aumen-
tando la tasa base y/o disminuyendo la razón de selección.
El estudio de la utilidad lo hacen expertos, basándose en un modelo de utilidad
y asignando valores monetarios a diferentes aspectos del proceso de toma de deci-
siones. Se estima, por una parte, el beneficio económico que conlleva tomar deci-
siones utilizando el test frente a no utilizarlo, pues el uso del test puede aumentar el
porcentaje de éxito entre los seleccionados. Por otra parte, se valora el coste añadi-
do que conlleva utilizar tests en el proceso. Es decir, el coste en términos moneta-
rios de su adquisición, administración, la valoración e interpretación de las puntua-
ciones, etc., para lo que se requiere también contratar personal especializado en esas
tareas, así como los costes en tiempo que lleva la realización de todo ese proceso.
Desde una perspectiva economicista, el empleador puede valorar la relación
coste-beneficio al utilizar unos u otros procedimientos en la toma de decisiones
y asumir o no los posibles riesgos de contratar un número mayor o menor de per-
sonas no idóneas para el puesto de trabajo.
Para el aspirante, los costes de la no distinción entre errores (falsos positivos
y falsos negativos), como sucede por ejemplo con el uso de las tablas de Taylor-
Russell, pueden ser muy elevados, pues puede verse rechazado para cursar estu-
dios en una universidad o para un puesto de trabajo, aun teniendo las condicio-
nes necesarias para acceder a ello.
En la teoría de la utilidad se pueden proponer diferentes estrategias. Una muy
nativas que se van a considerar (Σ p i = 1), asignarles un valor de utilidad espera-

simple es estimar las probabilidades p i de cada una de las n posibilidades o alter-
da ui a cada una de ellas y calcular la utilidad esperada U como la suma:
U = ∑ pi u i
n
(10.8)
i=1
con lo que se pueden comparar valores bajo diferentes supuestos.

Ejemplo 10.9
Siguiendo la estrategia que se presenta en la Figura 10.3, se desea conocer

la utilidad esperada con los datos presentados en el Ejemplo 10.3 (Tabla 10.6).
Figura 10.3. Utilidades en una toma de decisión.
Se considerarán las proporciones de cada casilla como sus probabilidades

esperadas, siendo la utilidad esperada:
U = 0.80 + 0.20 (– 0.75) + 0.80 (0.90) + 0.20 (– 0.50) = 1.27
Obsérvese que para quienes toman la decisión los errores son distinguibles y
no se les asigna el mismo peso, considerando en este caso mayor el de los falsos
positivos que el de los falsos negativos, pero en otros supuestos podría ser al con-
trario, que fuese mucho más grave (mayor pérdida) rechazar a un idóneo (o diag-
nosticar como negativo a uno que sea positivo), que admitir a uno que no lo sea.
Las estrategias para calcular la utilidad esperada dependen de los objetivos, de
las posibilidades y de las condiciones concretas en las que se lleva a cabo la selec-
ción en cada caso. Por ejemplo, una estrategia de clasificación previa en tres cate-
gorías similar a la del Ejemplo 10.8, pero basándose en las puntuaciones de los aspi-
rantes en pruebas específicas, requeriría que se actuara en dos fases y la aplicación
de al menos dos tests. Aquí se trataría de aplicar una prueba y fijar los puntos de
corte con mucha rigurosidad. Decidir sobre aquellos que obtengan las puntuacio-
nes extremas, aceptándolos en un caso y rechazándolos en el otro. A todos aque-
llos que estaban dudosos, se les aplica una nueva prueba, se fijan los valores de cor-
te y se aceptan o rechazan de acuerdo con las puntuaciones en esa nueva prueba.
Esta forma secuencial de actuar puede estructurarse en dos o más pasos y suele ser
una estrategia común en la evaluación del rendimiento escolar y en empleos en los
que antes de la contratación se exige un tiempo de prueba o de aprendizaje.
Las estrategias en el planteamiento y los procedimientos para el cálculo de la
utilidad usando tests se basan en la teoría de la utilidad propuesta por Von Neu-
mann y Morgenstern (1944) cuyo cuerpo teórico e implicaciones prácticas en el
caso de la toma de decisiones bajo riesgo constituyen por sí solas una disciplina
(para ver la axiomática y su tratamiento consúltense Von Neumann y Morgens-
tern, 1944; Luce y Raiffa, 1957; Fishburn, 1964, 1970). El breve apunte que se da
en este texto cumple dos objetivos, por un lado, dar a conocer una vertiente impor-
tante en las aplicaciones y por otro, poner una vez más de manifiesto que en la
toma de decisiones, aun haciendo uso de los tests psicométricos, no es sólo el
coeficiente de validez del test lo que se tiene en cuenta. De hecho, se pueden
encontrar en la literatura numerosos tratados (e.g., Cronbach y Gleser, 1965; Wig-
gins, 1988; Vance y Colella, 1990) sobre las implicaciones que tiene el uso de las
pruebas psicométricas en la toma de decisiones.
Los valores de la utilidad esperada no dan por sí mismos mayor información
si no se los compara con algún valor de referencia. Usualmente se usan para com-
parar diversos métodos o estrategias. El método de selección o el procedimiento
que produzca la mayor utilidad esperada es el que se considera el mejor.
Ejemplo 10.10
Se han considerado dos posibles métodos de selección, el método A con el

que se obtienen las probabilidades de 0.19, 0.10, 0.15 y 0.56 para verdaderos
positivos, falsos positivos, falsos negativos y verdaderos negativos respectiva-
mente, y el método B con el que esas probabilidades son: 0.20, 0.18, 0.28 y 0.34.
Las utilidades de los diferentes resultados de la selección (verdaderos positivos,
falsos positivos, falsos negativos y verdaderos negativos) son, respectivamente,
1, – 0.40, – 0.20 y 0.30. Aplicando la expresión (10.8) se obtienen las siguientes
utilidades esperadas: uA = 0.288 y uB = 0.174, lo que llevaría a la elección del
método A, que es el que produce mayor utilidad esperada.
Usualmente la parte que entraña mayor dificultad es la asignación de las utili-

dades asociadas a las distintas posibilidades. Esta asignación no es una cuestión
que se pueda resolver directamente mediante algún procedimiento estadístico,
sino que es un problema que deben resolver conjuntamente los técnicos (psicó-
metras, estadísticos) y los profesionales de aquellos sectores que se van a ver
influenciados por los resultados de esas decisiones (psicólogos, educadores, empre-
sarios, etc.), no debiéndose dejar estas asignaciones exclusivamente en manos de
aquellos que administran las pruebas.
Puntos clave
3 El que el coeficiente de validez entre un test y el criterio sea elevado, no siem-

pre es suficiente para asegurarse el éxito en las predicciones.
3 La terminología usual para denominar a los casos en los que se confirman o no
las predicciones del test es verdaderos y falsos positivos y verdaderos y falsos
negativos.
3 A la capacidad de un test para identificar correctamente los verdaderos positivos
se le llama sensibilidad y se evalúa mediante la fracción de verdaderos positivos.
3 A la capacidad del test para identificar los verdaderos negativos se le denomi-
na especificidad.
3 La eficacia del test se evalúa por el cociente entre el total de aciertos (verdade-
ros positivos más verdaderos negativos) y el total de casos clasificados.
3 Las curvas ROC se utilizan tratando de optimizar una solución en la que se bus-
ca un compromiso entre las tasas de falsos y verdaderos positivos.
3 El tamaño de los efectos asociados a algunos experimentos se puede calcular
mediante el método BESD, aunque sólo son útiles con datos presentados en
tablas 2 × 2 donde el coeficiente φ calculado con esos datos se emplea como
el índice del tamaño del efecto.
3 Las tablas de Taylor-Rusell pueden ser de mucha utilidad en algunos procesos
de selección de personal.
3 El coeficiente de validez no es el dato definitivo para realizar una buena elección
utilizando un test. La influencia de factores como la razón de selección y la tasa
base se puede comprobar usando las tablas de Taylor-Rusell.
3 La optimización de las decisiones requiere que en el estudio de los procesos de
decisión y de su validez se examinen los posibles problemas de clasificación y
coherencia entre los posibles decisores y el análisis de la utilidad esperada en
relación con las predicciones.
Actividades
r Con los datos de la Tabla 10.2, calcule las diferentes tasas y comente si ese
test se puede considerar un buen predictor de la agresividad.
r Considerando algunas situaciones de la vida real, discuta la diferencia entre
tipos de errores y la importancia de sus consecuencias.
r En los casos que antes ha considerado ¿qué papel juega el test predictor y
su validez?
r Haga un supuesto donde considere que es útil aplicar el método BESD y
discuta los resultados. ¿Son diferentes esos resultados si utiliza un test de
validez conocida o el coeficiente φ construido a partir de los datos?
r Genere unos datos y construya curvas ROC para diferentes puntos de cor-
te con ayuda del programa SPSS. Discuta los resultados.
r ¿Qué sucedería en el caso anterior si se fuese muy conservador en cuanto
a la prevención de falsos negativos?
r Del artículo How are we doing in soft psychology? (Rosenthal, 1990) coménte-
se, desde el punto de vista de la validez en las predicciones, los datos que
se dan acerca del efecto de un medicamento en enfermos de SIDA.
r Plantee una discusión sobre dos supuestos, uno en el que las tablas de
Taylor-Rusell resulten muy útiles para emitir un pronóstico y otro en el
que no lo sean.
r Escriba una breve reflexión sobre la información que proporcionan las
tablas de Taylor-Rusell en cuanto a la ganancia neta que en la selección
es atribuible al test, teniendo en cuenta la tasa base y la razón de selec-
ción.
r En la literatura se usan los cuadrantes de Taylor-Rusell para discutir los
efectos de las variaciones en la validez (no se dan en este texto). Esta acti-
vidad consiste en su búsqueda y lectura antes de realizar las tres activida-
des que siguen.
r La admisión en unos determinados estudios de una universidad se realiza
con un test. Imagine (genérelos) que tiene los datos de 200 aspirantes. Haga
un gráfico representando en abscisas las puntuaciones en el test (positivas
y negativas) y en ordenadas las del criterio (positivas y negativas). Fije aho-
ra un valor de correlación (validez) entre ambas variables, marque diferen-
tes puntos (pares x, y) del plano y delimite el área. Estudie ahora las varia-
ciones de esa área (elipse) con variaciones en el coeficiente de validez.
r En relación con el ejercicio anterior, a medida que crece el coeficiente de
validez, ¿la elipse es más ancha o más estrecha?
r Compare sus experiencias en los dos ejercicios anteriores con los diagra-
mas que en la literatura suelen acompañar a las explicaciones de las tablas
de Taylor-Rusell (los cuadrantes de Taylor-Rusell).
r Discuta por qué un test dirigido a la selección de personal puede no ser
útil, aun cuando tenga una validez muy alta, pudiendo sin embargo serlo
otro con menor coeficiente de validez.
r Comente el artículo “La utilidad del análisis de la utilidad” mencionado en
este texto (Vance y Colella, 1990).
r Usando los datos de la Tabla 10.6 (resultados obtenidos usando el méto-
do BESD), calcule y comente los valores de la utilidad esperada haciendo
distintos supuestos sobre los costes de una mala clasificación.
Teoría de la respuesta al ítem
Aspectos generales 11
En capítulos anteriores se ha tratado la teoría de los tests desde la pers-
pectiva de la TCT. La teoría de la respuesta al ítem (TRI) es otro enfo-
que en la teoría de los tests que supera algunas limitaciones y resuelve
algunos problemas de medición que no se pueden abordar desde la TCT.
El núcleo de la TRI es que la probabilidad de dar una respuesta correc-
ta a un ítem depende de la aptitud individual para resolver ese ítem y
de las características psicométricas de ese ítem, pudiéndose estimar el
nivel de aptitud del sujeto a partir de su respuesta al ítem. Ésta es una
diferencia esencial con la TCT, en la que las inferencias de los niveles
individuales en el rasgo siempre hay que hacerlas con referencia al deno-
minado grupo normativo. Los modelos de la TRI son modelos no linea-
les que adoptan varias formas que permiten su aplicabilidad a distintos
tipos de tests. Estos modelos permiten conocer cómo se comporta de
forma individualizada cada uno de los ítems de un test, en lo que se
diferencian también de los de la TCT, que sólo permiten estudiar el
comportamiento del test completo o de determinados subconjuntos de
ítems.
ã Los orígenes y los objetivos de la TRI.

ã Los supuestos de unidimensionalidad e independencia local.
ã Qué es la curva característica del ítem.
ã Las principales diferencias con la TCT y las conexiones entre el
parámetro aptitud θ en la TRI y la puntuación verdadera V en la
TCT.
m11.1. Orígenes y objetivos de la teoría de la respuesta al ítemm
La TRI es relativamente más reciente que la TCT. Durante algunas décadas de

mediados del siglo XX se desarrolló gran parte del cuerpo teórico bajo denomi-
naciones tales como teoría del rasgo latente, modelos de rasgo latente y modelos estructura-
les latentes, y de otras tales como teoría de la respuesta a los ítems y teoría de la curva carac-
terística del ítem. Esas denominaciones se han sustituido por la denominación genérica
de teoría de la respuesta al ítem (TRI), por la que algunos autores como Lord
(1980) mostraron sus preferencias, y que toda la comunidad científica ha admiti-
do, pues se ha considerado que es la que mejor se ajusta al concepto y a los méto-
dos de construcción de tests que patrocinan dichas teorías. No obstante, con inde-
pendencia de lo que actualmente se entiende por latencia del rasgo, había cierta
justificación en que se utilizaran denominaciones tales como teoría del rasgo laten-
te, pues una vez establecidas las bases teóricas e identificado el rasgo en términos
de variables observables, el modelo psicométrico especifica la relación entre las
puntuaciones empíricas de los sujetos y la característica o rasgo, que se supone que
es el responsable de dicha puntuación, pero que no es directamente medible, sino
a través de esas manifestaciones.
Una de las razones de la gran influencia y desarrollo de los modelos TRI es que
formalmente describen cuánta influencia tiene el rasgo individual en la obtención de
una determinada puntuación en cada uno de los ítems de un test. Se obtienen así
mediciones que no varían, ni en función de las características específicas del grupo
de personas al que se evalúa, ni del instrumento utilizado. Esta pretensión de inva-
rianza es lo que impulsa la TRI, rompiendo el cerco que imponen los modelos TCT,
en los que las características del test se establecían a través de las características de
los sujetos evaluados, y viceversa. Esto obliga a que cuando un test que se ha cons-
truido con métodos TCT se quiere administrar a sujetos de una población que se
presuma que es diferente a la del grupo normativo en algún aspecto (e.g., en edad,
contexto cultural, grado de instrucción, nivel socio-económico, etc.), hay que volver
a estudiar las propiedades psicométricas del test, esto es, su fiabilidad y su validez.
Por ello, el hecho de que en la TRI se dé la invarianza de las puntuaciones, esto es,
que el nivel en el rasgo que se le estime a una persona no dependa directamente de
que se utilice un test u otro, ni de las características del grupo al que esa persona per-
tenece, es una de las razones que la hacen más atractiva en la construcción de tests.
En la TCT la puntuación en el test se obtiene mediante la suma, o suma pon-
derada, de las puntuaciones del sujeto en cada uno de los ítems del test. Gene-
Capítulo 11. TRI: Aspectos generales 295
ralmente, no se puede predecir cómo se respondió individualmente al ítem, a

menos que los ítems hayan sido administrados a individuos muy similares. Las
referencias en la predicción siempre quedan limitadas a las características del gru-
po normativo que vienen reflejadas en los parámetros estadísticos que describen el
test. Desarrollar modelos que permitan predecir las propiedades estadísticas y psi-
cométricas de los tests cuando se apliquen a cualquier grupo de sujetos, así como
poder estimar el nivel individual de la aptitud del sujeto, sin tener necesariamen-
te que hacer referencias al grupo normativo, es uno de los grandes logros de la
TRI. Esto da lugar a nuevas aplicaciones, incluso permite construir tests a la medi-
da, pues a partir de la respuesta individual a unos pocos ítems, se puede elegir, de
entre un conjunto disponible de ítems, el que se le va a administrar a continua-
ción. Después de repetir el procedimiento tantas veces como se considere perti-
nente, se puede predecir la aptitud o destreza del sujeto con la precisión deseada
y también se puede conocer la cuantía con que cada ítem del conjunto ha parti-
cipado para medir cada nivel de aptitud.
Por lo tanto, la TRI proporciona modelos en los que, tanto los ítems como
los sujetos, se pueden describir separadamente mediante sus propios parámetros,
de tal manera que se puede predecir, en términos de probabilidad, la respuesta de
cualquier sujeto a cualquier ítem, aun cuando no se tengan los datos de cómo indi-
viduos similares hubieran resuelto ítems análogos. O sea, la probabilidad indivi-
dual de acertar un ítem es independiente de cómo se distribuya la aptitud en la
población a la que pertenece. Las relaciones que explicitan cómo cada respuesta
depende del nivel o grado que se posee en el rasgo son funciones de respuesta al
ítem matemáticamente formalizadas.
Los orígenes de los modelos pueden encontrarse en Lawley (1943, 1944),
e incluso con anterioridad (Richardson, 1936), pero el primer estudio formal y la
introducción del término rasgo latente lo realizó Lazarsfeld en 1950 en su obra The
logical and mathematical foundation of latent structure analysis, aunque los métodos esta-
dísticos desarrollados por Lazarsfeld y sus colaboradores difieren en muchos
aspectos de los que se han empleado posteriormente. La obra Probabilistic models
for some intelligence and attainment tests del matemático danés Rasch, publicada en
1960, marca un hito en la historia de estos modelos. Puede decirse que es el estu-
dio del modelo de Rasch el que ha generado más investigación y del que se han
derivado un gran número de modelos, ofreciendo muchas posibilidades en diver-
sas aplicaciones. Una de las figuras más representativas como estudioso y divul-
gador de la TRI ha sido Lord (1952, 1953a, 1953b, 1980), especialmente a raíz de
la publicación del libro Statistical theories of mental test scores (Lord y Novick, 1968),
en el que el tratamiento de los temas dedicados a la TRI corre a cargo de Birn-
baum, quien hace una excelente contribución, tanto en la forma como en el con-
tenido. No obstante, la TRI no se comienza a extender en diversos ámbitos has-
ta más de diez años después de esta publicación. La razón por la que esta teoría
tuvo escaso eco en su proyección hacia las aplicaciones en las décadas de los años
cincuenta y sesenta del siglo XX es la de su complejidad matemática, que conlle-
va la exigencia de métodos de cálculo y de análisis que no se han podido abordar
en intensidad hasta que ha ido creciendo la capacidad computacional de los orde-
nadores. A partir de entonces se han ido generando programas específicos y actual-
mente se dispone de una gran variedad de paquetes de software tales como BICAL,
BILOG, ConQUEST, LOGIST, MSPWIN, MULTILOG, PARSCALE y
XCALIBRA. Paralelamente han proliferado los trabajos científicos abordando
distintos aspectos, muy especialmente en la búsqueda de métodos que propor-
cionen la mayor precisión en la estimación de los parámetros y métodos de ajus-
te para distintos modelos, así como la divulgación de sus aplicaciones a distintas
áreas del ámbito psicológico y educativo. Mucha es por lo tanto la literatura cien-
tífica que actualmente rodea a este tema, tanto desde la perspectiva teórica como
desde las aplicaciones, de las que ya Lord (1980) daba una relación, no exhausti-
va, pero sí bastante completa, de la que citamos:
– Generar bancos de ítems, ya que se puede hacer la estimación de los pará-

metros invariantes que describen cada ítem de un test.
– Estimar las características estadísticas de un test para cualquier grupo espe-
cífico.
– Determinar cómo varía la eficacia de un test a través de distintos niveles
de aptitud.
– Comparar la eficacia de diferentes métodos de puntuación del test.
– Seleccionar ítems para construir tests convencionales y/o rediseñarlos.
– Diseñar y evaluar tests individualizados: tests a la medida.
– Realizar estudios de equiparación entre pruebas y del sesgo de los ítems.
La TRI actualmente se aborda de forma diferenciada de otros modelos y téc-

nicas con las que está conectada, como son los modelos de estructura latente,
a los que se ha hecho referencia en la introducción general a los modelos en el
Capítulo 1.
m11.2. Aspectos generalesm
La TRI se fundamenta en que las respuestas de los sujetos a los ítems dependen
del nivel individual en el rasgo θ, de la dificultad del ítem, y que de la respuesta al
ítem se puede inferir el nivel de aptitud del sujeto en el rasgo que se pone en jue-
go al responder a ese ítem. Se han propuesto distintos tipos de modelos no linea-
les que permiten describir las relaciones entre los rasgos y las respuestas que se
dan a los ítems, en términos probabilísticos. Los modelos básicos que se han cla-
sificado como modelos TRI son los modelos ojiva normal, los logísticos y el mode-
lo de Rasch. Todos ellos tienen en común:
– la unidimensionalidad (dimensionalidad del espacio del rasgo).

– la independencia local de los ítems.
– su identificación con la forma de su curva característica del ítem.
– la relación entre la dificultad del ítem y el nivel estimado en el rasgo.
Dimensionalidad del espacio del rasgo
La dimensionalidad de una prueba se refiere al número de factores o dimensio-

nes necesarios para dar debida cuenta del rasgo que se pretende evaluar median-
te esa prueba. Si un solo factor es suficiente para explicarlo adecuadamente, enton-
ces se dice que el rasgo es unidimensional y el modelo psicométrico con el que
se hace la medición también será unidimensional.
Una de las características que son comunes a todos los modelos TRI básicos
es la de la unidimensionalidad del rasgo. Implícitamente se está considerando la
unidimensionalidad cuando se establece que la respuesta depende del nivel indi-
vidual en el rasgo y de la dificultad del ítem, pues se está suponiendo que un solo
rasgo da cuenta de la actuación del sujeto en el ítem. El que los modelos básicos
sean unidimensionales no es óbice para que en el contexto de la TRI se hayan
desarrollado modelos con más dimensiones. La TRI incluye tanto modelos uni-
dimensionales como multidimensionales.
En principio, cualquier rasgo se puede suponer que está compuesto por un
cierto número k de componentes, factores o dimensiones, pudiéndose represen-
tar θ mediante el vector:
r
θ = ( θ1 , …, θi , …, θk )
Al representar θ mediante un vector de k componentes, se está consideran-

do que cada una de esas componentes se corresponde con cada una de las dimen-
siones y que, por lo tanto, cada una de las θi se comporta como una variable alea-
toria. Cada sujeto evaluado mediante la prueba obtendrá el vector de sus
puntuaciones en cada una de las componentes. Por lo tanto, el espacio de θ es
un espacio k-dimensional con k ≥ 1, siendo unidimensional cuando k = 1 y donde
cada una de las componentes θi podrá tomar distintos valores dentro de su ran-
go de variación. Por ejemplo, si un sujeto, llamémosle MC, cumplimenta tres
ítems sobre razonamiento abstracto, sus respuestas a esos ítems dependerán de
la dificultad de cada uno de los ítems y del nivel que MC posea en ese rasgo. Por
lo tanto, se está suponiendo la unidimensionalidad del rasgo. Ahora bien, si a
MC se le va a evaluar su nivel de agresividad y para ello cumplimenta un cues-
tionario que da cuenta de cuatro factores o dimensiones de la agresividad (véan-
se Apartado 9.5 y Cuadro 9.6), entonces se obtendrán cuatro valores, uno por
cada una de las cuatro dimensiones consideradas: agresividad física, verbal, ira y
hostilidad, con independencia de cuántos elementos incluye el vector de pun-
tuaciones en cada una de ellas, es decir, del número de ítems utilizados para la
evaluación de cada dimensión.
El espacio del rasgo estará completo cuando contenga todas las componen-
tes necesarias para describirlo adecuadamente, dando por supuesto que sólo esta-
rán incluidas las más relevantes, puesto que en la práctica no es posible recoger
todas y cada una de las dimensiones que en menor grado pudieran estar implica-
das. El número de componentes que cumpla ese requisito es el que da la dimen-
sión de ese espacio. Generalmente se asume que una sola aptitud o rasgo es nece-
sario para explicar o dar cuenta de la actuación del individuo en el test. Cuando
se parte de este supuesto se generan los denominados modelos unidimensionales. Los
modelos que suponen la existencia de dos o más rasgos son modelos multidimensio-
nales (Bock y Aitkin, 1981; Mulaik, 1972; Samejima, 1974; Whitely, 1980). Estos
modelos son menos frecuentes en la literatura por su mayor complejidad, ya que
implican la estimación de un número mayor de parámetros.
En la práctica, para determinar las dimensiones del rasgo se han propuesto
diversos métodos, aunque generalmente se hace uso de las técnicas del análisis
factorial, tanto exploratorio como confirmatorio, utilizando los datos de una mues-
tra lo suficientemente amplia y asegurándose de que cada una de las dimensiones
que se supone a priori que componen el rasgo posee al menos un ítem que dé
cuenta de ella. En el proceso de construcción de las pruebas se deben verificar
los supuestos que se hayan hecho sobre la dimensionalidad. Lo más usual es que
se comprueben los de unidimensionalidad, con el fin de conocer en qué grado
influye en los resultados la violación de esos supuestos. Por lo tanto, la compro-
bación de la unidimensionalidad ha sido un tema muy estudiado y se han pro-
puesto numerosos índices para dar cuenta de ella. El análisis factorial explorato-
rio es la técnica más utilizada, pues proporciona información sobre el porcentaje
de la varianza total que se puede explicar por uno solo de los factores. Un solo
factor difícilmente puede explicar toda la varianza, pero se puede comprobar si
lo hace en un porcentaje suficiente para considerar la unidimensionalidad, sobre
todo si el resto de la varianza se distribuye entre varios factores, sin que ninguno
de ellos detente un valor significativo. Ésta es una decisión en cierto modo sub-
jetiva y se necesitan análisis rigurosos al respecto. Una solución entre las muchas
que se han propuesto consiste en comparar la varianza del primer factor con la
del segundo en importancia (Lumsden, 1961). Otra solución es hacer esa com-
paración, pero en lugar de calcular el cociente entre las componentes de la varian-
za, utilizar las raíces latentes obtenidas de la matriz de correlaciones tetracóricas
entre los ítems (Lord, 1980). A efectos prácticos conviene saber que para com-
probar la robustez de los modelos TRI ante las violaciones de los supuestos de
unidimensionalidad se han realizado múltiples estudios experimentales y de simu-
lación, comprobándose que estos modelos son bastante robustos, es decir, que
las soluciones son bastante estables no sólo cuando no se cumplan estrictamen-
te esos supuestos, sino ante desviaciones moderadas.
Independencia local
La independencia local establece que, en cualquier grupo de sujetos, todos carac-

terizados por los mismos valores θ1, …, θk, o sea, por el mismo vector de apti-
tud, lasrdistribuciones condicionadas de las puntuaciones de los ítems a los valo-
res de θ son todas mutuamente independientes. Es decir, la probabilidad de que
un sujeto responda correctamente a un ítem del test no está afectada por las res-
puestas dadas a otros elementos o ítems del test,r siempre y cuando se consideren
estas puntuaciones condicionadas a un cierto θ dado. Por lo tanto, la indepen-
dencia local es una consecuencia inmediata de la elección de θ1, …, θk.
El supuesto de independencia local en estos modelos está en relación con lo
que en estadística se entiende como independencia estocástica, en donde se
demuestra que las variables X1, X2, …, Xn con función de probabilidad conjun-
ta f(X1, X2, …, Xn ) son mutuamente independientes, si y sólo si:
f (X 1 , X 2 , …, X n ) = f1 (X 1 ) f2 (X 2 ) … fn (X )
donde f1(X1 ), f2(X2 ), …, fn(Xn ) son las correspondientes distribuciones margi-

nales. Por consiguiente, para expresar formalmente la independencia local dire-
mos que entre los ítems j = 1, 2, …, n se da la independencia local si para cual-
quier conjunto fijo de valores θ1, θ2, …, θk la distribución conjunta, f, de las
puntuaciones de los ítems Xj se puede expresar como producto de las distribu-
ciones marginales correspondientes:
( )
f X 1 , X 2 , …, X n θ = ∏ f j X j θ ( )
n
(11.1)
j= 1
Si se considera la distribución de las puntuaciones del ítem 1, condicionada a

las del resto de los ítems, para un determinado valor de θ, se tiene que:
h 1 ( X 1 θ ; X 2 , …, X n ) = f1( X 1 θ) (11.2)
que se obtendría como el cociente
∏ f j( X j θ)
n
f ( X 1 , X 2 , …, X n θ) j=1
= = f1( X 1 θ)
f ( X 2 , …, X n θ)
∏ f j( X j θ)
n
(11.3)
j=2
lo que demuestra que, bajo el supuesto de independencia local, la distribución h1

de X1 para valores fijos de θ no depende de las otras variables X2, …, Xn. Lo que
de forma análoga se puede afirmar para cualquier f j ( X j θ) .
La independencia local conlleva independencia entre ítems e independen-
cia entre sujetos. La independencia entre ítems muestra que, para un nivel dado
de rasgo, cualquier par de ítems es localmente independiente, si las puntuacio-
nes que el sujeto obtiene en ellos son independientes. Por lo tanto, la probabi-
lidad de que un sujeto conteste correctamente a ambos ítems es el producto de

las probabilidades de acierto en cada uno de ellos. La independencia local entre
sujetos presupone la independencia de las puntuaciones entre los sujetos que
responden al test, en que cada uno de los sujetos estará caracterizado por su
nivel en el rasgo θ. Así, si el sujeto A tiene una probabilidad pA = 0.3 de res-
ponder correctamente a un ítem y la del sujeto B es pB = 0.8 cuando responde
al mismo ítem, y si las respuestas de ambos sujetos son localmente indepen-
dientes, la probabilidad de que ambos sujetos respondan acertadamente a ese
ítem es pA pB = (0.3) (0.8) = 0.24.
Si se produce el simple hecho de que responder a un ítem antes que a otro, o
que la respuesta dada a un ítem influya sobre la que se deba dar a otros ítems,
entonces, los ítems no son localmente independientes. Si el cambio de orden en
la administración de un conjunto de ítems influye en la ejecución del test, los ítems
no son localmente independientes. Si existen interferencias o influencias de cual-
quier tipo entre los sujetos respecto de las respuestas que dan a los ítems, enton-
ces las puntuaciones de los individuos no son independientes. En cualquiera de
los casos de no independencia entre ítems o entre sujetos, la utilización de un
modelo TRI sería inapropiada. Estas circunstancias de no independencia no tie-
nen relación ni tienen conexión alguna con cierta confusión que a veces se crea
al considerar que los ítems no pueden ser independientes porque miden el mis-
mo rasgo. La independencia no es una cuestión de que todos los ítems estén
haciendo la medición de un mismo rasgo, sino de que dado un nivel del rasgo, la
probabilidad de respuesta correcta a un determinado ítem depende sólo del nivel
que se posee en ese rasgo (y de la dificultad del ítem), y no de cuántos ítems están
midiendo ese rasgo o de cuántos individuos están situados en ese mismo nivel.
Veamos algunas cuestiones relacionadas con la independencia.
Los modelos básicos TRI son modelos de respuesta dicotómica y, en general,
se sigue la notación de Lord, para ítems binarios, expresándose formalmente la
independencia local como sigue.
Ítems binarios
Para ítems binarios, en que se asigna el valor cero en el caso en que la respuesta
haya sido incorrecta y el valor uno si la respuesta es correcta, la hipótesis de inde-
pendencia local para ítems g se traduce en que:
n
P( U 1 = u1 , …, U n = u n !) = ∏ P( U g = u g !) (11.4)
g=1
donde Ug puede tomar los valores cero o uno.

La probabilidad, condicionada a un ! dado, de una respuesta correcta a un
ítem binario g, Pg (!) que denotaremos a veces simplemente por Pg es:
(
Pg = Pg (!) = Prob U g = 1 ! )
A esta función se la suele llamar función característica del ítem binario.
Las probabilidades teóricas en los distintos casos de respuesta a un solo ítem
binario, a un conjunto de ítems, o en la población son:
a) Para un solo ítem binario. La función de respuesta a un ítem binario para un

! dado, se puede expresar como:
u 1−u g
fg = (U g |!) = Pg g * Q g , con Q g = 1 − Pg (11.5)
&( P si U = 1
g g
fg ( U g |!) = '
()Q g si U g = 0
b) Para
 un vector de respuesta: La probabilidad de un vector de respuesta
V = ( U1 , … , U n )% para un ! dado, se obtiene mediante la expresión:
 n
( ) u 1−u
P V ! = ∏ Pg g Q g g (11.6)
g=1
En el siguiente Ejemplo 11.1 puede verse cómo se aplica esta ecuación.
Ejemplo 11.1
En un cuestionario de siete ítems de respuesta dicotómica (se les asignan

los valores cero o uno, según sean incorrectas o correctas), las probabilidades
de acierto a cada uno de esos ítems para un nivel moderado de θ, sea θ = θ2,
son respectivamente:
( ) ( ) ( ) (
P U1 = 1 θ2 = 0.9 ; P U2 = 1 θ2 = 0.8 ; P U3 = 1 θ2 = P U4 = 1 θ2 = 0.7 ; )
P (U 5 = 1 θ ) = P (U = 1 θ ) = 0.6 ; P (U = 1 θ ) = 0.5
2 6 2 7 2
Haciendo uso de la expresión (11.6) se pueden obtener las probabilidades

de los diferentes patrones de respuesta. La probabilidad de que con ese nivel
en el rasgo θ = θ2 se acierten todos los ítems, o sea, que se obtenga un patrón
de respuesta (1, 1, 1, 1, 1, 1, 1) es:
P (Ul = 1, …, U7 = 1θ = θ2) = (0.9) (0.8) (0.7)2 (0.6)2 (0.5) = 0.064
Si el vector de respuesta es (1, 1, 1, 0, 1, 0, 0), la probabilidad de este

patrón es:
( ) ( )( )( )( )( )( )( )
r
P V θ2 = P1 P2 P3 Q4 P5 Q6 Q7 = 0.9 0.8 0.7 0.3 0.6 0.4 0.5 = 0.018
Si la prueba estuviese compuesta solamente por las cuatro primeras cues-

tiones, la probabilidad de acertar las tres primeras y no la cuarta es:
( ) ( )( )( )( )
r
P V θ2 = P1 P2 P3 Q4 = 0.9 0.8 0.7 0.3 = 0.151
Si se cambia de nivel de aptitud, pasando a uno superior, sea éste θ = θ3,

y las probabilidades condicionadas a ese nivel son:
P (U1 = 1θ3) = P (U2 = 1θ3) = P (U3 = 1θ3) = 1; P (U4 = 1θ3) =0.9

P (U5 = 1θ3) = P (U6 = 1θ3) = 0.8; P (U7 = 1θ3) = 0.6
Aplicando (11.6) se obtiene que para este nivel en el rasgo la probabilidad

del patrón de respuesta (1, 1, 1, 1, 1, 1, 1) es P = 0.346, la del patrón (0, 0, 0, 0,
0, 0, 0) es P = 0 y la del patrón (1, 1, 1, 1, 0, 0, 0) es 0.014.
c) Para la población. Al considerar poblaciones, los procedimientos pueden

resultar más sofisticados, pues hay que sumar los patrones de respuesta
para los distintos niveles de θ. Algunas de esas expresiones se dan en el
Cuadro 11.1.
Un par de aplicaciones muy sencillas de los supuestos de independencia local

pueden verse en sendos ejemplos que se dan tras el cuadro, utilizando el prime-
ro de ellos para hacer algunas consideraciones sobre la pertinencia de estudiar
todos los patrones de respuesta.
Cuadro 11.1
Veamos algunas de las consecuencias que los supuestos de independencia

local tienen en las distribuciones de probabilidad.
1. Un resultado del supuesto de independencia local es que la distribución

sobre todos los sujetos con un nivel de aptitud θ viene dada por
( )
f X θ = ∑ ∏Pg g ⋅ Qg
1−ug
n
u
∑up = x g=1
donde X = x es la puntuación del sujeto en el test, que puede tomar valo-

res entre cero y n, ya que los ítems son binarios.
2. Si la distribución de rprobabilidad de θ es g(θ), entonces la distribución
de las respuestas P ( V ) para el total de n sujetos viene dada por la expre-
sión:
∫ Ω g (θ) ∏Pg g ⋅ Qg
r r 1−ug r
P(V ) = dθ
n
u
g=1
donde Ω es el espacio de integración k-dimensional correspondiente a

θ1, …, θk.
Así,
r observada una muestra, con el conocimiento que proporcio-
na P ( V ) , se pueden hacer inferencias acerca de la distribución des-
conocida g(θ) de las variables inobservables θ, ya que Pg (θ) es cono-
cida.
3. Un procedimiento que sugirió
r Lazarsfeld fue estudiar todos los posibles
patrones de respuesta V . Sin embargo la viabilidad de este procedi-
miento es muy escasa, incluso con un número pequeño de ítems, pues
el número de patrones posibles que habría que estudiar es muy alto. El
número de todos los posibles patrones de respuesta con n ítems dico-
tómicos es 2n.
Ejemplo 11.2
Calcule el número de patrones de respuesta con tres, cuatro y un número mayor

de ítems que justifique por qué Lazarsfeld, después de proponer el estudio de todos
los patrones, buscó procedimientos que le ayudasen a resumir la información.
Con tres ítems binarios, todos los patrones posibles son:
{(000), (100), (010), (001), (110), (011), (101), (111)}
siendo su número total 23 = 8. Si el número de ítems fuese cuatro, el número

de patrones sería 24 = 16.
En general, para n ítems habría que contabilizar el número de patrones dife-
rentes con un acierto, que es el de combinaciones,
n
 
1
el de patrones con dos aciertos
n
 
 2
y así sucesivamente. Por lo que el número total de patrones diferentes sería:
n n n
  +   + …+   = (1+ 1) = 2
n n
0 1 n

Si se considera que no es inusual encontrar tests con un número de ítems
n ≥ 25, el número de patrones a estudiar con n = 25 es de 225 = 33.554.432, que
muestra que el análisis de todos los patrones de respuesta sería demasiado
laborioso.
Ejemplo 11.3
En un test que satisface el supuesto de independencia local, dos personas

con el mismo nivel en el rasgo tienen una probabilidad 0.20 de acertar el ítem
uno y de 0.60 de acertar el ítem dos. ¿Cuál es la probabilidad de que ambas
den respuesta correcta al ítem 1? Si una de ellas lo acierta ¿cuál es la probabi-
lidad de que lo acierte la otra? ¿Qué probabilidad tiene cada una de ellas de
acertar el primero y no el segundo?
La respuesta a la primera de las cuestiones es (0.20) (0.20) = 0.04. La pro-
babilidad 0.20 da respuesta a la segunda cuestión, siendo una probabilidad de
(0.20) (0.40) = 0.08 la respuesta a la tercera cuestión.
La curva característica del ítem (CCI)
Se denomina curva característica del ítem (CCI) a la curva que representa la relación
funcional entre el rasgo (la variable θ) y la probabilidad P(θ) de acertar ese ítem.
La función P(θ) a la que representa la CCI es una función creciente de θ, es decir,
la probabilidad de acierto aumenta a medida que van aumentando los valores de θ.
Generalmente la gráfica de una CCI se obtiene representando en abscisas los
valores de θ (se está suponiendo que θ es una variable continua y unidimensio-
nal), que en principio pueden ser valores cualesquiera sobre la recta real (–∞, +∞)
y en ordenadas los valores de P(θ), que al ser una probabilidad, toma sus valores
en el intervalo cerrado [0, 1]. Las CCI, que a veces también reciben la denomi-
nación de funciones de respuesta al ítem, o a los ítems, suelen presentar una for-
ma similar a la función que se representa en la Figura 11.1.
Figura 11.1. Representación de la curva característica de un ítem.
Como se muestra en la Figura 11.1, la probabilidad de que un sujeto g responda

correctamente a un determinado ítem sólo depende de la forma que tenga la CCI
de ese ítem y del nivel de aptitud del sujeto. Por lo tanto, esa probabilidad es inde-
pendiente de la distribución de la aptitud en la población. La probabilidad de res-
puesta correcta a un ítem no depende de que haya mayor o menor número de suje-
tos que estén situados en un mismo nivel del rasgo. Esta propiedad de la invarianza
de las CCI y, en consecuencia, de los parámetros que las describen, es uno de los
principales atractivos de estos modelos. En la TRI todos los ítems presentan una
determinada CCI, que es la que liga las características de ese ítem con el rasgo θ
que se intenta evaluar. La forma de la función matemática que representa la CCI
es lo que suele distinguir a unos modelos de otros.
La forma de toda CCI dependerá por lo tanto del tipo de función y de los pará-
metros que incluya esa función, que son los parámetros que caracterizan al ítem.
En casi todos los modelos suelen estar presentes dos de esos parámetros, el que
representa la dificultad (cuyo índice se va a denotar por “b”, que lo incluyen todos
los modelos) y el que da cuenta del poder discriminante (cuyo índice se va a deno-
tar “a”). El parámetro b tiene relación directa con la probabilidad de acertar el ítem,
de forma que para cualquier nivel del rasgo, siempre serán menores las probabilida-
des de acertar un ítem más difícil que uno más fácil. Por lo tanto, la dificultad se
expresa por la posición de la CCI sobre el continuo del rasgo. El parámetro a indi-
ca el poder de discriminación que tiene ese ítem, es decir, cuánto se diferencian las
probabilidades de acertar ese ítem en diferentes niveles de ese rasgo y en una curva,
como la dada en la Figura 11.1, se identifica por su pendiente cuando θ = b.
En los siguientes capítulos se darán detalles sobre los parámetros y se cons-
truirán las CCI de los modelos que se puede considerar que son los más básicos
y usuales. En general, todas las CCI son monótonas no decrecientes y presentan
variedad de formas. La estimación de sus parámetros y la evaluación de la bon-
dad del ajuste del modelo a los datos observados son las tareas que han de abor-
darse para estimar la aptitud, que es el objetivo que se persigue.
Regresión y curvas características
La TRI trata el problema de la relación matemática entre los niveles que se poseen
en un determinado rasgo y las respuestas a un determinado ítem (o a un conjun-
to de ellos), que se da mediante una función probabilística P(θ). Sin embargo, la
variable θ no es directamente medible, por lo que también es un parámetro del
modelo que habrá que estimar. La teoría de la regresión ayuda en muchos casos
a realizar esta estimación y se utilizan curvas de regresión para obtener informa-
ción acerca de las funciones de respuesta a los ítems o a los tests. La CCI se pue-
de definir como la curva que une las medias de la puntuación del ítem, condicio-
nadas a los valores de la variable θ. O sea, se puede definir como la curva de regre-
sión ítemθ. La curva característica del test (CCT) es la regresión de las puntua-
ciones globales en el test sobre la variable θ.
Al administrar un test a un conjunto de sujetos, se obtendrá una doble pun-
tuación para cada uno de ellos, su puntuación en cada ítem particular, y su pun-
tuación global en el test. En ese caso, se puede obtener la regresión ítemtest,
regresando las puntuaciones en el ítem sobre las puntuaciones globales en el test.
Si la respuesta es dicotómica (acierto versus error) la línea de regresión ítemtest
también se puede establecer en función de la proporción de respuestas correctas.
Todo esto ha llevado a que a veces se confunda la regresión ítemrasgo que es la
CCI, con la regresión ítemtest, que en principio no es una CCI, aunque en muchos
casos se confundan al utilizar los valores en el test como estimaciones suficien-
tes de los niveles del rasgo.
Para ilustrar la regresión ítemtest, considérese un test que estuviese com-
puesto por un número suficiente de ítems homogéneos y que el espacio latente
completo es unidimensional. En ese caso, se puede representar la proporción de
sujetos que, dando respuesta correcta al ítem, obtienen en el test 1, 2, …, n pun-
tos, como muestra el ejemplo de la Figura 11.2.
Figura 11.2. Curva de regresión ítemtest para una prueba de fluidez verbal
que resuelven 250 sujetos.
En ese gráfico se puede observar que la curva es monótona no decreciente.

Se pensó inicialmente que las curvas iosr (item-observed score regression) o curvas de
regresión ítemtest (Cuadro 11.2) supondrían una buena aproximación a las cur-
vas características de los ítems, cuando los ítems son dicotómicos, ya que la pro-
porción de respuestas correctas para un ítem del test coincide con la media de la
puntuación para ese ítem. Sin embargo, no es lo mismo hacer la regresión sobre
la puntuación total del test que sobre el rasgo, entre otras razones, porque el valor
esperado de la puntuación observada (la puntuación verdadera en la TCT), gene-
ralmente en estos modelos no es función lineal de la variable que mide el rasgo θ,
como mostró Lord (1963) y se indica en el Cuadro 11.2.
Cuadro 11.2
Hagamos unas anotaciones acerca de las posibles relaciones que se pueden

establecer entre las CCI y la regresión ítemtest. Cuando los ítems son dico-
tómicos, la proporción de respuestas correctas para un ítem coincide con la
media de la puntuación para ese ítem. La curva de la proporción de respues-
tas correctas como una función de la puntuación del test X es también la curva
de regresión ui sobre X, a la que se ha llamado curva iosr (Lord, 1980, pág. 27).
Para ítems dicotómicos se puede decir que, cualquier función de respuesta al
ítem se podría considerar que es una regresión ítemrasgo, si para hacer la
regresión sobre θ, los valores del rasgo se han dividido en categorías por algún
procedimiento lógico, de manera que se correspondan con una partición en
las puntuaciones del test. Esta interpretación la cuestionó Lord (1968, 1980),
que puso un ejemplo para mostrar que esto no es así. Para ello utilizó las cur-
vas construidas a partir de las respuestas que daban 103,275 sujetos a un test
verbal y a otro de matemáticas, con las que mostró que las curvas de regre-
sión ítemtest no son las funciones características.
Hacer la regresión de la puntuación del ítem sobre la puntuación total del
test no es lo mismo que hacerla sobre el rasgo θ. Aunque a menudo se ha
pensado en la regresión ítemtest como una buena aproximación a la CCI,
éste no es un procedimiento adecuado, sobre todo si se tiene en cuenta que
la escala de medida es peculiar para cada uno de los tests administrados.
Sujetos que pueden diferir en una unidad en sus puntuaciones sobre un test
X, pueden diferir más o menos que esa unidad en sus puntuaciones en otro
test diferente que mida el mismo rasgo. Por lo tanto, las curvas de regresión
ítemtest tendrían diferentes formas para diferentes tests, aun cuando todos
ellos midieran el mismo rasgo θ.
En la TRI, el valor esperado de la puntuación observada, al igual que en

la teoría clásica, es la puntuación verdadera, pero aquí, la puntuación ver-
dadera, generalmente, no es una función lineal de la variable que mide el ras-
go. Por lo tanto, el valor esperado de la puntuación observada no es igual al
valor del rasgo. Esta afirmación la puso de manifiesto Lord (1980, pág. 30) y
se puede resumir en lo siguiente.
La curva de regresión ítemtest para el ítem i se puede denotar por µiX.
Para cualquier sujeto, su puntuación X en el test es la suma de los aciertos
ui = 1, luego la media condicionada a un X dado es:
n  n
X = E ∑ ui X  = ∑ µi X
 i=1  i=1
Si se considera que todos los ítems son estadísticamente equivalentes,

µiX es la misma para todos los ítems y, por lo tanto, sumando para los n
ítems, se obtiene que:
∑ µi X = nµi X = X; µi X =
n
X
i=1 n
Obteniéndose que la curva de regresión ítemtest (µiX) es una línea rec-

ta que pasa por el origen con pendiente igual a 1/n. Con ítems dicotómicos,
la curva iosr tendrá siempre pendiente 1/n, aun cuando el test no mida nada.
En consecuencia, no se puede tomar la puntuación observada como
valor del rasgo, pues esto se contradice con el supuesto de que la puntua-
ción varía con el nivel del rasgo, y que la puntuación verdadera no suele ser
función lineal del rasgo.
m11.3. La puntuación verdadera y la escala de aptitudm
En la TCT se le llama puntuación verdadera V a lo que en la TRI se le está lla-

mando rasgo θ, o también aptitud, pues este último término se acuñó en los prin-
cipios de la TRI y se sigue manteniendo aun cuando la prueba no esté dirigida a
la medición de una aptitud, sino a la de una actitud, o de un rendimiento, etc. Tam-
bién en la TRI se ha definido la puntuación verdadera en un test de n ítems. Para
sujetos con un nivel en el rasgo θ = θj, su puntuación verdadera es la suma de las

Pi (θj ) en todos los ítems del test. O sea, para cualquier j es:
Vj = ∑ Pi ( θj )
n
i=1
siendo la curva característica del test la que representa a esa función en todo el
rango de θ.
Son muchas las similitudes, así como las diferencias, entre la puntuación ver-
dadera y la aptitud. Una diferencia importante es que la puntuación verdadera está
definida en el intervalo [0, n], en tanto que la aptitud teóricamente puede tomar
valores desde –∞ a +∞. Además, la puntuación verdadera está definida para un
test particular, y variará con medidas no paralelas de la misma aptitud.
Se puede decir que en la TRI, al igual que en la TCT, el valor esperado de la
puntuación observada es la puntuación verdadera, pero generalmente en la TRI
la puntuación verdadera no es una función lineal del rasgo, así que, el valor espe-
rado de la puntuación observada, no es igual al valor del rasgo θ, aunque los mode-
los TRI especifican las relaciones entre el rendimiento del sujeto en un ítem y la
aptitud, de manera que siempre es posible transformar ese rendimiento en un
valor de la escala de aptitud. En otras palabras, la puntuación verdadera V y la
aptitud θ son la misma cosa expresada sobre diferentes escalas de medición. La
diferencia más importante es que la escala de medida para V depende de los ele-
mentos del test, en tanto que la escala θ es independiente de los elementos del
test (Lord, 1980, pág. 46).
El lector puede preguntarse cómo se pone en relación el rendimiento del suje-
to en el ítem y la aptitud, o sea, cómo se establece la escala de θ. Evidentemente
el establecimiento de la escala se lleva a cabo utilizando las respuestas que los suje-
tos dan a los ítems, que a su vez dependen de las características del modelo (dimen-
sionalidad, forma funcional, etc.) y de las del ítem (dificultad, discriminación, etc.).
El paso intermedio entre las puntuaciones observadas y la construcción de la esca-
la se realiza mediante los procesos de estimación de los parámetros y de ajuste del
modelo, considerando que además de los parámetros de los ítems, también θ es
un parámetro que hay que estimar a partir de los datos. La métrica de las escalas
de aptitud se elige de modo que las CCI tengan una forma matemática especifica-
da y de que, sobre los datos aportados por los sujetos en la ejecución del test, se
les pueda ordenar en aptitud. Los valores particulares de θ sobre la escala se eli-
gen de modo que maximicen el acuerdo entre los datos de respuesta al ítem, las
predicciones de los datos del test derivadas de las CCI mejor ajustadas y las pun-
tuaciones de la aptitud (niveles del rasgo) sobre la escala. Lord (1975a, 1975b) pre-
senta orientaciones interesantes para determinar la escala de aptitud. Algunos as-
pectos de este tema tales como los valores de θ que preservan las propiedades
psicométricas de la prueba (transformaciones admisibles) se tratan en este texto
(Apartados 12.3 y 15.5). En general, de los modelos de la TRI se puede decir que:
a) Producen escalas de intervalo, que se tratarán en detalle en el Capítulo 15.

b) El origen y la unidad de medida son arbitrarios.
c) Toda transformación lineal de la escala de aptitud es admisible.
Puntos clave
3 El objetivo básico de la TRI es proporcionar mediciones que permitan hacer infe-

rencias acerca de los rasgos, que no varíen, ni en función de las características
específicas del grupo de sujetos al que se evalúa, ni del instrumento utilizado.
3 Los modelos que se proponen en la TRI para establecer la relación del nivel del
rasgo con la probabilidad de acierto son no lineales.
3 En la TRI, la estimación e interpretación del valor del rasgo de un sujeto no de-
pende de cómo se distribuye ese rasgo en su grupo (el grupo normativo en la
TCT).
3 La probabilidad de respuesta correcta a un ítem sólo depende del nivel en el ras-
go del sujeto que responde y de la dificultad de ese ítem.
3 La TRI no se basa en los mismos supuestos, ni sustituye a la TCT, sino que pro-
vee de métodos que permiten responder a cuestiones y hacer aplicaciones que
no se pueden abordar desde la TCT.
3 Las relaciones entre el nivel en el rasgo y la probabilidad de acertar vienen dadas
por la curva característica de cada ítem (CCI)
3 Todos los modelos TRI comparten la exigencia de independencia local, la con-
sideración de su dimensionalidad y basan sus mediciones en las funciones que
representan las CCI.
3 Los modelos básicos TRI son modelos unidimensionales y de respuesta dico-
tómica.
3 La independencia local implica que la probabilidad de que un sujeto acierte un
ítem es independiente de sus respuestas a otros ítems, aunque esos ítems sean
parte del mismo test, o midan el mismo rasgo.
3 La dimensionalidad se refiere al número de factores necesarios para represen-

tar el rasgo y que sea adecuada su medición. Las dimensiones de un rasgo se
suelen determinar haciendo uso de las técnicas de análisis factorial.
3 Las curvas iosr o curvas de regresión ítemtest no son CCI.
3 La denominación de rasgo es genérica, pero debido a razones históricas tam-
bién se utiliza indistintamente el término aptitud, aunque la medición de ese ras-
go concreto no sea una aptitud, sino una actitud, rendimiento, etc.
3
la aptitud θ en la TRI es que V está definida en el intervalo [0, n], en tanto que q
Una de las diferencias entre la puntuación verdadera V considerada en la TCT y
teóricamente puede tomar valores desde – ∞ a + ∞.

3 Otra de las diferencias entre V y θ es que la puntuación verdadera está defi-
nida para un test particular y variará con medidas no paralelas de la misma
aptitud.
3 La métrica de las escalas de aptitud se elige de modo que las CCI tengan una
forma matemática especificada y de que, sobre los datos aportados por los suje-
tos en la ejecución del test, se pueda ordenar a los sujetos en aptitud.
3 La aptitud θ, como la puntuación verdadera en la TCT, no es directamente obser-
vable o medible y en los modelos TRI se introduce como un parámetro más (el
denominado parámetro personal) que hay que estimar en el modelo.
Actividades
r Haga una búsqueda en la literatura de modelos TRI unidimensionales y

multidimensionales. Construya una tabla, dando en una primera columna
la referencia de cada modelo, en la segunda la descripción de sus paráme-
tros y en una tercera las aplicaciones que haya podido encontrar.
r Se han ordenado por su dificultad 10 preguntas sobre contenidos de psi-
cometría. Asigne unas hipotéticas probabilidades a cada una de las res-
puestas y calcule y discuta las probabilidades de no tener ningún acierto,
de acertar todas las cuestiones y las de los siguientes patrones: (1, 1, 1, 0,
1, 1, 0, 0, 0, 0) y (1, 1, 1, 0, 1, 1, 1, 1, 1, 0).
r Proponga seis ítems dicotómicos sobre actitudes frente al estudio de la psi-
cometría. Pregunte a un grupo de compañeros y compruebe la indepen-
dencia local de esos ítems.
r En la tabla adjunta se da la frecuencia (número de personas) que habien-
do respondido correctamente al ítem 3 han obtenido la puntuación X en
un test de 7 ítems de respuesta dicotómica. Represente gráficamente la cur-

va de regresión ítemtest.
Puntuación X 1 2 3 4 5 6 7
frecuencia 10 45 77 185 273 387 400
r En un modelo TRI las probabilidades de acertar un ítem i, para los niveles

de aptitud θ1, θ2, y θ3 son respectivamente:
( ) ( ) ( )
p u i = 1 θ1 = 0.2 ; p u i = 1 θ2 = 0.5 ; p u i = 1 θ3 = 0.7
¿Cuál es la probabilidad de que tres sujetos con esos niveles de aptitud

los acierten? ¿Cuál es la probabilidad de cada uno de ellos? Si lo acierta el
que tiene un nivel θ1 ¿con qué probabilidad lo acertarán los otros dos?
Modelos 12
En el capítulo anterior se ha dicho que la CCI es la curva que representa
la relación funcional entre los valores en el rasgo θ y la probabilidad P(θ)
de respuesta correcta. La forma de esa función, así como el número de
parámetros que se incluyen en ella, es lo que distingue formalmente a unos
modelos de otros. Los modelos más usuales son los que representan una
distribución normal acumulada (ojiva normal) o una distribución logísti-
ca, dando lugar a distintos tipos de modelos al considerar uno, dos o tres
parámetros en esas distribuciones. Mención especial merece el modelo de
Rasch, aunque diversos autores lo clasifican como un modelo logístico de
un parámetro. Los modelos básicos de la teoría de la respuesta al ítem
(TRI) suponen la unidimensionalidad del rasgo y que las respuestas a los
ítems sean dicotómicas, aunque existen modelos TRI multidimensionales
y/o con respuestas politómicas. El problema técnico y computacional más
relevante, una vez elegido el modelo, es el de la estimación de sus pará-
metros y la comprobación de su ajuste a los datos. Los métodos más uti-
lizados en TRI están basados en la estimación por máxima verosimilitud.
ã El modelo ojiva normal.

ã Los parámetros, índice de dificultad e índice de discriminación, y
cómo apreciarlos visualmente en las CCI.
ã Distintos tipos de modelos ojiva normal.
ã Los modelos logísticos de dos, tres y cuatro parámetros.
ã El modelo de Rasch.
ã Algunos de los modelos que no cumplen los supuestos básicos, pues
son multidimensionales o sus ítems no son dicotómicos.
ã Una mención a otros modelos probabilísticos que no se incluyen

en la TRI, en especial los modelos de Poisson utilizados por Rasch.
ã Una introducción a la estimación de los parámetros de los modelos,
incluyendo cuestiones básicas del método de máxima verosimilitud.
m12.1. Modelos ojiva normalm
El modelo ojiva normal propuesto por Lord (1968) se utiliza con ítems dicotómicos
que evalúan una sola variable. El modelo recibe esa denominación porque la función
de probabilidad de la curva característica del ítem corresponde a la función de dis-
tribución de una normal, o sea, a la curva de probabilidad acumulada de la función
de densidad de una distribución normal, como se muestra en las Figuras 12.1 y 12.2.
Figura 12.1. Distribución N(0,1).
Figura 12.2. Ojiva normal.

Capítulo 12. TRI: Modelos 317
Para conectar ambas gráficas téngase en cuenta que los valores de P(θ) para
todo θk en la Figura 12.2 se corresponden con los de la probabilidad acumulada
(área bajo la curva desde –∞ hasta zk = θk) en la Figura 12.1. El cálculo de esas
áreas no hay que realizarlo necesariamente, puesto que esos valores están tabulados.
Supuestos básicos del modelo:
1. El espacio de la variable latente es unidimensional.

2. Se da la independencia local entre ítems.
3. La métrica para θ se puede elegir de manera que la curva característica de
cada ítem i sea la ojiva normal:
∫ ∫
1 −2
z2
Li (θ) Li (θ)
Pi ( θ) = Pi ( θ ; a i , bi ) = f ( z ) dz =
−∞ −∞
2π
e dz (12.1)
donde Li(θ) = ai (θ – bi ), es una función lineal de θ, que incluye dos pará-

metros ai y bi que son parámetros característicos de cada uno de los ítems,
y f(z) es la función de densidad de la distribución normal, usualmente con
media 0 y desviación típica unidad, ya que se suele trabajar con las varia-
bles tipificadas.
En éste, como en todos los modelos TRI, θ es el parámetro asociado al suje-

to o parámetro personal, siendo ai y bi parámetros específicos de cada ítem. En
el Apartado 12.2 se da una explicación más amplia sobre su interpretación en las
curvas CCI.
Tipos de modelos ojiva normal
Los modelos ojiva normal, dada su similitud y buenas aproximaciones a los

modelos logísticos que se exponen en el Apartado 12.3, son poco utilizados en
las aplicaciones, prefiriéndose estos últimos para estos fines. Los modelos oji-
va normal se suelen estudiar más por su interés teórico que por su vertiente
aplicada.
Se suele conocer como modelo ojiva normal al dado en la ecuación (12.1) de
dos parámetros (ai y bi ). Si se asigna al parámetro ai de todos los ítems un mismo
valor, por ejemplo, la unidad, se tiene un modelo con un solo parámetro. La ecua-
ción que representa la función Pi(θ) de la curva característica del ítem para el
modelo uniparamétrico tiene la forma de la ecuación (12.1) con a i = 1, o sea,
Li(θ) = θ – bi.
También se han propuesto modelos de tres y de cuatro parámetros. Un mode-
lo de tres parámetros surge cuando se desea estudiar el efecto de la conjetura, o
sea, la probabilidad de aciertos por adivinación, o bien por simple azar, porque
no se conoce la respuesta. Este efecto se supone que se produce en los niveles
más bajos de la aptitud, por lo que para estudiarlo se introduce un parámetro c i
que proporciona la asíntota más baja para la curva Pi(θ). Un cuarto parámetro γi
se puede añadir para explicar las probabilidades de respuestas incorrectas de aque-
llos sujetos que tienen un alto nivel de aptitud. Las ecuaciones de los diversos
modelos ojiva normal se dan en la Tabla 12.1
Tabla 12.1. Funciones de las CCI para modelos ojiva normal de uno,
dos, tres y cuatro parámetros.
Modelos ojiva normal Funciones de probabilidad de las CCI
∫ −∞
θ−bi
Un parámetro Pi (θ ) = f( z ) dz
∫ −∞i
a ( θ−bi )
Dos parámetros Pi (θ ) = f( z ) dz
Pi (θ ) = ci + (1− ci ) ∫ −∞i
a ( θ−bi )
Tres parámetros f( z ) dz
Pi (θ ) = ci + ( γi − ci ) ∫ −∞i
a ( θ−bi )
Cuatro parámetros f( z ) dz
− X −µ
z2
f( z ) = con variable z =
1
σ
2
2π
e
siendo
ai, bi, ci y γi los respectivos parámetros de los modelos.

m12.2. Significado de los parámetros ai y bim
Para ilustrar cómo se interpretan en los gráficos de las CCI los parámetros de los
ítems en los modelos TRI se puede aprovechar la ventaja que supone para el lec-
tor estar familiarizado con la N(0,1) y que las probabilidades estén tabuladas. Así,
sin necesidad de integrar se puede conocer la probabilidad en cualquier punto o
el área contenida en cualquier intervalo de valores de la variable, aunque en la
actualidad es preferible realizar el cálculo con el computador.
Considérense, por ejemplo, siete ítems caracterizados por dos parámetros,
ai y bi, que toman los valores que se dan en la Tabla 12.2.
Tabla 12.2. Valores de los parámetros de siete ítems.
Ítems
1 2 3 4 5 6 7
ai 0 0.1 5 1 1 2 2
bi 1 1 1 1 2 1 2
Para cada uno de esos ítems i, se pueden calcular los valores de Pi(θ) hacien-
do uso de la expresión (12.1) con valores de la variable θ en el intervalo (–3, 3).
Justificamos esta elección para el rango de θ porque el área bajo la curva normal
para valores de z menores de –3 es despreciable (entre –∞ y – 2.58 es p = 0.005)
y a partir del valor z = 3, el aumento del área (la probabilidad) también es des-
preciable, pues es de cinco milésimas (entre 2.58 y +∞ es p = 0.005).
Las gráficas de las curvas características se obtienen representando en el eje
horizontal (abscisas) los valores de θ y en ordenadas los correspondientes valo-
res de Pi(θ) obtenidos con cada uno de los modelos. En este ejemplo se usa la
expresión (12.1) con dos parámetros para los ítems de la Tabla 12.2.
Ítem 1
Supuesto que para este ítem, a1 = 0, entonces L1(θ) = a1 (θ – b1) tomará el
valor cero para valores cualesquiera de θ y b1.
P1 ( θ) = ∫− ∞ f ( z ) dz
0
y el valor que corresponde a esta integral es P1(θ) = 0.50, ya que la función de

densidad f(z) es la de la curva normal N(0,1). Esto sucederá sea cual fuere el valor
de θ, luego el gráfico para P1(θ) es una recta paralela al eje θ, con P1(θ) = 0.50,
constante para todo θ. Según la ecuación (12.1) y como se verá también con otros
modelos, siempre que ai = 0, el valor de P(θ) es una constante igual a 0.5 para
todo el rango de θ. O sea, que todas las CCI con ai = 0 son rectas paralelas al eje
de abscisas, como puede observarse en la Figura 12.3.
Ítem 2
Para este ítem se ha supuesto para ai un valor muy pequeño, distinto de cero
y para bi el mismo valor que en el ítem 1. Aquí el límite superior de la integral de
la expresión (12.1) es L2(θ) = 0.1 (θ – 1).
Los valores de P2 (θ) para cuatro valores de θ son:
( )
P2 θ θ = −3 ≅ 0.345; ( )
P2 θ θ = 1 = 0.50
( )
P2 θ θ = −1 ≅ 0.421; ( )
P2 θ θ = 3 ≅ 0.579
Otros valores de P2(θ) se dan en la Tabla 12.3. Se observa que en un rango de

θ muy amplio, entre los valores extremos [–3, +3], la función P2(θ) tiene una varia-
ción muy pequeña:
P2 (θ = 3) − P2 (θ = −3) = 0.234
Esto significa que, para los valores de ai pequeños (próximos a cero), se tie-
ne casi la misma probabilidad de dar respuesta correcta al ítem con valores ele-
vados de la aptitud que con valores bajos, o sea, el ítem no discrimina entre los
niveles de aptitud y las gráficas de esas funciones muestran pendientes muy
pequeñas.
Ítem 3
Este ítem se diferencia de los dos anteriores sólo en el valor del parámetro ai
que en este caso (ai =5) toma un valor mucho mayor, en términos relativos. Esto
se pone gráficamente en evidencia en la Figura 12.3, porque la curva P3(θ) que
representa ese ítem tiene mucha pendiente en el entorno del valor θ = b = 1.
Figura 12.3. Representación gráfica de las CCI de los ítems con nulo o bajo poder
discriminante (ítems 1 y 2) y con alto poder discriminante (ítem 3).
Los ítems 1, 2 y 3 son ejemplos de casos extremos que se han presentado para
ilustrar que ai es un parámetro que indica la cualidad del ítem de dar información
sobre los valores de θ donde el ítem discrimina o no de forma efectiva, o sea, es
el poder discriminante del ítem. Al parámetro ai se le llama índice de discriminación.
Las puntuaciones de los ítems se restringen de forma que 0 ≤ ai ≤ ∞. Usual-
mente se supone que ai es finito y que la probabilidad de respuesta correcta cre-
ce a medida que θ crece.
Ítems 4, 5, 6 y 7
Estos cuatro ítems se usan para ejemplificar los casos en que los ítems tengan
el mismo valor en a y diferentes en b (los ítems 4 y 5 por un lado y los ítems 6 y
7 por otro) y los de aquellos que, teniendo el mismo valor de b, tengan diferen-
tes valores del parámetro a (los ítems 5 y 7).
Los valores que ilustran las variaciones de las funciones Pi(θ) para valores de
θ seleccionados en el rango de θ ∈[–3, 3], se dan en la Tabla 12.3, y los gráficos
de las CCI de los siete ítems aquí considerados se dan en la Figura 12.4.
Tabla 12.3. Valores de probabilidad de las funciones Pi (θ ; ai, bi ) para seis ítems.
Ítems
Valores
de θ 2 3 4 5 6 7
P(θ ; 0.1, 1) P(θ ; 5, 1) P(θ ; 1, 1) P(θ ; 1, 2) P(θ ; 2, 1) P(θ ; 2, 2)
–3.00 0.345 0.000 0.000 0.000 0.000 0.000

–2.00 0.382 0.000 0.001 0.000 0.000 0.000
–1.00 0.421 0.000 0.023 0.001 0.000 0.000
0.00 0.460 0.000 0.159 0.023 0.023 0.000
0.80 0.492 0.159 0.421 0.115 0.345 0.008
1.00 0.500 0.500 0.500 0.159 0.500 0.029
1.20 0.508 0.840 0.579 0.212 0.655 0.055
1.80 0.532 1.000 0.788 0.421 0.945 0.345
2.00 0.540 1.000 0.841 0.500 0.977 0.500
2.50 0.559 1.000 0.933 0.692 0.999 0.841
3.00 0.579 1.000 0.977 0.841 1.000 0.977
En la Tabla 12.3 se puede comprobar nuevamente el efecto del índice de dis-

criminación, al comparar los valores de las columnas correspondientes a los ítems
2, 3 y 4, como también se observa, aunque en menor medida, al comparar las de
los ítems 5 y 7.
Al comparar las probabilidades de los ítems 4 y 5, se puede comprobar que en
ambas columnas se obtienen los mismos valores, aunque con un desplazamiento
de los valores del ítem 5 hacia los valores más altos de θ (obsérvense por ejemplo
los valores de P4 y de P5 para valores enteros de θ). Esto es, para que la probabili-
dad de acertar el ítem sea la misma, por ejemplo, 0.42, el ítem 4 exige que el nivel
en el rasgo sea θ = 0.80, sin embargo hay que aumentar hasta θ = 1.80 para tener
esa misma probabilidad de acierto al resolver el ítem 5. También se observa que
P4(θ = 2) = P5(θ = 3), y habrá igualdad siempre que las diferencias entre los valo-
res de θ en uno y otro test sean de una unidad, que es la diferencia entre b4 y b5.
Puesto que ambos ítems tienen el mismo poder discriminante, las diferencias se
deben a las diferencias en el parámetro b al que, por las razones expuestas, obvia-
mente hay que asociar con la dificultad del ítem, es un índice de dificultad. En estos
ítems se puede observar que en todos los casos es Pi(θ) = 0.50 cuando θ = b.
En la Figura 12.4 se representan las CCI de los siete ítems (etiquetados como
P1, P2, ... , P7) cuyos parámetros ai y bi tienen los valores dados en la Tabla 12.2.
Figura 12.4. Representación de las CCI de siete ítems que difieren

en poder discriminante y/o en dificultad.
En esta figura se puede observar que, con valores elevados de ai, la variación
de P(θ) es muy grande para valores de θ en el entorno θ = b, siendo elevada la
pendiente de su CCI para esos valores de θ. También se puede observar la dife-
rencia entre la pendiente de la CCI del ítem 3 y la del ítem 4, del que sólo difiere
en el valor del parámetro a. Por lo tanto, el poder discriminante de un ítem se pue-
de visualizar observando la pendiente de su CCI para valores de θ = b.
Para ítems con los mismos valores de a, pero que varían en b (los ítems 4 y 5
y los ítems 6 y 7), las curvas CCI de los ítems con mayor valor en b están despla-
zadas hacia la parte positiva de la variable θ. Por lo tanto, para tener la misma pro-
babilidad de acierto en uno y otro ítem es necesario poseer mayor valor en el ras-
go para el ítem que tiene mayor valor de b. También en el gráfico se puede observar
que todas las curvas con igual valor en b se cortan en el punto en que
θ = b, es decir, estos ítems tienen la misma dificultad.
En definitiva, se puede concluir:
1) Que si es ai = 0, entonces Pi(θ) es una constante y por lo tanto no varía

con los valores de θ. Dar respuesta a cualquier ítem en el que ai = 0 no
da ninguna información acerca de la aptitud. Todos aquellos sujetos que
responden a ese ítem tienen la misma probabilidad de que su respuesta
sea correcta P(ui = 1) = 0.50, con independencia de cuál sea su nivel en
el rasgo θ.
2) Los ítems con valores de ai próximos a cero tienen CCI con muy poca pen-
diente, dando muy poca información acerca de θ.
3) Los valores elevados de ai producen CCI con mucha pendiente. Es decir,
la función Pi(θ) pasa de tomar un valor próximo a cero a un valor de casi
la unidad, en un intervalo muy estrecho de valores de θ, en el entorno de
valores θ = bi. Las CCI con las mayores pendientes representan a los ítems
con mayor índice de discriminación, que se traduce en mayor poder de
discriminación en valores de θ cercanos a bi, pero para valores de θ algo
alejadas del valor bi su poder de discriminación es casi nulo.
4) Las tres consideraciones anteriores llevan a concluir que ai es el parámetro
que da la cantidad de información que proporciona el ítem acerca de θ,
indicando el rango de los valores de θ donde el ítem discrimina de forma
efectiva. El parámetro ai es el índice de discriminación del ítem i y usualmente se
supone que ai es finito y mayor que cero.
5) Si se mantiene el valor de ai, y se varía bi (como sucede en los ítems P4(θ)
y P5(θ) de la Figura 12.4) las CCI son idénticas en cuanto a forma, pero
están desplazadas sobre el eje de θ. Este parámetro bi representa la dificul-
tad, es el índice de dificultad del ítem i, pues son necesarios mayores valores de
θ para tener la misma probabilidad de acertar ese ítem que con otro de
menor valor en b. En ese sentido, para cada ítem i, bi da la posición o el
nivel de aptitud en el que un ítem discrimina con mayor efectividad. En
cuanto a sus valores, en principio se admite que –∞ < bi < ∞.
6) En todos los ítems P = 0.50 cuando θ = bi. Es decir, cuando el nivel en el
rasgo iguala al valor de la dificultad, se tiene una probabilidad 0.5 de acer-
tar el ítem.
7) Cuando los valores del rasgo son superiores a la dificultad del ítem (θ > bi),
las probabilidades de acierto son superiores a 0.50 y se incrementan a medi-
da que θ crece.
8) Para valores en el rasgo menores a la dificultad del ítem (θ < bi ) las pro-
babilidades de acierto son inferiores a 0.50.
9) Las CCI poseen un punto de inflexión en θ = bi. Es el punto de máxima
pendiente.
Las relaciones entre los parámetros de los ítems en la TRI con los parámetros
convencionales del análisis clásico son de interés. El lector puede encontrar refe-
rencias y una exposición en español en Santisteban (1990a, págs. 261-266).
m12.3. Modelos logísticosm
Una función muy similar a la que representa el modelo ojiva normal, y que posee
mayores ventajas desde el punto de vista de su tratamiento matemático en el área
de las aplicaciones, es la distribución logística.
La distribución logística se define como una función
y= = ; −∞ < x < ∞
ex 1
1 + ex 1 + e− x
(12.2)
Figura 12.5. Representación de una curva logística.

En el contexto de la TRI, un modelo logístico viene dado por la función
D L i (θ )
Pi (θ) =
 − D L i (θ ) 
−1
= = 1 + e

e 1
D L i (θ ) − D L i (θ ) 
1+ e 1+ e
(12.3)
siendo D una constante y Li(θ) = ai (θ – bi ) donde ai y bi son los parámetros del

ítem i, con el significado que se ha explicitado anteriormente.
En general, las transformaciones admisibles del modelo son las transforma-
ciones lineales. Es decir, que la probabilidad no varía si θ se multiplica por k y se
le suma un valor s, siempre y cuando se tenga en cuenta su efecto sobre los pará-
metros y simultáneamente se realicen en ellos las correspondientes transforma-
ciones, como se explicitará en cada uno de los modelos.
En cuanto a las relaciones en la escala para θ, hay que considerar que:
e i( ) 
 DL θ 
Q i (θ) = 1 − Pi (θ) = 1 −
 =
1
 1 + e i ( )  1 + e L i (θ)
θ
D L D
(12.4)
por lo que la razón entre esas probabilidades viene dada por:
Pi ( θ)
= eD L i ( θ)
Q i ( θ)
(12.5)
Tomando logaritmos neperianos en esa expresión:
Pi ( θ)
= D L i ( θ)
Q i ( θ)
ln (12.6)
y esto representa una escala logarítmica en la que a la unidad de esa escala se le

llama logit.
La unidad en esta escala se obtiene igualando a uno la expresión (12.6), por
lo que necesariamente una unidad logit corresponde a un valor de P i(θ)/Qi(θ)
de 2.718, ya que ln e = ln 2.718 = 1. Esta equivalencia entre las escalas per-
mite hacer comparaciones entre valores de θ, como se verá en los Ejemplos

12.1 y 12.3.
La constante D sirve como factor de escalamiento. Para maximizar el acuer-
do entre los modelos ojiva normal y logístico se toma D = 1.7. Este valor no
es arbitrario, ya que se comprueba que utilizando esta constante las funciones
normal y logística son muy próximas con variación uniforme en θ. Este fac-
tor reescala la distribución normal de la aptitud para seguir una distribución
logística.
Modelo logístico de dos parámetros
Birnbaum (1968) propuso un modelo en el que la CCI toma la forma de una dis-
tribución logística de dos parámetros, cuya ecuación viene dada por (12.3) con
Li (θ) = ai (θ – bi ), siendo por lo tanto:
Da i (θ − b i )
Pi (θ) = =
e 1
Da i (θ − b i ) − Da i (θ − b i )
(12.7)
1+ e 1+ e
Son características del modelo:
1) Es unidimensional.
2) Se da el supuesto de independencia local.
3) Los ítems son dicotómicos.
4) La función de distribución de probabilidad es la dada en la expresión (12.7).
Siendo, por lo tanto,
Q i (θ) = 1 − Pi (θ) =
 D a i (θ − b i ) 
−1
= 1+ e 
1
1+ e i ( ) 
DL θ
(12.8)
5) Los parámetros ai y bi son los parámetros característicos del ítem (índices

de discriminación y de dificultad) y D es una constante.
6) Las curvas CCI son no decrecientes.
Figura 12.6. Curvas logísticas de tres ítems con diferentes índices de dificultad:
P1(a1 = 1, b1 = 0), P2(a2 = 1, b2 = 1) y P3(a3 = 4, b3 = 2).
7) Se define la dificultad del ítem de manera que es 0.50 la probabilidad de

responder correctamente al ítem i, cuando el nivel de aptitud θj iguala la
dificultad de ese ítem. En efecto si es θ = bi entonces se da la igualdad
(12.9):
Pi ( θ) = =
e0 1
1 + e0
(12.9)
2
Cuando el valor en el rasgo sea superior al de la dificultad del ítem, la

probabilidad de respuesta correcta a ese ítem es p > 0.50, como se puede
observar en las representaciones de las CCI de tres ítems con índices de
dificultad b1 = 0, b2 = 1 y b3 = 2 (a1 = a2 = 1, a3 = 2) dadas en la Figura
12.6.
8) La probabilidad no varía si θ se multiplica por k y se le suma un valor s,
siempre y cuando al parámetro dificultad se le aplique la misma transfor-
mación y el índice de discriminación se divida por k. O sea, las transforma-
ciones lineales de θ son admisibles si:
θ∗ = k θ + s 

b∗ = k b + s

(12.10)
a ∗ = a k 
En cuanto a los logits, de acuerdo con la ecuación (12.6) en este mo-

delo es:
= DL i ( θ) = Da i (θ − bi )
Pi ( θ)
Q i ( θ)
ln
lo que permite hacer comparaciones, pues la diferencia entre los logits en

dos niveles del rasgo θ1 y θ2, viene dada por:
Pi ( θ1 ) P (θ ) P ( θ ) Q i ( θ1 )
− ln i 2 = ln i 1 =
Q i ( θ1 ) Q i ( θ2 ) Pi ( θ2 ) Q i ( θ2 )
ln (12.11)
= Da i (θ1 − bi ) − Da i (θ2 − bi ) = Da i (θ1 − θ2 )
igualándose las probabilidades para sujetos con los mismos valores en el

rasgo, como fácilmente se puede comprobar, pues si θ1 = θ2, el último tér-
mino de la ecuación anterior es cero. Luego:
Pi ( θ1 ) Q i ( θ1 ) Da i (θ1 − θ2 )
=e = e0 = 1
Pi ( θ2 ) Q i ( θ2 )
(12.12)
Dos características de este modelo que están relacionadas con el vector de res-
puesta se dan en el Cuadro 12.1.
Ejemplo 12.1
Compárense las probabilidades de acierto a un mismo ítem (ai = 2; bi = 1)

de dos personas que tienen 0.5 puntos de diferencia en sus niveles en el ras-
go. Esta relación la da la ecuación (12.11) con θ1 – θ2 = 0.5.
Pi (θ1 ) Qi (θ1 ) 1.7 (2)(0.5)

=e = e1.7 = 5.5
Pi (θ2 ) Qi (θ2 )
luego la relación entre las probabilidades de acierto y error es 5.5 veces mayor
en quien tiene 0.50 puntos más en su nivel en el rasgo.
Cuadro 12.1
Añadimos aquí dos características del modelo que están relacionadas con
los vectores de respuesta y la información que proporcionan (véase también
el Capítulo 13).
(′
)
r
9) La probabilidad de un determinado vector respuesta V = u1, … un para
un θ dado, se puede obtener haciendo uso de la expresión (11.6) y sus-
tituyendo las Pg y Qg de esa ecuación por sus expresiones dadas en
(12.7) y (12.8).
r
10) Teniendo en cuenta la probabilidad de un cierto vector de respuesta V
toda la información útil acerca de θ contenida en un patrón de respues-
ta viene dada por la siguiente expresión de la puntuación:
X ( V ) = ∑ a i ui
r n
(12.13)
i=1
Los valores de ui son cero o uno, ya que se ha supuesto que los ítems
son dicotómicos, y la expresión (12.13) no depende de los parámetros bi que
evalúan la dificultad. Esta relación se comprenderá mejor cuando se estu-
dien las funciones de información, no obstante, si se acepta que la respuesta
correcta se pondera por el valor del ai de cada uno de los ítems, ese valor
de la puntuación total dependerá de si las respuestas correctas se han dado
a ítems con un gran poder discriminante.
Esta cuestión puede distraer la atención en cuanto a la exposición del
modelo. No obstante, si no se consideran ítems aislados, sino que se quie-
ren comparar a los sujetos de acuerdo con sus puntuaciones cuando dan
respuesta a diferentes ítems, hay que tomar en consideración el papel del
índice de discriminación de esos ítems.
Considerése, por ejemplo, un test de cuatro ítems cuyos parámetros son
a1 = 1; a2 = 2; a3 = 1 y a4 = 2 y calcúlese mediante la ecuación (12.13) la pun-
tuación ponderada de algunos de los posibles patrones de respuesta.
r r
Para un patrón de respuesta V = (0, 0, 0, 0) el valor de X ( V ) será 0.
Parar otros patrones tales como (1,0,0,0)r o (0,0,1,0), los valores de
X ( V ) serán 1 en ambos casos. Valores de X ( V ) igual a 2 se obtendrán para
otros patrones tales como (0,1,0,0) o (1,0,1,0) or(0,0,0,1), etc. Los patrones
(0,1,1,1) y (1,1,1,1) conducirían a valores de X ( V ) iguales a 5 y 6, respecti-
vamente.
Se observa con estos ejemplos que la puntuación no sólo depende
de cuántos ítems se han acertado, sino también de su mayor o menor índi-
ce de discriminación, que es el peso de la cantidad de información que cada
uno de esos ítems aporta a esa puntuación total, lo que permitirá ordenar a
los sujetos según su vector de respuesta.
Modelo logístico de tres parámetros
Otro modelo de tipo logístico es el propuesto por Lord (Lord y Novick, 1968;
Lord, 1980), que puede considerarse similar al anterior, añadiendo un tercer pará-
metro ci. La forma de la CCI para este modelo se da en la Figura 12.7 para un
ejemplo con ci = 0.2, y su expresión general viene dada por:
Pi ( θ) = c i + (1 − c i )
e Da i ( θ − bi )
1 + e Da i ( θ − bi )
(12.14)
donde D es una constante, ai y bi son parámetros cuyo significado es el mismo

que en el modelo de ojiva normal y ci es un tercer parámetro que representa la
asíntota más baja de la CCI.
La inclusión de este parámetro ci se realiza para intentar controlar o ajustar la
CCI en el extremo inferior del continuo de la aptitud cuando se considera que la
probabilidad de acertar por adivinación o conjetura puede ser un factor influyente
en el rendimiento en el test. Por tal motivo, se suele denominar a ese parámetro
como parámetro conjetura. La función Pi (θ) aproxima su mínimo a ci cuando θ
decrece.
Figura 12.7. Curva característica de un ítem en un modelo

de tres parámetros con ai = 1; bi = 0; ci = 0.20.
Ejemplo 12.2
Un ítem i sigue un modelo logístico de dos parámetros con ai = 1.5 y bi = 1:
a) ¿Cuál es la probabilidad que tienen de acertar ese ítem aquellos sujetos cuyo
nivel en el rasgo sea θj = 1? ¿Y la de aquellos cuyo nivel es θh = 1.5?
b) ¿Variarían esas dos probabilidades si la probabilidad de que se acierte ese
ítem por azar es 0.20?
Las probabilidades para esos niveles de θ (según la ecuación 12.7) son:
(1.7) (1.5) (1 − 1)
( )
Pi θ = 1 =
e
(1.7) (1.5) (1−1)
=
e0
1+ e 0
= 0.50
1+ e
(1.7) (1.5) (1.5 − 1)

(
Pi θ = 1.50 =) e
(1.7) (1.5) (1.5 −1)
=
e1.275
1+ e1.275
= 0.78
1+ e
aunque para θ = 1 era innecesario el cálculo, ya que según (12.9), al ser θj = bi

la probabilidad es 0.50.
La probabilidad de acierto por azar no es despreciable, y habría que tomar-
la en consideración añadiendo un tercer parámetro. Estas probabilidades se
calculan mediante la expresión (12.14), obteniéndose:
(1.7) (1.5) (1 − 1)
( ) (
Pi θ = 1 = 0.20 + 1 − 0.20 ) e
(1.7) (1.5) (1−1)
= 0.60
1+ e
(1.7) (1.5) (1.5 − 1)

( )
Pi θ = 1.50 = 0.20 + 1 − 0.20( ) e
(1.7) (1.5) (1.5 −1)
=
1+ e
(
= 0.20 + 0.80 0.78 = 0.82 )
probabilidades que son superiores a las que se obtienen si no se tiene en cuen-
ta el efecto de los aciertos por azar.
Este modelo admite las mismas transformaciones que el modelo logístico de

dos parámetros dadas en (12.10). Es decir, una transformación lineal de θ con-
lleva la misma transformación de b y un cambio de escala en a, siendo en este
modelo el parámetro c = c*. Los logits también toman la forma de la ecuación
(12.11), pues:
[Pi ( θ1 ) − c] Q i ( θ1 ) = Da θ − θ
( )
[Pi ( θ2 ) − c] Q i ( θ2 ) i 1 2
ln (12.15)
luego las comparaciones entre diferentes niveles de θ dan el mismo resultado que
cuando no se incluye el parámetro c en la CCI.
Modelo logístico de cuatro parámetros
El modelo logístico de cuatro parámetros se propone para corregir el efecto de

aquellos casos en los que en altos niveles de aptitud hay una probabilidad no des-
preciable de que no se responda correctamente al ítem (Barton y Lord, 1981).
La función que corresponde a la CCI es:
e Da i ( θ − bi )
Pi ( θ) = c i + ( γ i − c i )
1 + e Da i ( θ − bi )
(12.16)
siendo γi el nuevo parámetro introducido, coincidiendo con el resto de los mode-

los en el significado de los parámetros ai, bi y ci.
Este modelo tiene escaso interés práctico, no habiendo recibido mucha aten-
ción por parte de los investigadores pues, generalmente, este efecto se produce
cuando el ítem no es correcto, o se ha enunciado de forma inadecuada. Por ejem-
plo, cuando la cuestión está formulada de manera que precisamente aquellos que
tienen mayor aptitud (mayor nivel en θ) ponen en juego ciertas estrategias o uti-
lizan información que les lleva a no dar al ítem la respuesta considerada correc-
ta. Por lo tanto, esto no es un problema del modelo, en cuanto a que haya que
introducir un nuevo parámetro para poder explicar un cierto resultado, sino que
es un problema de conocimiento del rasgo, del análisis de sus manifestaciones y
de la consecuente redacción del ítem. Esto no excluye que en alguna ocasión un
sujeto con alto nivel en el rasgo, por circunstancias especiales, no diera respues-
ta correcta a ese ítem, pero eso obviamente no justifica la inclusión de un nuevo
parámetro en el modelo.
En la Tabla 12.4 se resumen las funciones correspondientes a los modelos
logísticos de uno, dos, tres y cuatro parámetros, para mayor facilidad de uso por
el lector.
Tabla 12.4. Funciones de las CCI para modelos logísticos

de uno, dos, tres y cuatro parámetros.
Modelos logísticos Funciones de probabilidad de las CCI
()
 −D(θ − bi ) 
−1
Pi θ = 1+ e 
Un parámetro 
()
 −Da (θ − bi ) 
−1
Pi θ = 1+ e i 
Dos parámetros 
() ( )
 −Da (θ − bi ) 
−1
Pi θ = ci + 1 − ci 1+ e i 
Tres parámetros 
() ( )
 −Da (θ − bi ) 
−1
Pi θ = ci + γi − ci 1+ e i 
Cuatro parámetros 
m12.4. El modelo de Raschm
El modelo que junto a los modelos logísticos de dos y tres parámetros ha genera-
do mayor número de trabajos, tanto teóricos como prácticos, ha sido el modelo de
Rasch. Este modelo (Rasch, 1960) fue desarrollado independientemente de los antes
citados y por otras vías. Birnbaum lo considera un caso particular de su modelo
logístico (Birnbaum, 1968, págs. 402-403 y 480). La CCI del modelo es asimilable
a una función logística de un parámetro en la que se supone que todos los elemen-
tos tienen el mismo poder discriminante y varían en términos de dificultad.
La función que describe la curva característica del modelo de Rasch es:
e(
θ − bi )
Pi (θ) =
1 + e(
θ − bi )
(12.17)
que también puede venir dada mediante la expresión:
e ( i)
Pi (θ) =
Da θ − b
Da (θ − b i )
(12.18)
1+ e
donde a es el poder discriminante común a todos los ítems, bi es la dificultad del

ítem i y D es una constante.
Figura 12.8. CCI en un modelo de Rasch para tres ítems con b1 = 0, b2 = 1, b3 = 2.

Al ser a constante, por convención se le asigna el valor uno. Bajo estos supues-
tos, las curvas características tendrán todas la misma pendiente. Se puede consi-
derar que son curvas idénticas con traslaciones de amplitud bi – bk para los ítems
i, k, con dificultades bi y bk (bi > bk). En la Figura 12.8 se muestran las CCI de
tres ítems con distintos índices de dificultad.
Cuadro 12.2
Si se asume que el valor del poder discriminante de los ítems es común a

todos ellos, se puede admitir que α = 1 para todos los ítems. Si por simpli-
cidad se considera además que D = 1, se obtiene la ecuación (12.17), en
donde haciendo el cambio de variable:
θ* = e θ ; b *i = eb i
se obtiene
e( θ−bi ) e θ / ebi
Pi (θ ) = = =
1+ e( θ−bi ) 1+ (e θ / ebi )
θ * / b *i θ*  b * −1
= = = 1+ i 
1+ (θ * / b *i ) θ * + b *i  θ * 
que es como Rasch (1960) desarrolla su modelo para esta forma logística.
En cuanto a las transformaciones, el modelo admite cambios de origen (son

traslaciones o desplazamientos sobre el eje θ) que obligan a que se hagan los mis-
mos cambios en el parámetro b. Es fácil comprobar que si es θ* = θ + s, enton-
ces para que P(θ*) sea igual a P(θ) debe ser b* = b + s.
En cuanto a los cambios de escala en θ, esos cambios afectarían al índice de
discriminación, como se ha visto anteriormente. La transformación de ai dada
por las ecuaciones (12.10) en los modelos logísticos de dos parámetros no es teó-
ricamente admisible en el modelo de Rasch, aunque en la práctica siempre es posi-
ble llegar a un compromiso entre un posible cambio de escala kθ y la constante

1/k que multiplicaría al término Li (θ) = D (θ – b).
Con respecto a la métrica que permita hacer comparaciones, si se usan uni-
dades logits teniendo en cuenta la forma del modelo de Rasch (12.17) y median-
te la ecuación (12.6), se obtiene:
Pi ( θ)
= L i ( θ) = θ − b i
Q i ( θ)
ln (12.19)
lo que permite establecer diferencias entre diferentes valores de θ, pues para dos
valores θ1 y θ2 se tiene que:
L i ( θ1 ) = θ1 − b i ; L i ( θ2 ) = θ2 − b i
y la relación:
= (θ1 − bi ) − (θ2 − bi ) = θ1 − θ2
Pi ( θ1 ) Q i ( θ1 )
Pi ( θ2 ) Q i ( θ2 )
ln (12.20)
permite hacer esas comparaciones.
Ejemplo 12.3
Compare las probabilidades de acertar un ítem con dificultad bi para dos

sujetos con diferentes niveles en el rasgo. Esto es posible utilizando la escala
logit, pues haciendo uso de la relación (12.20) es:
( ) ( ) = eθ − θ
Pi θ1 Qi θ1
Pi (θ2 ) Qi (θ2 )
C= 1 2
pudiéndose calcular las relaciones entre sus probabilidades de acierto elevan-

do el número e al valor de la diferencia entre niveles de aptitud. Así, si ambos
sujetos tienen el mismo nivel en el rasgo, el cociente es C = 1. Si la diferencia
es de una unidad (θ1 > θ2), entonces es C = e, etc.
El modelo de Rasch es el más simple en cuanto a su formulación, pues la pro-

babilidad de respuesta correcta no depende más que de la dificultad del ítem, ade-
más de la capacidad del sujeto, que es su nivel en el rasgo. Esto se puede tomar
como una gran ventaja en relación a los otros métodos que incluyen un mayor
número de parámetros, y explica en parte el que muchos autores prefieran utili-
zarlo en lugar de los logísticos de dos y tres parámetros. No obstante, también se
puede considerar a priori que es el principal inconveniente que tiene el modelo de
Rasch, pues su simplicidad también obliga a hacer hipótesis muy fuertes para no
incluir los otros parámetros, siendo quizá más difícil reflejar situaciones reales que
con otros modelos. Se pueden encontrar muchos trabajos en los que se evidencia
que un modelo logístico de dos parámetros se ajusta mucho mejor que el modelo
de Rasch, y que solamente se producen resultados similares en la bondad del ajus-
te cuando el número de ítems que se utilizan para la construcción del test es gran-
de. Sin embargo, también hay evidencias empíricas de que el modelo de Rasch es
bastante robusto ante violaciones del supuesto de que es constante el índice de
discriminación de los ítems y frente a las correcciones de aciertos por azar, com-
probándose que las ganancias en las estimaciones son escasas si se utilizan mode-
los logísticos de dos y tres parámetros, que teóricamente se adaptan mejor a esas
circunstancias. Las preferencias por uno u otros modelos varían entre los autores,
aunque los objetivos de las pruebas, las características de los datos y la verificación
de que las desviaciones o la violación parcial de algunos de los supuestos no pro-
ducen graves consecuencias es lo que en definitiva determina la elección de uno u
otro modelo. En la práctica, además de las anteriores consideraciones, hay que
tener en cuenta que cuantos más parámetros contenga un modelo, mayores tama-
ños de muestra se requieren para estimarlos, luego el modelo de Rasch tiene la ven-
taja de no requerir grandes tamaños de muestra para su ajuste, en tanto que los
logísticos de dos y tres parámetros requieren tamaños muestrales muy superiores.
En la literatura podemos remitirnos a trabajos como el de Andersen (1973),
quien examinó un subconjunto de ítems sobre aptitudes verbales para su ajuste
mediante un modelo de Rasch, y el modelo se rechazó porque no daba un buen
ajuste y porque se comprobó que los ítems poseían distinto poder discriminante.
No obstante, otros muchos autores que han empleado el modelo de Rasch para
propósitos similares lo han encontrado satisfactorio y existen muchos tests publi-
cados que lo utilizan en esa época (e.g., Woodcock, 1974; Connolly et al., 1971;
Stegelmann, 1983), siendo cada vez mayor el número de autores que lo han con-
siderado ventajoso frente a otros modelos más complicados y de similar preci-
sión, desarrollándose así un gran número de modelos y de aplicaciones basados

en el modelo de Rasch. Desde que se dispuso de los primeros programas de soft-
ware como BICAL (Wright y Panchapakesan, 1969; Wright y Stone, 1979) y
LOGIST (Wood et al., 1976), las computadoras han ido ganando en capacidad y
son muchos los programas y las aplicaciones que se pueden encontrar, tanto de
esos modelos básicos, como de otros mucho más sofisticados, que se han ido
generando a tenor de las investigaciones teóricas, muchas veces impulsadas por
las demandas de las aplicaciones.
Una diferencia adicional del modelo de Rasch con respecto a los otros dos
tipos de modelos logísticos, además de involucrar un menor número de paráme-
tros, radica fundamentalmente en cómo se utilizan las puntuaciones para la obten-
ción de la cantidad de información. Como se verá más adelante, las funciones de infor-
mación ayudan a cuantificar la información que las puntuaciones observadas
proporcionan acerca del rasgo. El modelo de Rasch no necesita utilizar los pesos
diferenciales de los ítems para producir la puntuación total que dé la máxima can-
tidad de información acerca del rasgo, pues en el modelo de Rasch el número de
respuestas correctas es el mejor total que se puede usar para ese fin. Sin embar-
go, en los modelos logísticos de dos y tres parámetros no es así como se puede
obtener la mejor puntuación total, y es necesario utilizar pesos diferenciales para
los ítems, como ya se ha apuntado en el Cuadro 12.1.
m12.5. Otros modelosm
Los modelos TRI más básicos, y hasta ahora los más utilizados, suponen la uni-
dimensionalidad, la independencia local y que los ítems sean dicotómicos (o que
se dicotomicen). Existen, sin embargo, otros modelos que contemplan la posibi-
lidad de respuesta múltiple o politómica, así como de puntuaciones continuas y
modelos en los que se considera más de una dimensión para el rasgo.
Un modelo que admite m categorías para la respuesta lo introdujo Samejima
(1969). Es el modelo de respuesta graduada en el que, aunque utiliza para la respuesta
escalas categóricas tipo Likert, para establecer la forma probabilística del mode-
lo se efectúa una cierta dicotomización. Bock (1972) y Samejima (1972) propo-
nen los modelos de respuesta nominal para el caso de ítems con respuesta múltiple o
politómica. En estos modelos, también es fundamental la forma de la CCI, pero
aquí esa curva no es única para cada ítem, sino que cada opción de respuesta vie-
ne descrita por su propia curva característica, pasando a ser el modelo logístico

de dos parámetros un caso particular del modelo nominal con dos alternativas de
respuesta. Otro de los modelos introducidos por Samejima (1973), como un caso
límite del modelo anterior, es el modelo de respuesta continua, donde la respuesta vie-
ne dada sobre una escala continua. El modelo parece ser de utilidad en los estu-
dios con datos provenientes de escalas de actitud y en psicología social.
La literatura especializada muestra que muchos otros modelos se han consi-
derado y aplicado a problemas concretos. Gran parte de ellos se han generado
como generalizaciones del modelo de Rasch, destacando el denominado modelo
logístico lineal, desarrollado en su mayor parte en las escuelas del grupo europeo de
psicómetras, y que se viene utilizando fundamentalmente en el estudio de los pro-
cesos cognitivos. Una revisión de los modelos se puede ver en Van der Linden y
Hambleton (1997), y una exposición de los más relevantes en Santisteban y Alva-
rado (2001), aunque el continuo desarrollo de los modelos TRI obliga a hacer
periódicamente una revisión sobre las nuevas propuestas.
Aun cuando en la literatura al uso no se haga mención a ellos, hay otros mode-
los no lineales basados en distribuciones de probabilidad, son los modelos de error
binomial y los modelos de Poisson, que no se suelen tratar en la literatura dentro de
la TRI. Se incluyen en los modelos de la teoría fuerte de la puntuación verdadera, con-
traponiéndola a la TCT, que recibe la denominación de teoría débil de la puntuación
verdadera. Los modelos de error binomial fueron introducidos por Lord (1965) y
presuponen que la puntuación observada se corresponde con el número de res-
puestas correctas en un test, cuyos ítems son localmente independientes. Los
modelos de Poisson los introduce Rasch y son muy apropiados para tests basa-
dos en un gran número de ítems dicotómicos en los que la probabilidad de res-
puesta correcta (o incorrecta) sea pequeña. En el modelo de Rasch, los errores
estándar de medida se estiman separadamente para los diferentes niveles de apti-
tud y de dificultad de los tests. Rasch (1960) describe cómo se pueden obtener
estimadores de los errores estándar de las estimaciones de la aptitud y de la difi-
cultad y desarrolla un modelo de Poisson para evaluar la rapidez lectora, que
toma como base para ilustrar cómo conseguir estimaciones suficientes de los
parámetros. Esta propiedad de la suficiencia para estimar el parámetro θ, ha sido
la piedra angular donde se apoyan los modelos TRI. Por ello, la aportación de
Rasch a la psicometría ha sido crucial. Remitimos al lector interesado a la obra
de Rasch (1960), y también se puede encontrar una exposición detallada en San-
tisteban (1984 y 1990a; págs. 237-254).
En cuanto a la dimensionalidad, los modelos unidimensionales son los más

tratados en la literatura, pero con las posibilidades que ofrecen los computado-
res en cuanto a la rapidez y el manejo de gran volumen de datos, se han ido abrien-
do paso los modelos multidimensionales. Los modelos multidimensionales ojiva
normal, modelos multicomponentes y extensiones multidimensionales del mode-
lo de Rasch, entre otros, los presentan diversos autores en el Capítulo III de Van
der Linden y Hambleton (1997). En español, aunque escuetamente, se tratan en
Santisteban y Alvarado (2001). Las extensiones del modelo de Rasch están entre
los modelos multidimensionales que se han generado con mayor número de apli-
caciones prácticas en psicología, sociología y educación. La obra de Von Davier
y Carstensen (2007) es una recopilación de algunos de estos modelos.
m12.6. Estimación de los parámetros de los modelosm
La exposición de los modelos se ha hecho dando su forma funcional y especifi-

cando sus parámetros, pero nada se ha dicho de cómo se llega al conocimiento
del valor de esos parámetros, ya que la única información disponible, en princi-
pio, son los datos de las respuestas que los sujetos dan a uno o a varios ítems. El
paso de esa información al conocimiento del valor de los parámetros es la esti-
mación, que es el problema más importante desde el punto de vista computacio-
nal y de la explicación del modelo. En un modelo, cuantas más propiedades se
quieren explicar sobre el hecho que representa, más parámetros hay que incluir
en su formulación. A los modelos TRI anteriormente expuestos se les denomi-
na uniparamétricos si sus funciones características sólo incluyen como paráme-
tro del ítem el índice de dificultad. Los modelos de dos parámetros, además del
índice de dificultad incluyen el índice de discriminación, y cuando se intenta expli-
car el comportamiento del acierto por conjetura, hay que incluir un parámetro
más. En todos estos modelos hay que realizar además la estimación de un pará-
metro adicional que es el parámetro θ y que es, en definitiva, en el que general-
mente se está interesado.
En general, la estimación de parámetros es un problema de inferencia esta-
dística, pues se trata de averiguar el valor de esos parámetros a través de la infor-
mación que aportan las muestras. Estas muestras deben ser representativas de la
población que se estudia y la aproximación se hace utilizando los estadísticos. Un
estadístico es una función de las observaciones muestrales, y si se utiliza para reali-
zar estimaciones, entonces se le llama estimador. No todos los estadísticos son bue-
nos estimadores, por lo que hay que conocer las propiedades de cada estimador
y elegir el más adecuado. Existen diferentes métodos, a los que genéricamente se
les llama métodos de estimación, que se utilizan para que esa aproximación se
realice con garantías y con la debida precisión. Los métodos de estimación son
de muy diversa índole (paramétricos, no paramétricos, de información comple-
ta, de información limitada, etc.) y dentro de cada grupo siempre se pueden encon-
trar diferentes tipos, atendiendo a diferentes problemas o a distintas formas de
hacer las aproximaciones.
La estimación de los parámetros de los modelos de TRI se fundamenta en los
métodos estadístico-matemáticos (e.g., de los momentos, de los mínimos cua-
drados, de la máxima verosimilitud, bayesianos, etc.). Sin embargo, las exigencias
tanto computacionales como de interpretación han llevado a que se desarrollen
procedimientos y a que se genere una gran cantidad de software específico para
el tratamiento de la estimación de parámetros y del ajuste de gran variedad de
modelos TRI. En relación con los modelos que se presentan en este capítulo,
podemos decir que, tanto el modelo de Rasch como el logístico de dos paráme-
tros, pueden estimarse adecuadamente con el software disponible en una varie-
dad de programas, en tanto que en otros modelos, como el logístico de tres pará-
metros, no todos los programas son aconsejables, pues la presencia del parámetro
c puede generar algunos problemas en el proceso de estimación.
La gran importancia de la estimación en los modelos de TRI obliga a llamar
la atención del lector sobre este punto, aunque la extensión y la complejidad del
tema, aun en los casos más simples, excede las dimensiones de esta obra, remi-
tiéndole a otras publicaciones (e.g., Baker, 1992; Van der Linden y Hambleton,
1997 en inglés, y Meliá y Santisteban, 2009 en español). No obstante, incluimos
una breve introducción sobre la estimación de máxima verosimilitud, pues ha sido
el método por excelencia que se utiliza en TRI.
La mayor parte de los métodos de estimación aplicados en TRI tienen su fun-
damento en la estimación de máxima verosimilitud, con muchas variaciones como
el de la máxima versosimilitud conjunta, o el de la estimación por máxima verosi-
militud marginal. Los fundamentos del método pueden seguirse en cualquier manual
de estadística en el que se aborden estos temas. Una excelente referencia donde
todo el proceso está bien documentado, dando la forma concreta de las ecuacio-
nes en derivadas, es la contribución de Birnbaum (en Lord y Novick, 1968), que
desarrolla el método para el modelo logístico de dos parámetros, haciéndolo Lord
(1968, 1975a, 1975b, 1980) para el modelo de tres parámetros, aunque son muchos
los autores que ya desde sus inicios tratan el tema (Urry, 1974, Jensema, 1976; Wood
et al., 1976; Schmidt, 1977; Samejima, 1977; Reckase, 1979, etc.).
El método de máxima verosimilitud
El método de máxima verosimilitud se basa en la búsqueda de estimadores de los

parámetros desconocidos que maximicen la probabilidad de obtener los datos
disponibles en la muestra, o sea, aquellos que sean los más verosímiles, dada la
información que proporcionan las observaciones muestrales. La obtención de
esos valores máximamente creíbles (probables) para que sean los estimadores de
los parámetros, se suele lograr maximizando una función de los valores muestra-
les a la que se denomina función de verosimilitud.
En general, si es F(x) la función de distribución y f(x) la función de probabilidad
de una variable aleatoria X que depende de m parámetros desconocidos θ1, …, θm
que se quieren estimar con ayuda de la información que proporciona una muestra de
tamaño n, la función de verosimilitud viene dada por la ecuación
L (x; θ1 , …, θm ) = ∏ f ( x i , θk )
n
(12.21)
i=1
aunque usualmente, en lugar de utilizar la función de verosimilitud, se utiliza su

logaritmo, que al ser el logaritmo del producto es igual a la suma de los logarit-
mos, por lo que la función de verosimilitud toma la forma:
log ∏ f ( x i ; θ1 , …, θm ) = ∑ log f (x i ; θ1 , …, θm )
n n
(12.22)
i=1 i=1
Los estimadores de máxima verosimilitud para los parámetros implicados,

θ1, …, θm, se obtienen resolviendo el sistema de ecuaciones que proporcionan
las derivadas de la función de verosimilitud con respecto a cada uno de los pará-
metros igualadas a cero, como se indica en la expresión (12.23). Esas soluciones
son los valores estimados de los parámetros, y para comprobar que maximizan la
función de verosimilitud, habría que obtener la segunda derivada. Por ello, para
utilizar este método, las funciones deben ser doblemente derivables.
∂ log L (x; θ1 , …, θm )
= 0; k = 1, 2, …, m
∂θk
(12.23)
En los modelos TRI las funciones de probabilidad son las P(θ), y al ser los
ítems dicotómicos, la función de verosimilitud para un vector de n componentes
responde a la expresión dada en (11.6), donde el parámetro θ es desconocido y
se desea estimar. La función de verosimilitud se puede expresar, por lo tanto, como:
(
L u 1 , u 2 , …, u n θ = ∏ Pi (θ) ) [ ] [Qi (θ)]
n ui 1− u i
(12.24)
i =1
y su logaritmo, según (12.22) es:
( ) [
log L u 1, u 2, …, u n θ = ∑ u i log Pi (θ) + (1 − u i ) log Q i (θ) ]
n
(12.25)
i =1
Para la obtención de los estimadores se deriva esta expresión, siendo los esti-
madores las soluciones de esas ecuaciones, como se ha indicado en (12.23). La
expresión (12.25) se simplifica cuando ui = 1 (acierto), pues sólo hay términos Pi,
y cuando es cero (error), pues sólo hay términos Qi.
El logaritmo de la función de verosimilitud, en principio, puede ser un loga-
ritmo natural o tener cualquier base, pero lo usual es tomar logaritmos neperia-
nos, sobre todo en los modelos TRI cuyas CCI incluyen funciones exponencia-
les con base e.
Ejemplo 12.4
Se va a estimar el parámetro θ de un sujeto j a partir de las respuestas que

da a n ítems binarios que siguen distribuciones logísticas con ai =1 y bi = 0. Para
realizar la estimación se utiliza el método de máxima verosimilitud, por lo que
se construye la función de verosimilitud como se indica en (12.24) y (12.25).
Al ser las funciones de probabilidad para todo ítem i de la forma:
eθ
[ ] eθ
−1
Pi (θ ) = = 1+ e − θ y Qi (θ ) = 1 − =
1
1+ e θ
1+ e θ
1+ e θ
la función de verosimilitud es:
 θ j x j 
( ) 1 
n− x j
L u1, u2 , …, un θ j = ∏ Pi (θ ) Qi (θ ) =  e 
 
n
 θj  θj
i=1  1+ e   1+ e 
puesto que para un determinado patrón de respuestas, la puntuación total del

sujeto j, es:
x j = ∑ uij
n
i=1
El logaritmo neperiano de L es:
 θj 
( )
 1 
lnL u1, u2 , …, un θ j = x j ln

e 
θj 
+ n − x j ln
θ
 ( )
 1+ e   1+ e j 
Derivando con respecto a θj e igualando a cero, se obtiene que
(
∂ lnL ui θ j )= xj
−
(n − x j ) e
θj
=
x j − (n − x j ) e
θj
=0
∂θ j 1+ e
θj
1+ e
θj
1+ e
θj
de donde se deduce la solución
θˆ j = ln
xj
n − xj
Así, si un vector de respuesta tuviese, por ejemplo, doce componentes

(n = 12) y el sujeto j tuviese siete aciertos (xj = 7), el valor estimado para su nivel
del rasgo sería:
θˆ j = ln = 0.336
7
5
y para otro sujeto h que tuviese 9 aciertos se le estimaría un nivel (valor) en el rasgo:
θˆ h = ln = 1.099
9
3
Una explicación más completa en modelos TRI, dando las funciones de
verosimilitud para las respuestas a n ítems con las que se pueden obtener 2n
patrones diferentes y que cada uno de esos patrones se puede repetir un núme-
ro r de veces en una muestra, se puede encontrar en Santisteban (1990a).
Métodos condicionales y no condicionales
Hasta ahora, para estimar θ se ha dado por supuesto que son conocidos los pará-
metros del ítem (ai, bi, ci, etc.). Esta estimación se llama estimación condicional, pues
se ha realizado la estimación de θ admitiendo que esos parámetros son conoci-
dos y que, por lo tanto, la función de verosimilitud está condicionada sólo a los
valores de θj. En el Ejemplo 12.4 anteriormente expuesto se utilizan métodos
condicionales, pero lo usual es que no se tenga conocimiento previo de los índi-
ces de dificultad y de discriminación de cada ítem, salvo que se tomen de un
banco de ítems previamente construido donde los ítems están calibrados. Por
lo tanto, de los datos muestrales habrá que estimar, tanto θ como los paráme-
tros de los ítems. A este modo de proceder se le llama estimación conjunta y habrá
que buscar el valor de los parámetros que maximicen el valor de la función de
verosimilitud que ahora, en lugar de ser una función
(
L u 1 , u 2 , …, u n θ )
será una función
(
L u 1 , u 2 , …, u n θ; a , b, c )
en el caso de un modelo de tres parámetros. Una exposición más detallada sobre
las funciones de verosimilitud se puede encontrar en Santisteban (1990a) y en
Lord y Novick (1968) o en Hambleton y Swaminathan (1985) para los modelos
logísticos.
Téngase en cuenta que si se quieren estimar simultáneamente los parámetros
de n ítems y de N sujetos, si los ítems son uniparamétricos, el número de pará-
metros que se deben estimar son n + N, o sea, el índice de dificultad de cada uno
de los ítems y el parámetro aptitud de cada uno de los sujetos. Si en cada ítem
hubiese que estimar dos parámetros, el número total de parámetros que habría
que estimar sería 2n + N, y así sucesivamente.
Con estos procedimientos analíticos (i.e., obteniendo la primera derivada, igua-
lando a cero, etc.) no siempre se obtiene la solución óptima, por lo que adicio-
nalmente, o en su defecto, se utilizan técnicas de aproximación. Son métodos
numéricos basados en algoritmos iterativos, como es el método de Newton-Raph-
son, que partiendo de una primera estimación (generalmente obtenida por un

procedimiento analítico y a ser posible que fuera un estimador consistente) per-
miten a la función logaritmo de verosimilitud ir aproximándose a su máximo en
sucesivos pasos.
Casi todos los autores utilizan para la estimación de los parámetros de los
modelos el método de máxima verosimilitud, la diferencia fundamental está en si
se obtienen estimadores no condicionales de los parámetros. Una exposición muy
detallada y completa sobre diferentes métodos de máxima verosimilitud se pue-
de encontrar en la obra de Meliá y Santisteban (2009) en la que los Capítulos 4, 5
y 6 se dedican al tratamiento de los métodos de máxima verosimilitud conjunta,
condicional y marginal respectivamente.
Cuadro 12.3
Las buenas propiedades de los estimadores de máxima verosimilitud, y muy

especialmente la suficiencia, justifican que este método sea el que más se
utilice y que en él se fundamenten muchos otros métodos para realizar la esti-
mación de parámetros en TRI. Citemos aquí algunas de las propiedades que
poseen estos estimadores y que el lector puede corroborar en cualquiera de
los textos de estadística especializados en este tema. También puede encon-
trar información en Santisteban (1990a) y una discusión amplia sobre esas
propiedades y sus relaciones en Meliá y Santisteban (2009). Las propiedades
más relevantes de los estimadores de máxima verosimilitud es que son:
1. Insesgados (o asintóticamente insesgados)

2. Suficientes
3. Eficientes
4. Invariantes bajo transformación de los parámetros
5. Consistentes
6. Asintóticamente más eficientes y asintóticamente normales con media y
varianza dadas en la expresión (12.26):
 
 
 
θˆ → Nθ;
2
1
 ∂ ln f( x, θ )  
(12.26)

 n E ∂ θ  
   
donde n es el número de muestras y E el operador esperanza matemática.

A la expresión
 ∂ ln f( x, θ )  2
nE   = I (θ )
 ∂θ 
(12.27)
Fisher la llama cantidad de información contenida en la muestra de n obser-

vaciones. Luego la varianza del estimador es la inversa de la cantidad de
información de Fisher:
σ 2 (θˆ ) =
1
I (θ )
(12.28)
Este concepto se va a utilizar cuando en el próximo capítulo se traten las

funciones de información de los ítems y de los tests en el contexto de la TRI. El
conocimiento de esa varianza y, por lo tanto, del error típico de medida s
s = I (θ )−1/ 2 =
1
 ∂ ln f( x, θ ) 2
n E 
 ∂θ 
permite calcular los límites de los intervalos de confianza de amplitud 1 – α

para el parámetro θ, siendo estos intervalos tales que:
[ ]
Prob θˆ − z α s ≤ θ ≤ θˆ + z α s = 1− α (12.29)
Desde el punto de vista técnico, la estimación de los parámetros es fácilmen-

te abordable con un conocimiento básico del software disponible (e.g., BILOG,
BILOG-MG, MULTILOG, PARSCALE, XCALIBRE).
Finalmente, indicar que además de los métodos paramétricos, como los
de máxima verosimilitud, también se han desarrollado métodos no paramétri-
cos, siendo los más utilizados los que tienen como base la aproximación baye-
siana. Esta aproximación bayesiana presenta un intento de incorporar toda la
información conocida a priori, relevante y válida, al proceso de hacer inferen-
cias.
Cuadro 12.4
La aproximación bayesiana se basa en el concepto de probabilidad condi-

cionada y en el teorema de Bayes, que es imprescindible conocer para com-
prender la lógica de este procedimiento. Aquí, mediante el teorema de Bayes
se pone en relación una primera distribución de la aptitud f(θα ) con la fun-
ción de respuesta a un cierto vector V. La probabilidad condicionada, expre-
sada por f(θαV), indica la distribución posterior, o a posteriori, de θ, siendo
la función f(Vθα ) la distribución de probabilidad condicionada que indica la
verosimilitud de las observaciones.
De acuerdo con el teorema de Bayes, la distribución posterior se obtie-
ne como producto de la verosimilitud por la distribución primera de θ:
f(θαV) ∝ L(Vθα ) f(θα )
donde L (Vθα ) expresa la función de verosimilitud, ya dada en la expresión

(12.21) o su equivalente (12.24) para ítems dicotómicos.
Un estudio completo del procedimiento en la utilización del método baye-
siano para la estimación de los parámetros aptitud, cuando los parámetros
de los ítems son conocidos, lo dan Birnbaum (1969) y, posteriormente, Owen
(1975). En el caso en que deba realizarse la estimación conjunta de los pará-
metros de los ítems y de los parámetros de aptitud por procedimientos baye-
sianos, remitimos al lector a los trabajos de Swaninathan y Gifford (1982) o
a obras más recientes como la de Embretson y Reise (2000), y la de Baker
y Kim (2004).
Otro problema que hay que abordar inexcusablemente es verificar que el

modelo elegido se ajusta a los datos. Es decir, si el modelo refleja adecuada-
mente aquello que las puntuaciones representan. Para valorar el ajuste se han
propuesto varios índices, la mayoría de ellos basados en el estadístico χ2.
Los problemas de estimación y de la valoración del ajuste del modelo repre-
sentan la fase final e ineludible, pues son garantía de que, tanto los ítems como los
tests, poseen las propiedades psicométricas necesarias para su uso.
Puntos clave
3 Los modelos TRI básicos son modelos no lineales, unidimensionales y de

ítems dicotómicos. Los diferentes modelos responden a la forma funcional
de la CCI.
3 Cada ítem tiene su propia CCI que da la probabilidad de acierto, Pi(θ), al ítem
para los diferentes valores de θ.
3 Un sujeto en un determinado nivel en un cierto rasgo θ puede tener distintas pro-
babilidades de acierto a ítems con CCI diferentes, aun cuando esos ítems midan
el mismo rasgo.
3 Los modelos TRI básicos son los modelos unidimensionales ojiva normal, los
logísticos y el modelo de Rasch.
3 La forma funcional del modelo ojiva normal es la normal acumulada.
3 Los modelos logísticos reciben esa denominación porque sus curvas de proba-
bilidad P(θ) son funciones logísticas. Los de dos y tres parámetros son los más
utilizados en las aplicaciones.
3 El modelo de Rasch ha sido crucial en el desarrollo de la TRI y está entre los
más utilizados en las aplicaciones. Es un modelo logístico de un parámetro que
supone que la probabilidad de acierto al ítem sólo depende de su dificultad y
del nivel del sujeto en el rasgo.
3 En todos los modelos, cuando la aptitud iguala a la dificultad, la probabilidad de
acertar el ítem es de 0.50 (salvo cuando hay que considerar en el modelo el acier-
to por azar). Esa probabilidad de acierto aumenta a medida que crecen los valo-
res de θ.
3 Se consideran parámetros de los modelos los índices de dificultad y de discri-
minación (ai y bi), así como los que se incluyen para considerar la probabilidad
de acierto por azar (ci) y la de error en niveles altos de aptitud (γi).
3 La aptitud θ también es un parámetro del modelo, aunque no se contabiliza al
indicar si un modelo es uniparamétrico, biparamétrico, etc.
3 Casi todos los modelos TRI admiten transformaciones lineales del parámetro θ,
lo que obliga a hacer las pertinentes transformaciones en el resto de los pará-
metros para conservar la métrica.
3 Introducir una escala logarítmica (el neperiano del cociente entre las funciones
de probabilidad de acierto y error) permite hacer ciertas comparaciones entre
sujetos con diferentes valores en el parámetro θ.
3 Uno de los problemas básicos para el tratamiento de los modelos es la estima-
ción de sus parámetros y la valoración de la bondad del ajuste del modelo a los
datos.
3 Los métodos de estimación más utilizados en TRI son los basados en la máxi-
ma verosimilitud (conjunta, condicional, marginal, etc.), que suelen acompañar-
se de métodos numéricos de aproximación como el de Newton-Raphson, aun-

que también se utilizan otros métodos, teniendo mucha presencia en la literatu-
ra los métodos bayesianos.
3 En la actualidad hay programas específicos de software para verificar los supues-
tos de los modelos, estimar los parámetros y para evaluar la bondad del ajuste
de cada modelo a los datos.
Actividades
r Con la ayuda de las tablas de la distribución normal, calcule la probabili-

dad (área) contenida en los intervalos (–∞, –2.58); (–∞, –1.68); (–∞, 0);
(–∞, 1.68); (–∞, 2.58).
r Lleve a un gráfico esos valores. Al eje horizontal (abscisas ) los valores
–2.58, 1.68, 0, 1.68 y 2.58, y al vertical (ordenadas) los de las correspon-
dientes áreas acumuladas. Una los puntos y discuta el significado, relacio-
nándolo con un modelo ojiva normal.
r Represente gráficamente las CCI de tres ítems ojiva normal de uno, dos y
tres parámetros, cuyos valores son b1 = 2; a2 = 1.5, b2 = 1 y a3 = 1.5, b3 = 1,
c3 = 0.15.
r Represente las CCI de los tres ítems anteriores suponiendo que siguen
modelos logísticos.
r Discuta por qué para hacer comparaciones basadas en la puntuación de un
vector de respuesta, es importante tener en cuenta la información que apor-
ta cada ítem a través de su índice de discriminación.
r Haga supuestos y especifique la función característica de dos ítems de dife-
rente dificultad que sigan un modelo de Rasch. Represente gráficamente
sus curvas características y discuta las diferencias en las probabilidades de
acierto a ambos ítems en dos sujetos que difieren en una unidad en sus
niveles de aptitud.
r Calcule en los diferentes modelos el valor de P(θ) cuando la aptitud es igual
a la dificultad (θ = b). Discuta los resultados.
r Un vector de respuesta contiene cinco ítems que siguen un modelo de Rasch
con b = 1. Estime la aptitud de un sujeto que responde correctamente a
cuatro de esos ítems.
r Para un vector de respuesta de cinco ítems, construya la función de vero-

similitud de un determinado patrón sabiendo que los ítems se ajustan a
modelos logísticos de dos parámetros.
r Haga una búsqueda del software existente para el tratamiento de distintos
modelos TRI y realice una clasificación de los programas en relación con
los modelos y sus utilidades.
Funciones de información y aplicaciones 13
El diseño y construcción de tests es una de las aplicaciones inmediatas más
importantes de los modelos TRI. En términos generales se puede decir
que, una vez determinado el objetivo específico para el que se construye
el test, el mejor test de k ítems que se puede construir, a partir de un con-
junto de n ítems disponibles, es aquel que proporcione la mayor cantidad
de información acerca del rasgo. La cuantificación de la cantidad de infor-
mación de los tests se hace a través de las llamadas funciones de informa-
ción, que denotaremos por I(θ). La función de información de un test se
obtiene sumando las funciones de información de todos sus ítems, por lo
que se dará en primer lugar la definición de la función de información de
un ítem, para pasar luego a la del test, su significado y su utilidad. La intro-
ducción del concepto de eficiencia relativa permitirá comparar las infor-
maciones que proporcionan dos tests en diferentes puntos de θ.
ã El concepto de función de información del ítem.

ã La función de información del test y su relación con la cantidad de
información de Fisher.
ã Las funciones de información para diferentes modelos.
ã Ponderaciones y valores de máxima información.
ã Construcción, interpretación y aplicabilidad de las curvas de infor-
mación.
ã El concepto de eficiencia relativa.
ã Qué es un banco de ítems, un test a la medida (tests adaptativos) y
el uso de las funciones de información en la construcción de tests.
m13.1. Funciones de informaciónm
La función de información de un test, I(θ), representa la máxima cantidad de información

que se puede obtener sobre el rasgo, a partir de las respuestas dadas a los ítems de ese
test, sea cual sea el método de puntuación utilizado. La información del test se obtie-
ne sumando la información que proporciona cada uno de los ítems. El test no es igual-
mente informativo en todo el rango de θ, pues depende de la forma de las curvas
características de los ítems que lo componen. El punto más informativo de cada ítem
es aquel en el que el valor de θ iguala a su dificultad (θj = bi ). Para acceder a esos con-
ceptos comencemos por la definición de la función de información del ítem.
Función de información del ítem
La función de información del ítem, que denotamos por I(θ; ui) para un ítem i dicotó-
mico, con respuesta ui, se define mediante la expresión:
[Pi′(θ)]
2
I ( θ, u i ) =
Pi ( θ) Q i ( θ)
(13.1)
donde Pi(θ) es la función de respuesta al ítem (ojiva normal, logística, etc.) y

Qi(θ) = 1 – Pi(θ). Al ser el ítem dicotómico, el denominador de (13.1), Pi(θ) Q i(θ),
es la varianza. En el numerador, P'i(θ) es la primera derivada de Pi(θ) con respec-
to a θ, que se particulariza para todos los valores especificados del rango de θ.
Por lo tanto, la cantidad de información que proporciona un ítem no es la misma
en todo el rango de θ, sino que varía con los niveles de aptitud.
Cuadro 13.1
Birnbaum (1968) define la función de información de diferentes formas equi-

valentes. La que se presenta como definición 1, como el cociente entre la
pendiente de la curva de regresión de la puntuación X sobre la aptitud θ con
la varianza del estimador de la aptitud y una segunda en la que, en lugar de
usar directamente la varianza para la definición, lo hace a través de la ampli-
Capítulo 13. TRI: Funciones de información 355
tud del intervalo de confianza construido como se indica en el Cuadro 12.3.

Estas definiciones de la función de información son equivalentes a la expre-
sión (13.1), pero están dadas en términos más generales, haciendo eviden-
te la relación de la precisión de las estimaciones (dadas por la varianza, o
por su raíz cuadrada, que es el error típico de medida) con la información
que proporciona el ítem o el test a lo largo de todo el continuo del rasgo θ,
y no mediante un valor fijo del error típico de medida, como se hace en la
TCT. Así pues, estas definiciones de la información pueden ayudar a enten-
der su significado, si se está familiarizado con los conceptos de los diferen-
tes términos que entran en esas definiciones.
Definición 1
La función de información para una puntuación X es, por definición, la

razón entre el cuadrado de la pendiente de la regresión de X sobre θ y el cua-
drado del error estándar de medida de X para un θ dado.
 d µ 2
 X θ
 dθ 
( )
I θ, X =

σ 2X

(13.2)
θ
siendo:
µX θ = E ( X | θ ) la media de las puntuaciones X, condicionadas a θ. Por lo

tanto, es la curva representativa de las medias de la puntua-
ción X condicionadas a cada uno de los valores de θ, o sea,
la curva de regresión de X sobre θ.
dµ X θ dθ es la derivada primera con respecto a θ de la curva de regre-
sión, o sea, su pendiente.
σ 2X θ
es la varianza de la puntuación X alrededor de la curva de
regresión, o sea, el cuadrado del error estándar de medida.
Definición 2
La función de información I (θ, X) para cualquier puntuación X es, por defini-

ción, inversamente proporcional al cuadrado de la longitud del intervalo de con-
fianza asintótico para el estimador de θ calculado a partir de la puntuación X.
Esta deducción que hace Birnbaum se puede comprobar fácilmente que
coincide con la definición 1. La demostración se puede encontrar en San-
tisteban (1990a, pág. 298).
Si se tiene en cuenta que la pendiente de una curva en un punto es el valor de

la derivada de la función que representa a esa curva en ese punto, tanto la expre-
sión (13.1) como la (13.2) indican que la función de información para un deter-
minado ítem y un valor del rasgo θ = θk es el cuadrado de la pendiente de la cur-
va de regresión (no lineal) en el punto θk, dividido por el cuadrado de la desviación
típica o error típico de medida.
Como se ha hecho patente en el capítulo anterior, la pendiente de la CCI es
pequeña cuando el valor del índice de discriminación ai es pequeño, como mues-
tran las curvas P1 (pendiente cero) y P2 (escasa pendiente, la curva es casi hori-
zontal) de la Figura 12.3. Intuitivamente se puede deducir que esos ítems dan poca
información, porque las probabilidades de acierto son muy similares para todos
los sujetos, aun cuando difieran mucho en aptitud. Sin embargo, en esa misma
figura se observa que el ítem P3 tiene mucha pendiente y discrimina mucho (da
mucha información acerca de la probabilidad de acierto) alrededor del punto
θ = 1. Es decir, las diferencias en probabilidad son muy grandes entre aquellos
sujetos que tienen valores en el rasgo superiores o inferiores al valor 1, pero no
demasiado alejados de ese valor θ = 1. Desde esta perspectiva, en la Figura 12.4
se pueden observar las diferencias entre los ítems, por ejemplo, que los ítems P4
y P6 dan bastante información en un amplio rango de θ.
La expresión (13.1) indica que el valor de la función de información depende
de dos fuentes de variación. Una es la pendiente de la curva en cada punto, que
cuanto mayor sea mayor información se obtendrá acerca de θ, la otra es el cuadra-
do del error estándar de medida, que cuanto menor sea, mayor será la información.
El cociente entre estos dos términos es deseable que sea lo mayor posible.
Cuadro 13.2
Para ilustrar el cálculo de la pendiente consideremos el caso de un mode-

lo logístico de dos parámetros cuya CCI es la representada como P6 en la
Figura 12.4.
La derivada P´(θ) es:
eDai ( θ−bi )
P′(θ ) = Da i ⋅ = Da iPi (θ ) Qi (θ )
1
(13.3)
1+ e Da i ( θ−bi )
1+ e
Da i ( θ−bi )
Por lo tanto, para ese ítem en concreto
e(1.7 ) ( 2 ) ( θ−1)
P′(θ ) = (1.7)( 2) ⋅
1
1+ e ( 1.7 ) ( 2 ) ( θ−1)
1+ e ( 1.7 ) ( 2 ) ( θ−1)
Que para algunos valores de θ toma los siguientes valores:
θ –2.0 –1.0 0.0 0.8 1.0 1.2 1.8 2.0 3.0

P' (θ) 0.000 0.004 0.106 0.759 0.850 0.759 0.197 0.106 0.004
El mayor valor para P' (θ) se obtiene cuando θ = 1. En este caso, ese valor
es próximo a la unidad, luego el ángulo α que forma la tangente a la curva en
ese punto con el eje horizontal es α = 44.8º (recuérdese que la pendiente es
igual a la tangente de ese ángulo y que tan α = 1 cuando α = 45º). Para valores
de θ extremos (positivos o negativos) P' (θ) → 0 y la pendiente es nula (α = 0º).
Función de información del test
La función de información de un test es la suma de las funciones de información

de todos los ítems que lo componen:
[Pi′(θ)]
2
I ( θ) = ∑ I( θ, u i ) = ∑
n n
i=1 Pi ( θ) Q i ( θ)
(13.4)
i=1
Se demuestra en estadística matemática que, bajo ciertas condiciones de regu-

laridad, un estimador de máxima verosimilitud θ$ de un parámetro θ, está distri-
buido asintóticamente según una distribución normal (como se ha indicado en el
Cuadro 12.3). Su varianza es igual a la inversa de la expresión a la que Fisher lla-
mó cantidad de información (que es el cuadrado de la derivada del logaritmo de la
función de verosimilitud), también llamada información de Fisher y que se deno-
ta por I(θ).
Var ( θ$|θ) =
1
I ( θ)
(13.5)
Se comprueba (Lord, 1980, pág. 70), que si se dan las condiciones exigidas a
los modelos TRI (unidimensionalidad e independencia local) la varianza dada en
(13.5) responde a la siguiente expresión:
Var ( θ$|θ) =
[Pi′ ( θ)]
1
(13.6)
∑
2
n
i=1 Pi ( θ) Q i ( θ)
El denominador de la expresión (13.6) es por definición la función de infor-

mación del test, dada en (13.4). Por lo tanto, la función de información de un test
es inversa a la varianza del estimador máximo verosímil (insesgado y consistente)
de la aptitud y se puede demostrar (de acuerdo con la desigualdad de Cramer-Rao)
que la función de información I(θ) de un test dado es la cota superior para la infor-
mación que se puede obtener mediante cualquier método de puntuación del test.
La demostración de las anteriores aseveraciones excede a los propósitos de esta
obra. Sin embargo, es conveniente saber que es de esos resultados de los que
se desprende que la información proporcionada por el test venga dada por la suma
de las informaciones de cada ítem, con independencia de cuánta es la informa-
ción que aporta cada uno de ellos.
m13.2. Las funciones de información en diferentes modelosm
Para obtener las ecuaciones de las funciones de información de los ítems, basta
con sustituir en (13.1) las expresiones correspondientes a cada uno de los mode-
los. Por ejemplo, para un modelo logístico de dos parámetros, la derivada P' (θ)
viene dada por (13.3), luego su función de información es:
Pi2 ( θ) Q2i ( θ)
I ( θ, u i ) = D2 a 2i = D2 a 2i Pi ( θ) Q i ( θ)
Pi ( θ) Q i ( θ)
(13.7)
esto indica que la información, para un nivel dado de la aptitud, es directamente

proporcional al cuadrado del índice de discriminación del ítem. La información
del test, compuesto por n ítems es:
I( θ) = ∑ I( θ, u i ) = ∑ D2 a 2i Pi ( θ) Q i ( θ)
n n
(13.8)
i=1 i=1
De la expresión (13.7) se deduce que el ítem aporta la mayor cantidad de infor-

mación cuando se maximiza Pi (θ) [1 – Pi (θ)] o sea, cuando Pi (θ) = 0.50, y esto
sucede cuando θ = bi siendo I ( θ, u i ) = D2 a 12 / 4 el valor máximo de la infor-
mación. En el modelo de un parámetro, si se considera como caso particular del
modelo logístico biparamétrico en el que ai = 1, la mayor información se da tam-
bién para θ = bi, siendo ese valor máximo I (θ, ui) = D2 / 4. De forma análoga
se pueden obtener las funciones de información de los ítems y de los tests para
los diferentes modelos.
Para el modelo logístico de tres parámetros, la función de información viene
dada por la expresión:
Q i ( θ)  Pi ( θ) − c i 
2
I ( θ, u i ) = D2 a 2i  
Pi ( θ)  1 − c i 
(13.9)
Birnbaum (1968, págs. 463-464) indica que la mayor cantidad de información se

obtiene cuando θ toma el valor:
( )
1 
θ = bi + ln  1 + 1 + 8c i 
1
D ai  2 
(13.10)
La información máxima (Lord, 1980, pág. 152) viene dada por la expre-
sión:
I ( θ, u i ) =
D2 a 2i
8 (1 − c 2i )
[1 − 20 c − 8 c
i
2
i + (1 + 8 c i )3 / 2 ] (13.11)
Es evidente que cuando ci tiende a cero la información crece y tiende a coin-

cidir con la del modelo de dos parámetros. Para
( )
1 
c i = 0; θ = bi + ln  1 + 1 
1
D ai  2 
que al ser ln1 = 0, indica que el máximo se alcanza en θ = bi y no en un nivel más

alto de la aptitud, como lo haría si se considerase en el modelo el parámetro con-
jetura o probabilidad de acierto por azar ci. Las expresiones de las funciones de
información para los modelos logísticos se dan en la Tabla 13.1.
Tabla 13.1. Funciones de información para tests con ítems logísticos.
Modelos I(θ)
∑D2 Pi (θ) Qi (θ)

n
i=1
Un parámetro
∑D2 ai2 Pi (θ) Qi (θ)

n
i=1
Dos parámetros
Qi (θ )  Pi (θ ) − ci 
∑D
2
 
n
2
a i2
Tres parámetros i=1 Pi (θ )  1− ci 
En resumen, en estos modelos se puede decir que la información:
a) Varía con los niveles de aptitud, por lo que, en principio, la información es

diferente en los diferentes puntos de la escala de θ.
b) Depende de la forma de la CCI. Cuanto mayor es la pendiente de la curva
en un punto, mayor es la información que aporta el ítem en ese punto.
c) Depende de la varianza de las estimaciones.
d) Para los modelos logísticos de uno y dos parámetros, la máxima informa-

ción se obtiene en aquellos valores de θ que igualan al nivel de dificultad,
o sea, cuando θ = bi .
e) De lo anterior se deduce que los valores máximos de la información se
alcanzan para θ = bi y esos valores son D2/4 y D2 a2i/4 para los modelos
de uno y dos parámetros, respectivamente.
f ) Para el modelo logístico de tres parámetros, la máxima información se
alcanza para el valor de θ dado por la ecuación (13.10), y el valor máximo
de la información se obtiene por la expresión dada en (13.11). Este valor
crece cuando ci decrece y coincide con la del modelo de dos parámetros
cuando ci es cero.
g) Las funciones de información del test se obtienen sumando las corres-
pondientes funciones de información de cada uno de los ítems para todos
los valores de θ.
m13.3. Curvas de informaciónm
La función de información del test viene dada por la suma de las funciones de
información de todos los ítems que lo componen. En la Tabla 13.2 se da un ejem-
plo de los valores de la información (utilizando la ecuación (13.7) para diferentes
valores de θ) de seis ítems que siguen modelos logísticos de dos parámetros. En
la última columna de dicha tabla se dan los valores de la información del test for-
mado por esos seis ítems.
Las funciones de información de los ítems se pueden representar gráficamente,
llevando al eje de abscisas los diferentes valores de θ y en ordenadas los de los
correspondientes I (θ, ui), para cada uno de los modelos. En la Figura 13.1 se
representan las funciones de información de los seis ítems de la Tabla 13.2. En
el mismo gráfico también se representa con trazos discontinuos la función de
información del test, calculada como suma de las informaciones que proporcio-
nan esos seis ítems. La cantidad de información de cada ítem varía con el nivel de
aptitud θ, y con sus valores respectivos de a y de b. El ítem 1, por ejemplo, da bas-
tante información para valores bajos de θ, pero su información es casi nula para
niveles altos de la aptitud. El ítem 6, por el contrario, suministra la mayor infor-
mación en los niveles más altos de θ, siendo su información prácticamente nula
en los más bajos.
Tabla 13.2. Valores de Ii (θ ; ai , bi ) para seis ítems y el test total.
Ítems
Valores Total
de θ 1 2 3 4 5 6
I(θ ; 1.5, 0) I(θ ; 1, 1) I(θ ; 2, 1) I(θ ; 1, 2) I(θ ; 2, 2) I(θ ; 1.5, 2.5)
–3.00 0.003 0.003 0.000 0.001 0.000 0.000 0.007

–2.00 0.039 0.017 0.000 0.003 0.000 0.000 0.059
–1.00 0.437 0.090 0.013 0.017 0.000 0.001 0.558
0.00 1.626 0.377 0.361 0.090 0.013 0.011 2.478
0.80 0.662 0.702 2.580 0.294 0.189 0.083 4.510
1.00 0.437 0.723 2.890 0.377 0.361 0.136 4.924
1.20 0.278 0.702 2.580 0.470 0.670 0.220 4.920
1.80 0.065 0.470 0.670 0.702 2.580 0.800 5.287
2.00 0.039 0.377 0.361 0.723 2.890 1.110 5.500
2.50 0.011 0.194 0.070 0.606 1.510 1.626 4.017
3.00 0.003 0.090 0.013 0.377 0.361 1.110 1.954
4.00 0.000 0.017 0.000 0.090 0.013 0.136 0.256
5.00 0.000 0.003 0.000 0.017 0.000 0.011 0.031
Figura 13.1. Funciones de información de los seis ítems dados en la Tabla 13.2
y la función de información total del test.
Si se comparan las curvas de información con ítems que siguen el mismo mode-
lo, teniendo el mismo valor de bi y diferentes valores de ai (por ejemplo las de los ítems
2 y 3) se observa que es mayor la información suministrada por el ítem con mayor
valor del parámetro a (los ítems 3 y 5). Esto es lógico, pues la ecuación (13.7) indica
que la información de un determinado ítem depende del cuadrado de su índice de
discriminación. Es decir, aquellos ítems con valores de a muy pequeños tendrán una
contribución muy escasa a la información total del test. Por lo tanto, cuando se cons-
truya un test que se desea que sus ítems sean homogéneos, debe buscarse que los dife-
rentes ítems tengan índices de discriminación parecidos, pues de otra manera aque-
llos ítems con bajos valores de ai apenas contribuirán a la información total del test,
y si son muy elevados, sucederá lo contrario. En un test en el que, por ejemplo, dos
ítems que tengan el mismo valor de bi y la relación entre sus valores de ai sea 1:2, la
información del segundo ítem será el cuádruple que la del primero, y para un deter-
minado valor del rasgo, θ = θj, se necesitarán cuatro ítems del primer tipo para tener
la misma información que el segundo ítem proporciona para ese nivel de aptitud.
Ponderaciones
Puesto que la función de información del test se obtiene sumando las funciones
de información de los ítems que lo componen y cada uno de ellos proporciona
distinta información, es muy importante al construir el test tener en cuenta con
qué peso contribuye cada ítem, para poder así maximizar la información total que
da el test. En un test con información
I ( θ) = ∑ I ( θ, u i )
i
si se ponderan los ítems y se denota por wi (i = 1, …, n) el peso de cada uno de

sus n ítems, la puntuación total X de ese test y la información que proporciona
vienen dadas por las expresiones:
n 2
∑ w i Pi′( θ)
  i=1 
X = ∑ w i u i ; I θ , ∑ w i u i  =
n
 i  ∑ w 2i Pi ( θ) Q i ( θ)
(13.12)
i=1
i
Si para construir el test se eligen aquellos ítems que tengan pesos óptimos,
sean éstos wi*, la información I (θ, ∑ w* ui ) es la mayor información que se pue-
de obtener con ese test, y eso se cumple para cualquiera que sea el método de
puntuación elegido para obtener X.
La TRI ofrece la forma de elegir pesos para los ítems que den una puntuación
total X para el test que conlleve la máxima cantidad de información acerca de θ
(la cantidad de información de Fisher). La contribución de cada ítem, para dar
una medida efectiva de la información del test, no depende de qué otros ítems se
han incluido en él.
Los pesos óptimos para los ítems vienen dados por la expresión siguiente:
Pi′( θ)
w *i =
Pi ( θ) Q i ( θ)
(13.13)
De donde se deducen (Cuadro 13.3) los pesos óptimos para los diferentes
modelos. En la Tabla 13. 3 se dan esos pesos para los modelos logísticos.
Tabla 13.3. Pesos óptimos para los modelos logísticos de uno, dos y tres parámetros.
Número de parámetros del modelo
Peso óptimo Uno Dos Tres
Pi′
w i* =
Da i
1+ ci e −Dai ( θ−bi )
D D ai
Pi Qi
Como puede observarse en la Tabla 13.3, los pesos óptimos de las puntua-
ciones de los ítems en los modelos logísticos de uno y dos parámetros son inde-
pendientes del nivel de aptitud del sujeto, siendo este peso, o una constante en el
modelo de un parámetro, o proporcional al poder discriminante del ítem en
el modelo de dos parámetros. Los pesos óptimos para el modelo logístico de tres
parámetros dependen de θ, que en muchos casos puede ser una dificultad añadi-
da, si es desconocido. Lord (1980, pág. 75) indica que para resolver este proble-
ma se puede hacer una aproximación, que consiste en sustituir Pi(θ) por la pro-
porción pi de respuestas correctas dadas al ítem, que coincide con el índice de
dificultad convencional.
Cuadro 13.3
Lord (1980, pág. 73) deriva la ecuación (13.12) utilizando la definición 1

de información que se ha dado en el Cuadro 13.1. La expresión de los
pesos óptimos dada en (13.13) se justifica porque, si se sustituyen estos
pesos en la función de información I (θ, ∑ wi ui) dada en (13.12) se obtie-
ne que
 2
∑P i / Pi Qi 
[ Pi′(θ)]
′
()
2
i 
=∑
2
I θ =
∑ Pi Qi (Pi′ / Pi Qi ) 2 P (θ ) Q (θ )
i i i
i
que es la función de información de Fisher, que alcanza la cota de Cramer-Rao,

siendo por lo tanto esa ponderación la que produce la máxima información.
La comprobación de que los pesos óptimos para los distintos modelos
son los dados en la Tabla 13.3 es inmediata:
Para una distribución logística de dos parámetros, basta con dividir la ex-
presión de la derivada P´(θ), obtenida en la expresión en (13.3) por el produc-
to Pi(θ) Qi(θ).
Si la función de respuesta al ítem es una distribución logística de tres
parámetros:
P'i (θ ) =
[
Da i Qi (θ ) Pi (θ ) − ci ]
1− ci
(13.14)
y los pesos óptimos para las puntuaciones de los ítems son:
w ∗i (θ ) =
[
D a i Pi (θ ) − ci ] = D ai eDL i
=
D ai
Pi (θ ) (1− ci ) ci + e DL i
1+ ci e − D L i
que cuando ci = 0, coincide con los de los logísticos de dos parámetros.

Hay que advertir que si se desea hacer uso de los pesos óptimos de los ítems
al construir un test, la puntuación total en ese test hay que obtenerla sumando la
de cada uno de los ítems, multiplicado por su correspondiente coeficiente de pon-
deración, como ya se indicó cuando se enunciaron las características del modelo
logístico de dos parámetros (Cuadro 12.2), donde se pueden ver algunos ejem-
plos. También conviene hacer notar que para el modelo de tres parámetros, de
acuerdo con la expresión dada en la Tabla 13.3, los pesos óptimos varían con los
diferentes valores de θ, ya que dependen de la pendiente de la curva de probabi-
lidad, como ocurre con las funciones de información (Figura 13.2).
Figura 13.2. Variación de los pesos óptimos con la aptitud en el modelo

de tres parámetros para valores de ai = 2, bi = 1 y ci = 0.2.
Cuadro 13.4
Los pesos óptimos que se asignan a los ítems (mediante la ecuación 13.13)
para discriminar entre niveles de aptitud dependen del índice de discriminación
del ítem (en los modelos de dos y tres parámetros, siendo una constante en el
de un parámetro). Es conveniente añadir las siguientes consideraciones:
a) Los pesos óptimos de los ítems en los niveles más altos de θ son vir-
tualmente independientes de la aptitud, pues en el modelo de tres pará-
metros (el único en que dependen de θ) el peso óptimo del ítem se pue-
de considerar prácticamente constante a partir de un cierto nivel de aptitud
(Figura 13.2).
b) A medida que disminuye la aptitud, los pesos óptimos decrecen en

este modelo de tres parámetros, llegando a ser prácticamente cero a
bajos valores de θ. Es decir, a bajos niveles de aptitud, cuando la con-
jetura es relativamente importante, los pesos óptimos son pequeños,
pudiendo incluso llegar a ser nulos, con lo que la influencia de este
ítem en la información total del test puede ser nula. Dicho de otra mane-
ra, los individuos con bajo nivel de aptitud suelen hacer conjeturas
acerca de los ítems difíciles que se les presentan y sus respuestas a
estos ítems son aleatorias, en cuyo caso la influencia de la probabili-
dad por conjetura es muy superior a la que aporta el índice de discri-
minación.
c) Por lo tanto, es conveniente utilizar ítems con un moderado poder discri-
minante para discriminar en niveles altos de aptitud, mientras que para dis-
criminar a niveles bajos es conveniente utilizar ítems que sean fáciles.
Aplicabilidad
Las funciones de información son muy útiles en la construcción de tests, por

ejemplo, en el proceso de selección de los ítems que van a formar parte de un test,
se pueden ignorar aquellos que presenten poca información, que casi siempre se
debe a que el valor del error estándar de medida es elevado. Esta selección se pue-
de realizar ítem a ítem, puesto que la contribución de cada ítem a la información
del test no depende del resto de los ítems que componen ese test. Esta posibili-
dad no existe en la TCT, donde los análisis hay que hacerlos sobre el test global
y donde, además, sólo se puede hacer uso del error típico de medida y no de la
curva de la función de información.
Usando las propiedades de las funciones de información se pueden diseñar
tests con un determinado perfil de información, por ejemplo, que den mucha
información en determinados valores de θ. Esto es, tests que discriminen mucho
en ciertos valores de rasgo. Puesto que la información que proporciona un ítem
no es uniforme a lo largo de θ, para conseguir el test con el perfil deseado y con
el menor coste posible, se deben elegir aquellos ítems que proporcionen la mayor
información en los puntos de interés.
Bancos de ítems
El análisis de los ítems, el conocimiento del punto donde dan la máxima infor-
mación, la ponderación de las puntuaciones, la eficiencia relativa, etc. dan una idea
de la utilidad de la TRI en la construcción de tests. Entre muchas otras aplica-
ciones, de las que ya Lord (1980) da una extensa relación, está la construcción de
bancos de ítems. Un banco de ítems para la medición de un rasgo no es más que
una colección amplia de ítems calibrados para la medición de ese rasgo. Es decir,
tener disponible para la medición de ese rasgo un conjunto amplio de ítems de
los que se conocen sus características psicométricas.
Un determinado banco de ítems se puede utilizar al menos con dos objetivos,
aumentar el banco, o usarlo para la construcción de tests. En ambos casos, siem-
pre hay que partir de un conjunto de ítems que estén calibrados. Para la amplia-
ción del banco, hay que que generar nuevos ítems, utilizando la misma metodo-
logía que los que ya pertenencen al banco y proceder a establecer las conexiones
entre las métricas, para hacer la equiparación de las puntuaciones de los nuevos
ítems con los del banco. Para la construcción de bancos de ítems hay software
específico disponible (e.g., MICROCAT, RASCAL, ASCAL) que en algunos pro-
gramas también permite la administración de los ítems del banco y el análisis de
los resultados. No obstante, la construcción de un banco de ítems no es tarea fácil
ni puede estar en manos de inexpertos. El uso de los bancos de ítems para la cons-
trucción de tests es evidente que supone un ahorro considerable en todo tipo de
costes, pues se pueden elegir de ese banco aquellos ítems que proporcionen mayor
información en algún valor del rasgo, o para un objetivo determinado, como la
elaboración de tests a la medida, o tests secuenciales, etc.
Tests adaptativos computarizados
Una aplicación importante, generalmente asociada con la TRI, es la construcción de

tests adaptativos computarizados, para los que se usan las siglas CAT (del inglés Com-
putarized Adaptive Testing). Con este método lo que se trata en definitiva es de obte-
ner información precisa y eficiente sobre los niveles de cada individuo en el rasgo.
Para iniciar el proceso hay que disponer de un conjunto muy amplio de ítems de los
que se conocen sus características psicométricas, información que se ha obtenido
haciendo uso de la TRI. Supóngase que se dispone de 300 ítems. El proceso comien-
za cuando se le administran a un sujeto ítems con dificultad media, que se le pre-

sentan y a los que da respuesta en un computador. Recuérdese que la dificultad del
ítem está conectada con el nivel en el rasgo y que, en modelos TRI, el nivel de difi-
cultad de un ítem es el nivel en el rasgo que se requiere para que sea 0.50 la proba-
bilidad de dar respuesta correcta a ese ítem. El programa del computador adapta el
test al aparente nivel en el rasgo que va mostrando el sujeto con sus respuestas. Si el
sujeto comienza dando algunas respuestas correctas, entonces el computador bus-
ca en su base de datos y selecciona ítems cuya dificultad sea un poco mayor. Si por
el contrario, las respuestas no son correctas, entonces busca y presenta ítems cuya
dificultad sea un poco menor. Así se va iterando el proceso. El programa estima en
cada paso la aptitud del sujeto, reestimándola con cada respuesta correcta o inco-
rrecta. El proceso termina cuando se han presentado un número de ítems suficien-
tes para obtener una estimacion precisa y eficiente del nivel del sujeto en el rasgo.
El procedimiento actúa de forma individualizada, presentando diferentes ítems
a diferentes sujetos. Los que ya evidencian un alto nivel en el rasgo no precisan
resolver ítems fáciles y viceversa. Por lo tanto, aunque en la base de datos están
disponibles todos los ítems (los 300 de este supuesto), un programa CAT pre-
senta a cada individuo sólo el número de ítems que se requiera en cada caso para
llegar a la estimación del rasgo. Este procedimiento se usa fundamentalmente en
tests de aptitud, de rendimiento y de conocimientos. Muchos de ellos los aplican
organismos oficiales, sobre todo en EEUU, y se pueden encontrar en algunas web
(véase, por ejemplo, en las referencias: ETS, 2008; o NCSBN, 2008). Una intro-
dución asequible a una variedad de usos de la TRI orientada a los psicólogos está
en Embretson y Reise (2000).
m13.4. Eficiencia relativam
La eficiencia relativa de un test con puntuaciones Y, con respecto a otro de pun-

tuaciones X, es la razón de sus funciones de información:
I ( θ, Y )
E R = E R ( Y, X) =
I ( θ, X )
(13.15)
siempre y cuando X e Y sean puntuaciones en tests referidos a la misma aptitud y que

los valores de las informaciones que se comparan se refieran al mismo punto θ = θj.
Cuadro 13.5
Algunos autores (Hambleton y Swaminathan, 1985) hacen algunas disquisi-

ciones acerca del término eficiencia relativa. Si las funciones de información
se calculan sobre distintos modelos de tests con distintas fórmulas de pun-
tuación, se obtiene la precisión relativa, reservando la denominación de efi-
ciencia relativa para el caso de un mismo modelo de test en el que se com-
paran dos formas de puntuación.
La eficiencia relativa de las puntuaciones de dos tests varía con el nivel de apti-
tud, obteniéndose un valor de la ER para cada uno de los valores de θ. Por lo tan-
to, si se calcula cada uno de esos valores, se pueden representar gráficamente obte-
niéndose la curva de eficiencia, o función de eficiencia, que representa las variaciones de
la ER a lo largo de θ. Es de esperar que en algunos puntos la ER sea mayor para
X que para Y, y que en otros suceda lo contrario, pues la ER depende de los valo-
res de las respectivas funciones de información en cada punto y, como se ha vis-
to anteriormente, estas funciones varían a lo largo de θ. Por ejemplo, si la infor-
mación de un test X en θ = – 1 es 3 y en θ = 1 es 6, siendo la información de un
test Y en esos puntos 1 y 12 respectivamente, el test X es tres veces más eficiente
que el Y en θ = – 1, y la eficiencia del test Y es el doble que la del test X en θ = 1.
Ejemplo 13.1
Supónganse dos tests que siguen un modelo logístico de dos parámetros:

un test X formado por dos ítems en los que a1 = 2, b1 = – 0.5 y a2 = 1, b2 = – 0.5
y un test Y formado por otros dos ítems con a1 = 0.9, b1 = 0 y a2 = 1.9, b2 = 1.
Se quieren calcular los valores de la información de ambos tests y su eficacia
relativa (tanto del test Y en relación con el test X, como la del test X en relación
con el test Y) en función de los valores del rasgo θ.
Los valores de la información para cada uno de los ítems y para ambos tests
pueden calcularse utilizando la ecuación (13.7) como ya se hizo para otros ítems
en el Apartado 13.3. Los resultados para algunos valores de θ se han recogido
en la Tabla 13.4 con el propósito de que el lector pueda comprobar de una mane-
ra fácil algunos de dichos resultados. En las dos últimas columnas de la misma
tabla se presentan también los valores de las eficiencias relativas en esos valo-
res de θ.
Tabla 13.4. Valores de información para los tests X e Y (IX e IY ) y eficiencias relativas (ER).
X Y ER
θ I1 I2 IX I1 I2 IY IX / IY IY / IX
–3.0 0.001 0.007 0.008 0.000 0.026 0.026 0.308 3.250

–2.5 0.006 0.017 0.023 0.000 0.054 0.054 0.426 2.348
–2.0 0.035 0.040 0.075 0.000 0.111 0.111 0.676 1.480
–1.5 0.181 0.090 0.271 0.002 0.216 0.218 1.243 0.804
–1.0 0.755 0.194 0.949 0.009 0.381 0.390 2.433 0.411
–0.5 1.445 0.377 1.822 0.043 0.564 0.607 3.002 0.333
0.0 0.755 0.606 1.361 0.201 0.650 0.851 1.599 0.625
0.5 0.181 0.722 0.903 0.760 0.564 1.324 0.682 1.466
1.0 0.035 0.606 0.641 1.373 0.381 1.754 0.365 2.736
1.5 0.006 0.377 0.383 0.760 0.216 0.976 0.392 2.548
2.0 0.001 0.194 0.195 0.201 0.111 0.312 0.625 1.600
2.5 0.000 0.090 0.090 0.043 0.054 0.097 0.928 1.078
3.0 0.000 0.040 0.040 0.009 0.026 0.035 1.143 0.875
En la Figura 13.3 se han representado los valores de la Tabla 13.4, más

todos aquellos resultantes del mismo cálculo con incrementos de 0.01 en los
valores de la variable θ, por lo que las funciones representadas parecen cur-
vas continuas. En dicha figura se observa que el test X (línea de puntos IX) tie-
ne un máximo de información en θ = – 0.44, presentándolo el test Y (línea de
trazos IY) en θ = 0.95. Por lo tanto, el test X presenta mayores valores de infor-
mación que el test Y a bajos valores del rasgo y viceversa. Este resultado era
de esperar dados los valores de los parámetros a y b de los ítems que cons-
tituyen ambos tests.
Respecto a las eficiencias relativas, puede verse en la figura 13.3 que son
iguales a la unidad en varios valores del rasgo (–1.66, 0.27 y 2.62), debido a las
diferentes formas de las curvas de información para ambos tests. Sin embar-
go, el punto importante en que ambos tests tienen la misma eficiencia relativa
es el que está a θ = 0.27 (punto de cruce), pues los otros dos se dan en valo-
res del rasgo en los que la información de cada test es cercana a cero. En este
caso de igual eficiencia, o cuando son diferentes, cualquier conclusión que quie-
ra derivarse utilizando tan bajos valores de información es poco fiable en la prác-
tica. En cuanto a cuáles son las diferencias en eficiencia entre ambos tests, en
la Figura 13.3 se observa que la eficacia relativa del test X en relación con el
test Y (curva continua gruesa), llamada en la figura ER(X,Y), es mayor que la uni-
dad a bajos valores del rasgo y menor que a la unidad a valores altos del rasgo.
Lo contrario ocurre con la curva ER(Y, X) que representa la eficacia relativa del
test Y en relación con el test X (curva continua fina), dado que es el inverso de
la anterior. Por lo tanto, el test X es más eficiente que el Y en un rango aproxi-
mado de θ entre –1.66 y 0.27, siendo más eficiente el test Y que el X para valo-
res θ mayores de 0.27 y menores que 2.62.
Figura 13.3. Valores de las funciones de información de los tests X (IX) e Y (IY) y de las
eficacias relativas (ER) calculadas en función del rasgo θ, utilizando el modelo logístico de
dos parámetros.
m13.5. La métrica y los valores de las funciones de informaciónm
Al calcular los valores de la función de información esos valores pueden ser muy
elevados o no, pero de ellos no se deriva directamente la cuantía de esa informa-
ción, ya que para interpretarlos hay que tener en cuenta que dependen de la esca-
la en que estén dados los valores de θ. La métrica de las funciones de informa-
ción está condicionada por la métrica elegida para θ.
Teóricamente, θ puede tomar valores en todo el rango de los números reales
R, o sea, desde –∞ a +∞. Por ello, el obtener valores de la función de informa-
ción, ya sean bajos o elevados, puede ser engañoso en cuanto a su valoración e
interpretación. Aun más, siempre es posible transformar un valor de la función
de información en otro cualquiera, haciendo la pertinente transformación de θ.
Por lo tanto, los valores de la función de información hay que interpretarlos en

términos relativos y siempre en relación con la escala de θ, puesto que no hay cero
ni unidad común para esa escala.
Para cualquier transformación monótona de la escala de aptitud θ* = θ* (θ) se
demuestra (Lord, 1980, pág. 85) que I (θ*, x) = I(θ, x)/(dθ*/dθ)2. Es decir, que
cuando la métrica elegida para θ se transforma mediante una función monótona
θ* = θ*(θ), entonces la función de información para la métrica θ* es la original
dividida por el cuadrado de la derivada de la transformación. Por lo tanto, para
que en las aplicaciones sean correctas y válidas las consideraciones que anterior-
mente se han hecho acerca de los niveles de aptitud para los que se obtiene la
máxima información, en cada ítem y modelo, es necesario que previamente se
haya elegido convenientemente la métrica de θ.
Estas precisiones acerca de la métrica elegida para θ y de sus efectos sobre la
información no son necesarias en el caso del cálculo de la eficiencia relativa, pues
es fácil comprobar que la eficiencia relativa es invariante con respecto a transfor-
maciones monótonas de θ. Esta propiedad de invarianza de la eficiencia relativa
es importante en la búsqueda de ciertas estrategias necesarias en la práctica de la
construcción de tests, pues son aplicables a la selección de ítems, evaluación de
tests, construcción de tests adaptativos o tests a la medida, etc., ya que permiten
hacer comparaciones con las debidas garantías en cuanto a que se preservan las
cualidades psicométricas.
m13.6. Resumen de los procedimientosm
De lo expuesto acerca de las funciones de información del ítem y del test, y espe-
cialmente del hecho de que la información de un test sea la suma de las funcio-
nes de información de los ítems que lo componen, se puede hacer un uso ade-
cuado para construir tests que gocen de ciertas propiedades deseables.
La forma de proceder para la construcción del test puede ser la siguiente:
1. Proveerse de un conjunto de ítems dirigidos a evaluar un cierto rasgo y que

estén calibrados. Por lo tanto, que se conozcan sus curvas de información.
2. Decidir qué forma se desea que tenga la curva de información del test, de
acuerdo con el objetivo que se pretenda para su construcción. Es la cur-
va de información objetivo.
3. Elegir los ítems con mayor información y con menor desviación típica.
4. Seleccionar los ítems con curvas de información que se ajusten mejor a
las áreas bajo la curva de información objetivo.
5. Calcular la información acumulada cada vez que se añade un nuevo ítem.
De esta manera, en cada momento del proceso se tiene conocimiento de
la curva de información para el conjunto de los ítems seleccionados.
6. Continuar el proceso hasta que el área bajo la curva de información obje-
tivo esté ajustada con una aproximación satisfactoria.
7. Cuidar en el proceso los efectos que sobre la información tiene la métri-
ca elegida para la escala de aptitud. Puesto que las funciones de informa-
ción dependen de los niveles de la aptitud, y puesto que la métrica para θ
se elige arbitrariamente, es necesario tenerlo en cuenta en todo el proce-
so, y en especial en la interpretación.
8. Calcular la eficiencia relativa, para el análisis de los ítems y para la com-
paración de tests. Por ejemplo, cuando se quieran comparar, en términos
de sus funciones de información, dos tests que evalúen el mismo rasgo,
o cuando se quiera comparar un test consigo mismo al considerar o no
los pesos óptimos de las puntuaciones.
9. Construir la curva que represente la eficiencia relativa de los tests en cada
uno de los valores de θ. Es la llamada función de eficiencia relativa, que per-
mite visualizar en qué puntos son igualmente eficientes (ER = 1), o cuan-
do el test X es más eficiente que el test Y (ER < 1), y en aquellos en los
que fuera la de Y mayor que la de X (ER >1).
10. Tener en cuenta la aplicabilidad de la ER a múltiples propósitos en el dise-
ño y construcción de tests. Esto se debe principalmente a la invarianza de
la ER con respecto a las transformaciones de θ y a que se puede aplicar a
cualquier sistema de puntuaciones en los tests y no solamente al caso de
ítems dicotómicos (Lord, 1980).
Puntos clave
3 La función de información de un ítem dicotómico se define como el cociente

entre el cuadrado de la derivada de la función de probabilidad [P´(θ)]2 y la varian-
za P(θ)Q(θ).
3 La derivada P´(θ) es la pendiente de la CCI que toma valores diferentes para dife-
rentes valores de θ. Por lo tanto, la información que proporciona el ítem varía
con los niveles de θ.
3 La información que proporciona el ítem está directamente relacionada con su
indice de discriminación.
3 La forma analítica de la función de información del ítem depende de la forma
analítica del modelo que se ajusta a ese ítem.
3 La función de información del test se obtiene sumando las funciones de infor-
mación de los ítems para todos los valores de θ.
3 La función de información de un test es inversa a la varianza del estimador máxi-
mo verosímil de la aptitud y equivale a la información de Fisher para esa función
de probabilidad.
3 Se puede construir un test para un perfil de información predeterminado y con
el menor número posible de ítems si, conocidas sus funciones de información,
se eligen los ítems más adecuados para que su suma se ajuste al perfil.
3 Los ítems se pueden ponderar de forma que maximicen la información que pro-
porcionan.
3 El disponer de un banco de ítems calibrados (se han estimado sus parámetros
y se conocen sus características psicométricas) es de gran ayuda en la cons-
trucción de tests, haciendo uso de sus funciones de información.
3 Los valores de la función de información dependen de la escala elegida para θ.
Por ello, hay que interpretarlos en términos relativos y en cada caso concreto.
3 El cociente entre las funciones de información de dos tests es un indicador de
la eficiencia relativa (ER) de uno con respecto al otro.
3 Puesto que la ER varía con los valores de θ, un test puede ser más eficiente que
otro sólo en ciertos valores de θ, siendo al contrario para otros valores de θ y
ser igualmente eficiente en otros.
3 La ER, al ser una magnitud relativa, no varía con transformaciones en la métri-
ca de θ y es aplicable con cualquier sistema de puntuaciones.
3 La invarianza de la ER es muy importante, pues no sólo es un método para com-
parar la eficiencia de dos tests en diferentes valores del rasgo, sino que también
lo es para el diseño y la construcción de tipos específicos de tests, como los
tests adaptativos.
Actividades
r Calcule los valores y represente las curvas de información de los ítems cuyas
funciones de probabilidad se dan en la Tabla 12.2. Discuta acerca de la
información que contiene el test compuesto por esos seis ítems.
r Un test está formado por los ítems de la Tabla 13.2 más otro con a = 2.5
y con b = 2. Represente las funciones de información de cada uno de los
ítems y la del test.
r Si esos ítems pertenecieran a un banco y se quisiera construir un test cuya
información en θ = 1.5 fuese al menos igual a 4, ¿qué ítems se deberían
elegir? ¿Y cuáles se elegirían si a su vez se quiere que la información en
θ = 2 sea al menos igual a 5?
r Suponga que de los siete ítems de la segunda actividad, los cuatro prime-
ros forman un test y los otros tres otro diferente. Calcule la eficiencia rela-
tiva de ambos tests.
r Discuta en el caso anterior en qué valores de θ sería un test más eficiente
que el otro, o si ambos serían igual de eficientes.
r Represente gráficamente las variaciones de la eficiencia relativa de un test
con ítems ponderados, con respecto a ese mismo test sin ponderaciones
de los ítems.
r Si tuviera que hacer un test secuencial con los ítems de la Tabla 13.2 ¿en
qué orden los aplicaría? Y si el test estuviese compuesto por esos ítems más
el séptimo añadido (a = 2.5 y b = 2) ¿cuál de los dos tests sería más efi-
ciente? Justifique las respuestas.
r ¿Cuál es la amplitud del intervalo de confianza de θ para un ítem que se
ajusta a una función logística de dos parámetros, siendo a = 2 y b = 1? Para
resolverlo considere D = 1 y la información (definición 2) que se propor-
ciona en el Cuadro 13.1.
r Busque en la bibliografía el significado que en física tienen los invariantes
y relaciónelo con lo que significa la invarianza de la eficiencia relativa y con
otros conceptos (e.g., invarianza de las puntuaciones, invarianza en las trans-
formaciones, etc.) que se han tratado en este texto.
El sesgo en los tests
Sesgos y comportamiento diferencial
de los ítems 14
Los estudios en cualquier ámbito de la ciencia requieren que se minimi-
cen los errores, pero su credibilidad se sostiene en la ausencia de sesgos,
tanto en sus planteamientos y en los métodos con que se abordan los pro-
blemas, como en la interpretación de las conclusiones. La generalización
del uso de los tests y su influencia en la toma de decisiones en muchos y
muy diversos ámbitos (educativos, empresariales, jurídicos, clínicos, etc.)
hace que la introducción de sesgos, favoreciendo o perjudicando a algún
grupo de población, tenga importantes implicaciones tanto económicas
como sociales e individuales. La validez del test implica ausencia de ses-
gos. Por ello, uno de los temas de investigación relevantes en psicometría
ha sido el estudio de la equidad y del sesgo de los tests. En las últimas déca-
das, con el uso de la TRI en la construcción de tests, han proliferado los
estudios sobre el funcionamiento diferencial de los ítems.
ã Qué es el sesgo y cuáles son las principales fuentes de sesgo en la

construcción de los tests.
ã Qué diferentes fuentes de sesgo pueden llevar a la no equidad en
la valoración de unos sujetos o de unos grupos con respecto a
otros.
ã Algunos métodos para detectar el sesgo en la medida del construc-
to, basados en la consistencia interna del test, en su dificultad o en
su estructura factorial.
ã Un método sencillo para detectar y evaluar el funcionamiento dife-
rencial del ítem aplicando el método de Mantel-Haenszel a tablas
de contingencia.
ã Un método para detectar y evaluar el funcionamiento diferencial

del ítem basado en la TRI.
m14.1. El sesgo en los testsm
En la realización de un estudio, el término sesgo se utiliza para hacer referencia

a aquellos errores que no se pueden considerar aleatorios, pues aparecen siste-
máticamente (ya sea en los diseños experimentales, en la elección de la muestra,
en la recogida de los datos, o incluso en el análisis o en las interpretaciones) y pro-
ducen desviaciones que conducen a conclusiones que científicamente no deben
considerarse válidas. Las fuentes de sesgo en la construcción y en el uso de los
tests son múltiples y variadas. Factores de distinta naturaleza pueden producir ses-
gos en la construcción del test en cualquier fase del proceso, desde la generación
de un ítem hasta su estructura final, pasando por el formato de respuesta, la coo-
peración o la sinceridad de las personas que cumplimentan la prueba, etc. La vali-
dez de los resultados de los tests, en general, depende, entre otros muchos fac-
tores, de la ausencia de sesgos.
Un ítem estará sesgado cuando sujetos con el mismo valor en el rasgo no
tengan las mismas probabilidades de dar la respuesta correcta a ese ítem. Un
test estará sesgado cuando sujetos con el mismo valor en el rasgo no tengan la
misma probabilidad de obtener una determinada puntuación en ese test. O sea,
que un ítem o un test estarán sesgados cuando sujetos con el mismo nivel de
θ generen mediciones diferentes. El test o el ítem pueden estar sesgados a favor
de algún grupo social, o de edad, o de sexo, etc., pero como se ha dicho ante-
riormente, para que se hable de sesgo, esas diferencias no pueden ser acci-
dentales, sino que tienen que ser sistemáticas. Los sesgos impiden la necesaria
equidad en la interpretación de las puntuaciones y tienen importantes conse-
cuencias que abarcan desde lo personal a lo social. Las normas de 1999 (AERA,
APA & NCME, 1999) dedican una de las tres partes (Parte II) a tratar de la
equidad o imparcialidad en la administración y uso de los tests, haciendo men-
ción explícita a los sesgos que pueden provenir de las diferencias culturales y
lingüísticas, así como de la no adecuación de las pruebas a los grupos con algu-
na discapacidad.
En el contexto de la psicometría, en la TCT se ha estudiado el sesgo desde
distintos puntos de vista y diferentes versiones en relación con el índice de difi-
Capítulo 14. El sesgo en los tests 379
cultad y utilizando usualmente el estadístico χ2 para la comparación de subpo-

blaciones (e.g., Angoff, 1982; Cleary y Hilton, 1968; Scheuneman, 1979). Con la
implantación de la TRI, se ha desechado la palabra sesgo para hablar de funcio-
namiento diferencial del ítem. Desde nuestro punto de vista, el concepto de ses-
go es más general y más complejo (Santisteban, 1999) que la técnica que lleva a
comprobar si el comportamiento del ítem es diferente en diferentes grupos de la
población, que es a lo que se le denomina funcionamiento diferencial del ítem
(FDI). Esta terminología la introdujeron Hollan y Thayer (1988), aunque muchos
de los procedimientos incluidos bajo esa denominación ya eran conocidos como,
por ejemplo, el de comparar las CCI de los diferentes grupos, que detallaremos
más adelante (Rudner et al., 1980). Bajo la denominación de DIF se han incluido
muchos y muy diversos métodos, por ejemplo, unos están basados en los análi-
sis de tablas de contingencia, otros en la regresión logística y otros en las carac-
terísticas de los modelos TRI. El acrónimo de funcionamiento diferencial del ítem
en los textos en castellano aparece como FID y también como DIF, tomado del
inglés, aunque en el lenguaje hablado es este último “dif” el que por la sencillez
del vocablo se suele utilizar en ambos idiomas.
m14.2. Detección y estimación de sesgo en la evaluaciónm

del constructom
El sesgo en la evaluación del constructo está relacionado con el significado de las

puntuaciones. Se estará evaluando sesgadamente el constructo si las puntuacio-
nes que se obtienen en el test pueden tener diferentes significados para diferen-
tes grupos de la población. Por ejemplo, un test de aptitud mecánica que pueda
reflejar diferentes rasgos en hombres y en mujeres (Spencer et al., 1999) es un test
sesgado. Un estudio interesante sobre satisfacción y justicia distributiva en el que
se validan cuatro escalas es el de Howard (1999).
Hay varios procedimientos para evidenciar y estimar la existencia de sesgo en
la evaluación del constructo, ya sea evaluando su consistencia o su estructura inter-
na, o el índice de discriminación, etc. También hay muchas formas de detectar
estos sesgos examinando el comportamiento individual de los ítems. Las técni-
cas que se han generado con este fin se agrupan bajo la denominación de fun-
cionamiento diferencial de los ítems, y requieren un tratamiento algo extenso y
específico, aun dentro de las limitaciones de tamaño de esta obra.
Consistencia interna
La consistencia interna de un test, como ya se ha explicitado anteriormente, indi-

ca cómo se relacionan entre sí las distintas partes de un test. En el Capítulo 5 se
han tratado algunas de estas formas. En general, la consistencia interna de un test
se evalúa mediante el patrón de correlaciones entre los ítems o entre cada ítem y
la puntuación total en el test. Si se tienen dos grupos, por ejemplo, de diferente
género, debe examinarse la consistencia interna de ambos grupos de forma sepa-
rada. Si en ambos se obtienen los mismos o similares patrones de correlación,
entonces se admite que es poco probable que exista sesgo en la medición del cons-
tructo a favor de uno u otro grupo. Si esos patrones correlacionales no son igua-
les o similares en ambos grupos, es muy probable que si se aplica ese test a ambos
grupos, se esté obteniendo una medición sesgada del constructo. Téngase en cuen-
ta que la detección del sesgo no se hace observando las puntuaciones de ambos
grupos en el test, sino por las posibles diferencias en los patrones de correlación
que miden la consistencia interna en uno y otro grupo. Esto es, en uno de los gru-
pos se pueden obtener sistemáticamente puntuaciones más bajas que en el otro,
pero esto no significa que haya sesgo a favor del otro grupo, sino simplemente
que los valores de ese grupo en ese constructo son menores.
Índices de discriminación
Otra forma de detectar sesgos en la medición del constructo es calcular el índice

de discriminación de cada ítem. Esta forma de detección es muy similar a la ante-
rior, ya que la discriminación de un ítem evalúa el grado en que ese ítem puede
estar afectado por la consistencia interna del test. En este caso, se estiman sepa-
radamente los índices de discriminación de cada uno de los ítems en los grupos
que componen la población (por ejemplo, hombres y mujeres). Valores del índi-
ce de discriminación de un ítem iguales o similares en los diferentes grupos son
indicadores de que ese ítem no está sesgado.
Rango de dificultad
Una forma intuitiva y fácil de detectar sesgos en la medición del constructo en

varios grupos es ordenando los ítems del test según su dificultad. Si los ítems
mantienen el orden en los diferentes grupos, se considera que no están sesga-

dos en la medición del constructo. Si uno o varios ítems aparecen entre los fáci-
les o muy fáciles en un grupo y entre los difíciles en otro grupo, hay que sospe-
char la existencia de sesgos. Formalmente, comoquiera que lo que se establece
entre los ítems es una relación de orden, para comparar los rangos, se debe uti-
lizar una prueba no paramétrica, como el coeficiente de correlación por rangos
de Spearman, cuyo cálculo es fácil y los resultados se interpretan de forma simi-
lar a los coeficientes de correlación cuando se establece entre valores numéri-
cos. En el caso de correlación entre rangos, no es el valor de la dificultad de cada
ítem lo que se utiliza en la correlación, sino el orden que ocupa según su valor.
Por lo tanto, se estima que no hay sesgo si los patrones de correlación entre los
grupos son muy similares, aun cuando el test pudiera resultar más difícil para
unos grupos que para otros.
Análisis factorial
Uno de los muchos usos que se puede dar al análisis factorial en psicología es para
la detección del sesgo en la evaluación de un constructo.
El análisis factorial sirve para evaluar la estructura interna de un test, descu-
briendo si esa estructura está compuesta por uno o más factores. Por ejemplo, en
el test de agresividad al que nos hemos referido en los Apartados 8.4, 8.7 y 9.5 de
esta obra (AQ de Buss & Perry) se han identificado cuatro factores: agresividad
física, verbal, ira y hostilidad. Si al realizar los análisis los ítems que entran a for-
mar parte de cada uno de esos factores no fuesen los mismos para las muestras
de hombres que para las de mujeres, entonces habría sesgo en su estructura inter-
na y el test no tendría validez. Cuando se hizo la adaptación de ese test a adoles-
centes y niños (Santisteban et al., 2007), fue necesario comprobar que se confir-
maba su estructura de cuatro factores, para lo que se utilizaron las técnicas de
análisis factorial. Si se hubiese encontrado que en los niños o en los adolescentes
(aunque fuese en ambos géneros) en lugar de cuatro sólo se identifican dos fac-
tores, por ejemplo agresividad física y hostilidad, entonces el test AQ no sería váli-
do para esas edades, al menos en lo referente a su estructura interna, y habría ses-
go en las mediciones en esos grupos de edad en relación con las de los adultos,
si se utilizase ese test.
Funcionamiento diferencial de los ítems
Los métodos anteriormente expuestos para detectar sesgos en la medición de los

constructos son aproximaciones útiles y relativamente sencillas, pero su relevan-
cia queda muy disminuida si se compara con los métodos de análisis que se han
generado en lo que se ha dado en llamar funcionamiento diferencial del ítem
(DIF). El estudio del DIF es sin duda el mejor procedimiento para evaluar posi-
bles diferencias en el comportamiento de los ítems en diferentes grupos. Su teo-
ría y sus técnicas nacen y se desarrollan vinculadas a los conceptos de la TRI, que
es la que permite el estudio individualizado de los ítems y la estimación de la apti-
tud de cada uno de los participantes en la prueba, con independencia de cómo
ha respondido el resto. No obstante, en la literatura sobre DIF se incluyen una
gran cantidad de métodos, como χ2, los de clase latente o el Mantel-Haenszel,
que están basados en tablas de contingencia, que trataremos más adelante, así
como los loglineales (Mellenbergh, 1982), o los basados en técnicas de regresión
logística (Swaminathan y Rogers, 1990). También se han realizado estudios para
comparar la eficacia de distintos procedimientos (e.g., entre Mantel-Haenszel y
los modelos loglineales) en la detección del comportamiento diferencial de los
ítems, estudiándose, entre otras características, la potencia de las pruebas y las
tasas de detección de ítems anómalos.
Los métodos de detección del sesgo en la TRI están basados en las caracterís-
ticas de la CCI del ítem, o del conjunto de los ítems que componen la prueba y
una de sus principales desventajas en relación con otros métodos es que éstos exi-
gen tamaños de muestra mucho mayores para realizar los análisis. Un ítem de un
test que mide un determinado rasgo se dice que funciona diferencialmente cuan-
do la probabilidad de acertar ese ítem es diferente para sujetos que supuestamen-
te tienen el mismo nivel en ese rasgo que el test pretende medir. Cuando las com-
paraciones se hacen entre diferentes grupos, por ejemplo, hombres y mujeres, si
esas probabilidades son mayores en un grupo que en el otro en todos los niveles
del rasgo, entonces se dice que el DIF es uniforme. Si no es así, si las diferencias
están a favor de uno u otro grupo en diferentes valores del rasgo, entonces se dice
que el DIF es no uniforme. En la Figura 14.1 se presenta un ejemplo de DIF uni-
forme en el que el ítem está sesgado a favor de uno de los grupos (del grupo B).
Supóngase que el ítem corresponde a una prueba de rendimiento y que la
muestra B es una muestra de mujeres y que la A es de hombres, entonces diría-
mos que el ítem está sesgado a favor de las mujeres, pues para cada nivel de apti-
tud ellas tienen mayores probabilidades de acertar el ítem. Esto es, que para tener
la misma probabilidad de acierto en el ítem, los hombres tienen que tener mayor
valor en el rasgo que las mujeres. Ahora bien, si el rasgo que mide el ítem fuese
de otro tipo, por ejemplo intolerancia, el ítem estaría sesgado a favor de los hom-
bres, pues para que se les considerase igualmente intolerantes que las mujeres,
necesitarían mayores valores en ese rasgo.
Figura 14.1. Ejemplo de DIF uniforme. A y B son las curvas características

del mismo ítem en dos grupos de población.
El DIF es no uniforme cuando las probabilidades de acierto de sujetos que tie-

nen el mismo valor en el rasgo son mayores en un grupo B que en otro A para
algunos valores de θ, en tanto que para otros valores de θ, ocurre lo contrario. Es
decir, que las probabilidades de respuesta correcta de sujetos que tienen el mis-
mo nivel en el rasgo son mayores o menores, no sólo dependiendo de si perte-
necen a un grupo u otro (A o B) sino también de dónde esté situado su valor en
el rasgo. Por ejemplo, un cierto ítem que mida hostilidad, puede estar sesgado a
favor de las mujeres en los niveles altos de ese rasgo y a favor de los hombres en
los niveles bajos. En la Figura 14.2 se presenta un ejemplo de DIF no uniforme,
observándose que son mayores las probabilidades de acierto de los sujetos que
pertenecen al grupo B en el los valores de θ > – 0.40, siendo sin embargo más
bajas para θ < – 0.40. En el DIF no uniforme las curvas características de un ítem
obtenidas con diferentes grupos se cortan en un determinado punto θ = θk, en el
que cambia el sentido del sesgo. Si en el ejemplo de la Figura 14.2 la curva B corres-
pondiese a mujeres y la A a hombres en relación con una prueba de matemáticas
para su admisión en una universidad, diríamos que el ítem está sesgado a favor
de las mujeres en los niveles medios y altos de la aptitud (a partir de θk = – 0.40)
y a favor de los hombres en los niveles bajos de aptitud, aunque los sesgos que se
presentan en la Figura 14.2 son moderados.
Figura 14.2. Ejemplo de DIF no uniforme.
m14.2. El método Mantel-Haenszel para estimar el DIFm
Se han propuesto muchos métodos para detectar el DIF, estando entre los más uti-
lizados el que proponen Holland y Thayer (1988), al aplicar la medida de asocia-
ción de Mantel-Haenszel (1959) al estudio de este problema. Es un método en el
que los datos se disponen en tablas de contingencia y que está basado en el con-
cepto de odds ratio, que se ha traducido como razón de ventajas o razón de plausi-
bilidades. El uso de este método requiere la dicotomía en los ítems y que se dis-
ponga de los datos de cada uno de los sujetos, en cuanto a si han respondido correcta
o incorrectamente al ítem, así como de su puntuación total en el test. Las respues-
tas a cada ítem se suelen codificar como uno (acierto) y cero (error), por lo que la
puntuación total en una prueba de n ítems se obtiene como total de respuestas
correctas, tomando por lo tanto esa suma de aciertos valores entre cero y n.
La presencia de sesgo se trata de detectar viendo si todas las personas con

igual valor en el rasgo tienen la misma probabilidad de acertar el ítem. Por lo
tanto, para esta prueba, se consideran distintas categorías o estratos de la varia-
ble que se quiere controlar. Concretamente, se considera que la puntuación glo-
bal se subdivide en k intervalos o clases de equivalencia (todas las personas
cuya puntuación total esté contenida en un determinado intervalo, pertenecen
a una misma clase). Además, hay que disponer de datos de sujetos que corres-
pondan a dos grupos, a los que se les llama grupo de referencia y grupo focal,
que se corresponden con los que se denominan en epidemiología grupos de
controles y de casos, que es el contexto donde originalmente se propuso este méto-
do. Los datos se disponen como en la Tabla 14.1. El sesgo se detecta compa-
rando ambos grupos a través de las diferentes categorías mediante las deno-
minadas odds ratio.
El estimador de las odds ratio propuesto por Mantel-Haenszel, ajustado para
los efectos de la variable de estratificación, que en el caso de detección de DIF
son las categorías, viene dado por la ecuación (14.1).
Tabla 14.1. Tabla de datos para estimar el DIF.
Grupo
Categoría
Referencia Focal Total
1 Acierto a1 c1 m11
Error b1 d1 m21
Total n11 n21 n1
2 Acierto a2 c2 m12
Error b2 d2 m22
Total n12 n22 n2
… … … … …
j Acierto aj cj m1j
Error bj dj m2j
Total n1j n2j nj
… … … … …
k Acierto ak ck m1k
Error bk dk m2k
Total n1k n2k nk
(14.1)
donde a, b, c, d, m y n se corresponden con los datos que están en las casillas

según se han dispuesto en la Tabla 14.1.
La interpretación que se da a este cociente como medida de DIF es que valo-
res de αMH iguales a la unidad indican que el ítem se comporta de la misma for-
ma en ambos grupos, en el focal y en el de referencia. Valores mayores que uno
indican que las probabilidades de acierto son mayores en el grupo de referencia
que en el focal. En muchas ocasiones, se utiliza como indicador del DIF el loga-
ritmo neperiano de αMH, al que se suele denotar por βMH. Si se hace esta trans-
formación, para la interpretación del indicador hay que tener en cuenta que cuan-
do es αMH = 1, el valor de βMH es igual a ln 1 = 0.
Significación estadística de los valores α MH
En la práctica, los valores que se obtienen para las odds ratio no suelen ser igua-
les a uno. Por lo tanto, una vez calculados estos valores, en particular αMH , la pre-
gunta inmediata es cuál es la magnitud de las desviaciones al valor uno que pue-
de ser admisible para considerar que no hay DIF. Para ello se propone contrastar
la hipótesis nula:
H0 : αMH = 1
frente a cualquiera de las siguientes alternativas, lo que supone un contraste bila-

teral o bien uno de los unilaterales siguientes:
H1: αMH ≠ 1
H1: αMH > 1
H1: αMH < 1
El test de contraste propuesto por Mantel-Haenszel es:
 k 2
 ∑aj − ∑E aj − 1 ( ) 2
k
 j= 1 j= 1 
χ 2MH =
∑ Var (a j )
k (14.2)
j= 1
que bajo H0 sigue aproximadamente una distribución χ2 con un grado de li-

bertad.
El término 1/2 se introduce para la corrección por continuidad. Las expre-
siones E(aj) y Var(aj) indican, respectivamente, la media y la varianza condicional
de la j-ésima categoría o clase de puntuaciones, que se pueden calcular mediante
las expresiones:
( )
E aj = ; Var a j =( )
( )
n1j m1j n1j n 2 j m1j m 2 j
n2j n j − 1
(14.3)
nj
Una forma sencilla de cálculo del estadístico de contraste, análoga a la ante-

rior, viene dada por la expresión:
 k a d − b c 2
∑ j j 
 
j j
 j= 1 
( )( ) ( ) (b j + d j )
χ 2MH =
n j
a j + bj c j + d j a j + c j
(14.4)
∑
n2j (n j − 1)
k
j= 1
Para aceptar o rechazar H0 , los valores obtenidos mediante la expresión (14.2)

o la (14.4) hay que compararlos con los de la distribución χ2 teórica para com-
probar si los valores del estadístico pertenecen a la zona de aceptación de la hipó-
tesis nula cuya amplitud es 1 – α.
Ejemplo 14.1
En la Tabla 14.2 se dan las frecuencias de acierto a un mismo ítem de

los grupos de referencia y focal de dos categorías diferentes, una corres-
ponde a adultos y la otra a niños. Se desea calcular si hay algún efecto
de asociación entre la probabilidad de dar la respuesta correcta y la perte-
nencia a una de las categorías, así como si ese ítem se comporta de diferente
manera (aumentando la probabilidad de acierto) en alguno de esos dos
grupos.
Tabla 14.2. Aciertos y errores en los grupos focal y de referencia

para dos grupos de edad*.
Niños Adultos
Referencia Focal Referencia Focal
Aciertos 15 31 128 73
Errores 43 88 14 8
Totales 58 119 142 81
Odds ratio · = 0.99
OR · = 1.00
OR
1 2
* Obsérvese que los datos de las dos categorías (grupos de edad) en esta tabla están dispues-
tos unos al lado de otros, en vez de unos debajo de otros, como en la Tabla 14.1.
El valor del indicador de sesgo se obtiene mediante la expresión (14.1).
(15)(88) + (128)(8)
( )( ) + ( )( )
αMH = 177 223 = 12.05 = 0.995
31 43 73 14 12.11
177 223
Puede comprobarse que este valor es la media de las odds ratio de cada
grupo. Por ello, muchas veces es conveniente tener información de las odds
ratio de cada uno de los grupos pues, si las diferencias entre ellos fuesen muy
grandes, al calcular αMH se pierde gran parte de la información relevante que
proporciona el conocimiento de esas diferencias.
En el caso que nos ocupa, calculado αMH hay que contrastar la hipótesis
H0 : αMH = 1 frente a la alternativa H0 : αMH ≠ 1.
El valor del estadístico de contraste, calculado usando la expresión (14.4) es:
 (15)(88) − (43)( 31) (128)(8) − (14 )(73) 2

 + 
 
χ = = 0.0003
2 177 223
+
(58)(119)(46)(131) (142)(81)( 201)( 22)
(177)2 (176) ( 223)2 ( 222)
Este valor pertenece a la región de aceptación de H0 con probabilidad p > 0.99.

Luego se acepta que la prueba no se comporta de forma diferenciada a favor de
alguno de esos dos subgrupos de población categorizados en función de su edad.
Ejemplo 14.2
En una prueba de admisión se hace una reclamación porque se afirma que

la pregunta conlleva que el tipo de respuesta esté fuertemente influenciado por
el género de la persona que responde. A la vista de los resultados de la prue-
ba (Tabla 14.3), ¿se debe aceptar esta reclamación?
Tabla 14.3. Aciertos y errores en los grupos focal y de referencia

para los dos géneros.
Masculino Femenino
Referencia Focal Referencia Focal
Aciertos 21 30 19 70
Errores 18 50 10 80
Totales 39 80 29 150
Odds ratio · = 1.94
OR · = 2.17
OR
1 2
El valor del indicador de sesgo calculado es αMH = 2.05, que es la media de

las odds ratio de cada grupo. El valor del estadístico de contraste calculado
mediante la ecuación (14.4) resulta ser χ2 = 6.25. Este valor pertenece a la región
de rechazo de H0, ya que para un valor crítico α = 0.02 y un grado de libertad
es χ2 = 5.41. Por lo tanto, se debe aceptar la reclamación, pues si se repitiera
el proceso un número muy grande de veces las diferencias entre ambos géne-
ros serían significativas en más del 98% de los casos.
Cuadro 14.1
El concepto de odds ratio o razón de ventajas es un concepto central en las

medidas de asociación y es útil en la interpretación de coeficientes en regre-
sión logística. Limitándose al caso particular de una tabla de contingencia
2 × 2, se presentan las odds ratio en un modelo de regresión con sólo dos
variables X e Y, ambas dicotómicas.
La forma de la ecuación que representa un modelo de regresión lineal
( )
simple en el que se regresa la variable Y sobre la variable X es:
E Y X = β0 + β1 x
donde E (Y X) es la esperanza matemática, o media condicional de Y con

respecto a cada una de las modalidades de X, que a su vez es un valor de
( ) ()
probabilidad P(x), luego
0 ≤ E Y X =P x ≤1
siguiendo en este modelo P(x) la siguiente distribución de probabilidad:
()
P x =
eβ0 + β1 x
β0 + β1 x
=
(
1
− β0 + β1 x )
1+ e 1+ e
que es una distribución logística de parámetros β0 y β1, cuyo logit es:
( )
( )
g x = ln
1− P ( x )
= β0 + β1 x
P x
Para una variable dicotómica, los correspondientes logits son:
( )
logit p1 = ln
p1
1 − p1
= β0 + β1 x1
( )
logit p 2 = ln
p2
1 − p2
= β0 + β1 x 2
Luego:
( )
( )
p1 1 − p1
(1− p2 )
ln = β1 x1 − x 2
p2
¶ ) al cociente:
denominándose odds ratio (OR
( )
p1 1 − p1
p2 (1− p2 )
siendo
¶ = e β 1 ( x1 − x 2 )
OR
Ejemplo 14.3
En la Tabla 14.4 se dan las frecuencias observadas del número de aciertos

y de errores en un ítem en una muestra de mujeres y en otra de hombres. Se
desea corroborar que esta prueba está sesgada a favor de uno de los grupos.
Tabla 14.4. Aciertos y errores en dos grupos.
Variable Y
Variable X Totales
Acierto Error
Mujeres 30 10 40
Hombres 8 48 56
Totales 38 58 96
Las probabilidades estimadas de acertar o no en cada muestra son:
pˆ 1 = 30 / 40; 1− pˆ 1 = 10 / 40; pˆ 2 = 8 / 56; 1− pˆ 2 = 48 / 56

¶ ) toma el valor en este caso:
La odds ratio (OR
(
¶ = pˆ 1 1 − pˆ 2 = 18 )
(
pˆ 2 1 − pˆ 1 )
OR
lo que indica que la probabilidad de acertar el ítem en el grupo de mujeres es

18 veces superior a la del grupo de los hombres.
El procedimiento Mantel-Haenszel está entre los más utilizados por su faci-

lidad de cálculo e interpretación. Tiene la ventaja de que no sólo proporciona un
indicador de la cuantía del comportamiento diferencial del ítem (ecuación (14.1)),
sino que además proporciona el estadístico (ecuación (14.2) o (14.4)) mediante el
cual se puede contrastar si el valor obtenido es o no significativo para aceptar la
no existencia de DIF. Otra de las ventajas de este método es que se puede aplicar
con muestras pequeñas, mientras que la aplicación de otros métodos, como los
de la TRI, requiere un apreciable tamaño muestral.
m14.3. Estimación del DIF haciendo uso de las CCIm
En los modelos TRI, si un ítem que mide un cierto rasgo θ está calibrado, es de
esperar que ese ítem produzca las mismas mediciones para cualquier sujeto, con
independencia del grupo de población al que pertenezca. Por lo tanto, bajo esos
supuestos, los tests formados por ítems homogéneos para la medición de ese
rasgo, es de esperar que estén ausentes de sesgo. No obstante, como el sesgo
no es una cuestión teórica sino que en la práctica se pueden introducir sesgos
en cualquier fase de la construcción, de la administración o de la evaluación de
un test, es conveniente tener herramientas que ayuden a detectar la presencia
de esos sesgos. Sólo así se puede proceder a su análisis, a detectar sus posibles
fuentes y a tratar de eliminarlos o, al menos, saber que existen y valorar sus posi-
bles consecuencias.
En la TRI la presencia de sesgo se detecta comparando las CCI estimadas para
los diferentes grupos. Siguiendo la nomenclatura anterior, a esos grupos se les
puede llamar grupo focal y de referencia. En la Figura 14.3 se muestra la ausen-
cia de sesgo comparando dos grupos, aunque actúan de forma diferenciada en el
ítem.
En las Figuras 14.4 y 14.5 se muestran ítems sesgados. En la Figura 14.4 el
ítem que se representa está sesgado en todo el rango de θ a favor de uno de los
grupos (sesgo uniforme). En la Figura 14.5 el ítem representado también está ses-
gado, pero el signo del sesgo depende de si el valor de θ pertenece a los niveles
bajos o altos de la aptitud. Para dos sujetos con igual valor en el rasgo, si esos valo-
res son bajos, el sujeto del grupo A tiene más probabilidad de acertar el ítem que
el del grupo B. Sin embargo, para valores del rasgo superiores a 0.4, es el del gru-
po B el que tiene mayor probabilidad de acertar el ítem.
Figura 14.3. Ítem insesgado. Las curvas inferiores representan las distribuciones
de las puntuaciones de los grupos A y B.
Figura 14.4. Ítem con un DIF desfavorable al grupo A en todo el rango de θ.

Figura 14.5. DIF desfavorable al grupo A en los niveles altos de θ

y al grupo B en los bajos.
En la literatura TRI se han propuesto diversos métodos para evaluar el sesgo,

entre los cuales citaremos los siguientes:
a) El cálculo del área entre las CCI de ambos grupos, que si hay sesgo no serán
coincidentes.
b) Comparar las diferencias entre las probabilidades en ambos grupos.
c) Comparar los parámetros (en principio invariantes) de los ítems.
d) Comprobar el ajuste al modelo elegido y evaluar la bondad del ajuste con
ambos grupos.
e) Comparar los modelos mediante el test de razón de verosimilitudes.
Un procedimiento para comparar las CCI consiste en calcular el área com-

prendida entre las CCI correspondientes a cada grupo sobre el rango de varia-
ción de θ. La idea que sustenta el procedimiento es que si no existe sesgo, la CCI
para cualquier subgrupo de población tiene que ser la misma, o con diferencias
tan pequeñas que puedan ser atribuibles a las fluctuaciones por azar. El área com-
prendida entre ambas curvas puede obtenerse mediante la ecuación (14.5):
∫−∞
∞
Ds = PA ( θ) − PB ( θ) dθ (14.5)
Un valor aproximado de esa área puede obtenerse mediante la expresión (14.6)
Ds ≈ ∑ PA ( θk ) − PB ( θk ) ∆θ
n
(14.6)
k=1
que corresponde a la suma de las áreas de todos los rectángulos con base ∆θ y
altura |PA(θ) – PB(θ)| en el rango de θ que sea de interés, por ejemplo, entre –3
y +3 con ∆θ = 0.10 (para más detalle véase Santisteban, 1990a, pág. 364). Tanto
en la ecuación (14.5) como en la (14.6) las diferencias se toman en valor absolu-
to ya que, por una parte, no tendría sentido hablar de áreas negativas y por otra,
en los casos en los que el sesgo fuese no uniforme, las diferencias serían positi-
vas en un cierto rango de θ y negativas en el otro (como se puede observar, por
ejemplo en la Figura 14.5) dando un valor Ds inferior al real, o incluso nulo, fal-
seando así el verdadero valor de la diferencia existente entre las áreas de ambas
curvas y por lo tanto del DIF.
Es evidente que para utilizar este método hay que haber estimado previamente
los parámetros característicos del ítem y las variaciones de θ en uno y otro gru-
po, teniendo en cuenta que ambas CCI deben estar representadas sobre el mis-
mo continuo de la aptitud θ. Esto requiere que se trabaje con valores que estén
estandarizados, tanto para θ como para los coeficientes de dificultad, debiéndo-
se tener en cuenta las condiciones para la invarianza de θ con respecto a trans-
formaciones de la escala (Apartado 12.2).
Entre los problemas que plantea este método, y que no lo hacen muy acon-
sejable a pesar de su sencillez, es que considera la uniformidad en las áreas. Es
decir, que todas las áreas tienen el mismo peso, con independencia de dónde esté
situado el ∆θ correspondiente a cada uno de los rectángulos que contribuyen al
cálculo del área total. Otro aspecto que no se contempla y que tiene un gran efec-
to sobre el cálculo del área entre las curvas es si la probabilidad de aciertos por
azar (parámetro c) es diferente en uno u otro grupo. Además este método tam-
poco provee de algún criterio o prueba de significación que indique a partir de
qué valor esa área tiene un valor significativo para considerar que existe DIF.
Una de las formas de resolver estos problemas en los tests es hacer un análisis
individualizado de cada uno de los ítems del test y observar el comportamiento
de sus respectivas CCI en relación a la existencia de DIF. Otra de las propues-

tas (e.g., Camilli y Shepard, 1994) es calcular las diferencias en probabilidad entre
ambos grupos en determinados valores de θ. Para ello se considera uno de los
grupos como el grupo de referencia (generalmente al más amplio) y al otro el
grupo focal, con funciones de probabilidad P R (θ) y PF (θ), respectivamente.
El indicador del DIF viene dado por el valor medio de la diferencia entre las pro-
babilidades en ambos grupos, para aquellos valores θ en los que al menos haya
un sujeto del grupo focal que lo posea. Para nF sujetos del grupo focal, cada uno
con su respectivo valor θj, la expresión (14.7) es un indicador de esa diferencia,
cuyo signo también indicará el sentido del sesgo, si el sesgo es uniforme.
PR ( θj ) − PF ( θj )
Dp = ∑
nF
(14.7)
j=1 nF
En el caso en que el sesgo no sea uniforme, o no se conozca de antemano

si lo es o no, las diferencias del numerador de la expresión (14.7) se deben tomar
en valor absoluto, o bien elevarlas al cuadrado. En estos casos, el signo de esas
diferencias en los distintos intervalos de θ hay que observarlo representando
las CCI de ambos grupos, al menos en aquellos intervalos que contienen los
valores θj.
Algunos métodos fundamentados en la misma lógica son los que se basan en
las comparaciones entre los vectores de los parámetros de los ítems, o bien en la
bondad de las estimaciones de los parámetros de los ítems, o bien en la bondad de
ajuste de los modelos. La comparación entre los vectores de los parámetros en uno
y otro grupo la propuso Lord (1980) basándose en las propiedades de las estima-
ciones de máxima verosimilitud de los parámetros. Si los vectores de parámetros
en uno y otro grupo son vA = (a1, b1, c1 )' y vB = (a2, b2, c2 )' las estimaciones de
máxima verosimilitud de los parámetros siguen (asintóticamente) distribuciones
normales multivariantes, con media el valor del parámetro y varianza (matriz de
varianzas y covarianzas) igual a la inversa de la cantidad de información de Fisher
(Cuadro 12.3). Para la detección de DIF, se contrasta la hipótesis nula H0 frente a
la alternativa H1:
H0 : vA= vB
H1: vA ≠ vB
El estadístico mediante el que se realiza el contraste de las diferencias entre

ambos grupos, con matrices de información IA e IB, es la forma cuadrática
Q = (vA – vB )' (IA–1 + IB–1) –1 (vA –vB)
que sigue una distribución χ2 con tantos grados de libertad como el número de
parámetros (de los ítems) que se comparan. En el caso particular del modelo de
Rasch ese estadístico es:
Q = ( b A − bB ) ( )
−1
−1 −1
I A + IB
2
valor que se compara, a un nivel α de significación, con el de la distribución χ2

con un grado de libertad. Este método no es aplicable cuando se realiza la
estimación simultánea de la aptitud y de los parámetros de los ítems, o sea de
(θ, ai, bi y ci), puesto que el método implica la distribución asintótica de la for-
ma cuadrática que sirve como estadístico de contraste, y esta distribución asin-
tótica de los parámetros de los ítems sólo es válida para un θ dado.
Un procedimiento basado directamente en la estimación de la bondad del ajus-
te del modelo a los datos lo propusieron Wright et al. (1976) y Linn y Harnish
(1981), quienes lo juzgan muy conveniente especialmente cuando se trata con
modelos logísticos de tres parámetros. Sin embargo, el método basado en la com-
paración de modelos que parece más prometedor es el que se basa en la razón de
sus verosimilitudes (Thissen et al., 1993) utilizando las ventajas de estos procedi-
mientos para comparar los modelos, ya que es conocido el estadístico que sigue
el cociente de dos verosimilitudes. Si es RL esa razón entre las funciones de vero-
similitud de ambos modelos, el estadístico de contraste es – 2 ln RL, que sigue
una distribución χ2 con m – h grados de libertad, siendo m el número de grados
de libertad del numerador y h los del denominador.
Las pretensiones de este texto no van más allá de hacer notar que todos estos
procedimientos parten de una idea común: si no hay sesgos en la medición de un
cierto rasgo θ, las CCI y, en general, los modelos tienen que coincidir en los dife-
rentes subgrupos de la población. Sin embargo, a pesar de la sencillez de la pre-
misa, la detección de sesgos no es inmediata, no ya la parte sustantiva del sesgo,
que haría necesaria la detección de la fuente o las fuentes que lo producen y su
explicación, sino también en la parte más técnica de su detección y evaluación.
Una explicación más detallada de las bases de algunos de los procedimientos TRI
se puede encontrar en Santisteban (1990a), aunque entre los métodos más efica-
ces con los que actualmente se cuenta están los Mantel-Haenszel entre los no
paramétricos, y los basados en la razón de verosimilitudes entre los paramétricos.
En cualquier caso, como a la literatura se van incorporando nuevos desarrollos,
se requiere que los especialistas hagan una revisión actualizada en el momento en
el que se vaya a proceder, no sólo para elegir el método más adecuado de acuer-
do con sus objetivos y las características de sus datos, sino también en lo relacio-
nado con la parte sustantiva del sesgo, que ha quedado relegada en comparación
con la más técnica, como se indica en AERA, APA & NCME (1999).
Los análisis del DIF, como hemos ido mencionando para otras cuestiones
referentes a los modelos TRI, cuentan con software adecuado, al menos para los
modelos dicotómicos y algunos politómicos (BILOG, PARSCALE, etc.). Los
estudios del DIF en modelos con ítems politómicos se han planteado en la mayo-
ría de los casos como una extensión de los métodos utilizados en los modelos
dicotómicos y en la actualidad existen bastantes propuestas en la literatura espe-
cializada. Aunque su aparición es relativamente reciente y presentan algunos pro-
blemas específicos derivados del tipo de respuesta, se pueden encontrar buenos
resúmenes (e.g., Penfield y Lam, 2000) sobre diferentes técnicas de identificación
del DIF en estos modelos.
Puntos clave
3 El sesgo es cualquier desviación sistemática que distorsiona los resultados y

por lo tanto la validez de las conclusiones.
3 El uso masivo y la influencia de los tests en múltiples ámbitos científicos, indus-
triales, clínicos, etc. debe forzar a los psicómetras a que extremen las precau-
ciones para la no inclusión de sesgos en su construcción.
3 El uso de tests sesgados, además de invalidar las conclusiones que se derivan
de su aplicación, su falta de equidad puede tener consecuencias económicas,
sociales e individuales no deseadas.
3 En algunos ámbitos de la psicometría desde hace algunas décadas no se sue-
le utilizar el vocablo sesgo, habiéndolo sustituido por el de funcionamiento dife-
rencial del ítem (DIF, acrónimo de sus siglas en inglés). Ahora bien, el estudio del
sesgo va más allá de la mera comprobación de si el comportamiento del test es
diferente para diferentes grupos de población.
3 Bajo la denominación de estudios DIF se recoge una gran variedad de métodos

que se podrían agrupar en los derivados de las tablas de contingencia, los logís-
ticos (loglineales y regresión logística), los basados en la razón de verosimilitu-
des y los basados en las propiedades de las CCI y de los modelos TRI.
3 Para el estudio del DIF, el procedimiento Mantel-Haenszel es de los más utiliza-
dos por su facilidad de cálculo e interpretación y porque se puede aplicar a mues-
tras pequeñas, a diferencia de los métodos TRI que requieren tamaños grandes
de muestras.
3 Las comparaciones entre las curvas características de los ítems en diferentes
grupos pueden dar la medida del sesgo, así como información sobre si el ses-
go es o no uniforme.
3 El sesgo en modelos TRI se puede detectar contrastando estadísticamente si
son iguales o diferentes los parámetros de los ítems en uno y otro grupo (gene-
ralmente entre el de referencia y el focal), o comprobando la bondad del ajuste.
Un método muy adecuado para la comparación de modelos con el fin de detec-
tar sesgos se basa en el contraste basado en el cociente de las verosimilitudes
(la razón de verosimilitud) entre dos modelos.
3 Conocer muchos métodos para detectar el funcionamiento diferencial de los
ítems y de los tests no es suficiente, pues hay que entrar en la parte sustantiva,
en el análisis del sesgo. Hay que tener en cuenta que los problemas de sesgo
son problemas de validez, que afectan tanto a las mediciones como a las con-
clusiones que se deriven del uso de los tests.
Actividades
r Plantee una situación en la que intervengan un grupo de referencia (con-

trol) y uno focal (de casos) en dos grupos de población. Disponga los datos
de forma similar a los que se presentan en la Tabla 14.2 y calcule el esta-
dístico Mantel-Haenszel y su significación estadística.
r Discuta el significado de las curvas de la Figura 14.3 explicitando por qué
el ítem no está sesgado a favor de ninguno de los dos grupos y cuáles son
las diferencias en las probabilidades de acierto en uno y otro grupo.
r Compare la Figura 14.4 con la 14.5 y discuta en dónde radican sus dife-
rencias.
r En dos grupos de población con diferente etnia se observan diferencias en
sus probabilidades de acertar un ítem cuando los valores del rasgo están
entre θ = 0 y θ = 1.6. La diferencia máxima es de 0.20 y se da en el punto
θ = 0.80 disminuyendo aproximadamente en 0.05 al disminuir o aumentar

los niveles de θ en 0.20. ¿Se puede decir que el ítem está sesgado? ¿Hay
diferentes maneras de calcular el DIF? Si es así, calcule y compare esos
valores discutiendo su significado.
r Basándose en la literatura, haga una revisión sobre los métodos estadísti-
cos de detección del DIF y de los métodos sustantivos.
r Discuta las diferencias entre DIF, equidad y sesgos y saque conclusiones
de la revisión que ha hecho como actividad en el punto anterior.
r Discuta por escrito y si es posible en un foro, las conexiones entre validez
y sesgo y las consecuencias que puede conllevar el uso de tests sesgados.
Medición y psicometría
Medición, escalas e interpretación
de las puntuaciones 15
La psicometría trata de las teorías, modelos, métodos, procedimientos y
herramientas que se utilizan en la medición psicológica. La medición no
es simplemente asignar números a las propiedades de los objetos. Las
magnitudes deben permitir operar matemáticamente con ellas, conser-
vando su sentido y sus propiedades, ser resistentes a la manipulación
experimental, y que sea posible que se establezcan comparaciones y hacer
predicciones.
ã La conexión entre el concepto de lo métrico con la operación de

medir.
ã Las diferencias, si las hay, entre las denominadas medición directa
e indirecta.
ã La teoría de la medición como parte de los contenidos de la psico-
metría.
ã Las propiedades que deben poseer las representaciones numéricas
a las que se llama magnitudes.
ã Los tres problemas que clásicamente se han considerado en la medi-
ción: representación, unicidad y significación.
ã Tipos de escalas y normas.
ã Operaciones y transformaciones admisibles.
ã Algunos de los requisitos exigibles a las medidas psicométricas y a
las escalas para que, tanto las medidas como las escalas, posean la
validez necesaria.
m15.1. Psicología, psicometría y mediciónm
La teoría de la medida abarca casi todos los campos, desde el filosófico hasta el
matemático, dando explicación a multitud de aspectos de la vida diaria. En psi-
cología se ha ido generando todo un cuerpo de conocimientos, generalmente en
el seno de la psicometría y muy especialmente en el de la psicología matemática,
desarrollándose en esos contextos la denominada teoría de la medición psicoló-
gica, que no es un tema fácil si se quiere abordar en profundidad. En este texto
no se intenta hacer una disertación sobre la teoría de la medición, que en el de-
sarrollo de sus fundamentos lógicos y su axiomatización tiene un referente claro
en Hölder (1901). Sin embargo, se introducen las nociones y conceptos que pue-
den ayudar a entender el significado de los tests e interpretar la información que
proporcionan las medidas que con ellos se obtienen.
La cotidianidad en el uso de los instrumentos para la medición de los atribu-
tos físicos, al compararlos con los psicológicos, hace que surjan dudas de si estos
últimos son medibles y si hay instrumentos adecuados para hacerlo, ya que la
mayoría no son directamente medibles. Sin embargo, los tests son instrumentos
de medida que, al igual que los que se utilizan en el mundo físico, dan cuenta de
manifestaciones observables. En general, en el ámbito de lo físico y de lo psico-
lógico la primera cuestión es si el atributo pertenece a los que se han dado en lla-
mar cualitativos o a los cuantitativos. Los conceptos cualitativos son aquellos que son
comparativos o simplemente clasificatorios. Los conceptos cuantitativos son los
mensurables y/o métricos. La inclusión o clasificación de conceptos concretos en
una u otra clase es casi siempre un problema epistemológico, si bien es evidente
que en la naturaleza o en la realidad que se esté estudiando, existen propiedades
que indican que el fenómeno que se estudia haya que considerarlo esencialmen-
te cualitativo, o bien, esencialmente cuantitativo. En cualquier caso, esa clasifica-
ción depende tanto de la naturaleza del fenómeno, como de la atribución de cua-
litativo o cuantitativo que le hace quien lo estudia, basándose en la estructura
conceptual desde la que aborda ese estudio e incluso de las necesidades o exi-
gencias del experimentador. Al no ser ningún fenómeno estrictamente cualitati-
vo o cuantitativo, per se, es responsabilidad de quien lo estudia el incluirlo en una
u otra clase (Santisteban, 2003). Las llamadas ciencias físicas no tienen dificultad
en considerarse cuantitativas y el concepto de medición en ellas es tan funda-
mental y está tan arraigado, que es difícil imaginar que pensaran prescindir de él.
La psicología y las ciencias sociales se han ido incorporando a las ciencias cuan-
Capítulo 15. Medición y psicometría 403
titativas y en la práctica, lo cuantitativo y/o lo medible se ha utilizado al menos

en dos vertientes diferentes. Por un lado se ha considerado en el mismo sentido
que las medidas físicas, cuando se trata de magnitudes como, por ejemplo, tiem-
pos de respuesta. Por otro lado, se han desarrollado los tests con procedimientos
propios y peculiares que llevan al establecimiento de ciertos índices y a escalas de
medida, que no se pueden interpretar fuera de su contexto conceptual, como el
cociente de inteligencia (CI), las escalas de aptitud o las de actitudes, etc.
La psicometría no está exenta de los problemas estructurales que conlleva la
medición. De hecho, en los textos de psicometría es donde se han venido tratando
estos problemas, al menos los tres más clásicos: (1) el de la representación, que surge
ante la hipotética pregunta de si se pueden medir todos los atributos; (2) el de la uni-
cidad, que tiene que responder a cómo se caracterizan las relaciones entre las escalas
numéricas y de cuánta libertad se dispone para la construcción de una escala que no
dé lugar a confusiones; y (3) el del significado, esto es, el de la interpretación correcta
de las escalas. Más adelante se tratan formalmente las escalas y cómo se construyen,
aunque nadie desconoce qué es una escala, pues ha recibido la calificación en un
examen, o le han evaluado su capacidad para recordar y ha sabido si sus niveles eran
medios, altos o bajos. En cuanto al significado, también es intuitivamente un con-
cepto sencillo, pues se refiere a si las puntuaciones realmente reflejan aquello que se
mide y que, aunque se transformen a otra escala (por ejemplo sumándoles a todas
un valor), no pierdan ese significado.
Cuadro 15.1
Hay autores que cifran la eclosión de la teoría de la medición, entendida

como disciplina en psicología, en la primera mitad del siglo XX, pues la revis-
ta Psychometrika se funda en 1935, y muy poco después el Educational and
Psychological Measurement (1941) y el British Journal of Statistical Psycho-
logy (1947). Por lo tanto, cuando se invoca la teoría de la medición, hay que
tener presente la psicometría y su contribución, sin que por ello se deba con-
siderar que todo el cuerpo teórico que conlleva e implica la teoría de la medi-
ción esté necesariamente contenido en ella. La psicometría, en su acepción
general de medición de las variables psicológicas, abarca un campo muy
amplio de estudio aunque en algunos ámbitos se hace un uso reduccionis-
ta del término, asimilándola al estudio de la teoría de los tests psicológicos.
En este aspecto, se puede decir que la teoría de los tests es la parte más
visible del gran iceberg que es la psicometría: medición, teorías, métodos,

técnicas y modelos.
La mayor parte de los modelos matemáticos que se desarrollan en psico-
logía con anterioridad y a mediados del siglo XX tratan de hacer ciencia toman-
do sus bases cuantitativas en los números reales, ya que la introducción del
lenguaje cuantitativo que está relacionado con la medición es lo que común-
mente se considera como garantía, e incluso como piedra angular en el esta-
blecimiento del método científico. Como ya se ha expuesto en el Capítulo 1,
las publicaciones de los psicólogos de esa época incluyen mediciones y pro-
lifera el establecimiento de escalas psicológicas. Esto ocurre muy especial-
mente en psicometría y en psicofísica, donde lo que se tiene en la mente es
una escala real-valuada como las que se usan en física para las medidas de
ciertos atributos, y que han sido tan fructíferas en el desarrollo científico. Este
intento, sin embargo, llevó en algunos campos de la psicología a conclusio-
nes erróneas y a confusiones teóricas. Todo ello impulsó que se exploraran
otros dominios numéricos que dieran cuenta, de mejor manera, de las nece-
sidades y características especiales que pudiera tener la medición en psico-
logía, y para el establecimiento de teorías psicológicas, formalmente estable-
cidas, formuladas en términos matemáticos, pero no necesariamente en
términos cuantitativos en un sentido tan restrictivo. Entonces es cuando comien-
zan a proliferar los estudios con una concepción más amplia del mundo de lo
numérico en que se contemplan los números reales desde una perspectiva
más general, y desde un punto de vista más abstracto, que la simple repre-
sentación numérica de una medida o de un valor de escala. Es entonces cuan-
do en psicología se da el paso adelante en cuanto a que la distinción estricta
entre lo cualitativo y lo cuantitativo pasa a ser un viejo principio filosófico, pues
ahora en su ámbito de estudio el concepto de cantidad se ve a la luz de otras
premisas y desde otras perspectivas donde lo cuantitativo, o el concepto de
cantidad, se puede recalificar desde el punto de vista de la teoría de la medi-
ción psicológica. Volviendo la mirada atrás se puede considerar que el para-
digma de medición que publican Scott y Suppes en 1958, explicando el para-
digma representacional de Von Helmholtz (1887/1977) de una forma general,
precisa y estructurada, es un pilar básico de la actual concepción de la teoría
matemática de la medición en psicología.
m15.2. Métrica y espacios métricosm
La conexión entre el concepto de lo métrico y la operación de medir ha inducido a

que en muchas ocasiones se haya afirmado, y así aparece en muchos textos, que
medir es asignar números a las cosas, o bien, que medir es asignar números a las propiedades
de los objetos. Estas definiciones son incorrectas por imprecisas, pues la simple asig-
nación de números no garantiza: que esos números representen las propiedades
específicas de los elementos que se quieren expresar, es decir sus magnitudes; que
sea su representación inequívoca; que permitan la manipulación experimental, así
como la comparación con otras mediciones o magnitudes. Esto es, las represen-
taciones numéricas de las propiedades de los objetos o elementos, a lo que se lla-
ma magnitudes, deben ser resistentes a la manipulación experimental y ser sus-
ceptibles de operar matemáticamente con ellas, conservando tras esas operaciones
su sentido y propiedades, permitiendo además que se pueda hacer con ellas com-
paraciones y predicciones. Por lo tanto, para resolver el problema de la unicidad
es necesario que existan transformaciones admisibles para la transformación de
las puntuaciones. El conjunto de todas las transformaciones admisibles en el sis-
tema numérico indica si se tiene o no unicidad de la medida y determina el tipo
de escala.
Ahora bien, para que se mantengan las propiedades y las comparaciones, se
tienen que mantener las distancias entre las puntuaciones que las representan.
Esto conlleva haber definido con anterioridad el espacio métrico, pues un espacio
métrico es un conjunto de elementos entre los que se ha definido una distancia
(o sea, una métrica) y que esta métrica permita hacer operaciones con los ele-
mentos, operaciones que tendrán en cada caso unas determinadas propiedades.
Por lo tanto, la medición aparece como consecuencia lógica de la metrización de
los espacios y habrá distintos tipos de espacios métricos dependiendo de las pro-
piedades que cada espacio posea. La definición de la distancia, sus propiedades y
las operaciones que se puedan realizar con esa distancia es lo que determina la
estructura de ese espacio métrico.
m15.3. Medición, estructuras, representación y escalasm
La medición, como se ha dicho, aparece como consecuencia lógica de la metri-

zación de los espacios. Por lo tanto, presupone que se puedan establecer condi-
ciones de mensurabilidad. La medición se ha establecido, bien porque se quiere
llegar a cuantificar y relacionar de algún modo las características más simples de
los objetos (peso, longitud, color, …), bien para hacer universalmente comparables
esas características de los objetos, o bien para contrastar teorías y establecer leyes,
generando conocimiento científico, lo que en filosofía de la ciencia se ha llama-

do ciencia normal, frente a otras formas de hacer ciencia (Kuhn, 1961, 1962; San-
tisteban, 2003). A través de la medición, del cálculo de errores, de la estimación
de magnitudes, etc., se ha podido determinar en muchas ocasiones que una teo-
ría establecida es falsa, como sucedió por ejemplo en astronomía, donde hubo
que desterrar la teoría geocéntrica mantenida durante más de dos milenios para
sustituirla por la heliocéntrica.
La medición, como proceso experimental y de utilidad, va unida al desarrollo
de la humanidad y no se le puede poner fecha de inicio. Sin embargo, sus funda-
mentos lógicos y su axiomatización tienen un referente claro en Hölder, 1901
(una traducción al idioma inglés se puede encontrar en Michell y Ernst, 1996). A
raíz de esa fecha son muchos los trabajos que se han ocupado del análisis lógico
del proceso de medición, de la justificación de los diversos procedimientos y del
significado y relevancia de sus resultados. Los problemas estructurales que la teo-
ría de la medición conlleva, al menos teóricamente, son varios. Clásicamente se
han considerado estos tres: (1) el de la representación, (2) el de la unicidad y (3)
el de la significación.
El problema de la representación
Este problema surge ante la hipotética pregunta de si se pueden medir todos los
atributos. Es decir, si las relaciones que se observan en el sistema empírico (en el
mundo real) se pueden describir mediante sistemas formales (el sistema numéri-
co). De forma general, se puede decir que el problema de la representación con-
siste en representar un sistema de relaciones empíricas por un sistema relacional
formal (el modelo), y si el modelo es numérico, la representación se llama medición.
Si en el sistema empírico A se establecen las relaciones R y en el sistema numé-
rico B las relaciones S, se dice que el sistema empírico está representado por el numé-
rico, si existe una función f de A en B (cada elemento a de A tiene una imagen úni-
ca f (a) en B) tal que para cualesquiera elementos a, b en A, se dé la siguiente relación:
a R b ⇒ f(a) S f(b)
O sea, que si el sistema empírico está representado por el numérico, existe una
correspondencia f que aplica A en B, de modo que la relación R que se da entre
elementos de A (sean a, b), implica que en B se dé la relación S entre f(a) y f(b),

que son las imágenes de a y de b respectivamente. Si la representación se da en
ambos sentidos, entonces se dice que existe isomorfismo, o que los dos sistemas
son isomorfos. Si en el sistema empírico se establecen un conjunto de preferencias,
y ese conjunto de preferencias se puede representar en el sistema formal, enton-
ces se podrá construir una escala. La relación empírica preferido a ( f ) conllevaría
una representación numérica mayor que (>). Esto implica que la transitividad en la
relación empírica es condición necesaria para poder representarla en el sistema
numérico, concretamente por la relación mayor que en el sistema de los números
reales. Si es a f b f c, entonces f(a) > f(b) > f(c). Si por el contrario, fuese a ≺
b ≺ c entonces f(a) < f(b) < f(c).
Uno de los principales objetivos de la teoría de la medición es investigar las con-
diciones bajo las cuales se pueden construir diversas representaciones numéricas.
Un compendio de esos resultados lo da el llamado teorema de la representación.
El problema de la unicidad
El teorema de la representación resuelve el problema de construcción de escalas,

pero de él no se deriva que haya una única escala, pues los valores de la escala no están
determinados por el modelo de medida. Entonces, habrá que preguntarse ¿cómo se carac-
terizan las relaciones entre las diversas escalas numéricas de un teorema de repre-
sentación? ¿De cuánta libertad se dispone para la construcción de una escala que
no dé lugar a confusiones?
En primer lugar, se establecen las relaciones entre los elementos. Si esa rela-
ción es simplemente una relación de preferencia (que se traduce en una relación
mayor, o igual a, en una escala numérica) se tiene una escala ordinal y se dice que la
escala es única salvo una transformación que preserve el orden. Cualquier trans-
formación de la escala que preserve ese orden produce otra escala admisible. Así,
dos escalas admisibles cualesquiera están relacionadas por una transformación
que conserva el orden, esto es, por una transformación monótona. Si además de
establecerse un orden de preferencias estricto se pueden ordenar las diferencias
de manera que haya la misma distancia entre elementos consecutivos, se tiene una
escala de intervalo. En esta escala, para que una transformación sea admisible, no sólo
debe conservar el orden de los valores (en correspondencia con el de las prefe-
rencias), sino también las diferencias y el orden de las diferencias entre esos valo-
res. La única transformación que conserva la ordenación de los intervalos es una

transformación lineal. Bajo estas condiciones, una vez seleccionados dos valores
de la escala, el resto de los valores están unívocamente determinados.
Por lo tanto, la definición formal de transformación admisible es necesaria
para establecer el problema de la unicidad. Para los dos sistemas relacionales
anteriormente definidos, el empírico y el numérico, para cualquier objeto a ∈ A
existe un único valor de escala f (a) en B, donde las relaciones en la escala refle-
jan las relaciones entre los objetos. Una transformación de la escala en B se dice
admisible si el sistema numérico que se genera en B, al sustituir los valores de la
escala original por los de la escala transformada, representa también al sistema
empírico.
El problema del significado
El problema surge cuando se quieren interpretar correctamente las escalas. Esto

es, cuando se desea describir el significado de los números que representan las
características de una determinada población, o bien cuando se trata de hacer infe-
rencias basadas en los valores de esa escala. El problema es especialmente grave
cuando se trata de justificar una asignación de números a objetos, o a las propie-
dades de los objetos, que no se derive de un teorema de representación estable-
cido, y el problema es especialmente difícil cuando los enunciados que incluyen
valores numéricos no están soportados por un modelo explícito de medición,
como es el caso de algunos atributos psicológicos.
En la literatura se ha discutido mucho este problema y en términos no fácil-
mente comprensibles para cualquier lector. Por ejemplo, según Suppes y Zinnes
(1963), un enunciado que incluye valores numéricos es formalmente significati-
vo solamente si su verdad o falsedad permanece invariante bajo todas las trans-
formaciones de los valores de la escala. Es decir, hacen que la significación depen-
da de los modelos de medición que se utilizan para obtener los valores numéricos.
Éste es un problema difícil y que consideramos que está poco desarrollado en la
investigación psicológica. Nuestro punto de vista es que el problema de la signi-
ficación se resuelve, por un lado, construyendo escalas cuya interpretación inicial
sea extremadamente clara y que las inferencias basadas en los valores de esa esca-
la sean invariantes respecto a las transformaciones admisibles de la escala. Por
otro lado, y en cualquier caso, la significación de los resultados depende de la vali-
dez de los supuestos subyacentes, aun cuando los números que se hayan asigna-
do a los objetos o a sus propiedades no estén soportados por un modelo de medi-
ción bien definido.
m15.4. Medición directa e indirectam
La medición de los atributos psicológicos se clasifica en la que se ha llamado medi-

ción indirecta, para contraponerla a lo que se llama medición directa, si bien
muchas veces esta distinción no está realmente bien justificada. Se llama medición
directa a aquella que no depende de la medida de ninguna otra cantidad. El para-
digma ya clásico de medición directa es la medida de la longitud. Sin embargo, la
medición de otras magnitudes tales como la temperatura, la densidad o la veloci-
dad requiere que exista la posibilidad de medir otras magnitudes para que se logre
la de la que está en cuestión. Estas mediciones no sólo deben cumplir algunos
axiomas exigibles a la medida directa como es la transitividad, sino que además
conllevan la necesidad de que se definan ciertas leyes empíricas. Por ejemplo, la
medida de la temperatura mediante un termómetro implica una medida directa
de longitud, que es la altura que alcanza la columna de mercurio, pero también
requiere que se cumplan muchas otras condiciones, como por ejemplo, que el
coeficiente de dilatación del mercurio sea mucho mayor que el del vidrio, que
ambos coeficientes prácticamente no varíen dentro del intervalo de temperatura
medida, que el capilar por el que asciende el mercurio sea de un diámetro uni-
forme, que el descenso capilar sea despreciable, etc.
La opinión de que hay ambigüedad en que una cantidad se pueda medir o
no directamente no carece de sentido, pues aunque pudiera medirse directa-
mente, muchas veces se prefiere hacerlo de forma indirecta porque la medición
suele ser más fácil e incluso mucho más precisa. Por ejemplo, es posible que
un grupo de expertos lleguen a un consenso en cuanto a que cierta persona es
más inteligente o más brillante que otra, incluso se puede establecer la asime-
tría y la transitividad. Esto es, si la persona a es más brillante que la persona b,
entonces, la b lo es menos que la a, y si la persona a es más brillante que la per-
sona b y ésta lo es más que la c, entonces la persona a es más brillante que la c.
No obstante, hacer uso en la práctica de este juicio directo sería extremada-
mente arriesgado y, de hecho, no son éstas las mediciones de la inteligencia de
las que se hace uso. La medida de la inteligencia más común es la del CI, que
es una medida indirecta, pues para cada persona se obtiene como cociente entre
la edad mental y la cronológica. Este cociente, aun bajo su aparente simplici-
dad, es una medida doblemente indirecta, pues la medición de la edad mental
se obtiene tras la aplicación de tests, como ocurre con muchas otras medidas
psicométricas, que son mediciones inferidas de las puntuaciones en tests, asu-
miendo que todas esas medidas tienen todas las debidas garantías de precisión
y de validez.
Campbell (1957) dice que aunque las unidades de algunas magnitudes fuese
relativamente fácil medirlas directamente, es preferible definirlas en términos de
medición indirecta. Creemos que el problema no radica en que la medición sea
directa o indirecta, sino que lo fundamental es, por un lado, asegurarse en qué gra-
do la medida indirecta mide aquello que se quiere medir, es decir, el problema de
la validez de la medición y, por otro, cuál es la precisión de esas medidas.
Cuadro 15.2
En la literatura psicológica hay multitud de trabajos que tratan de distinguir

qué clase de información conllevan y representan las magnitudes. Por ello,
se han propuesto distintas clasificaciones para designar los diferentes tipos
de mediciones, según el procedimiento mediante el que se han llevado a
cabo. Cuando para inferir números o leyes que representen unas propieda-
des hay que hacer uso de otras propiedades, a esa medida Campbell la ha
llamado medida o medición derivada. Es el caso de la medida de la densi-
dad, que se obtiene mediante la razón de la medida de la masa y la del volu-
men. Cuando los números se pueden asignar de acuerdo con las leyes natu-
rales que representan propiedades de los objetos, sin necesidad de que ello
presuponga la medición de ningunas otras variables, autores como Camp-
bell (1957) y Kranz et al. (1971), en el ámbito de la literatura en psicología, lo
designan con el término de medición o medida fundamental. Se puede con-
siderar y definir la medida fundamental como la construcción de escalas,
estableciendo una relación isomórfica entre un sistema relacional empírico
y un sistema relacional numérico, si bien, en el sentido en que también usan
el término Hempel (1952) y Suppes y Zinnes (1963), la medición derivada,
genera una nueva escala a partir de otras escalas dadas. Autores como Pfan-
zagl (1968) expresan sus dudas acerca de si es razonable considerar la medi-
ción derivada propiamente como medición, sugiriendo que el objetivo de la
ciencia debe ser construir escalas fundamentales para las propiedades de
los objetos, con formulación de leyes empíricas y significados independien-
tes, en lugar de tratar de satisfacer las propiedades de las escalas derivadas.

Michell (1986, 1990) distingue entre teorías representacional, operacional y
clásica, señalando que en la teoría operacional no se requiere la existencia
de un sistema empírico y que la teoría clásica coincide con la representacio-
nal en cuanto a la existencia de una realidad objetiva, pero sólo considera
medibles los atributos cuantitativos.
En la teoría de la medición, una asignación consistente de los números
reales a los elementos de una estructura empírica se suele decir que es una
escala para dicha estructura. Con la aparición de la obra de Luce y Tukey en
1964, se acuña un nuevo término en la literatura psicológica, es el concep-
to de medición conjunta. Se llama medición conjunta a la forma de identifi-
car la estructura aditiva de los atributos de forma indirecta, a través del esta-
blecimiento de relaciones de dos atributos con un tercero. Si lo ilustramos
con un ejemplo traído de la física, se llamaría medición conjunta a la forma
en que se establecen las diferencias en densidad, observando las diferen-
cias en volumen manteniendo la masa constante, revelándose así la estruc-
tura aditiva oculta en el atributo densidad.
m15.5. Tipos de escalasm
Muchas de las estructuras empíricas que observamos en el mundo real presentan

un cierto orden natural y las escalas suelen reflejar ese orden, por lo que se las
denomina escalas ordenadas. Se han considerado diferentes tipos de escalas orde-
nadas, dependiendo de la estructura que se mida y de cómo se hace la medición
de esa estructura. Las escalas más comunes, enumeradas desde la más débil a la
más fuerte, en relación con las exigencias en las propiedades exigibles en la medi-
ción, son las conocidas como:
1) escalas ordinales
2) escalas de intervalo
3) escalas de razón
Entre las distintas clasificaciones que se han presentado en la literatura, muchas

de ellas son muy conocidas y ya clásicas como la de Stevens (1951), que distingue
entre escala nominal, ordinal, de intervalo y de razón. Es decir, añade a las dadas aquí
la denominada escala nominal, que no se ha incluido en la clasificación anterior por-

que no es propiamente una escala. Las escalas nominales se construyen, o bien deno-
minando o nominando los diferentes objetos, o bien asignándoles un número para
distinguirlos, o bien haciéndolo con las clases de objetos, agrupados según unas deter-
minadas características. En este último caso, los numerales servirán para identificar
las clases. Pero en el concepto de medición, como entendemos y usamos este tér-
mino, no ha lugar para las escalas nominales, pues los números que se asignan deben
referirse al grado o a la cantidad relativa en que un objeto posee una cierta propie-
dad, pero no que ese número sea la propiedad del objeto en sí misma.
El punto de vista de Campell (1928) es que las escalas aparecen ligadas a la
medida, pues dice que la concepción de una magnitud es inseparable del orden de
las características que posee. Autores como Torgerson (1958), además de que con-
sideran que ese orden debe existir y estar definido, indican que la escala puede
poseer un origen y las características de una distancia, por lo que proponen que se
distingan las escalas unidimensionales como se muestra en la Tabla 15.1.
Tabla 15.1. Clasificación de Torgerson para las escalas.
Origen no natural Origen natural
No distancia Escala ordinal Escala ordinal con origen natural

Distancia Escala de intervalo Escala de razón
Una clasificación más compleja es la que propone Coombs (Coombs, 1952;

Coombs et al., 1954), que añade a las de Stevens una quinta escala a la que deno-
mina escala parcialmente ordenada. Bajo la concepción de Coombs, se debe pensar
en las escalas considerando primero los objetos en sí mismos y después las dis-
tancias entre los objetos. Los objetos se pueden clasificar ordenándolos, o bien
parcialmente, o bien totalmente y las distancias entre los objetos también pueden
producir clasificaciones totales o parciales. Esto ha dado lugar a que lleguen a dis-
tinguirse entre once clases de escalas diferentes. Cada una de estas escalas se nom-
bra con dos términos, el primero hace referencia al tipo de objeto y el segundo al
orden o a la distancia, por ejemplo, escala nominal parcialmente ordenada. Nue-
ve de las once escalas de Coombs pertenecen a la jerarquía de las escalas de inter-
valo de Stevens.
Escalas ordinales
Escalas ordinales son las que tratan con estructuras en las que, o bien sólo se
conoce el orden de los elementos, o bien sólo el orden de los elementos es rele-
vante. Un conjunto A de elementos estará débilmente ordenado si entre esos ele-
mentos se establece la relación de preferencia o de indiferencia, que es una rela-
ción binaria y transitiva sobre A. Para dos elementos diferentes a y b de A, o el
elemento a se prefiere a b, o bien el b se prefiere a a. Si esas relaciones entre los
objetos se conservan en los números reales que los representan, entonces la rela-
ción a se prefiere a b (b ≺ a) se transforma en b < a y si a es indiferente a b (a ~ b), enton-
ces es en el sistema numérico a = b.
Si es R el conjunto de los números reales, una función f : (A, ≺ ) → (R, ≤) es
una escala ordinal y A es escalable. Esas funciones f que preservan el orden son
monótonas.
Al ser las escalas ordinales muy débiles, son las que menos se han desarrolla-
do en la teoría matemática, en comparación con las escalas de intervalo y las de
razón. Sin embargo, en psicología se les ha prestado atención y ha sido Droste
(1987) uno de los autores que más se ha ocupado del papel que juegan estas esca-
las en el contexto de la teoría de la medición.
Escalas de intervalo y de razón
Los tipos más importantes de escalas son las de intervalo y las de razón. Son esca-
las únicas sobre un grupo de transformaciones lineales unidimensionales. Esto
es, si se considera el grupo de transformaciones lineales (positivas) de los núme-
ros reales en los números reales (de R en R), y si es x un elemento genérico del
sistema empírico, cuya imagen en el sistema numérico es f(x), se tiene una escala
de intervalo o de razón cuando el conjunto de todas las transformaciones admi-
sibles f son de tal forma que:
f (x) = a x + b, con a ∈ R+, b ∈ R
La exigencia de que sea a > 0 lo que implica es que la escala tiene una relación
de orden empírica, que viene representada por el orden existente en R. Si fuese
a < 0, entonces no se preserva el orden.
En el caso en que sea b ≠ 0 (b ∈ R), se dice que la escala es una escala de inter-
valo, y si b = 0 entonces es una escala de razón.
Las escalas de intervalo y de razón implican la igualdad de intervalos. Esta
igualdad se da si diferencias equivalentes entre las magnitudes representan la mis-
ma cantidad de diferencia en la propiedad que se mide. Adicionalmente, las esca-
las de razón, admiten que la medida tenga cero absoluto.
El tipo de escala viene definido por el tipo de transformación admisible, esto
es, por el tipo de transformaciones que mantienen su correcta representación. La
escala de medida que se use predetermina el modelo de escalamiento. El tipo de
transformaciones admisibles de los valores de la escala que preservan la precisión
en las predicciones de ese modelo define el nivel de medida que se obtiene median-
te la escala.
Cuadro 15.3
El escalamiento se puede hacer de estímulos, de sujetos o de respuestas y,

a su vez, cada uno de estos escalamientos se puede hacer atendiendo a un
solo atributo, o a más de uno, en cuyo caso se los denomina respectivamente
escalamiento unidimensional o multidimensional. Los métodos de escala-
miento centrados en los estímulos se han desarrollado fundamentalmente en
el contexto de la psicofísica. Los métodos de escalamiento centrado en los
sujetos utilizan preferentemente la teoría de los tests para la medida de los
atributos y generalmente se busca el establecimiento de las diferencias indi-
viduales mediante la aplicación de algún modelo psicométrico para inferir el
nivel del rasgo que posee el sujeto. En la medición de las actitudes, se sue-
len escalar los sujetos utilizando también otras técnicas como la de diferen-
cial semántico. Los métodos de escalamiento centrados en la respuesta dis-
tinguen entre respuesta categórica y respuesta comparativa. Para respuestas
categóricas el método más conocido es el escalograma de Guttman, y para
los métodos de respuesta comparativa el modelo de Coombs. Escalamien-
tos clásicos como los de Guttman, así como otros centrados en el sujeto se
están viendo sustituidos por los que se están generando con modelos TRI no
paramétricos. Un ejemplo clásico de escalamiento en psicometría es el mode-
lo de Thurstone (1925). Son realmente brillantes sus artículos sobre la unidad
de medida y el cero de la escala (Thurstone, 1925, 1927, 1928). Un estudio
detallado sobre la construcción de escalas de intervalo basadas sobre ope-
raciones métricas, así como las basadas sobre distancias se puede encon-
trar en los capítulos 6 y 9 de la obra de Pfanzagl (1968).
Transformaciones admisibles
Independientemente de la clasificación que se adopte para las escalas, una cues-

tión fundamental es que las transformaciones algebraicas no alteren aquello que
se representa. Esto es, se requiere la invarianza de las características de los obje-
tos que la escala representa cuando se realicen transformaciones algebraicas. Por
ello, hay que tener en cuenta cuáles son las transformaciones admisibles para cada
tipo de escala. Considerando cómo se han definido las diferentes escalas y sus
propiedades, es fácil deducir que las transformaciones admisibles para cada una
de ellas son:
a) Escala ordinal: transformaciones monótonas

b) Escala de intervalo: transformaciones lineales de la forma g (x) = a f(x) + b
c) Escalas de razón: transformaciones de la forma g (x) = a f(x)
Un ejemplo sencillo de estas transformaciones se tiene si se pone en relación

la longitud de una circunferencia con su diámetro. Si se considera una escala ordi-
nal, esta relación es monótona, siendo la longitud una función monótona del diá-
metro, pues considerando entre ellos sólo una relación ordinal, cuando el diáme-
tro crece también lo hace su longitud. Ahora bien, la relación se puede considerar
una escala de razón, pues se mantiene la proporcionalidad entre las magnitudes
con cambios cualesquiera de la longitud y del diámetro, siendo el número π la
constante de proporcionalidad.
Si la transformación admisible para una escala es el producto por una cons-
tante, la representación será una escala proporcional. Si las transformaciones admi-
sibles son las lineales del tipo g(x) = a f(x) + b, la representación es una escala de
intervalos, y si la transformación lineal es del tipo g (x) = f(x) + b, se tendrá una
escala de intervalos absolutos, en el sentido de que permanece constante la diferencia
entre los valores. Si las transformaciones admisibles son del tipo g(x) = a [f(x)]n,
entonces se generarán escalas de intervalos logarítmicos, ya que la relación entre ellas
es lineal, pues log g(x) = log a + n log f(x). Para transformaciones g (x) = [f(x)]n,
se generarán escalas de proporciones logarítmicas, caracterizadas por permanecer cons-
tante el cociente de los logaritmos de los valores, pues es n = [ log g(x) / log f(x)].
Algunas transformaciones admisibles de la variable aptitud se han presentado,
por ejemplo, en los Apartados 12.2 y 12.3.
Cuadro 15.3
Interés en la medición y controversias

Existe y ha existido cierta controversia, muy marcada en algunas épocas, no
solamente en relación con la naturaleza de la medición, sino también con el
interés e intensidad con el que la comunidad científica aborda el tema y la cone-
xión de la realidad de los que en la práctica necesitan la medición para hacer
ciencia y el abordaje del tema desde la propia filosofía de la ciencia (Kranz
et al., 1971; Kyburg, 1984, Santisteban, 2003). Hay una gran dispersión en la
literatura, pues en economía, matemáticas, filosofía, física, psicología y esta-
dística existen sistemas de axiomas y teoremas que intentan explicar cómo
algunos de los atributos de los objetos, de la esencia de ciertas cosas y los
sucesos se pueden representar numéricamente de forma razonable. Esos resul-
tados son los que constituyen los fundamentos matemáticos de la medición y
podría esperarse que las discusiones sobre medición jugaran un importante
papel en los escritos sobre filosofía de la ciencia. En un debate sobre la influen-
cia del método y/o los métodos en el desarrollo de la ciencia (Santisteban, 2003)
se puso de manifiesto la aparente disociación entre el desarrollo científico y el
de la filosofía de la ciencia al tratar estos temas, y se hacen puntualizaciones
acerca de la cuantificación, la medición, la búsqueda y el establecimiento de
estructuras, así como sobre la necesidad de la formalización.
Ellis (1968) y Koslow (1981) coinciden con Kyburg en que los problemas
de la medición no sólo no son suficientemente entendidos, sino que puede
que ni siquiera sean suficientemente apreciados. Ellis dice que tiene que remon-
tarse a los años veinte para encontrar grandes trabajos que traten la medición
y que sean de naturaleza filosófica, refiriéndose concretamente a los trabajos
de Campbell (1920, 1928) y a los de Bridgman (1922), en tanto Koslow, algu-
nos años después, aun compartiendo la opinión de Ellis, admite que la litera-
tura sobre el tema está en auge entre sus contemporáneos y que en esos años
se había escrito más sobre medición que antes de mediados de los sesenta.
Entre los grandes autores clásicos sobre medición cita a Mach (1960) y a Von
Helmholtz (1887/1977). Autores como Kranz, Luce, Suppes, Tversky, Zinnes,
Pfanzagl y Nagel opinan que la medición es un tema perfectamente com-
prendido, pero que hay muchas cuestiones de fondo complejas y muchas
cuestiones técnicas, algunas de ellas de gran dificultad, que hay que explo-
rar e investigar y a ello dedican obras muy relevantes, tanto por su extensión
como por su profundidad. En la literatura hay también una ingente cantidad
de trabajos, que se centran en problemas técnicos muy concretos, pero se
quedan en la parte técnica del problema, sin llegar a establecer los pertinen-
tes axiomas que permitan la generalización de los resultados, para que se
cumplan al menos los teoremas de representación y de unicidad.
La aportación de Rasch a la medición en psicología fue fundamental.

Sus primeras propuestas ya muestran que, la formulación en una familia de
distribuciones de Poisson, no sólo es suficiente para la construcción de
mediciones estables, sino que poder hacer uso de las propiedades multi-
plicativas de las leyes de Poisson es la solución matemática para tener fun-
ciones medibles en teoría de tests. Andrich (1995, 1996) confirma que en
el modelo de Rasch la separabilidad requiere la distribución de Poisson para
estimar medidas a partir de observaciones discretas y Bookstein (1996) tam-
bién muestra la necesidad del uso de la distribución compuesta de Pois-
son, en cuanto a que se satisfacen los requisitos de divisibilidad, definidos
por Levy (1937) y por Kolmogorov (1950). En forma muy resumida se pue-
de decir que la propuesta de Rasch implica, no sólo que se pueden obte-
ner estimadores suficientes de los parámetros, sino que las mediciones que
se hacen cumplen los requisitos teóricamente exigibles de estabilidad, sepa-
rabilidad e independencia muestral, así como el requisito de la aditividad
conjunta que, en teoría de la medición, es un requisito fundamental y deci-
sivo. Un concepto que aparece en los años ochenta del siglo XX es el de
objetividad específica. En el modelo de Rasch se cumple el principio
de objetividad específica o equivalentemente, de independencia muestral.
Roskam (Roskam y Jansen, 1984) indica que la objetividad específica es
una condición metodológica básica para la definición y medición de cons-
tructos teóricos como la aptitud verbal o el control interno. La condición de
objetividad específica es de especial importancia para el estudio de las acti-
tudes y de los rasgos de personalidad.
m15.6. Interpretación de las puntuaciones: escalas y normasm
Tipificar consiste en transformar las puntuaciones directas en otras puntuacio-

nes más fácilmente interpretables. En el contexto de la TCT, cuando un test está
tipificado o estandarizado, la puntuación típica de un sujeto indica su posición rela-
tiva con respecto al grupo normativo, lo que permite comparar los resultados de
diferentes sujetos en un mismo test, o los de un sujeto en diferentes tests. Las
escalas en las que vienen dadas las puntuaciones de los tests son numerosas, por
ello, para una correcta interpretación de las puntuaciones obtenidas con esos tests
es imprescindible conocer el tipo de escala y sus características. En la TRI las inter-
pretaciones se hacen por la posición del sujeto en la escala del rasgo.
Existen distintos tipos de transformaciones para realizar la tipificación de

las puntuaciones, o sea, transformaciones que permiten convertir las puntua-
ciones en datos comparables expresándolos en el mismo tipo de escala. La elec-
ción del tipo de transformación que da origen a la escala depende en gran medi-
da del tipo de puntuación y de los objetivos de la prueba. Las transformaciones
pueden ser lineales o no lineales, como se ha puesto ya de manifiesto en dife-
rentes apartados y concretamente al hablar de transformaciones admisibles
(Apartado 15.5). Las lineales tienen la ventaja de conservar la forma de las dis-
tribuciones de las puntuaciones y no modifican el tamaño de las correlaciones,
pues las correlaciones son invariantes ante cambios de origen y de escala, lo que
es de gran ayuda en el contexto de la TCT, que se basa esencialmente en un
modelo correlacional. En cualquier caso, todas las transformaciones deben ser
monótonas, por lo tanto, si las puntuaciones están ordenadas en orden creciente,
la transformación no altera ese orden. Es decir, como se ha explicitado en los
Apartados 15.3 y 15.5, si un sujeto tiene una puntuación directa a que es mayor
que la b obtenida por otro sujeto, entonces la transformación f debe conservar
ese orden de forma que f(a) > f(b). En aquellos contextos en los que las inter-
pretaciones se hacen en relación con el grupo normativo, se dice que se hacen
interpretaciones referidas a la norma, diferenciándose de aquellas otras que se hacen
en relación con ciertos objetivos o criterios concretos, a las que se denomina
interpretaciones referidas al criterio. Aunque para ambos tipos de pruebas se siguen
procedimientos que no difieren en lo esencial, las pruebas con interpretaciones
referidas a la norma dan origen a escalas y en las referidas al criterio las inter-
pretaciones se suelen hacer en relación a algún punto de corte, o sea, con una
división de los valores de la escala, usualmente en dos categorías exhaustivas y
excluyentes.
Hay interpretaciones que se basan en la dificultad del contenido. Estas interpre-
taciones se suelen utilizar en pruebas de rendimiento escolar, comparando la cali-
ficación del sujeto con la máxima calificación posible. En una prueba de respuestas
dicotómicas, la calificación X que se otorga a un sujeto es X = R / T, en donde
R es su número de respuestas correctas y T el total. Las puntuaciones se suelen
dar en porcentajes y usualmente no se utilizan como escalas, sino que se suelen
tratar dentro del grupo de las interpretaciones referidas al criterio.
Entre las numerosas escalas que se han construido, se citan a continuación
algunas de las más usuales.
Escalas estandarizadas
La tipificación de puntuaciones consiste en una transformación lineal en la que a

todas ellas se les resta la media (cambio de origen) y esa diferencia se divide por
la desviación típica (cambio de escala). En el Apartado 1.6 se ha expuesto cómo
obtener puntuaciones tipificadas (estandarizadas) y las que dan origen a las esca-
las estandarizadas derivadas, o escalas tipificadas derivadas.
Entre las escalas derivadas tradicionalmente más utilizadas están las si-
guientes:
a) La de puntuaciones T, con media 50 y desviación típica 10:
T = 50 + 10 z.
b) Estaninos o eneatipos, con media 5 y desviación típica 2:
E = 5 + 2z.
c) AGCT (Army General Classification Test):
AGCT = 100 + 20 z.
d) CEEB (College Entrance Examination Board):
CEEB = 500 + 100 z.
e) Escalas CIS (Cociente Intelectual estándar). Todas estas escalas fijan la media
en 100, pero la desviación típica (la unidad de medida de la escala) se sue-
le tomar de acuerdo con los objetivos del test. Los CI de Wechsler (que
se usa en escalas muy conocidas tales como WPPSI, WISC y WAIS) es
CI = 100 + 15 z. En la de Stanford-Binet es CI = 100 + 16 z.
Normas centiles
Las normas centiles dan la posición relativa del sujeto con respecto al grupo al
que pertenece. Una vez que se ordenan (generalmente en orden creciente) y se
tabulan las puntuaciones, observando su valor y su frecuencia, se calculan las fre-
cuencias acumuladas, pudiéndose determinar así el porcentaje de sujetos que alcan-
zan un valor menor o igual a una puntuación dada y hacer divisiones o clases de
acuerdo con esos porcentajes.
En la Tabla 15.2 se presenta un ejemplo en el que se puede hacer una inter-

pretación de los centiles, pues el 10% de los sujetos tienen puntuaciones iguales
o menores que 2, el 50% tienen puntuaciones iguales o menores que 5, en el 85%
sus puntuaciones son iguales o menores que 8, etc.
Tabla 15.2. Distribución de frecuencias absolutas y absolutas acumuladas de 100 sujetos.
Puntuación: Xi 0 1 2 3 4 5 6 7 8 9 10
Frecuencia: Ni 2 3 5 15 10 15 15 10 10 5 10
Frecuencias
2 5 10 25 35 50 65 75 85 90 100
acumuladas
Entre las clasificaciones centílicas más usuales están:
– Clasificación por la mediana: Este valor Me divide a la población en dos gru-

pos, el 50% de los sujetos que tienen calificaciones superiores a Me y las
del otro 50% de los sujetos son iguales o inferiores. Esta clasificación es
muy pobre, pues discrimina muy poco entre los sujetos. En el ejemplo de
la Tabla 15.2 es Me = 5.
– Clasificación cuartílica: En este caso, la división se hace en cuatro grupos, sepa-
rados por los valores de cada cuartil. Es decir, el 25% de los sujetos tienen
valores iguales o menores al del primer cuartil Q1, el segundo al 50% por lo
que Me = Q2, y el 75% del total de sujetos tendrán valores iguales o meno-
res que la puntuación Q3. En la Tabla 15.2 es Q1 = 3, Q2= 5 y Q3 = 7 y sólo
los sujetos con puntuaciones 8, 9 y 10 pertenecen al cuarto cuartil.
– Clasificación decílica: Esta clasificación sigue el mismo criterio que las dos
anteriores, haciéndose aquí la clasificación dividiendo en 10 intervalos las
calificaciones, en correspondencia con una división de la frecuencia total
en 10 grupos de igual tamaño. En el ejemplo de la Tabla 15.2, el primer
decil es D1 = 2, con el 10% de la frecuencia acumulada, el D5 = Q2 = Me
y el noveno y último decil es D9 = 9.
– Clasificación percentílica: Los rangos percentílicos son los más utilizados. La
idea básica es la misma que la de cualquier norma centil estando aquí divi-
dida la frecuencia acumulada en 100 grupos divididos por 99 valores. Así

el primer percentil P1 acumula el 1% de la frecuencia y el P99 al 99%. En
los datos de la Tabla 15.2 el P85 lo delimita el valor 8.
En cualquier escala centílica, al estar ordenadas las puntuaciones (los valores

de cualquier variable) en orden creciente y sus frecuencias acumuladas, se pueden
realizar las comparaciones entre sujetos conociendo a qué centil pertenecen. Aho-
ra bien, al hacer esas comparaciones hay que tener en cuenta que las distancias
intercentílicas no son todas iguales (e.g., Figuras 15.1 y 15.2), pues dependerán de
la dispersión de las puntuaciones en el grupo. Estas distancias también variarán
entre diferentes grupos o con diferentes pruebas.
Figura 15.1. Relaciones entre diferentes rangos centílicos.
Escalas de puntuaciones normalizadas
En el caso en que las puntuaciones sigan distribuciones normales, o aproxima-

damente normales, las escalas anteriores se dice que están normalizadas. Muchas
de ellas se refieren a pruebas de rendimiento, generalmente en el ámbito educa-
tivo, en donde las distribuciones de las puntuaciones en la población suelen ser
aproximadamente normales. Cuando se tiene un conjunto de puntuaciones que
no se desvían sensiblemente de la normalidad, una forma fácil de realizar la nor-
malización de esos datos es distribuirlos en una escala percentílica, y utilizando
las frecuencias acumuladas, asimilar los valores de los percentiles a los corres-
pondientes en una distribución normal, haciendo posteriormente un suavizado
de la función resultante. Este proceso está implementado en los programas dise-
ñados para realizar transformaciones que se pueden encontrar en los paquetes
estadísticos como el SPSS.
En muchas ocasiones las puntuaciones normalizadas z, que aproximadamen-

te se distribuyen según una N(0,1) son incómodas de manejar y difíciles de inter-
pretar, pues sus valores teóricamente van desde –∞ a +∞, aunque en la práctica
estén entre z = – 3 y z = 3. Por ello, se suelen utilizar escalas derivadas normali-
zadas en las que el rango de las puntuaciones va de 0 a 100 puntos. Es decir, el
punto z = 0 de la escala anterior es ahora T = 50 y un valor, z = – 2.5, ahora es
un valor T = 50 + 20 (–2.5) = 0, como puede deducirse también de las relacio-
nes que anteriormente se han establecido (Apartado 1.6) entre las puntuaciones
z y las estandarizadas derivadas.
Los casos más comunes de escalas normalizadas son las escalas T y las de eneati-
pos, mencionadas anteriormente como escalas derivadas. Con el uso de la escala T
lo que se realiza es una evaluación del rango percentílico de la puntuación directa.
Los eneatipos o estaninos (de la contracción standard nine) son una variación de la
escala T con la diferencia de que esta escala está compuesta por nueve intervalos
de igual longitud que delimitan distintas áreas bajo la curva normal. Una modifica-
ción de los eneatipos son las denominadas escalas C que elabora Guilford intro-
duciendo una unidad adicional en cada uno de los extremos de la escala de estani-
nos, con lo que tiene once intervalos en lugar de nueve. Otras calificaciones de rango
son similares a las C, con extremos abiertos, utilizadas en algunas pruebas de Catell,
las ITED (Iowa Test of Educational Development) que son calificaciones están-
dar normalizadas con media 15 y desviación típica 5. Un poco diferentes son las
denominadas puntuaciones jerárquicas percentuales, que se utilizan para indicar la posi-
ción del sujeto en una escala de 101 puntos en un rango de puntuaciones de cero a
100. Esta escala se construye en cada caso con las puntuaciones del grupo, de mane-
ra que si a y b son las puntuaciones directas más alta y más baja obtenidas en ese
grupo, entonces X = 100 (X – b) / (a – b), que viene dado en porcentajes.
Figura 15.2. Deciles bajo una distribución normal.

Las normas que acompañan a los tests deben explicitar el tipo de escala y
deben ser claras, pues se establecen para facilitar la interpretación de las puntua-
ciones a los usuarios de los tests. Una revisión escueta y actualizada de los dife-
rentes tipos de normas se puede consultar en Thorndike (2005).
Equiparación de puntuaciones
Las transformaciones en las puntuaciones se hacen cuando se trata de hacer la

equiparación entre tests. La equiparación consiste en el proceso que se lleva a
cabo para que dos pruebas se puedan considerar equivalentes. Las condiciones
para que realmente se dé la equivalencia entre tests son muy exigentes, pues ambas
pruebas deben medir el mismo rasgo, con las mismas dimensiones, que se hayan
construido los ítems con las mismas especificaciones, etc. Que exista equipara-
ción entre dos tests X e Y implica que esos tests sean intercambiables en el sen-
tido de que la aplicación de uno u otro no hará variar el nivel de aptitud que se
le estima al sujeto. Esto implica la invarianza de la puntuación verdadera cuan-
do se igualan las puntuaciones. También implica el principio de simetría entre
los tests, es decir, que no importa cuál de ellos se ha utilizado como base o como
referencia.
En el contexto de la TCT, los métodos de equiparación son la equiparación
en media, la lineal y la equipercentílica. En la TRI se establecen las relaciones entre
los parámetros de los ítems y la puntuación verdadera estimada del sujeto en el
test. Para generar los datos con los que se va a llevar a cabo la equiparación se uti-
lizan diferentes diseños: a) se administran ambos tests a una muestra; b) se utilizan
dos grupos o dos muestras equivalentes en cuanto a su tamaño, representatividad, etc.
y se administra el test X a una muestra y el Y a la otra; y el diseño c) en el que tam-
bién se utilizan dos grupos o dos muestras, cumplimentando cada una uno de los
tests, además de un conjunto de ítems Z. Así un grupo cumplimenta nY + nZ
ítems y el otro nX + nZ, estableciéndose la equivalencia a partir de los datos obte-
nidos de los nZ ítems que al ser comunes a ambos grupos actúan como anclaje en
la relación entre X e Y. Este diseño tiene la ventaja adicional de que no es nece-
sario que los dos grupos o las dos muestras sean equivalentes.
En la TCT, el método de equiparación de medias supone que la diferencia entre
las puntuaciones entre los tests se debe a la dificultad y que esa diferencia se man-
tiene a lo largo de todas las puntuaciones. Por lo tanto, si es d = Y − X ,
la equiparación se realiza mediante las relaciones: Ye = X + d (Ye es la puntua-

ción equiparada a la X) y Xe = Y – d. Esta equiparación es muy simple, pero muy
poco realista, porque difícilmente se darán esas condiciones en las puntuaciones.
La equiparación lineal se basa en igualar las puntuaciones tipificadas, es decir, en
una transformación lineal de unas puntuaciones en otras, que es un procedimiento
similar al que se ha utilizado anteriormente para otras comparaciones. Esto es, si
se establece la igualdad:
Y−Y X−X
=
sY sX
entonces, se equiparan las puntuaciones mediante cualquiera de las dos ecuacio-

nes siguientes
Ye = (X − X) + Y
sY
sX
Xe = X ( Y − Y ) + X
s
sY
Ejemplo 15.1
Si las medias y las desviaciones típicas de dos pruebas X e Y que se van a

equiparar son respectivamente X = 42 , sX = 6 ; Y = 48 sY = 8. La equiparación
de medias supone que para toda puntuación en el test X su correspondiente
(equiparada) en el test Y, y viceversa Xe = X + 6 ; Ye = Y – 6.
Si la equiparación tiene también en cuenta la variabilidad, la equiparación
es lineal, siendo:
Ye = (8/6) (X – 42) + 48 = (8/6) X – 8

Xe = (6/8) (Y – 48) + 42 = (6/8) Y + 6
La equiparación percentílica es la que más se utiliza y consiste en hacer que se

correspondan las puntuaciones percentílicas. Esto es, si la puntuación 42 es la que
corresponde al percentil 70 en el test X y la puntuación para ese percentil en el
test Y es de 50 puntos, entonces, la puntuación 42 de X se equipara a la puntua-

ción 50 del test Y. Para hacer estas comparaciones hay que tener en cuenta la no
equidistancia entre percentiles, pues las distancias en puntuación son diferentes
para un percentil y otro en el mismo test y en tests diferentes.
Los métodos para la equiparación de puntuaciones que se utilizan en la TRI
son variados y además se distingue cuando se hacen las calibraciones separadas
de cada uno de los tests, o cuando se hace conjunta. En el caso en que el diseño
sea de anclaje, se pueden calibrar los tests con (nX + nZ ) ítems y (nY + nZ ) ítems
separadamente, o bien tratar los datos como si todos los sujetos hubiesen resuel-
to los (nX + nY + nZ ) ítems, tratando los ítems no cumplimentados por alguno
de los grupos como datos faltantes, teniéndose en este caso todas las estimacio-
nes en una escala común. (Una exposición detallada en español de algunos de
estos métodos se puede consultar en Santisteban, 1990a.) Los métodos más idó-
neos y que proporcionan las equiparaciones más precisas son los que se basan en
las CCI. Casi todos se basan en una primera estimación de las puntuaciones ver-
daderas de los sujetos en el test. Estas puntuaciones verdaderas se corresponden
con la suma de las Pi (θ) de todos los ítems del test. Así, para un nivel del rasgo
θ = θj , la puntuación verdadera estimada para ese nivel del rasgo en un test de
n ítems es:
Vj = ∑ Pi ( θj )
n
i=1
Las estimaciones de las puntuaciones en una misma escala, con diseños de

anclaje y análisis conjunto de los (nX + nY + nZ) se pueden obtener con el soft-
ware que proporcionan programas como BILOG-MG o PARSCALE. La equi-
paración se realiza estableciendo relaciones lineales entre los parámetros de los
ítems, de ambos tests y los de anclaje. Estas equiparaciones suelen hacerse con
el índice de dificultad b, porque es más estable y porque, como se ha visto en el
Apartado 12.3, las transformaciones en b son idénticas a las de θ y viceversa,
cuando se realizan transformaciones admisibles para la escala, aunque también
se puede incluir el parámetro a. Es decir, la conexión entre las escalas original
y equiparada, siempre se podrá establecer mediante las relaciones θe = kθ + s;
be= kb +s y ae = a/k, teniendo en cuenta además que aunque el modelo inclu-
ye un tercer parámetro, el parámetro c, a ese parámetro no le afectan las trans-
formaciones métricas señaladas.
La escala de aptitud θ en la TRI
La construcción de las escalas y la interpretación de los niveles de aptitud que en

la TCT se hace en relación con las del grupo normativo, en los procedimientos
TRI hay que realizarla al estimar los parámetros característicos de los ítems y del
rasgo θ. Los valores estimados para los niveles de θ se pueden transformar en
valores de una escala conveniente para la interpretación de los resultados. La esca-
la, en principio, se elige de forma arbitraria y las transformaciones lineales de la
escala de aptitud, acompañadas de las correspondientes a los parámetros son
admisibles, pues no alteran ni la forma ni las características de las funciones
Pi (θ). Estas propiedades de invarianza se han comprobado para diferentes mode-
los en los Apartados 12.2 y 12.3.
La arbitrariedad en la elección de la escala y la invarianza de las CCI con res-
pecto a las transformaciones lineales generan indeterminaciones que se deben eli-
minar en el proceso de estimación. El método más simple, al igual que en la TCT,
es tipificar la variable. En este caso, la indeterminación se puede eliminar eligien-
do para las constantes k y s de las ecuaciones (12.10) valores con los que la media
y la desviación típica de la variable transformada θ* sean cero y uno respectiva-
mente. De hecho, los programas de ordenador disponibles para el tratamiento de
estos modelos, como es el LOGIST, trabajan con los valores de la variable tipifi-
cada, con media cero y desviación típica unidad. La tipificación conduce a que se
obtengan valores de la variable decimales y que también pueden ser negativos, lo
que dificulta su interpretación. La forma que se sugiere para abordar el problema
es la misma que la que se ha propuesto para las escalas convencionales de pun-
tuaciones. Consiste en construir escalas derivadas, buscando valores apropiados
para la media y la varianza que a ser posible proporcionen puntuaciones enteras
y positivas para la variable estimada. Una de las propuestas que se han hecho en
este contexto fue fijar la media en 200 y la desviación típica en 10 (o sea, k = 10
y s = 200), pero no ha resultado ser satisfactoria, por lo que se han propuesto para
estos modelos transformaciones logarítmicas y la utilización de los logits que tan
buen resultado han dado en las aplicaciones biométricas, especialmente en rela-
ción con las escalas dosis-respuesta.
Entre los autores que sugirieron la escala logarítmica están Rentz y Bashaw
(1977), que la propusieron al no obtener una escala interpretable cuando usaban
la transformación normalizada con media 200 y desviación típica 10, en el de-
sarrollo del test de lectura NRS (National Reference Scale). Para estas transfor-
maciones usualmente se han utilizado logaritmos neperianos, pero los resulta-

dos son generalizables a cualquier tipo de base logarítmica. La elección de la base
es arbitraria y se debe elegir aquella base logarítmica que en cada problema faci-
lite la interpretación. Entre esas escalas están las Wθ de Woodcock (1978) y la
WITS de Wright (1977) que usan escalas logarítmicas de base 9 y 3 respectiva-
mente. Una explicación en castellano más detallada de las transformaciones y de
estas escalas se puede ver en Santisteban (1990a, págs. 380-386). Sobre medición
y las transformaciones logarítmicas, por ejemplo, en modelos basados en el de
Rasch son de interés trabajos de autores como los ya mencionados Woodcock
(1999) y Wright (1999).
Puntos clave
3 Medir es más que asignar números a las propiedades de los objetos.

3 Los conceptos cualitativos son aquellos que son comparativos, o simplemente
clasificatorios. Los conceptos cuantitativos son los mensurales y/o métricos.
3 La medición aparece como consecuencia de la metrización. La medición se esta-
blece porque se quiere llegar a cuantificar y relacionar las características de los
objetos y/o para hacerlas universalmente comparables y/o para comparar teo-
rías y establecer leyes.
3 En medición hay que resolver los problemas de la legitimidad de representar
mediante números las características de los objetos, así como la unicidad de
esa representación y su significado.
3 La medición de los atributos psicológicos es del tipo que se denomina medición
indirecta.
3 Se llama medición conjunta a la forma indirecta de identificar la estructura adi-
tiva de los atributos.
3 La asignación consistente de los números reales a los elementos de una estruc-
tura empírica se suele decir que es una escala para dicha estructura.
3 En la literatura se han dado muchas clasificaciones para identificar tipos de esca-
las. En psicología una de las más clásicas es la de Stevens.
3 Es necesario que se mantengan las características de los objetos que la esca-
la representa cuando en ella se realizan transformaciones algebraicas. Las
transformaciones que lo cumplen se dice que son admisibles para ese tipo de
escala.
3 La interpretación de las puntuaciones en los tests requiere que se conozcan el
tipo y las características de la escala en la que vienen dadas esas puntuaciones.
3 La interpretación de las puntuaciones a veces se hace en relación con una par-

tición de esas puntuaciones (generalmente en dos clases) atendiendo a un deter-
minado criterio.
3 La tipificación de las puntuaciones es un primer paso para poder compararlas
y para el posterior establecimiento de la escala.
3 El paso de puntuaciones directas a tipificadas y de ellas a otros valores estan-
darizados se hace mediante transformaciones lineales.
3 La normalización de la escala se puede hacer partiendo de una escala percen-
tílica, siempre y cuando la distribución de las puntuaciones sea aproximada-
mente normal.
3 Tanto en la TCT como en la TRI las transformaciones lineales son admisibles,
sin embargo, las transformaciones más adecuadas en la TRI son las transfor-
maciones logarítmicas.
Actividades
r Ponga seis ejemplos de atributos o cualidades de los objetos o de las per-

sonas que se puedan considerar esencialmente cualitativos, otros seis que
sean de naturaleza cuantitativa y trate de establecer condiciones para, si es
posible, pasarlos de una categoría a otra. Esto es, poder dar a los cualitati-
vos tratamiento cuantitativo y viceversa.
r Comente la siguiente frase: “Todo lo que conlleva e implica la teoría de la
medición no está contemplado en la psicometría, pero las bases rigurosas
de la medición deben tener presencia en ella y en todos los ámbitos de la
psicología en los que se quieran desarrollar teorías formalmente construi-
das y con modelos experimentalmente contrastables”.
r Busque en la literatura los denominados axiomas de cantidad de Hölder (1905)
y coméntelos, distinguiendo entre los que sólo permiten establecer rela-
ciones de orden y los que permiten algún tipo de operaciones entre mag-
nitudes.
r Compare los axiomas de cantidad de Hölder con los fundamentos lógicos
de la medición dados por Campbell.
r Comente la importancia y el significado que en los tests tiene la definición
de representación que dan Suppes y Zinnes: “Es la relación homeomórfi-
ca establecida entre dos sistemas relacionales, el empírico y el numérico”.
r Ponga un ejemplo, o búsquelo en la literatura psicométrica, de dos siste-

mas relacionales, uno empírico y otro numérico, que cumplan las condi-
ciones de representación, unicidad y significación.
r Comente el problema de la unicidad en la construcción de escalas en los
tests psicológicos.
r Haga un supuesto de un test en el contexto de la TCT, tipifique sus pun-
tuaciones, normalícelas y construya diferentes escalas derivadas.
r Haga supuestos sobre dos tests en el contexto de la TCT y haga una equi-
paración percentílica de las puntuaciones.
r Construya las curvas características de dos tests, estime las puntuaciones
verdaderas y trate de equiparar sus puntuaciones con el software ade-
cuado.
r Compruebe que la eficiencia relativa de dos tests es invariante ante trans-
formaciones monótonas de θ.
r Compruebe que utilizar en la relación logist Y (Y = ln (Pi (θ)/ (Qi (θ)) la
base logarítmica 2, es equivalente al escalamiento de la aptitud θ con logist
unidad y logaritmos neperianos multiplicados por 0.7.
Bibliografía
AERA, APA & NCME (1999). American Educational Research Association, American
Psychological Association, and National Council on Measurements in Education.
Standards for educational and psychological testing. Washington, D.C.: American Education-
al Research Association.
Alvarado, J. M. & Santisteban, C. (2006). La validez en la medición psicológica. Aula abierta.
Madrid: Ediciones UNED.
Amón, J. (1984). Estadística para psicólogos. Vol. 2 (3ª ed.). Madrid: Pirámide.
Anastasi, A. (1950). The concept of validity in the interpretation of test scores. Educational and
Psychological Measurement, 10, 67-78.
— (1954). Psychological testing. New York: MacMillan.
Anastasi, A. & Urbina, S. (1997). Psychological testing. (7ª ed.) Englewood Cliffs. NJ: Pren-
tice-Hall.
Andersen, E. B. (1973). Conditional inference and models for measuring. Copenhagen: M. Forlag.
Andrich, D. (1995). Models for measurement: Precision and the non-dichotomization of graded
responses. Psychometrika, 60, 7-26.
— (1996). Measurement criteria for choosing among models for graded responses. En A. von Eye
& C. C. Clogg (ed.). Analysis of categorical variables in developmental research (págs. 3-35).
Orlando, Fl: Academic Press.
Angoff, W. H. (1982). Used of difficulty and discrimation indices for detecting item bias. En R.A.
Berk (ed.). Handbook of methods for detecting test bias. Baltimore, MD: The Johns Hop-
kins University Press.
APA (1954). American Psychological Association. Technical recommendations for psychologi-
cal tests and diagnostic techniques. Psychological Bulletin, 51, 201-238.
Baker, F. B. (1992). Item response theory: Parameter estimation techniques. New York, NY: Mar-
cel Dekker.
Baker, F. B. & Kim, S. H. (2004). Item response theory: Parameter estimation techniques. (2ª ed.).
New York: Marcel Dekker.
Bartholomew, D. J., Steele, F., Moustaki, I. & Galbraith, J. I. (2002). The analysis and inter-
pretation of multivariate data for social scientists. Boca Ratón: Chapman and Hall/CRC.
Barton, M. A. & Lord, F. M. (1981). An upper asymptote for the three parameter logistic item-
response model. Research Bulletin, 8120, Princeton, NJ: Educational Testing Service.
Becker, K. A. (2003). History of the Stanford-Binet intelligence scales: Content and psychometrics.
(Stanford-Binet Intelligence Scales, Fifth Edition Assessment Service Bulletin No. 1).
Itasca, IL: Riverside Pub.
Binet, A. (1886). La psychologie du raisonnement: recherches exp¯rimentales par l’hypnotisme.
Paris, F. Alcan. (Traducida al inglés como The psychology of reasoning. Chicago, IL, Open
Court, 1896).
— (1887). On double consciousness: Experimental psychological studies (2007) Kessinger Pub.
— (1903). L’etude exp¯rimentale de l’Intelligence. Paris. Schleicher.
Binet, A. & F¯r¯, C. (1887). Le magn¯tisme animal. Paris: Felix Alcan.
Binet, A. & Henri, V. (1895). La psychologie individuelle. L’ann¯e Psychologique, 2, 411-463.
Binet, A. & Simon, T. H. (1905). Application de m¯thodes nouvelles au diagnostic du niveau inte-
llectuel chez les enfants anormaux d’hospice et d’¯cole primaire. L’ann¯e Psychologique, 11,
191-244.
— (1908). Le d¯veloppement de l’intelligence chez l’enfant. L’ann¯e Psychologique, 14, 1-94.
(Traducida por E. S. Kite al inglés como The development of intelligence in children. 1916.
Vineland, NJ.: Publications of the Training School at Vineland).
— (1911). La mesure du d¯veloppment de l’intelligence chez les jeunes enfants. Paris: A. Coneslant.
Birnbaum, A. (1968). Some latent trait models and their use in inferring a examinee’s ability. En
F. M. Lord & M. Novick. Statistical theories of mental test scores (págs. 395-479). Menlo
Park, CA: Addison Wesley Pub.
— (1969). Statistical theory for logistic mental test models with a prior distribution of ability. Journal
of Mathematical Psychology, 6, 258-276.
Bock, R. D. (1972). Estimating item parameters and latent ability when responses are scored in two
or more nominal categories. Psychometrika, 37, 29-51.
Bock, R. D. & Aitkin, M. (1981). Marginal maximum likelihood estimation of item parameters:
an application of an EM algorithm. Psychometrika, 46, 443-459.
Bookstein, A. (1996). Informetric distributions. III. Ambiguity and randomness. Journal of the
American Society for Information Science, 48, 2-10.
Bibliografía 433
Borsboom, D., Mellenbergh, G. J. & Van Heerden, J. (2004). The concept of validity. Psy-
chological Review, 111, 1061-1071.
Brennan, R. L. (2001). Generalizability theory (2ª ed.). New York: Springer-Verlag.
Bridgman, P. W. (1922). Dimensional Analysis. New Haven: Yale University Press.
Bryant, F. B. & Yarnold, P. R. (1995). Principal-components analysis and exploratory and confirm-
atory factor analysis. En L. G. Grimm & P. R. Yarnold, Reading and understanding multi-
variate analysis. (Capítulo 4). American Psychological Association Books.
Burt, C. (1955). Test reliability estimated by analysis of variance. British Journal of Statistical
Psychology, 8, 103-118.
Buss, A. H. & Durkee, A. (1957). An inventory for assessing different kinds of hostility. Journal
of Consulting Psychology, 21, 343-348.
Buss, A. H. & Perry, M. (1992). The aggression questionnaire. Journal of Personality and
Social Psychology, 63, 452-459.
Camilli, G. & Shepard, L. (1994). Methods for identifying biased test items (Measurement methods
for the social science. Series 4). Thousand Oaks: Sage.
Campbell, N. R. (1920/1957). Physics: The elements. London: Cambridge University Press.
(Reimpreso en 1957 como Foundations of Science. New York: Dover)
— (1928). An account of the principles of measurement and calculation. London: Logmans
Green.
Campbell, D. T. (1957). Factors relevants to the validity of experiments in social settings. Psycho-
logical Bulletin, 54, 297-312.
— (1960). Recommendations for APA test standards regarding construct, trait and discriminant
validity. American Psychologist, 15, 546-553.
Campbell, D. T. & Fiske, D. W. (1959). Convergent and discriminant validation by the multitrait-
multimethod matrix. Psychological Bulletin, 56, 81-104.
Campbell, D. T. & Stanley, J. C. (1963). Experimental and quasi-experimental designs for research
and teaching. En N. L. Gage (ed.). Handbook of Research on Teaching. Chicago: Rand
McNally.
Carmines, E. G. & Zeller, R. A. (1979). Reliability and validity assessment. London:
Sage.
Clearly, T. A. & Hilton, T. L. (1968). An investigation of item bias. Educational and Psy-
chological Measurement, 28, 61-75.
Cohen, J. (1992). A power primer. Psychological Bulletin, 112, 155-159.
College Board (2006). SAT Reasoning Test. Utilizado el 12/01/2009 de http://www.col-
legeboard.com/student/testing/sat/about/SATI.html.
Connolly, A. J., Nachtman, W. & Pritchett, E. M. (1971). Key math diagnostic arithmetic test.
Circle Pines, MN.: American Guidance Service.
Coombs, C. H. (1952). A theory of psychological scaling. Engineering Research Bulletin, 34.
Ann Arbor: University of Michigan Press.
Coombs, C. H., Raiffa, H. & Thrall, R. M. (1954). Some views on mathematical models and
measurement theory. Psychological Review, 61, 132-144.
Croker, L. & Algina, J. (1986). Introduction to classical and modern test theory. New York. Holt,
Rinehart and Winston.
Cronbach L. J. (1949/1990). Essentials of psychological testing. (5ª ed.). New York. Harper
& Row.
— (1951). Coefficient alpha and the internal structure of tests. Psychometrika 16, 297-334.
— (1971). Test validation. En R. L. Thorndike (ed.). Educational measurement. (2ª ed.).
Washington: American Council of Education.
— (1975). Five decades of public controversy over mental testing. American Psychologist, 30, 1-14.
— (1989). Construct validation after thirty years. En R. L. Linn (ed.). Intelligence: Measurement,
theory and public policy. Urbana, IL.: University of Illinois Press, págs. 147-171.
Cronbach, L. J. & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological
Bulletin, 51, 281-302.
Cronbach, L. J., Rajaratnam, N. & Gleser, G. C. (1963). Theory of generalizability. A liber-
alization of the reliability theory. British Journal of Mathematical and Statistical Psycho-
logy, 16, 137- 173.
Cronbach, L. J. & Gleser, G. C (1965). Psychological tests and personnel decisions (2ª ed.). Cham-
paign: University of Illinois Press.
Cronbach, L. J., Gleser, G. C., Nanda, H. & Rajaratnam, N. (1972). The dependability of
behavioral measurements: Theory of generalizability for scores and profiles. New York: John
Wiley.
Cronbach, L. J. & Shavelson, R. J. (2004). My current thoughts on coefficient alpha and succesor
procedures. Educational and Psychological Measurement, 64, 391-418.
Cureton, E. E. (1950). Validity, reliability and baloney. Educational and Psychological Mea-
surement, 10, 94-96.
Darlington, R. B. (1990). Regression and linear models. New York: McGraw-Hill.
Deville, C. W. & Prometric, S. (1996). An empirical link of content and construct validity evi-
dence. Applied Psychological Measurement, 20, 127-139.
Ding, C. S. & Hershberger, S. C. (2002). Assessing content validity and content equivalence using
structural equation modeling. Structural Equation Modeling, 9, 283-297.
Bibliografía 435
Draper, N. R. & Smith, H. (1981). Applied regression analysis (2ª ed.). New York: John Wiley.
Dressel, P. L. (1940). Some remarks on Kuder Richardson reliability coefficient. Psychometrika
5, 305-310.
Droste, M. (1987). Ordinal scales in the theory of measurement. Journal of Mathematical Psy-
chology, 31, 60-82.
Ellis, B. (1968). Basic concepts of measurement. Cambridge: Cambridge University Press.
Embretson, S. E. (1983). Construct validity. Construct representation versus nomothetic span. Psy-
chological Bulletin, 93, 179-197.
Embretson, S. E. & Reise, S. P. (2000). Item response theory for psychologists. Mahwah, N.J.:
Lawrence Erlbaum.
ETS, 2008. Página WEB del Educational Testing Service. Escriba CAT en http://search.ets.org.
Utilizada el 12/01/2009.
Fan, X. & Thompson, B. (2001). Confidence intervals for effect sizes. Confidence intervals about
score reliability coefficient, please: An EPM guideline editorial. Educational and Psycholog-
ical Measurement, 61, 517-531.
Fechner, G. T. (1860). Elemente der psychophysik. Leipzig: Breitkopf und Hartel. Traduc-
ción inglesa por H. E. Adler. Elements of psychophysics. (1966). New York: Holt, Rine-
hart & Winston.
Feldt, L. S. (1990). The sampling theory for the intraclass reliability coefficient. Applied Measure-
ment in Education, 3, 361-367.
Feldt, L. S., Woodruff, D. J. & Salih, F. A. (1987). Statistical Inference for coefficient alpha.
Applied Psychological Measurement, 11, 93-103.
Feldt, L. S. & Brennan, R. L. (1989). Reliability. En R.L. Linn (ed.). Educational measure-
ment (3ª ed., págs. 105-146). Washington, DC: American Council on Education.
Ferguson, G. A. (1942). Item selection by the constant process. Psychometrika, 7, 19-29.
Fischer, G. H. & Molenaar, I. W. (1995). Rasch Models. Foundations, Recent Developments, and
Applications. New York: Springer-Verlag.
Fishburn, P. C. (1964). Decision and value theory. New York: John Wiley.
— (1970). Utility theory for decision making. New York: John Wiley.
Gleser, G. C., Cronbach, L. J. & Rajaratnam, N. (1965). Generalizability of scores influenced
by multiple source of variance. Psychometrika, 30, 395-418.
Gorsuch, R. L. (1983). Factor analysis (2ª ed.). Hillsdale, NJ: Lawrence Erlbaum. Orig ed.
1974.
Guilford, J. P. (1946). New standards for test evaluation. Educational and Psychological Meas-
urement, 6, 427-439.
Gulliksen, H. (1936). The content reliability of a test. Psychometrika, 1, 189-194.

— (1950a). Theory of Mental Tests. New York: John Wiley (reeditado en 1987).
— (1950b). Intrinsic validity. American Psychologist, 5, 511-517.
Guttman, L. (1941). The quantification of a class attributes: A theory and method of scale con-
struction. En P. Horst, P. Wallin, L. Guttman, F. B. Wallin, J. A. Clausen, R. Reed &
E. Rosenthal (eds.). The prediction of personal adjustment (págs. 319-348). New York:
Social Science Research Council.
— (1945). A basis for analyzing testretest reliability. Psychometrika, 10, 255-282.
— (1953). A special review of Harold Gulliksen’s theory of mental test. Psychometrika.
123-130.
Hambleton, R. K. & Swaminathan, H. (1985). Item response theory. Principles and applications.
Boston, MA: Kluwer-Nijhoff.
Harris, J. A. (1997). A further evaluation of the aggression questionnaire: Issues of validity and reli-
ability. Behaviour Research and Therapy, 35, 1047-1053.
Heise, D. R. & Bohrnstedt, (1970). Validity, invalidity and reliability. En E. F. Borgatta &
G.W Bohrnstedt (eds.). Sociological methodology. San Francisco: Jossey Bass (págs. 104-
129).
Hempel, C. G. (1952). Fundamentals of concept formation in empirical science. International
Encyclopedia of Unified Science, Vol. II. Chicago: University Chicago Press.
Hill, R. W., Huelsman, T. J., Furr, R. M., Kibler, J., Vicente, B. B. & Kennedy, C. (2004).
A new measure of perfectionism: The perfectionism inventory (PI). Journal of Personality
Assessment, 82, 80-91.
Hocking, R. R. (1976). The analysis and selection of variables in linear regression. Biometrics,
32, 1-49.
Hölder, O. (1901). Die axiome der quantität und die lehre von mass. Berichte über die Ver-
handlugen der Königlich Säclisischen Gesellschaft der Wissenschaften zu Leipzig.
Mathematische-Physiscke Klasse, 53, 1-64.
Holland, W. P. & Thayer, D. T. (1988). Differential item performance and the Mantel-Haenszel
procedure. En H. Wainer & H.I. Braun (eds.). Test validity. Hillsdale, NJ.: Lawrence Erl-
baum.
Howard, L. W. (1999). Validity evidence for measures of procedural/distributive justice and pay/ben-
efit satisfaction. Journal of Business and Psychology, 14, 135-147.
Howell, D. C. (2002). Statistical methods for Psychology (5ª ed.) Belmont, CA: Duxbury
Press.
Hoyt, C. (1941). Test reliability estimated by analysis of variance. Psychometrika 6, 153-160.
Bibliografía 437
Hsu, L. M. (2004). Biases of success rate differences shown in binomial effect size displays. Psy-
chological Methods, 9, 183-197.
Hull, C. L. (1928). Aptitude Testing. L.W. Terman (ed.). Yonkers-on-Hudson, N.Y: World
Book Co.
Jackson, R. W. & Ferguson, G. A. (1941). Studies on the reliability of test. Bulletin No. 12.
Department of Educational Research. University of Toronto.
Jarjoura, D. & Brennan, R. L. (1982). A variance components model for measurement procedures
associated with a table of specifications. Applied Psychological Measurement, 6, 161-171.
Jensema, C. J. (1976). A simple technique for estimating latent trait mental test parameters. Edu-
cational and Psychological Measurement, 36, 705-715.
Knott, M. & Bartholomew, D. J. (1999). Latent variable models and factor analysis (2ª ed.).
London: Edward Arnold.
Kolmogorov, A. N. (1950). Foundations of the theory of probability. New York: Chelsea Pub-
lishing.
Koslow, A. (1981). Quality and quantity: Some aspects of measurement. En Proceedings of the
Philosophy of Science Association, PSA, 1, 183-198.
Kranz, D. H., Luce, R. D., Suppes, P. & Tversky, A. (1971). Foundations of measurement.
Vol 1. New York: Academic Press.
Kuder, G. F. & Richardson, M. W. (1937). The theory of the estimation of test reliability. Psy-
chometrika, 2, 151-160.
Kuhn, T. S. (1961). The function of measurement in modern Physical Science. Isis, 52, 161-193.
— (1962). The structure of scientific revolutions. Chicago: University Chicago Press.
Kyburg, H. E. (1984). Theory and measurement. Cambridge studies in phylosophy. London: Cam-
bridge University Press.
Lawley, D. N. (1943). On problems connected with item selection and test construction. Proceeding
of the Royal Society of Edinburgh, 61, 273-287.
— (1944). The factorial analysis of multiple item tests. Proceedings of the Royal Society of
Edinburgh, 62A, 74-82.
Lawley, D. N. & Maxwell, A. E. (1971). Factor analysis as a statistical method. London: But-
terworth & Co.
Lazarsfeld, P. F. (1950). The logical and mathematical foundation of latent structure analysis. En
S. A. Stoufer, L. Guttman, E. A. Suchman, P. F. Lazarsfeld, S. A. Star & J. A. Clausen
(eds.). Measurement and Prediction: Studies in Social Psychology in World War II, Vol. 4.
Princeton: Princeton University Press.
Levy, P. (1937). Théorie de l’addition des variables aléatoires (2ª ed. 1954). Paris: Gauthier-Villars.
Linn, R. L. & Harnish, D. L. (1981). Interactions between item content and groups membership on
achievment test items. Journal of Educational Measurement, 18, 109-118.
Loevinger, J. (1957). Objetive tests as instruments of psychological theory. Psychological Reports,
3, 635-694 (Monograph supplement 9).
Lord, F. M. (1952). A theory of test scores. Psychometric Monographs, 7.
— (1953a). The relation of test score to the trait underlying the test. Educational and Psycho-
logical Measurement, 13, 517-548.
— (1953b). An application of confidence intervals of maximum likelihood to the estimation of an
examinee’s ability. Psychometrika, 18, 57-76.
— (1963). Elementary models for measuring chance. In Harris, C. W. (ed.). Problems in mea-
suring change (págs. 21-38). Madison: University of Wisconsin Press.
— (1965). A strong true-score theory, with applications. Psychometrika, 30, 239-270.
— (1968). An analysis of the verbal scholastic aptitude test using Birbaum’s three-parameter logis-
tic model. Educational and Psychological Measurement, 28, 989-1020.
— (1975a). The ‘ability’ scale in item characteristic curve theory. Psychometrika, 40, 205-217.
— (1975b). Evaluation with artificial data of a procedure for estimating ability and item character-
istic curve parameters. Research Bulletin, 75-133. Princeton, NJ: Educational Testing
Service.
— (1980). Applications of item response theory to practical testing problems. Hillsdale, New Jersey:
Lawwrence Erlbaum Associates.
Lord, F. M. & Novick, M. R. (1968). Statistical theories of mental test scores. Menlo Park, CA:
AddisonWesley Publishing Company.
Loveland, E. H. (1952). Measurement of factors affecting test-retest reliability. Ph. D. Thesis.
University of Tennessee.
Luce, R. D. & Raiffa, H. (1957). Games and decisions. New York: John Wiley.
Luce, R. D. & Tukey, J. W. (1964). Simultaneous conjoint measurement: A new type of fundamental
measurement. Journal of Mathematical Psychology, 1, 1-27.
Lumsden, J. (1961). The construction of unidimensional tests. Psychological Bulletin, 58,
122-131.
Mach, E. (1960). The science of mechanics. La Salle: Open Court.
Mantel, N. & Haenszel, W. (1959). Statistical aspects of the analysis of data from retrospective
studies of disease. Journal of National Cancer Institute, 22, 719-748.
Meliá, J. L. & Santisteban, C. (2009). Métodos de estimación en los modelos TRI. En prensa.
Mellenbergh, G. J. (1982). Contingency table models for assessing item bias. Journal of Educa-
tional Statistics, 7, 107-118.
Bibliografía 439
Messick, S. M. (1989/1993). Validity. En R. L. Linn (ed.). Educational measurement. 3ª ed.

New Yotk. MacMillan. págs. 13-103.
— (1995). Standards of validity and the validity of standards in performance assessment. Educa-
tional Measurement: Issues and Practice, 14, 5-8.
Michell, J. (1986). Measurement scales and statistics: A class of paradigms. Psychological Bul-
letin, 100, 398-407.
— (1990). An introduction to the logic of psychological measurement. Hillsdale: Erlbaum.
Michell, J. & Ernst, C. (1996). The axioms of quantity and the theory of measurement: translat-
ed from Part I of Otto Hölder’s German text “Die Axiome der Quantität und die Lehre vom
Mass”. Journal of Mathematical Psychology, 40, 235-252.
Mulaik, S. A. (1972). The foundation of factor analysis. New York. McGrawHill.
NCSBN, 2008. Página WEB del National Council of State Boards of Nursing. Escriba CAT
en la caja search de https://www.ncsbn.org y presione GO. Utilizado el 12/01/2009.
Osburn, H. G. (2000). Coefficient alpha and related internal consistency reliability coefficients. Psy-
chological Methods. 5, 343-355.
Owen, R. A. (1975). Bayesian sequential procedure for quantal response in the context of adaptati-
ve mental testing. Journal of the American Statistical Association, 70, 351-356.
Pardo, A. & San Martín, R. (1994). Análisis de datos en psicología II. (2ª ed.: 1998) Madrid:
Pirámide.
Patton, J. H., Stanford, M. S. & Barratt, E. S. (1995). Factor structure of the Barratt impul-
siveness scale. Journal of Clinical Psychology, 51, 768-774.
Payne, S. C., Youngcourt, S. S. & Beaubien, J. M. (2007). A meta-analytic examination of the
goal orientation nomological net. Journal of Applied Psychology, 92, 128-150.
Penfield, R. D. & Lam, T. C. M. (2000). Assessing differential item functioning in performance assess-
ment: Review and recommendations. Educational Measurement: Issues and Practice, 19, 5-15.
Pfanzagl, J. (1968). Theory of measurement. New York: Wiley.
Popham, W. J. (1978). Criterion-referenced measurement. Englewood Cliffs. NJ: Prentice Hall.
— (1984). Specifying the domain of content of behaviour. En: R. A. Berk (ed.), A guide to
criterion-referenced test construction. Baltimore: Johns Hopkins University Press.
Raju, N. S. (1977). A generalization of coefficient alpha. Psychometrika, 42, 549-565.
Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen,
Danish Institute for Educational Research. Chicago: MESA Press.
Recio, P., Santisteban, C. & Alvarado, J. M. (2004). Estructura factorial de una adaptación
española del test de impulsividad de Barratt. Revista de Metodología de las Ciencias del
Comportamiento, Suplemento 2004, 517-521.
Reckase, M. D. (1979). Unifactor latent trait models applied to multifactor tests: results and impli-
cations. Journal of Educational Statistics, 4, 207-230.
Rentz, R. R. & Bashaw, W. L. (1977). The national reference scale for reading: An application of
the Rasch model. Journal of Educational Measurement, 14, 161-179.
Richardson, M. W. (1936). The relationship between the difficulty and the differential validity of a
test. Psychometrika, 1, 33-49.
Richardson, M. W. & Kuder, G. F. (1939). The calculation of test reliability coefficients based on
the method of rational equivalence. Journal of Educational Psychology, 30, 681-687.
Rosenthal, R. (1990). How are we doing in soft Psychology? American Psychologist, 45, 775-
777.
Rosenthal, R. & Rubin, D. B. (1979). Comparing significance levels of independent studies. Psy-
chological Bulletin. 86, 1165-1168.
— (1982). A simple, general purpose display of magnitude of experimental effect. Journal of Edu-
cational Psychology, 74, 166-169.
Rosenthal, R. & Rosnow, R. L. (2008). Essentials of behavioral research: Methods and data
analysis (3ª ed.). New York: McGraw-Hill.
Roskam , E. E. & Jansen, P. G. (1984). A new derivation of the Rasch model. En E. Degreef
& V. Buggenhaut (eds.). Trends in mathematical psychology (págs. 293-307). Ámsterdam:
North Holland.
Rudner, L. M., Getson, P. R. & Knight, D. L. (1980). Biased item detection techniques. Jour-
nal of Educational Statistics, 5, 213-233.
Rulon, P. J. (1939). A simplified procedure for determining the reliability of a test by splithalves. Har-
vard Educational Review, 9, 99-103.
— (1946). On the validity of educational tests. Harvard Educational Review, 16, 290-296.
Samejima, F. (1969). Estimation of latent ability using a response pattern of graded scores. Psy-
chometric Monograph, No. 17.
— (1972). A general model for freeresponse data. Psychometric Monograph, No. 18.
— (1973). Homogeneous case of the continuous response model. Psychometrika, 38, 203-
219.
— (1974). Normal ogive model on the continuous response model in the multidimensional latent space.
Psychometrika, 39, 111-121.
— (1977). A method of estimating item characteristic functions using the maximum likelihood esti-
amte of ability. Psychometrika, 42, 163-191.
Santisteban, C. (1984). Los modelos del rasgo latente en la teoría de los tests. Madrid: Publica-
ciones DMCC.
— (1990a). Psicometría: Teoría y práctica en la construcción de tests. Madrid: Ediciones Norma.
Bibliografía 441
— (1990b). SENSIT-NN. Madrid: Ediciones Norma.

— (1999). Métodos epidemiológicos en Psicología de la salud, págs. 328-331. En: Manual de
Psicología de la Salud: Fundamentos, Metodología y Aplicaciones. M. A. Simón (ed.). Madrid:
Biblioteca Nueva.
— (2003). Los métodos y el progreso de la ciencia. Madrid: Ediciones UNED.
Santisteban, C. & Alvarado, J. M. (2001). Modelos Psicométricos. Madrid: Ediciones UNED.
Santisteban, C., Alvarado, J. M. & Recio, P. (2007). Evaluation of the Spanish version of the
Buss and Perry aggression questionnaire: Some personal and situational factors related to the
aggression scores of young subjects. Personality and Individual Differences, 42, 1453-
1465.
Santisteban, C. & Alvarado, J. M. (2009). The aggression questionnaire for Spanish preadolescents
and adolescents. The Spanish Journal of Psychology, en prensa.
Scheuneman, J. A. (1979). A method of assessing bias in test items. Journal of Educational
Measurement, 16, 143-152.
Schmidt, F. L. (1977). The Urry method approximating the item parameters of latent trait theory.
Educational and Psychological Measurement, 37, 613-620.
Scott, D. & Suppes, P. (1958). Foundational aspects of theories of measurement. Journal of Sym-
bolic Logic, 23, 113-128.
Shavelson, R. J. & Webb, N. M. (1991). Generalizability theory: A primer. Newbury Park,
CA: Sage.
Shavelson, R. J., Gao, X. & Baxter, G. P. (1995). On the content validity of performance assess-
ments: Centrality of domain specification. En M. Birenbaum & F. Douchy (eds.). Alterna-
tives in assessment of achievements, learning processes and prior knowledge. Boston: Kluwer
Academic Publishers, págs. 131-141.
Sireci, S. G. & Geisinger, K. F. (1992). Analyzing test content using cluster analysis and multidi-
mensional scaling. Applied Psychological Measurement, 16, 17-31.
— (1995). Using subject matter experts to assess content representation: An MDS analysis. Applied
Psychological Measurement, 19, 241-255.
Spearman, C. (1904a). The proof and measurement of association between two things. American
Journal of Psychology, 15, 72-101.
— (1904b). General Intelligence objectively determined and measured. American Journal of
Psychology, 15, 201-293.
Spencer, S. J., Steele, C. M. & Quinn, D. M. (1999). Stereotype threat and women’s math per-
formance. Journal of Experimental and Social Psychology, 35, 4-28.
Stanley, J. C. (1971). Reliability. En R. L. Thorndike (ed.). Educational Measurement (2ª edi-
ción), págs. 356-442. Washington D. C., American Council Education.
Stegelmann, W. (1983). Expanding the Rasch model to a general model having more than one dimen-
sion. Psychometrika, 48, 259-267.
Stern, W. (1912). The psychological methods of intelligence testing. Baltimore: Warwick and York.
Stevens, S. S. (1946). On the theory of scales of measurement. Science, 103, 677-680.
— (1951). Mathematics, measurement, and psychophysics. En S. S. Stevens (ed.), Handbook of
experimental psychology (págs. 1-49). New York: Wiley.
Suppes, P. & Zinnes, J. L. (1963). Basic measurement theory. En R. D. Luce, R. R. Bush &
E. Galanter (eds.), Handbook of mathematical psychology, vol I. (págs. 3-76). New York:
Wiley.
Swaninathan, H. & Gifford, J. A. (1982). Bayesian estimation in the Rasch model. Journal of
Educational Statistics. 7, 175-191.
Swaminathan, H. & Rogers, H. J. (1990). Detecting differential item functioning using logistic
regression procedures. Journal of Educational measurement 27, 361-370.
Taylor, H. C. & Russell, J. T. (1939). The relationship of validity coefficients to the practical effective-
ness of tests in selection. Discussion and tables. Journal of Applied Psychology, 23, 565-578.
Terman, L. M. (1916). The measurement of intelligence: An explanation of and a complete guide
for the use of the Stanford revision and extension of the Binet-Simon Intelligence Scale. Boston:
Houghton Mifflin.
Terman, L. M. & Merrill, M. A. (1937). Measuring intelligence: A guide to the administration of
the new revised Stanford-Binet tests of intelligence. Boston: Houghton Mifflin.
— (1973). Stanford-Binet intelligence scale: Manual for the third revision form L-M (1972 norm
tables by R. L. Thorndike). Boston: Houghton Mifflin.
Thissen, D., Steinberg, L. & Wainer, H. (1993). Detection of differential item functioning using
the parameters of item response models. En P. W. Holland & H. Wainer (eds.). Differential
item functioning (págs. 67-113). Hillsdale, NJ: Lawrence Erlbaum Associates.
Thompson, B. (2004). Exploratory and confirmatory factor analysis: Understanding concepts and
applications. Washington, DC: American Psychological Association.
Thorndike, R. L. (1947). Research problems and techniques. (Report nº 3 AAF Aviation Psy-
chology Program Research Reports). Washington, D. C.: U.S. Government Printing
Office.
Thorndike, R. M. (2005). Measurement and evaluation in psychology and education (7a ed.) Upper
Saddle River, NJ: Pearson Education.
Thurstone, L. L. (1925). A method of scaling psychological and educational tests. Journal of Edu-
cational Psychology. 16, 433-451.
— (1927). The unit of measurement in educational scales. Journal of Educational Psycholo-
gy. 18, 505-524.
Bibliografía 443
— (1928). The absolute zero in the measurement of intelligence. Psychological Review, 35, 175-
197.
Torgerson, W. S. (1958). Theory and methods of scaling. New York: Wiley.
Tucker, L. R. (1946). Maximum validity of a test with equivalent items. Psychometrika, 11,
1-13.
— (1961). Factor analysis of relevant judgments: An approach to content validity. Presentado en
Invitational Conference on testing problems, Princeton, NJ. Reimpreso en A. Anastasi.
(1966). Testing Problems in Perspective (págs. 577-586). Washington, D. C.: American
Council on Education.
Urry, V. W. (1974). Approximations to item parameters of mental test models and their uses. Edu-
cational and Psychological Measurement, 34, 253-269.
Van der Linden, W. J. & Hambleton, R. K. (1997). Handbook of modern item response theo-
ry. New York: Springer-Verlag.
Vance, R. J. & Colella, A. (1990). The utility of utility análisis. Human Performance, 3, 123-139.
Von Davier, M. & Carstensen, C. H. (2007). Multivariate and mixture distribution Rasch mod-
els: Extensions and applications. New York: Springer Science.
Von Helmholtz (1887/1977). Zählen und Messen erkenntnistheortisch betrachtet. Philosophis-
che Aufsätze Eduard Zeller zu seinem fünfzigjährigen Doktorjubiläum gewidmet,
Fues’ Verlag, Leipzig (Traducción inglesa por M. F. Lowe). Numbering and measuring
from an epistemological viewpoint. En R. S. Cohen and Y. Elkana (eds.). Hermann von
Helmholtz epistemological writings. Dordrecht: Reidel.
Von Neumann, J. & Morgenstern, O. (1944). Theory of games and economic behaviour. Prince-
ton: Princeton University Press.
Wechsler, D. (1939). The measurement of adult intelligence. Baltimore: Williams & Wilkins.
— (1997). WAIS-III Administration and scoring manual. The Psychological Corporation,
San Antonio, TX.
— (2003). Wechsler Intelligence Scale for Children–4th Edition (WISC-IV® ). San Antonio,
TX: Harcourt Assessment.
Westen, D. & Rosenthal, R. (2003). Quantifying construct validity: Two simple measures. Jour-
nal of Personality and Social Psychology, 84, 608-618.
Whitely, S. E. (1980). Multicomponent latent trait models for ability tests. Psychometrika, 45,
479-494.
Widaman, K. E. (1985). Hierarchically nested covariance structure models for multitrait-multimeth-
od data. Applied Psychological Measurement, 9, 1-26.
Wiggins, J. S. (1988). Personality and prediction: Principles of personality assessment. Malabar,
FL: S. A. Krieger Pub (primera edición en 1973 en Reading, Ma: Addison-Wesley).
Winer, B. J. (1971). Statistical principles in experimental design. New York: MacGraw-Hill.

Winer, B. J., Brown, D. R. & Michels, K. M. (1991). Statistical principles in experimental design.
New York: MacGraw-Hill.
Wood, R. L., Wingersky, M. S. & Lord, F. M. (1976). LOGIST: A computer program for esti-
mating examinee ability and item characteristic curve parameters. Research Memorandum 76-
6. Princeton, N.J.: Educational Testing Service.
Wittmann, M., Arce, E. & Santisteban, C. (2008). How impulsiveness, trait anger, and extra-
curricular activities might affect aggresion in school children. Personality and Individual Dif-
ferences, 45, 618-623.
Woodcock, R. W. (1974). Woodcock reading mastery test. Circle Pine: Minn. American Guid-
ance Service.
— (1978). Development and standarization of the Woodcock-Johnson Psycho-Educational Battery.
Itasca, IL: Riverside.
— (1999). What can Rasch-based model scores convey about a person test performace? En S. E.
Embretson & S. L. Hershberger (ed.) The new rules of measurement (págs. 105-127).
Mahwah, NJ: Lawrence Erlbaum Associates.
Woodruff, D. J. & Feldt, L. S. (1986). Tests for equality of several alpha coefficients when their
sample estimates are dependent. Psychometrika, 51, 393-413.
Wright, B. D. (1977). Solving measurement problems with the Rasch model. Journal of the Edu-
cational Measurement, 14, 97-116.
— (1999). Fundamental measurement for psychology. En S. E. Embretson & S. L. Hershberger
(ed.) The new rules of measurement (págs. 65-104). Mahwah, NJ: Lawrence Erlbaum
Associates.
Wright, B. D. & Panchapakesan, N. (1969). A procedure for sample free item analysis. Educa-
tional and Psychological Measurement, 29, 23-48.
Wright, B. D., Mead, R. J. & Draba, R. (1976). Detecting and correcting item bias with a logistic
response model. Research memorandum 22, Chicago: University Chicago, Statistic Labo-
ratory.
Wright, B. D. & Stone, M. H. (1979). Best test design. Chicago: Mesa Press.
Índice de contenidos
Aditividad conjunta, 417 percentílica, 420-421, 423-424

Agresividad (véase Cuestionarios) por la mediana, 420
Análisis Coeficiente
de la Varianza (ANOVA), 139, 145, 187, alfa (α), 122-136, 145, 176-179
189-190, 192, 195 beta (β), 136-138
efectos principales, 186, 190, 192, 193, de alienación, 241-243
205 de correlación lineal, 26, 58, 62, 67-68, 72,
diferencial de los ítems (véase DIF) 231, 239-240, 247, 258
Factorial (AF) de determinación, 79, 240-241, 243
confirmatorio, 261, 263, 298 de fiabilidad, 78-95, 100, 115, 117, 123-
comunalidad, 141, 142 125, 144-149, 173-174, 176
exploratorio, 261, 262, 298-299 de generalizabilidad (véase Generalizabilidad)
valores propios, 141, 143, 145 de validez, 231-241, 243, 244, 256-259,
Aptitud (véase Rasgo) 277-284, 289
Atenuación corrección (véase Corrección por de valor predictivo, 242-243
atenuación) kappa (κ), 285-286
BESD (Binomial Effect Size Display), 276-279 omega (Ω), 141-143
CI (Cociente de Inteligencia), 24, 419 theta (θ), 143-144
Ciencia/s Componentes de la varianza, 187-189, 190-195,
de la salud, 270 202-205
estadística, 26, 416 Construcción de tests (véase Tests)
filosofía de la, 406, 416 Contrastes de hipótesis
físicas, 402-403 de coeficientes alfa, 176-179
normal, 406 de coeficientes de correlación, 174
psicométrica, 186 de igualdad de medias, 65, 69, 70, 164-173
sociales, 45, 402 de igualdad de varianzas, 71
Clasificaciones centílicas Corrección
cuartílica, 420 por atenuación, 233-234, 236
decílica, 420 por continuidad, 387
Correlación/ones Diseño/s
coeficiente, 30, 58-59, 78-84, 173-177, 212, anidados, 188, 204-205
219-220, 231-234, 239, 250-251, 276- cruzados, 188, 190-191, 193-195, 204-205
281 de dos facetas, 185, 193-195, 201-202, 204-
entre medidas paralelas, 61-64, 67, 173, 232 205
entre puntuación observada y error, 59, 64 de una faceta, 188-193, 198-201
desatenuadas, 234-235 mixtos, 188
Cota inferior de la fiabilidad (véase Fiabilidad) Distribución/ones de probabilidad
Cualitativo, concepto de, 402, 404 asimétrica, 33-34
Cuantitativo/cuantificar, 20, 26, 30, 46, 402- bimodal, 34-35
405, 416 binomial, 42, 45, 340
Cuestionarios condicionales, 45, 346-347
de agresividad, 220, 223, 254-255, 261-263 logísticas (véase también Modelos logísticos)
de impulsividad, 220, 254-255 marginales, 300
de sensibilidad al ruido, 220 normal, 32-33, 38, 42, 70-71, 159-162, 165-
Curva 166, 171, 175, 316-320, 327, 357, 421-
característica del test, 308, 311 422
CCI (Característica del Ítem) (véase tam- normal acumulada (véase también Mode-
bién Modelos), 297, 306-310, 317, los ojiva normal)
319-325, 334-336, 339, 344 Poisson, 42, 316, 340, 417
de eficiencia, 370, 372-374 uniforme, 32
de información, 361-367, 371, 373 División del test en dos partes, 85-90
iosr (Item-Observed Score Regression), Eficiencia
309-310 función de, 370
ROC (Receiver Operating Characteristic relativa, 368, 369-374
Curves), 273-276 Elemento, 23, 42, 90-92, 103-105, 108, 110-
Decisión/ones 116, 119, 123-124, 126, 130-131, 136-137,
absolutas, 196-198, 200-203 146-147, 230, 236, 238-239, 244, 405-407,
estudios de, 27, 267-269, 273, 276-290 411, 413
relativas, 196-203 Equidad (véase Sesgo)
DIF (Funcionamiento Diferencial de los Ítems) Equiparación de puntuaciones, 423-425
método de Mantel-Haenszel, 382, 384-389, Error/es
392, 398 aleatorios, 40, 60, 378
métodos de clase latente, 382 de predicción, 156, 158-159, 243
no uniforme, 382-384, 395-396 de medida, 40, 148, 156-157, 159-161, 164,
uniforme, 382-384, 392, 395-396 170, 223, 233, 239, 245, 250, 348, 355-
Diferencias 356, 367-368
de medias (véase Contrastes) de estimación, 156, 157-159, 241, 243, 249
individuales, 20, 22, 24, 25, 26, 28, 36, 39, relación entre, 156, 159
148, 185-187, 195-196, 214 sistemáticos, 259
Dimensiones/dimensionalidad, 44, 103-104, Escala
141-143, 145, 261-262, 297-299, 341, 423 admisible, 407
Binet-Simon, 25 Estimación, métodos de

centíl/centílica, 38, 419-420 bayesiana, 348-349
continua, 340 condicionales/no condicionales, 346-349
de actitudes, 340 conjunta, 342, 346-347, 349
de aptitud/del rasgo, 39, 310-312, 360, marginal, 342, 347
373-374, 403, 426-427 de máxima verosimilitud, 342-345, 347-
de Coombs, 412, 414 349, 357, 358, 396
de estímulos, 20-21, 414 Estimador/es,
de Guttman, 27, 414 de máxima verosimilitud (máximo verosí-
de intervalo, 187, 312, 407, 411-415 mil), 343, 347-348, 357-358, 396
de intervalos absolutos, 415 propiedades de los, 347, 396
de intervalos logarítmicos, 415 Estímulo físico, 20
de Likert, 262, 276 Estructura tetrafactorial, 223
de proporciones logarítmicas, 415 Estudios
de puntuaciones, 21, 24, 37, 155, 171, 417- D (de decisión), 184-188, 196-204
429 G (de generalización), 184-196
de puntuaciones normalizadas, 38, 421- multifaceta, 201, 205
422 Faceta
de razón, 411-415 fija, 188
de Stevens, 27, 411-412 aleatoria, 188, 199
de Thurstone, 26, 414 Factor/es
de Torgerson, 412 ambientales, 22
derivada, 411-419, 422, 426 de agresividad, 192, 195, 223, 261-263
estandarizada/s, 37-38, 419 de contexto, 22
logarítmica, 326, 426-427 de escalamiento, 327
nominal, 411-412 de inteligencia (g y s), 26
ordenada, 411-412 de personalidad, 41
ordinal, 45, 407, 411-413, 415 o dimensiones, 103, 141-142, 145, 257,
parcialmente ordenada, 412 261-262, 297-298
real-valuada, 404 rotación de, 143, 262
transformada/transformaciones de, 395, Fiabilidad, 122-149, 184-187, 199, 232-236
403, 408, 413, 414, 415 coeficiente (véase Coeficiente de fiabilidad)
Esperanza matemática, 29, 54, 56-57, 61, 106, concepto de, 58, 76-83
348, 390 cota inferior, 123, 125-130, 145-146
Estabilidad consistencia interna (véase Coeficiente alfa)
de las puntuaciones, 78, 83-84 y longitud, 103-118, 147-148
en la medida del constructo, 258, 262 y variabilidad, 66, 71, 100-102, 116
Estadística, 34, 54, 66, 164, 167-168, 174, 180, Flanagan y Guttman, ecuación de, 90, 94-95,
189, 205, 299, 341-342, 347, 357, 416 130
Estadístico, 29, 31, 41, 60, 66, 69-71, 87, 165- fMRI (Imagen Funcional por Resonancia Mag-
179, 244, 249, 341, 342, 349, 379, 387, 389, nética), 21
392, 397 Formas paralelas, 63, 84-85, 105-107
Fracción de de fiabilidad, 78-80, 81-82, 86-90, 123-125,

falsos negativos/positivos, 269, 271-276, 129-137, 141-151, 233, 239
287-290 GFI (Goodness of Fit Index), 264
verdaderos negativos/positivos, 268, 271- RMSEA (Root Mean Square Error of
274, 289-290 Approximation), 264
Función Información
característica del ítem binario, 302 cantidad de, 324, 331, 339, 348, 354, 357,
característica del test, 308, 309, 311 359, 361, 364
de información del ítem, 353-357, 359, cota superior de la, 358
367, 373, 374 de Fisher, 348, 357, 364-365, 396
de información del test, 353-354, 357-366, funciones de, 339, 348, 354-367, 371-376
371, 373, 375-376 Interpretación de las puntuaciones
de respuesta referidas a la norma, 418
para un ítem binario, 302 referidas al criterio, 418
para un vector de respuesta, 302, 330- Intervalos de confianza, 159-164, 179, 248-
331, 345 249, 348
de verosimilitud, 342-349 Ítem/s
Funcionamiento diferencial del ítem (véase DIF) análisis diferencial de (véase DIF)
Generalizabilidad, teoría de la, 141, 183-207 bancos de, 296, 367-368
Grupo normativo, 39-40, 124, 149, 166, 294- curva característica del (véase Curva carac-
295, 417-418, 426 terística del ítem)
Hipótesis dicotómicos, 123, 130, 135, 309-310, 316,
alternativa, 165, 173-174, 177-178 327, 330, 339-340, 344, 349, 354, 374,
de nulidad de errores, 54 384
del modelo de Spearman, 54-59 independencia de (véase Independencia)
nula, 69-71, 82, 165, 167, 170, 171, 173- función de información del (véase Función
178, 251, 386-387, 396 de información del ítem)
Hoyt, ecuación de, 131-132 peso óptimo (véase Ponderaciones de los
Independencia ítems/pesos óptimos)
entre ítems, 41, 300-301, 317 redacción de los, 47, 48, 217
entre sujetos, 300-301 Kuder-Richardson, ecuaciones de, 123, 125,
local, 297, 299-301, 304-305, 317, 327, 339 145
muestral, 417 Logits, 326, 329, 333, 337, 390, 426
Índice/s Matrices, 80, 219, 220, 251, 257-259, 397
AGFI (Adjusted Goodness of Fit Index), Medición
264 axiomas, 406, 409, 416
de asimetría, 33-34 conjunta, 411
de dificultad, 323-324, 336, 341, 346, 365, directa, 210, 409-411
378, 425 estable, 417
de discriminación, 321-322, 324, 327-328, indirecta, 409-411
330-331, 336, 338, 341, 346, 356, 359, problemas de la
363, 366-367, 379-380 representación, 403, 406-407
significado, 403, 406, 408-409 de Variables Latentes (LVM), 44-45

unicidad, 403, 407-408 factorial simple, 41
y experimentación, 19-20, 22 LCM (de clases latentes), 45
Medidas lineales/no lineales, 38-45
congenéricas, 65 logísticos, 43-44, 297, 317, 325-336, 338-
de 339, 340, 346, 356, 358-367, 397
agresividad (véase Cuestionarios) logístico lineal, 340
asimetría (véase Índice de) LPM (de perfiles latentes), 45
correlación, 26, 29-30 LTM (de rasgo latente), 45
covarianza, 29-30 ojiva normal, 42, 297, 316-318, 325, 327,
dispersión: desviación típica, varian- 331, 341, 354
za, 29, 31-33 multidimensionales, 44, 297-298, 341
impulsividad (véase Cuestionarios) TRI (de la Teoría de la Respuesta al Ítem),
tendencia central, media, mediana, 39, 41-44, 211, 294-312, 316-349, 358-
moda, 29, 31-33 361, 364-369
físicas, 76, 78, 273 Multirrasgo-multimétodo, 257-259
paralelas (véase también paralelismo) Normas
correlación entre, 61-64, 67-68, 70-72, centiles (véase Escalas)
78-81, 87-89, 100, 105-106, 125- del test, 21, 38, 47, 49, 213-216, 378, 418,
126, 169, 173 419, 423
definición de, 60 Objetividad específica, 417
tau-equivalentes, 64-65, 80 Odds ratio, 384-386, 388-391
MEG (magnetoencefalografía), 21 Origen de la escala, 36, 38, 56-57, 155, 248,
Mensurable, 405 (véase también métrico) 310, 312, 336, 412, 414, 418-419
Método/s Paralelismo
de estimación (véase Estimación) condiciones, 60-61, 64, 80-81, 84-86, 88,
de Mantel-Haenszel (véase DIF) 106, 107, 108, 117-118, 125-126, 130,
de Westen y Rosenthal, 256 146-147, 149
psicofísicos, 20-21 comprobación, 65, 69, 72
Métrico/a, 45, 311, 317, 337, 368, 402-404, Parámetros, 29, 43-44, 49, 66, 250, 264, 295,
405, 414, 425 296, 297, 317-320, 323, 325-327, 330-336,
en funciones de información, 372-373, 374 338, 343, 346-349, 356, 358-361, 364-367,
espacios métricos, 404-405 370, 371, 390, 394-397, 417, 423, , 425, 426
Modelos PET (Tomografía de Emisión de Positro-
de crédito parcial, 44 nes), 21
de error binomial, 42, 340 Ponderaciones de los ítems/pesos óptimos,
de Poisson, 42, 211, 340, 417 363-374
de Rasch, 43-44, 295, 297, 335-342, 397, 417 Pronóstico mediante
de respuesta continua, 340 regresión lineal simple, 154-156, 247, 248
de respuesta graduada, 44, 339 lineal múltiple, 250-253
de respuesta nominal, 339-340 logística, 382, 390
de Spearman, 22, 39-42, 54-61, 92, 153, 233 por pasos, 253
regresiones parciales, 252 continua, 273-274, 340

intervalos de confianza, 159-164, 248-249, dicotómica, 28, 44, 46, 301, 302, 308, 418
348 formato de, 22, 261, 262, 378
batería de predictores, 250-253 funciones de (véase CCI)
Psicofísica, 20, 273, 404, 414 multiple/multicategórica/politómica, 26,
Psicometría 44, 46, 273, 339
antecedentes/definiciones y desarrollo de patrón de, 303-305, 330, 331, 345
la, 20-27, 402-404 tiempo de, 21, 221
Puntuación/ones vector de, 302, 303, 330-331, 345
diferenciales, 154-155, 159, 248 Rulon, ecuación de, 91-95, 130
directas, 37-38, 154-155, 159-160, 162, 171, Selección de variables predictoras, 252-253
248, 417-418, 422 Sensibilidad del test, 270-276
estandarizadas, 37-38, 419, 422 Señal/ruido, 20, 192-199, 201, 273
normalizadas, 38, 421-422 Separabilidad, 417
tipificadas, 36-37, 154-155, 160-162, 248, Sesgo
419, 424 en la evaluación del constructo, 379, 382
universo, 41, 184-185, 191 en los ítems, 296, 378-379, 382-389, 394,
verdadera, 42, 54-72, 78, 80, 82, 153-159, 396-398
161-164, 185, 198, 211, 232-234, 309- en los tests, 378-379, 392, 394-398
311, 423, 425 equidad, 225, 378
Rasgo/s Sistemas isomorfos, 407
espacio del, 297-298, 317 Spearman-Brown, ecuación de, 104-115, 146-
latente/latencia del, 42, 44-45, 47, 294-295 149
multidimensional, 44 Tablas de Taylor-Russell, 279-284, 287
nivel en el, 36-39, 47, 294, 297, 303, 305, Tasa base, 269, 273, 279-284, 287
311-312, 324, 329-334, 337-338, 369, Tasa de aciertos, 269-270, 279
378, 382-383 Técnicas de imagen, 21
unidimensional, 44, 297-299, 306, 327 Teoría
Razón de la generalizabilidad, 184-205
de selección, 280-284, 287 débil de las puntuaciones verdaderas, 185,
de verosimilitudes, 394, 397-398 340
Red nomológica, 219, 224, 253, 255-256 fuerte de las puntuaciones verdaderas, 340
Regresión (véase Pronóstico mediante) TCT (Clásica de los Tests), 40, 41, 43, 45-47
Relación TRI (de la Respuesta al Ítem), 42-47, 294-
predictor y criterio, 232-234, 243, 270 305, 315-352 (véase también Modelos)
fiabilidad, longitud y varianza, 116-119 Test/s
Respuesta Adaptativos Computarizados (CAT), 368
abierta, 28 administración, 48-49, 301, 368, 369, 378,
categórica (véase también Likert), 28, 262, 392
276, 339, 414 construcción, 21, 23-24, 35-36, 42, 46-48,
cerrada, 28 67, 85, 90, 110, 213-214, 217, 225,
comparativa, 414 230-232, 294, 298, 378, 392
compuestos, 22, 23, 80, 104, 107, 118 de contenido, 213-218, 230-231, 236
de Mantel-Haenszel (véase DIF) de criterio, 211-213, 218-219, 246-253, 256,
de potencia, 28 268-270, 276-279, 282
de Stanford-Binet, 25, 419 de la estructura interna, 223, 260-263
de velocidad, 28, 145 definición de, 209-212, 231-232, 243
eficacia del, 269, 271-272, 369-372 discriminante, 218-220, 253-260
especificidad, 225, 270-276 empírica, 212-214, 233-236
paralelos, 66, 105, 107, 116, 118, 170 en los procesos de respuesta, 221-222
psicológicos, 20, 36, 213, 282, 403 factorial, 212-213
psicométricos, 22, 39, 42, 103, 164, 289 predictiva, 212-213, 232, 255
referidos a la norma, 27-28 tipos, 211-215, 222-223
referidos al criterio, 27-28 y fiabilidad, 232-240, 258
sensibilidad (véase Sensibilidad del test) y longitud, 236-239
test-retest, 83-84, 86, 88, 134, 145, 168 y representación muestral, 243-247
Transformación/ones Valor
lineal, 38, 65, 328, 333, 390, 408, 413, 415, de corte, 197, 273-275
419, 424, 426 predictivo, 242-243, 271-273, 279
admisibles, 38, 312, 326, 328-329, 336, 405, Valores propios, 143, 145
407-408, 414-415, 418, 425 Variabilidad
monótonas, 407, 415, 418 atribuible al error, 66-68
logarítmicas, 426-427 de las puntuaciones, 28-34, 66-68, 100-103,
en los parámetros, 328-329, 333, 336, 347 243
Unidad de medida, 35-38, 155, 312, 414, 419 Variable latente, 45, 317
Unidimensionalidad del rasgo, 297-299 Variables métricas, 45
Universo Variaciones de la fiabilidad, 105, 108, 144-147
de generalización, 41, 185 Varianza
de ítems, 184-188 de las puntuaciones observadas y de las
de observaciones admisibles, 184 verdaderas, 54-68, 82, 116-118, 153-
Utilidad, análisis de, 284-290 164
Validez de los errores, 57, 59-65, 82, 93, 101-102,
aparente, 217-218 116, 118, 147-148, 156-159, 198, 243
coeficiente de, 230-231, 235, 256-259, 276- partición de la, 189-190
284 WAIS, 27, 419
acotaciones del, 239-240 Verosimilitud/es
concurrente, 212, 213, 222, 232 máxima (véase Estimación de máxima vero-
convergente, 218-219, 253-260 similitud)
de constructo, 213-215, 220, 223-226, 256- razón de, 394, 396-398
257, 259-260 WISC, 27, 419

Principios de Psicometría - Carmen Santisteban Requena PDF

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Principios de Psicometría - Carmen Santisteban Requena PDF

Hochgeladen von

Copyright:

Verfügbare Formate

Consulte nuestra página web: www.sintesis.com

CARMEN SANTISTEBAN REQUENA

Reservados todos los derechos. Está prohibido, bajo las sanciones

© Carmen Santisteban Requena

Impreso en España - Printed in Spain

1. Psicometría y teoría de tests: Introducción 19

1.4. Tipos de tests 27

1.6. La interpretación de las puntuaciones 35

1.7. Teorías y modelos 39

2. Teoría clásica de los tests 53

2.2. Relaciones e índices que se deducen de las hipótesis 55

3.3. Formas usuales de generar medidas repetidas 83

3.4. Cálculo práctico de los coeficientes e índices de fiabilidad 86

4.3. Relaciones entre fiabilidad, longitud y varianza 116

5.2. El coeficiente α: Cota inferior de la fiabilidad en tests compuestos 125

5.4. El coeficiente β 136

5.7. Variaciones de la fiabilidad 144

Puntos clave 149

6.3. Intervalos de confianza para la puntuación verdadera 159

6.5. Significación e inferencias de los coeficientes de fiabilidad 173

Puntos clave 179

7. Teoría de la generalizabilidad 183

7.3. Estudios D 196

7.4. Diseños anidados versus diseños cruzados 204

8.4. Asociaciones con otras variables: Evidencias de validez convergente

9.3. Validez relativa al criterio 247

9.4. Evaluación de la validez convergente y discriminante 253

9.5. Validez de la estructura interna del test 260

10. La validez 267

10.2. Interpretaciones y uso práctico del coeficiente de validez 276

10.3. Análisis de la utilidad 284

11. Teoría de la respuesta al ítem 293

11.3. La puntuación verdadera y la escala de aptitud 310

12. Teoría de la respuesta al ítem 315

12.2. Significado de los parámetros ai y bi 319

12.4. El modelo de Rasch 335

Puntos clave 350

13. Teoría de la respuesta al ítem 353

13.2. Las funciones de información en diferentes modelos 358

13.4. Eficiencia relativa 369

14. El sesgo en los tests 377

Consistencia interna 380

14.2. El método Mantel-Haenszel para estimar el DIF 384

14.3. Estimación del DIF haciendo uso de las CCI 392

15. Medición y psicometría 401

15.4. Medición directa e indirecta 409

15.6. Interpretación de las puntuaciones: Escalas y normas 417

Puntos clave 427

Índice de contenidos 445

Los avances científicos y tecnológicos están cimentados en la cuantificación y en la

de forma monótona hasta alcanzar un nivel en el que, si se quiere ir más allá, no

en el significado de la medición psicológica, de sus orígenes y desarrollo, inci-

En los capítulos 11 al 13 se presenta la teoría de la respuesta al ítem. Los con-

ã Los inicios de la psicología como ciencia cuantitativa.

m1.1. Cuantificación y experimentación: Los iniciosm

La psicología cuantitativa y experimental se puede decir que empieza con la publi-

comúnmente se consideran válidos en Ciencia, y son los que Fechner adopta

mientos de medición y han dado normas para la interpretación de las medidas

m1.2. Los fundamentos de la psicometríam

La psicometría es un campo de conocimiento cuyo nombre, compuesto por psi-

En la literatura también se dan definiciones de la psicometría por extensión,

m1.3. La medición de las aptitudes mentalesm