Módulo Medicion Psicologica

Toms Caycho Rodrguez
Sergio Domnguez Lara
MEDICIN PSICOLGICA
TOMAS CAYCHO RODRIGUEZ

SERGIO DOMINGUEZ LARA
UNIDAD I
MEDICIN PSICOLGICA
LECCIN I
CONCEPTO DE MEDICIN Y SISTEMA NUMRICO
1. MEDICIN
1.1 Concepto
La medicin es un concepto bsico y fundamental en todas las

ciencias, siendo ms difcil de establecer en las ciencias sociales y del
comportamiento que en las ciencias fsicas. La definicin ms
difundida y popular acerca el concepto de medicin, dice que sta, en
un sentido amplio, es la asignacin de numerales a caractersticas de
los objetos, personas o eventos de acuerdo a un conjunto de reglas
establecidas (Stevens, 1951, 1970). Por otro lado, Nunnally (1987)
hace referencia a la medicin como la asignacin de nmeros para
representar las propiedades de los sistemas materiales en virtud de
leyes que rigen estas propiedades. As por ejemplo, no medimos un
rbol en s, ms bien medimos su altura, su peso, el dimetro de su
tronco, etc. (Cortada de Kohan, 1994), es decir, medimos
propiedades de los objetos que se prestan a la observacin emprica
o, mejor an, indicadores de las propiedades de los objetos.
En resumen podemos decir que medir es brindar la magnitud de

cierta propiedad de uno o ms objetos con ayuda del sistema
numrico (Magnusson, 1972). Como se observa hay muchos trminos
importantes implicados en la definicin de medicin, los cuales
trataremos de dilucidar con ms profundidad.
El concepto propiedad o atributo que caracteriza a personas y

objetos, es de importancia en el proceso de medicin. En primer
lugar, cada objeto tiene variadas y diferentes propiedades; los
objetos fsicos poseen propiedades como longitud, peso y volumen;
los seres humanos, adems de esas propiedades, poseen, por
ejemplo, pensamiento, alegra, memoria, angustia, motivacin. As,
para que la medicin pueda llevarse a cabo, es necesaria una clara
concepcin de la propiedad, as como de una clasificacin rigurosa y
especfica de ella.
Algunas propiedades son sencillas de medir, pues sus indicadores no

ofrecen dificultad para ser identificados y en donde las reglas para
asignar nmeros puede ser fcilmente formulados. Por ejemplo, la

longitud de un cuerpo es un atributo que puede medirse siguiendo
reglas sencillas. Caso contrario ocurre en la medicin de atributos
psicolgicos que requiere un mayor grado de dificultad. En este caso,
lo que se va a medir est en ntima relacin con la concepcin que se
tenga del atributo. Si el atributo es definido de diferentes maneras
(como es el caso de algunas variables comportamentales que son
definidas, por ms de una teora, de manera distinta) es una
consecuencia lgica que las medidas que se obtengan expresaran
esas diferencias.
Por otro lado, el trmino numeral hace referencia a smbolos, tales

como 1, 2, 3 I, II, III o A, B, C; que comprenden al nmero,
expresando la cantidad en relacin a una unidad (Alarcn, 2008). Por
otro lado, las reglas, empleadas para la asignacin de los numerales,
hacen referencia a los procedimientos o lineamientos que se deben
seguir para representar numricamente las caractersticas del objeto
que se est midiendo (Cohen & Swerdilk, 2000).
1.2 Sistema numrico empleado en la medicin psicolgica
El sistema numrico que se emplea en la medicin es el concerniente

a los nmeros reales, los cuales evidencian las siguientes
caractersticas:
a. Origen: La serie de nmeros (1, 2, 3,n) tiene un origen nico

llamado cero (0). La diferencia entre cualquier par de nmeros, en
donde el 0 es uno de los miembros es igual al nmero del otro
miembro. As por ejemplo: 8-0 = 8.
b. Orden: Los nmeros estn ordenados de mayor a menor (despus

del 1 viene el 2, etc., o 1 < 2 < 3, etc.).
c. Distancia: La diferencia entre dos nmeros tambin se encuentran

ordenadas, es decir, la diferencia entre dos pares de nmeros
puede ser mayor que (5 es mayor que 2), igual que (2 es igual
que 2), o menor que (3 es menor que 6). Por ejemplo:
6-3 > 5-3

8-6 < 8-5
6-3 = 7-4
An as, los fenmenos pueden no satisfacer todas las propiedades

de los nmeros pero an as permitir realizar ciertas operaciones con
los mismos. Es decir, existe en la medicin ciertos grados de

perfeccin de acuerdo con la exactitud con que las variables a medir
cumplen con las propiedades lgicas de los nmeros (Cortada de
Kohan, 1994).
De acuerdo con Cortada de Kohan (1994), son nueve postulados

bsicos, agrupados en tres categoras (identidad o equivalencia,
orden jerrquico y aditividad) empleados en la medicin:
a. Postulados bsicos de identidad o equivalencia:
1. a = b o bien a b. Los nmeros son iguales o diferentes.

2. Si a = b entonces b = a. Es decir, la relacin de igualdad es
simtrica.
3. Si a = b y b = c, entonces a = c. Es decir, dos cosas iguales a
una tercera son iguales entre s. A este postulado se le
denomina transitividad.
b. Postulados relativos al orden jerrquico.
4. Si a > b luego b < a. L relacin mayor que es asimtrica.

5. Si a > b y b > c entonces a > c, estamos hablando de una
propiedad transitiva.
c. Postulados relativos a la aditividad.
6. Si a = p y b > o, entonces a + b > p, lo cual indica la

posibilidad de sumar.
7. Si a + b = b + a, evidencia que el orden de los sumandos no
afecta el resultado.
8. Si a = p y b = q, entonces a + b = p + q. Es decir, los objetos
idnticos pueden ser sustituidos.
9. (a + b) + c = a + (b + c). Es decir, el orden de las
asociaciones no produce diferencias en el resultado.
Las caractersticas y postulados del sistema numrico pueden

evidenciarse mejor con la nocin de isomorfismo. Podemos establecer
una relacin isomorfa cuando se establece una correspondencia
unvoca entre los elementos de dos conjuntos. As, el conjunto A, B, C
y D, es isomorfo al conjunto 1, 2, 3 y 4 cuando ambos tienen la
misma cantidad de elementos. Asimismo, cada uno de los elementos
de un conjunto puede ser sustituido por los elementos del segundo
conjunto.
Algunos autores plantean el problema del isomorfismo en los

trminos siguientes: Tiene los procedimientos de medicin que se
usan, correspondencia racional o emprica con la realidad? (Kerlinger,
1965). Kerlinger agrega, que la nica dificultad del isomorfismo es
que pocas veces descubrimos el grado de correspondencia de
nuestras mediciones con la realidad. Lo anterior es importante, si
tenemos en cuentan que bajo el trmino inteligencia se midan slo
algunos de sus factores o la totalidad de ellos.
Es posible tambin plantear la existencia de isomorfismo a) entre un

atributo y los indicadores que lo representan; b) entre un sistema
ordenado de tems (test) y la conducta que se pretende medir y; c)
entre la estructura de la medicin y la estructura numrica, de modo
que los nmeros sean susceptibles de anlisis por medio de
operaciones (Alarcn, 2008).
Finalmente, Cortada de Kohan (2000) muestra que la medicin en

ciencia responde a la siguiente categorizacin:
a. La medicin fundamental o medicin de magnitudes. Aqu, los

nmeros se asignan de acuerdo a las leyes naturales que
representan la propiedad misma. As tenemos que, la longitud y el
volumen poseen un significado constitutivo y no suponen la
medida de ninguna otra variable.
b. La medicin derivada. Esta categorizacin muestra que la

caracterstica de una escala tiene sentido a travs de leyes que
permiten relacionar una propiedad con otras. Ejemplo de esto, es
la densidad de una sustancia que es producto de la relacin de la
masa y el volumen.
c. La medicin por fiat. Esta referida a la definicin arbitraria que

depende de relaciones supuestas entre las observaciones y el
concepto. Los ndices, como el nivel socioeconmico y el cociente
intelectual, empelados en ciencias sociales y psicologa
respectivamente, son adecuados ejemplos de este tipo de
categorizacin.
Con todo lo revisado acerca de la medicin en las ciencias en general,

podemos decir que la medicin de atributos psicolgicos requiere mayor
grado de dificultad, ya sea porque a menudo una misma propiedad no es
definida por los mismos indicadores, o porque se pone nfasis en
algunas caractersticas a comparacin de otras.
En psicologa, medir es brindar magnitud a cierta propiedad o atributo,

por ejemplo, la inteligencia o el razonamiento verbal, de una o ms
personas, con ayuda del sistema numrico. As, en psicologa, se busca
medir atributos que no son fsicos ni directamente observables. De la
medicin en psicologa nos ocuparemos en la siguiente leccin.
Fig. 1. Ejemplo de medicin de atributos psicolgicos del ser humano

LECCIN II
MEDICIN PSICOLGICA
"Cuando puedas medir aquello de lo

que hablas, entonces puedes pensar
que sabes algo acerca de ello
(Thomson, 1891)
2. Medicin psicolgica
2.1 Psicometra
La psicometra, en sentido amplio, se define como un conjunto de

mtodos, tcnicas y teoras implicadas en la medicin de las variables
psicolgicas. Como su nombre indica, tratara de todo aquello
relacionado con la medicin de lo psicolgico (Muiz 1996).
Entonces, se puede decir que la psicometra es la disciplina que se

encarga de la medicin de los constructos y comportamientos
observables de naturaleza psicolgica. Dicha forma de generar
conocimiento presenta dos funciones, terica y prctica.
En lo que respecta a la funcin terica, se encarga de realizar el

estudio de la medida y sus posibilidades en el campo psicolgico,
justificndola y legitimndola por medio de procedimientos aceptados
por la comunidad psicolgica en general. Por otro lado, la funcin
prctica est referida a la aplicacin de esos conocimientos al estudio
de aspectos psicolgicos concretos, tanto en la cuantificacin como
en la instrumentacin.
En resumen, en psicologa, se trata de medir aspectos que no son

fsicos ni directamente observables, en donde medir es brindar la
magnitud de ciertas propiedades o atributos, como la inteligencia o la
extraversin de una o ms personas, con apoyo del sistema
numrico. As, la medicin en psicologa, establece una serie de
condiciones o parmetros que permitir representar los constructos o
caractersticas psicolgicas por medio de indicadores objetivos y a
stos por la asignacin de nmeros. Ahora bien, como vimos en la
leccin 1, no todas las propiedades que medimos son perfectamente
isomrficas con los nmeros, lo que puede derivar en una mayor o
menor perfeccin. Esto, junto con la posibilidad de que los nmeros

pueden llevar diversa informacin, hace conveniente distinguir entre
los diferentes niveles de medicin, los cuales se diferencian por la
cantidad de informacin que llevan los nmeros que representan las
caractersticas personales a evaluar (Magnusson, 1972).
2.2. Niveles o escalas de medicin
Retomando lo referido en la primera leccin, se entiende a la

medicin como la atribucin de nmeros a las caractersticas de los
objetos para representar cantidades de dicho atributo. En ese
sentido, la asignacin de nmeros debe estar basada en un objetivo,
el cual gue dicho accionar y garantice un uso adecuado del sistema
numrico. Para dicho fin existen cuatro niveles o escalas de medicin:
nominal, ordinal, de intervalo y de razn.
2.2.1. Escala Nominal
En este tipo de variables los nmeros slo se usan para

representar una relacin de identidad, pertenencia o de
diferencia. Los nmeros utilizados slo informan de la igualdad o
desigualdad de los individuos en un atributo, pero no de posibles
ordenaciones. Por ejemplo, si para codificar el sexo en una
poblacin al momento de analizar los datos se asigna a los
varones el valor de 1, y a las mujeres el valor de 2, esto no
implica que las mujeres tengan un valor que duplica al de los
varones. Es decir, los nmeros no representan las cantidades, si
no son una forma de identificar las variables funcionando a
modo de etiquetas, y a su vez facilitan el anlisis estadstico al
manejarse por cdigos numricos.
2.2.2. Escala Ordinal
Los nmeros representan relaciones de orden. Esto quiere decir

que los nmeros asignados reflejan distintos grados de la
posesin de determinado atributo o caracterstica, lo cual se
corresponde en cierta medida con la magnitud del nmero. En
este sentido, se les puede asignar nmeros a los atributos para
delimitar cual es mayor. Si se debe que asignar nmeros a los
niveles de depresin que se hallan en una poblacin, se les
puede atribuir de a un nivel alto el nmero 3; a un nivel
promedio, el nmero 2; y a un nivel bajo, el nmero 1. Con esa
asignacin de nmeros se sabe cul es mayor, pero no en qu
medida. Es decir, al igual que en la escala nominal, no se
pueden realizar operaciones aritmticas con los nmeros que

representan los atributos puesto que son solo indicadores de
orden, mas no de magnitud.
2.2.3. Escala de Intervalo
Esta escala es diferente de las otras dos tratadas con antelacin,

puesto que permite determinar cun lejos estn dos personas o
dos cosas respecto a un atributo, debido a que permite saber la
magnitud de la diferencia. No tiene un punto cero fijo que
admita la ausencia de dicha variable medida, ya que es un es un
punto arbitrario en el continuo, es decir, no indica la ausencia de
una caracterstica, sino un punto conveniente del cual se marcan
intervalos de igual magnitud. Una forma de manifestacin de
esta escala en la medicin psicolgica se encuentra en las
puntuaciones directas de un evaluado en los test psicolgicos,
como los test que evalan el cociente intelectual (Ver tabla 1)
Tabla 1
Descripcin de las puntuaciones y categoras del cociente
intelectual (elaboracin propia)
CI= EM/EC x 100 CATEGORA
130 - ms Muy superior
120 - 129 Superior
110 - 119 Normal brillante
90 - 109 Promedio
80 - 89 Normal lento
70 - 79 Fronterizo
69 - menos Deficiente mental
2.2.4. Escala de Razn
Presenta las mismas caractersticas que la escala de intervalo,

pero adems posee un punto cero fijo, es decir, un cero
absoluto que indica la ausencia de la caracterstica en dicha
persona u objeto. Son muy escasas las variables psicolgicas

que admiten este tipo de escala, ya que la mayora que se
sustentan bajo este punto son variables del campo de las
ciencias naturales, como las medidas de longitud, de peso, de
tiempo, etc.
Teniendo en cuenta todo lo anterior sealado, podemos decir que el

propsito de la medicin en psicologa es brindar una base objetiva, exacta
y comunicable que permita describir, diferenciar y clasificar diversas
caractersticas y conductas de las personas. Los instrumentos que se
utilizan en psicologa para la medicin de los atributos psicolgicos son los
test psicolgicos. As, la medicin con test psicolgicos tiene como objetivo
determinar la posicin de un individuo en relacin con otros individuos. Este
propsito se basa en el principio de las diferencias interindividuales, que
reconoce no solamente diferencias fsicas, sino tambin psicolgicas entre
las personas.
De los test, su clasificacin y funciones, consistes en medir diferencias entre

los individuos o entre las reacciones del mismo individuo en distintas
ocasiones (Anastasi, 1978), nos ocuparemos en la leccin 3.
LECCIN III
DEFINICIN, OBJETIVO, CLASIFICACIN Y

CARACTERSTICAS DE LOS TESTS. APLICACIN DE LAS
PRUEBAS EN LA MEDICIN DE LA INTELIGENCIA Y
PERSONALIDAD
1. Test Psicolgico
En la actualidad, cuando hablamos de evaluacin casi siempre nos

referimos a la aplicacin de test que brinden datos cuantitativos y que se
complementan con informacin derivada de la observacin sistemtica
de la conducta o entrevistas, ya sea individual o grupal, a nios, padres,
profesores, etc. El empleo de test hace que el proceso de evaluacin sea
ms objetivo.
1.1 Concepto
El primero en emplear la palabra test fue el psiclogo estadounidense

James McKeen Cattell, en un artculo publicado en 1890. El trmino
ingls Test puede traducirse como prueba, probar, comprobar.
La bibliografa especializada en medicin psicolgica seala diversas
definiciones, entre las que podemos sealar:
a. Una prueba o test psicolgico constituye una medida objetiva y

tipificada de una muestra de conducta (Anastasi, 1978).
b. Un test psicolgico es una situacin estndar elaborada con el fin
de evaluar una muestra especfica del comportamiento del
individuo (Kline, 1986).
c. Es un procedimiento de medicin diseado para medir una variable
(Cohen & Swerdlik, 2000).
d. Es un instrumento psicolgico de medicin, caracterizado por un
procedimiento sistemtico y tipificado en el cual una persona
examinada se enfrenta con un conjunto de estmulos a los cuales
debe responder (Cortada de Kohan, 2000).
A partir del anlisis de estas definiciones podemos considerar que un

test es un procedimiento sistemtico y estandarizado, estructurado
por un conjunto de reactivos, seleccionados y organizados,
destinados a medir alguna caracterstica, cuantitativa o cualitativa,

del comportamiento de una persona.
Veamos cada uno de los trminos involucrados en el concepto de

test. Primero, cuando hablamos de un procedimiento sistemtico y
estandarizado, hacemos referencia a la uniformidad en el
procedimiento de aplicacin y calificacin del test. As, las condiciones
de aplicacin y calificacin han de ser iguales para todos. El conjunto
de reactivos hace referencia a una muestra del universo de conductas
que expresan la variable a medir. Por ejemplo, en un test de
rendimiento lgico matemtico para el 5to grado de primaria, los
problemas lgicos matemticos que se pueden presentar al nio son
muchos, de los cuales en el test solamente aparecern un porcentaje
(40 o 50 por ejemplo) que servirn de estmulos antes los cuales el
alumno deber responder (Cortada de Kohan, 2000). El test es ms
que cada uno de sus elementos (reactivos o tems). As, la evaluacin
de una variable, se da sobre el conjunto de tems que integran el
test. Las respuestas a los estmulos permitirn asignarles valores
numricos para que se puedan establecer inferencias numricas
acerca del grado en que el examinado posee tal o cual habilidad (en
nuestro ejemplo, habilidad lgico-matemtico) que el test mide
(Cortada de Kohan, 2000).
1.2 Objetivo del test psicolgico
Aqu se trata de responde a la pregunta qu es lo que mide el test

psicolgico? As, el objetivo bsico de un test consiste en medir
diferencias entre las personas o en la misma persona en diversas
situaciones, y que son utilizados para fines diversos. La formulacin
de este objetivo tambin se relaciona con la declaracin explcita de
los lmites que el test se autoimpone.
Por ejemplo, la finalidad del TSA Test de desarrollo de la

morfosintaxis en el nio (Aguado, 2005), es evaluar los elementos
sintcticos que determinan funciones semnticas secundarias
nominales (singular-plural, masculino-femenino, etc.) y verbales
(morfemas de modo y tiempo), as como algunos elementos de
superficie que unen proposiciones. Tambin evala ciertos elementos
sintcticos que determinan funciones semnticas primarias
(pasividad, negacin, etc.), pero slo roza lo que ha dado en llamarse
la gramtica de casos (roles de agente, paciente, poseedor, etc.).
Estos estn presentes en los tems, claro est, ya que las frases
propuestas significan algo. Pero lo que se pretende explorar es la
estructura formal de las fases en las dos vertientes de comprensin y

expresin.
1.3 Clasificacin de los test psicolgicos
Existen diversos tipos de test que miden una amplia gama de

caractersticas psicolgicas. Podemos observar una variedad de
clasificaciones de los test sin que exista un esquema clasificatorio
finito de categoras que permita integrar los diferentes tipos, teoras y
objetivos de los test. Algunas clasificaciones emplean criterios
metodolgicos para clasificar los diferentes tipos de test, mientras
que otros se basan en la finalidad, los rasgos que mide o en el
contenido.
En funcin del contenido que miden, Cronbach (1972) propone la

siguiente clasificacin de los test:
a. Test de Rendimiento Mximo. Aqu tenemos a los test de

inteligencia, que intentan establecer la ejecucin mxima del
sujeto. Este tipo de test hace referencia a los denominados test
psicomtricos (siguiendo un criterio de clasificacin metodolgico).
Dentro de esta clasificacin, se englobaran tres grandes tipos:
Test de inteligencia general. Se basan en una concepcin

unitaria de la inteligencia. Estos test pueden contener elementos
de tipo simblico o verbal (como analogas, series de nmeros,
vocabulario, frases incompletas, etc.), de tipo grfico
(laberintos, comparacin de rostros, trazado de lneas, etc.) o
tambin de tipo manipulativo (rompecabezas, repeticin de
ritmos, manipulacin, cubos, etc.). Estos test buscan estimar las
funciones mentales, con predominio de elementos referidos a
los procesos cognitivos superiores. Por lo general, su aplicacin
es individual, y sus normas de valoracin toman como referencia
la edad cronolgica, de la que se extrae una puntuacin global
de inteligencia (cociente intelectual, CI). Los ms famosos test
de inteligencia son las escalas de Wechsler para preescolar y
primaria (WPPSI), nios (WISC) y adultos (WAIS). Otros test de
uso ms reciente son el TONI-2 de Browh, Sherbeou y Johsen y
el (Tabla 1).
Tabla 2
Descripcin de test utilizados para la obtencin del CI (Adaptado
de Muoz y Garca, 2006 p. 91)
WISC-R K-BIT TONI-2

Autores D. Wechsler A. S. Kaufman y N. L. Browh, R. L.
(2001). L. Kaufman (1999). Sherbenou y S.
K. Johsen
(1995).
Descripcin Medida de la Medida de la Medida de la

inteligencia inteligencia verbal, inteligencia
general. matrices y general. general
(matrices).
Aplicacin Individual. Individual. Individual y en

grupos
reducidos.
Tiempo Variable entre

20 minutos. 20 minutos.
aproximado 60 y 90 minutos.
Test de aptitud general o aptitudes especficas. Estos test

pretenden predecir el xito acadmico o profesional, siendo
empleados en su mayora en seleccin de personal y orientacin
vocacional. Ejemplos de estos test son el PMA o Test de
Aptitudes Mentales Primarias de Thurstone y el DAT o Test de
Aptitudes Diferenciales de Bennett, Seashore y Wesman. Los
test de aptitudes permiten medir caractersticas especficas de
la inteligencia, ya sea tomando la forma de a) test o bateras de
aptitudes generales (por ejemplo, el PMA), que suelen basarse
en teoras de la inteligencia fundamentadas en el anlisis
factorial, o b) test de aptitudes especficas, que exploran
aptitudes mecnicas, burocrticas, artsticas, creativas, etc.
Test de rendimiento acadmico o escolar. Estos test permiten

conocer los logros acadmicos del alumno, y controlar los
efectos de determinados tratamientos o programas escolares.
Entre estos test tenemos los Test de Aprendizaje Escolar para
tres niveles acadmicos (TEA-A, TEA-2 y TEA-3), el BADIG,
BETA y el test EVALA (vase tabla 2). Los test de rendimiento
mximo pueden clasificarse en test de nivel, velocidad o mixtos.
Los primeros buscan establecer el nivel mximo de dificultad al
que puede llegar la persona. Los test de velocidad, permiten una
evaluacin de la rapidez para ejecutar tareas determinadas;
mientras que los mixtos, que son los ms utilizados, buscan
medir los dos aspectos anteriores, estableciendo un mximo de

tiempo para la solucin de los tems o preguntas.
El diseo de una prueba de rendimiento puede responder a tres

propsitos principales: Primero, para diagnosticar las fortalezas
y debilidades referidas a ciertas capacidades. Segundo, para
evaluar, en tanto la calificacin obtenida evidencia el grado de
aprendizaje y asimilacin de los conocimientos a lo largo de una
asignatura. Tercero, como prerrequisito para saber si un
determinado sujeto se encuentra apto para ascender a un nivel
de mayor complejidad en el conocimiento.
Tabla 3
Evaluacin de la competencia escolar mediante test (Adaptado
de Muoz y Garca, 2006 pp. 92-93)
Test Autor(es) Alumnos Observaciones

1er y 2do Miden, adems
Yuste
BADYG-1 grado de de los
(1999)
primaria conocimientos
3er y 4to acadmicos, un
Yuste
Test BADYG (Batera BADYG-2 grado de factor g de
(1999)
de aptitudes primaria inteligencia,
diferenciales y distinguiendo la
generales) madurez
5to y 6to
Yuste intelectual
BADYG-3 grado de
(1999) verbal y no
primaria
verbal.
Factor verbal-
educativo
(verbal,
numrico,
abstracto y
Para cada
Martn y memoria).
grado desde
Test Beta Ortega Factor tcnico-
1ro hasta 6to
(1996) mecnico
de primaria
(espacial,
mecnico y
atencin-
percepcin).
Aportan
informacin del
Evaluacin
potencial de
Garca y final de cada
aprendizaje,
EVALA Gonzlez uno de los
competencia
(1996) grados de
curricular y
primaria.
conducta
adaptativa.
b. Test de Ejecucin Tpica. Aqu, el objetivo es conocer el

comportamiento habitual de una persona, basado en el supuesto
de la estabilidad de la conducta a travs del tiempo y las
situaciones. As, se solicita al sujeto que emita respuestas de
acuerdo con su comportamiento habitual. Podemos distinguir, los
siguientes tipos:
Inventarios autodescriptivos. Dentro de este tipo podemos

encontrar: a) cuestionarios que intentan detectar sujetos para la
intervencin; b) cuestionarios construidos de acuerdo a criterios
exteriores, generalmente psiquitricos, como es el caso del
MMPI (Inventario Multifactorial de la Personalidad de
Minnessota); c) cuestionarios referidos a los rasgos,
fundamentados en el anlisis factorial; d) cuestionarios de
intereses, empleados con frecuencia en orientacin vocacional,
y e) cuestionarios de actitudes, que tratan de medir la
tendencia a reaccionar ante determinados estmulos.
Test proyectivos. Este tipo de test pretende evaluar la

personalidad buscando establecer un diagnstico mediante un
anlisis cualitativo de las respuestas. Son elementos comunes
de estos test, las escenas, dibujos, manchas de tinta, colores,
palabras, etc. Siguiendo a Fernndez Ballesteros (1980), dentro
de stos test podemos encontrar:
Test estructurales. Aqu, la persona debe interpretar

estmulos visuales poco estructurados (ejemplo, el Test de
Psicodiagnstico de Rorschach, Test Z de Zulliger).
Test temticos. La persona debe inventar una historia
(ejemplo, el TAT o Test de Apercepcin Temtica para
adultos, CAT o Test de Apercepcin Temtica para nios).
Test expresivos. La persona realiza generalmente un dibujo
(ejemplo, el Test de la Figura Humana de K. Machover, Test
del rbol de Kohs).
Test constructivos. La persona debe construir algo (ejemplo,
el Test del Pueblo).
Test asociativos. El objetivo es asociar palabras.
Cortada de Kohan (2000), presenta una clasificacin basada en las

funciones psicolgicas que se miden. Este tipo de clasificacin nos
permitir estudiar los test en un orden, que es similar al orden de su
aparicin histrica.
a. Test de inteligencia general.

b. Test de aptitudes especficas.

c. Test de rendimiento escolar.
d. Inventarios de intereses.
e. Test de personalidad.
f. Tcnicas proyectivas.
g. Escalas de actitudes sociales.
Desde un plano netamente psicomtrico podemos encontrar diversas

clasificaciones, dentro de las cuales Aliaga (2007, p. 89) nos presenta
la siguiente:
Tabla 4.
Clasificacin de los Test Psicomtricos (Adaptado de Aliaga,
2007, p. 89)
CRITERIO CLASIFICACIN
1. Por su forma de dar Orales.
instrucciones. Escritos (aunque en algunos casos
hay que ejemplificar lo que se quiere
que el sujeto realice en la tarea,
como en el caso de personas con
problemas auditivos.
2. Por su administracin Individual.

Colectiva.
Autoadministrada.
3. Por la forma o tipo de Objetivas.

respuesta que exigen Subjetivas.
4. Por el material de la prueba Lpiz y papel

Verbal completamente
De ejecucin (material, manual,
visomotor)
De aparatos especiales
Combinacin de los tres primeros
(Ej.: WAIS)
5. Por su forma de calificacin Manual

Electrnica
6. Por sus edades lmites de Pruebas para infantes (baby test)

aplicacin Pruebas para preescolares
Pruebas para escolares
Pruebas para adolescentes
Pruebas para adultos
7. Por su libertad de ejecucin Pruebas de poder (power test)

Pruebas de rapidez (speedy test)
1.4 Aplicacin de las pruebas en la medicin de la inteligencia

y la personalidad
a. Empleo de los test en la medicin de la inteligencia.
La primera prueba de inteligencia publicada y que proporcionaba,

de forma organizada, instrucciones de aplicacin y calificacin fue
la escala Binet-Simon, elaborada en Francia por Alfred Binet y
Thodore Simon en 1905. Luego de numerosas adaptaciones y
traducciones, fue el trabajo de Lewis Madison Terman, de la
Universidad de Stanford, el que culmin con la versin ms
empleada e investigada alrededor del mundo: Escala de
Inteligencia Stanford-Binet. Pasaremos revista brevemente la
escala en su versin actual.
El objetivo de la escala Stanford-Binet es obtener una medida de la

capacidad intelectual general, que incluye el razonamiento general
y el juicio social. Se puede emplear desde los 2 hasta los 23 aos
aproximadamente, que contiene 15 subpruebas organizadas de tal
manera que expresan cuatro reas de capacidad cognoscitiva:
Razonamiento verbal, razonamiento cuantitativo, razonamiento
visual y abstracto, y memoria a corto plazo (ver tabla 4). El
modelo terico que da fundamento a la escala es la teora de los
factores de Spearman (1932). Desde Charles Spearman publicara
su libro The Abilities of man (Spearman, 1932), se abri un nuevo
camino para la evaluacin objetiva de la inteligencia. A partir del
estudio de las correlaciones entre una serie de test, Spearman
dedujo que estas intercorrelaciones poda atribuirse a un solo
factor comn, al que denomin factor general o g. De acuerdo a
su teora de los dos factores, las puntuaciones derivadas de un test
pueden ser explicadas por dos factores: un factor general y un
factor especfico. As, pueden existir muchos factores especficos
pero un solo factor general. Cuando los test se encuentran muy
correlacionados entre s, se encuentran muy saturados con el
factor g, mientras que cuando las correlaciones son bajas, esto se
explicara en gran parte por los factores especficos (Cortada de
Kohan, 2000).
La capacidad mental, evaluada mediante esta escala, puede

abarcar: 1) capacidades de procesamiento de informacin, 2)
habilidades de planeacin y organizacin, 3) habilidades de
razonamiento y adaptacin, 4) habilidades escolares o acadmicas,
5) capacidades espaciales y de solucin de problemas, y 6)
memoria a corto plazo. La escala ha demostrado ser importante en
la prediccin del xito acadmico a travs de la estimacin del

razonamiento y el juicio social.
Tabla 5.
Descripcin de las subpruebas de la Escala de Inteligencia Stanford-
Binet (Adaptado de Cohen & Swerdilk, 2000, p. 306)
SUBPRUEBA DESCRIPCIN
Razonamiento
Verbal
Vocabulario Consiste en 14 reactivos de vocabulario pictricos (en los
que la tarea del sujeto es identificar el objeto representado)
y 32 reactivos que son palabras que el sujeto define,
palabras que pueden presentarse en forma visual al igual
que oral.
Comprensin Los reactivos varan en dificultad desde identificar partes

del cuerpo hasta hacer preguntas respecto a juicio social,
razonamiento y evaluacin (ejemplo, Por qu deben estar
calladas las personas en un hospital?). Una vez ms, los
reactivos pueden ser ledos al examinado y presentrseles
en forma visual.
Absurdos La tarea del examinado en estos reactivos es identificar lo

que est mal o es ridculo respecto a una ilustracin. Este
tipo de reactivo explora las habilidades de anlisis visual
del sujeto.
Relaciones Verbales Cada uno de estos reactivos presenta al examinado cuatro

palabras, y la tarea de ste es declarar lo que es parecido
respecto a las primeras tres cosas pero diferente respecto a
la cuarta. Un ejemplo: peridico, revista, libro, pero no
televisin. Una respuesta aqu indicara que los peridicos,
revistas y libros se leen pero la televisin no.
Razonamiento
abstracto-visual
Anlisis de patrones Exactamente cules reactivos se aplicarn en esta

subprueba variarn con el nivel de entrada del examinado;
las tareas cronometradas varan desde colocar formas
cortadas en un tablero hasta reproducir diseos complejos
con bloques.
Copiar La tarea del examinado aqu es copiar un diseo. En el

primer nivel, el diseo est hecho con bloques. En forma
subsecuente, los diseos son copiados en forma directa en
una hoja de registro.
Matrices Aqu la tarea del examinado es solucionar matrices de

dificultad creciente por medio de smbolos geomtricos,
letras y objetos comunes como estmulos. Los reactivos en
esta prueba no verbal se presentan en un formato de
opcin mltiple y son considerados tiles en especial para
medir la capacidad general de personas que no hablan
ingls.
Tabla 5 (continuacin).
Descripcin de las subpruebas de la Escala de Inteligencia Stanford-
Binet (Adaptado de Cohen & Swerdilk, 2000, p. 307)
Doblado y cortado de Estos reactivos de opcin mltiple presentan al
papel examinado la tarea de identificar cmo se vera un
pedazo de papel doblado y cortado cuando se desdobla.
Razonamiento
cuantitativo
Subprueba cuantitativa Los reactivos en esta subprueba varan de un simple

conteo al conocimiento de varios conceptos y
operaciones aritmticas.
Series numricas La tarea del examinado es completar una oracin

numrica con el siguiente nmero lgico en la secuencia.
Construccin de La tarea del examinado aqu es reacomodar una ecuacin

ecuaciones aritmtica revuelta de modo que tenga sentido. Como un
ejemplo, reordene los nmeros y/o signos en la siguiente
ecuacin para hacer una oracin de nmeros reales:
5+12=7. Una reordenacin aceptable seria: 5+7=12.
Memoria a corto
plazo
Memoria de cuentas Los examinados estudian una ilustracin de una

secuencia de cuentas por cinco segundos y luego deben
replicar la secuencia usando cuentas reales. Las cuentas
vienen en tres colores diferentes y cuatros formas
distintas.
Memoria de oraciones El examinador presenta en forma oral una oracin y la

tarea del examinado es repetirla. La longitud de la
oracin puede variar de 2 a 22 palabras dependiendo del
nivel del examinado.
Memoria de dgitos El examinador presenta en forma oral secuencias de

dgitos, hacia delante y hacia tras, y es la tarea del
examinado repetir los dgitos presentados en el mismo
orden.
Memoria de objetos Se presentan objetos familiares en intervalos de un

segundo y la tarea del examinado es recordar la
presentacin en el orden correcto.
En la actualidad una de las pruebas mejor y ms empleadas para la

medicin de la inteligencia, son las tres escalas de Weschler, aplicadas de
manera individual con el objetivo de evaluar la capacidad intelectual de
personas desde el preescolar hasta la adultez. La escala Wechsler de
inteligencia preescolar y de primaria revisada (WPPSI-R) es empleada para
edades comprendidas entre los tres y siete aos con tres meses. La escala
Wechsler de inteligencia para nios-Cuarta Edicin (WISC-IV) evala la
capacidad intelectual entre los 6 y 16 aos. Finalmente, la Escala Wechsler
de inteligencia para adultos-Tercera Edicin (WAIS-III) evala la capacidad
intelectual entre los 16 y 89 aos. Las pruebas de las tres escalas estn
estructuradas de manera similar, y organizadas en una escala verbal y otra
ejecutiva (Tabla 5). Para cada una de estas pruebas se cuenta con
instrucciones claras para su aplicacin.
Empleando, los cuadros de los manuales de las tres escalas, las

puntuaciones directas en cada subprueba pueden convertirse en puntajes
de escala, teniendo todas ellas una media de 10 y una desviacin estndar
de 3. Con las puntuaciones de escala se puede derivar un CI, tanto verbal,
ejecutivo, como de la escala total. En cualquiera de las pruebas, un CI total
entre 85 y 115 se considerar promedio, ya que este ndice presenta una
media de 100 y una desviacin estndar d 15 (Cohen & Swerdilk, 2000).
Otro de los test ms conocidos para la medicin de la inteligencia es el de

Matrices Progresivas de Raven, publicado por primera vez en 1938. En su
primera forma se trata de una serie de figuras en las cuales se establece
algn tipo de relacin que el examinado debe percibir para sealar en los
pequeos trozos alternativos mostrados cul es el correcto para completar
la figura (Cortada de Kohan, 2000). El test puede ser de aplicacin
individual o grupal. La figura 2 muestra un ejemplo de tems del
mencionado test.
Fig. 2. Ejemplo de tems del Test de

Matrices Progresivas de Raven
Para saber ms
http://redalyc.uaemex.mx/src/inicio/ArtPdfRed.jsp?iCve=147118212004
En este link se podr visualizar un trabajo de investigacin que tiene como objetivo
realizar un anlisis de las propiedades psicomtricas del test de Matrices Progresivas
Avanzadas de Raven en una muestra de 2081 estudiantes universitarios de Lima. El
promedio de edad de los evaluados fue de 21,3 aos, en donde el 50,9% es de sexo
femenino y el 49,1% de sexo masculino. Los resultados indican que los tems del test
no evidencian una adecuada calibracin de acuerdo con el Modelo de Tres Parmetros.
El anlisis comparativo indica diferencias estadsticas significativas por sexo pero no
de acuerdo al tipo de universidad.
Tabla 6
Descripcin de las subpruebas de las escalas Wechsler (Adaptado de
Cohen & Swerdilk, 2000, p. 314)
Informacin Las preguntas exploran conocimiento general y en parte
evalan aprendizaje y memoria. Los intereses, educacin,
antecedentes culturales y habilidades de lectura son algunos
factores que influyen en la puntuacin de la subprueba
informacin.
Comprensin Estas preguntas exploran la comprensin social, la capacidad

para organizar y aplicar el conocimiento y lo que se
denomina en forma coloquial como sentido comn.
Semejanzas Se presentan pares de palabras al examinado y la tarea

consiste en determinar en qu se parecen. La capacidad
para analizar relaciones y llevar a cabo un pensamiento
abstracto lgico son dos de las funciones intelectuales
exploradas.
Aritmtica Se presentan problemas aritmticos, presentados y

resueltos por completo en forma verbal para quienes
responden la prueba que son mayores (en los niveles
inferiores esta prueba puede implicar un simple conteo). El
aprendizaje de la aritmtica, la concentracin y memoria
auditiva a corto plazo son algunas de las funciones
intelectuales exploradas en esta subprueba.
Vocabulario Se pide que definan palabras. Esta subprueba es vista como

la mejor medida de inteligencia general, aunque la
educacin y la oportunidad cultural influyen tambin en gran
medida en las puntuaciones de las pruebas de vocabulario.
Retencin de Retencin de dgitos (subprueba del WISC-III) implica

dgitos/oraciones repetir de forma verbal una secuencia de nmeros. El
equivalente de esta subprueba en el WPPSI-R es oraciones,
en donde el examinado repetir una oracin en forma literal.
Ambas subpruebas miden atencin, concentracin y
memoria auditiva a corto plazo, aunque oraciones parece
depender ms de habilidades verbales.
Secuencia de letras La tarea es repetir una lista de nmeros en orden

y nmeros ascendente y las letras en orden alfabtico. Esta prueba
explora la memoria de trabajo.
Figuras incompletas La tarea del examinado consiste en identificar qu parte

importante de un dibujo falta. Esta prueba se basa en
capacidades de percepcin visual, alerta, memoria,
concentracin, atencin a los detalles y capacidad para
diferenciar los detalles esenciales de los que no lo son.
Debido a que quienes responden pueden sealar la parte
faltante, esta prueba proporciona una buena estimacin no
verbal de la inteligencia. Sin embargo, el desempeo exitoso
en una prueba como sta tiende a estar muy influido por
factores culturales.
Tabla 6 (continuacin)
Descripcin de las subpruebas de las escalas Wechsler (Adaptado de
Cohen & Swerdilk, 2000, p. 315)
Ordenacin de Esta prueba requiere que quien responda la prueba reordene
dibujos un conjunto revuelto de tarjetas con dibujos en ellas para
formar una historia que tenga sentido. Se considera que
esta subprueba explora la capacidad para comprender o
evaluar una situacin entera. Adems se explora la atencin,
concentracin y capacidad para ver relaciones temporales y
de causa y efecto.
Diseo de cubos Esta prueba se basa en habilidades perceptivas motoras,

velocidad psicomotora y la capacidad para analizar y
sintetizar. Los factores que pueden influir en el desempeo
en esta prueba incluyen la visin de color del examinado, su
tolerancia a la frustracin y la flexibilidad rigidez en la
solucin de problemas.
Composicin de La tarea es armar, lo ms rpido posible, un dibujo cortado

objetos de un objeto familiar. Algunas de las capacidades necesarias
aqu incluyen reconocimiento de patrones, habilidades de
armado y velocidad psicomotora.
Claves En la subprueba de claves en el WISC-IV y en la subprueba

de clavijas de animales en el WPPSI-R, la tarea es seguir
una clave. Los cdigos en el WISC-IV son copiados de una
clave impresa, mientras que en el WPPSI-R, la tarea es
colocar clavijas de diferentes colores en un espacio
apropiado basado en un cdigo de colores. Esta subprueba
explora la capacidad de aprendizaje, la capacidad de
recuerdo rutinario, la velocidad psicomotora, la
concentracin y atencin.
Laberintos Es una prueba complementaria (no necesaria para el clculo

del CI) en el WISC-IV. En el WPPSI-R esta subprueba est
compuesta de laberintos por escrito. Las habilidades
perceptivos motoras, la velocidad psicomotora y las
capacidades de planeacin visual son exploradas por esta
subprueba.
Diseo geomtrico Esta prueba consiste de diseos geomtricos que se requiere

que el nio copie con un lpiz. En general, esta subprueba
proporciona un ndice de las habilidades perceptivas
motoras.
Bsqueda de La tarea es explorar en forma visual dos grupos de smbolos,

smbolos un grupo de bsqueda y un grupo objetivo, y determinar si
el smbolo que es el blanco aparece en el grupo de
bsqueda. Se supone que la prueba explora la velocidad de
procesamiento cognoscitivo.
Matrices Una tarea no verbal tipo analogas diseada para explorar

las capacidades de organizacin de la percepcin y el
razonamiento.
b. Empleo de los test en la medicin de la personalidad.
Entender el concepto de personalidad con cierto grado de

generalidad es una empresa difcil. En, hasta ahora, la ms
completa revisin de las teoras de la personalidad se concluye
que el modo en que un individuo dado definir la personalidad,
depender completamente de sus preferencias tericas
particulares (Hall & Lindzey, 1967, pg. 9).
As, el trmino personalidad puede hace referencia a la

organizacin dinmica nica de las caractersticas psicolgicas
estables que posee una persona y que se manifiestan en su
interaccin con el ambiente (Cortada de Kohan, 2000, pg. 181).
Esta definicin toma en cuenta una serie de caractersticas, las
cuales es pertinente abordar:
1) Al decir que la personalidad es una caracterstica que posee

una persona, se infiere que no existen dos personas idnticas,
ms bien, cada uno de nosotros poseemos un conjunto de
caractersticas personales.
2) Con el trmino estable, hacemos referencia a que las
caractersticas personales mantienen cierta consistencia en el
tiempo y por la cual se reconoce a la persona.
3) La organizacin dinmica implica la existencia de una relacin
especfica entre cada una de las caractersticas de una persona.
4) La personalidad es un constructo psicolgico, el cual inferimos
a travs de ciertos comportamientos observables.
Estas caractersticas de la personalidad son muy importantes para

entender la complejidad de la evaluacin objetiva de la
personalidad. Los inventarios de personalidad son test
psicolgicos que suponen que el sujeto se halla en una excelente
condicin para autoreportar su propia conducta o rasgo de
personalidad (Aliaga & Ponce, 2009). As, podemos definir un
inventario de personalidad como una prueba estructurada y
objetiva de la personalidad que evala una serie de fenmenos o
conductas de diversa especificidad, ante las cuales el examinado
deber responder si las encuentra o no en s mismo (Kaplan &
Sacuzzo, 2006; Morris & Maisto, 2005).
En la actualidad existen ms de 1000 cuestionarios o inventarios

de personalidad que permiten evaluar diversos rasgos de acuerdo
a diferentes ambientes de desarrollo (como la escuela, la familia,
la comunidad) y diferentes clasificaciones psiquitricas
(introversin, extraversin, desorden psicosomtico, etc.)

(Cortada de Kohan, 2000).
Entre los test ms empleados en la actualidad mencionaremos

dos ejemplos. El primero es el Inventario de Personalidad de
Eysenck-Forma B, destinado a la evaluacin objetiva de las
dimensiones de personalidad: introversin-extraversin y
estabilidad-neuroticismo. El inventario est conformado por 57
reactivos, en donde 24 estn referidos a la dimensin
introversin-extraversin, 24 a la dimensin estabilidad-
neuroticismo. Nueve de los tems evalan la veracidad o no de las
respuestas del examinado. No hay un tiempo de aplicacin
determinado, pero en promedio el proceso de administracin dura
15 minutos, siendo su aplicacin tanto individual como colectiva.
Otro instrumento de evaluacin importante es el Inventario

Clnico Multiaxial de Millon-II, destinado a evaluar, mediante 175
elementos, patrones clnicos de personalidad patologa grave de
personalidad, sndromes clnicos de gravedad moderada y
sndromes clnicos de gravedad severa; as mismo 4 escalas
brindan ndices de validez. El inventario puede ser aplicado, de
forma individual o colectiva, a personas a partir de los 18 aos
con un adecuado nivel de comprensin lectora, durando su
aplicacin aproximadamente unos 25 minutos.
No es nuestro propsito en esta leccin extendernos en la descripcin de los

diversos inventarios y escalas de evaluacin de la inteligencia y la
personalidad, ni en todo lo que es necesario para un adecuado
procedimiento que nos lleve a una medicin psicolgica lo ms exitosa
posible. De las cuestiones generales dentro de este proceso nos
ocuparemos en la leccin 4.
Tabla 7
Interpretacin de las escalas del Inventario Clnico Multiaxial de
Millon-II que evalan patrones clnicos de personalidad
(Elaboracin propia)
ESCALA DESCRIPCIN
Escala 1: Esquizoide Personas introvertidas, solitarias, emocionalmente fras y
con poca capacidad para establecer vnculos significativos
con otras personas.
Escala 2: Fbica Evidencian un fuerte deseo de afecto y aceptacin, pero

muy sensibles al rechazo por lo que sienten temor para
establecer relaciones a no ser que estn completamente
seguros de ser aceptados incondicionalmente.
Escala 3: Dependiente Carecen de confianza en s mismos e iniciativa. Se

Caracterizan por ceder las responsabilidad de su vida a
personas externas.
Escala 4: Histrinica Se caracterizan por ser llamativamente egocntricas.

Buscan el aprecio y estima de los dems mediante
conductas que llamen la atencin. Son manipuladores,
incluyendo amenazas suicidas o manejo de las
susceptibilidades emocionales de otras personas.
Escala 5: Narcisista Presentan un exagerado sentimiento de darse

importancia, estando absorbidos por fantasas de xito
personal sin lmites. Buscan de manera constante y de
manera exhibicionista atencin constante.
Escala 6A: Antisocial Se caracterizan por su impulsividad, irresponsabilidad,

conductas antimorales e incapaces de algo ms que la
gratificacin inmediata. Estas caractersticas posibilitan
que exterioricen conflictos y violen las reglas que rigen el
orden social.
Escala 6B: Agresivo- Considerado una variacin del comportamiento pasivo-

sdica agresivo. Tanto la hipocondra como el volverse contra s
mismo, son mecanismos de defensa habituales a los
comportamientos agresivos sdicos contra uno mismo.
Escala 7: Compulsiva Se caracterizan por ser concienzudos y tener altos niveles

de aspiracin, mas tienden a ser perfeccionistas.
Escala 8A: Pasivo- Se caracterizan por su dependencia persistente y

agresivo desesperanza, ineficacia y malhumor. Pueden llegar a ser
provocativos ante la autoridad.
Escala 8B: Varan su humor entre estados de optimismo y estados

Autodestructiva pesimistas acompaados con ideas de dao, que pueden
tener una duracin de semanas o ms. Estos cambios de
humor son predecibles y sin ninguna causa aparente o
como respuesta a eventos o situaciones insignificantes.
LECCIN IV
PASOS Y PROCEDIMIENTOS PARA LA MEDICIN PSICOLGICA
"El desarrollo de nuestra ciencia seguir

seguramente el modelo de toda ciencia,
hacindose cada vez ms matemtica a
medida que las ideas se formulen de
manera ms rigurosa"
(Thurstone, 1937)
Como ya se ha mencionado, el proceso de medicin en psicologa implica la

atribucin de nmeros a fenmenos psicolgicos, suponiendo que la
magnitud de dicha cantidad se corresponde con la presencia del constructo
en la persona. Con ello se hace referencia al isomorfismo, concepto ya
trabajado en la primera leccin de esta unidad.
En ese sentido, el evaluar un constructo en psicologa conlleva

inevitablemente a la construccin de instrumentos que hagan visible dicha
variable. Es decir, una vez definido operacionalmente el constructo, se usan
mecanismos para sistematizar dicha operacionalizacin por medio de
instrumentos que cumplan con caractersticas definidas para poder hacer
mensurables los fenmenos que se intentan medir. Las caractersticas
esperables, confiabilidad y validez, sern discutidas a profundidad en
lecciones posteriores, mas en este captulo se trabajar sobre aquellos
procesos que guan la construccin de los llamados tests psicolgicos.
Proceso de construccin de instrumentos de evaluacin: el modelo

psicomtrico
De acuerdo con Abad, Garrido, Olea & Ponsoda (2006), la construccin de

tests psicolgicos implican una serie de etapas: definicin del constructo,
construccin del test provisional, aplicacin a una muestra, anlisis de
tems, estudio de la confiabilidad del test, estudio de la validez del test y la
baremacin.
Las cuatro primeras estrategias estn orientadas, fundamentalmente, a

seleccionar aquellos reactivos que conformarn el instrumento. En esta fase
inicial se deben considerar todas aquellas limitaciones a las que se enfrenta
el investigador que desea construir el instrumento, dentro de las cuales la
que cobra mayor relevancia es la referida a la definicin conceptual y

operacional del constructo, teniendo en consideracin el poco consenso que
existe entre los psiclogos respecto a las variables de naturaleza
psicolgica.
Tanto el estudio de la confiabilidad como de validez estn guiados por

estrategias afines al constructo, tanto en lo que respecta a la estabilidad y/o
consistencia de las puntuaciones en determinada prueba (confiabilidad)
como a el grado en que la evidencia encontrada en los instrumentos apoya
las conclusiones que de ellos hagamos (validez).
Estas etapas, que sern detalladas en cada una de las lecciones siguientes,
estn bajo el sustento de un modelo. El modelo psicomtrico se basa en dos
postulados fundamentales (Aliaga, 2005):
a) Todos los reactivos o tems o elementos del test miden exactamente el

mismo rasgo o dimensin.
b) La medida de la posicin que tiene cada individuo en el rasgo o

dimensin puede hacerse sin ningn error.
El primero de los postulados est referido a la Unidimensionalidad que

deben poseer los instrumentos, mediante el cual cada uno de los reactivos
apunta a medir un rasgo unitario. El segundo postulado alude al concepto
de Confiabilidad, que ser profundizado en captulos posteriores.
Entonces, se puede observar que el proceso de construccin de

instrumentos de evaluacin psicolgica es un proceso estructurado que se
rige bajo pautas que garantizarn, si se llevan a cabo de manera adecuada,
una medicin adecuada del constructo que se pretende medir.
Para saber ms
http://aprendeenlinea.udea.edu.co/lms/investigacion/file.php/39/ARCHIVOS_
2010/PDF/IntPsicometria_aristidesvara_1_.pdf
Este libro electrnico permite una aproximacin inicial y didctica al proceso de

construccin de test psicolgicos. Adems de contar con una variedad de ejemplos
prcticos que ayudarn a comprender a cabalidad el proceso psicomtrico.
UNIDAD II
TEORAS Y MODELOS EN
LA MEDICIN
PSICOLGICA
LECCIN I
HISTORIA Y DESARROLLO DE LOS TEST Y TEORA CLSICA DE LOS

TEST
1. Historia y desarrollo de los test
Si bien desde la antigedad, como lo sealan escritos grecolatinos, se

haban propuesto bases fisiolgicas para el estudio de la personalidad y
el temperamento, no es sino hasta la poca del Renacimiento que se dio
inicio a la medicin de las ciencias conductuales como la reconocemos
actualmente (Cohen & Swerlik, 2001).
En 1859, con el libro Del origen de las especies por medio de la

seleccin natural de Charles Darwin, cobr renovado inters el estudio
de las diferencias individuales. Uno de los cientficos de la poca
interesados fue justamente el primo de Darwin, Francis Galton (Fig. 1),
quien con sus esfuerzos por explorar y cuantificar las diferencias
individuales contribuy de manera importante al campo de la medicin,
desarrollando numerosas herramientas de evaluacin psicolgica como
cuestionarios, escalas de estimacin e inventarios personales. Con sus
trabajos, Galton, sent importantes bases para el uso de un concepto
estadstico de sumo valor en el trabajo de experimentacin: el
coeficiente de correlacin., que fue desarrollado con ms profundidad
por Karl Pearson (1857-1936) (Fig. 1).
Fig. 1. Francis Galton (izquierda) y Karl Pearson (derecha)
En el laboratorio de Wilhelm Wundt (1832-1920) en la Universidad de

Leipzig en Alemania, el inters no se cea a conocer las diferencias
entre los individuos, ms bien el inters estaba referido al cmo los
individuos eran semejantes. Con este objetivo, se realizaron numerosas

condiciones estandarizadas para asegurar que las diferencias en las
puntuaciones son el resultado de diferencias verdaderas entre los
individuos (Cohen & Swerlik, 2001). Un discpulo de Wundt, James
McKeen Cattell, contrario a la orientacin investigativa del laboratorio
alemn, realiz un trabajo referido a las diferencias individuales,
especficamente, las diferencias individuales en el tiempo de reaccin.
Luego de un contacto con Francis Galton, Cattell, trabajando ya en la
Universidad de Pennsylvania en 1888, fue el primero en utilizar el
trmino prueba mental. Numerosos discpulos de Wundt, como Charles
Spearman, Vctor Henr y Emil Kraepelin, por citar algunos, han dado
importantes contribuciones al campo de la medicin en psicologa (ver
tabla 8).
Tabla 8.
Discpulos de Wundt con importantes contribuciones a la
medicin psicolgica (Elaboracin propia)
AUTOR CONTRIBUCIN
Charles Spearman Se le atribuye la creacin del concepto de la
confiabilidad de una prueba.
Vctor Henr Junto a Alfred Binet, sugerira la manera en que

las pruebas mentales podran medir procesos
mentales superiores.
Emil Kraepelin Considerado uno de los primeros en experimentar

con la tcnica de la asociacin de palabras como
prueba de evaluacin formal.
Entrado el siglo XX, gran parte de las pruebas de naturaleza psicolgica

estaban relacionadas con la medicin de capacidades sensoriales,
tiempo de reaccin y temas similares (Cohen & Swerlik, 2001). En
Francia, Alfred Binet (1857-1911) (Fig. 2) ampli el espectro de pruebas
la incluir la medicin de las capacidades intelectuales, dando a conocer,
junto con Thodore Simon, una escala de medicin de la inteligencia
con el objetivo de identificar nios con deficiencia mental en Pars (ver
leccin III de la primera unidad). En la misma lnea de Binet, en Estados
Unidos, David Wechsler, (Fig. 2) psiclogo del hospital Bellevue, New
York, dise una prueba para medir la inteligencia de los adultos. La
prueba, que originalmente se llam Escala de Inteligencia Wechsler-
Bellevue fue, luego de ser revisada, denominada Escala Wechsler de
Inteligencia para Adultos.
Fig. 2. Alfred Binet (izquierda) y David Wechsler (derecha)
El estudio de la personalidad tambin influy de manera sustantiva en

el desarrollo de las pruebas psicolgicas. Un precursor de este tipo de
pruebas fue Kraepelin, quien en Alemania emple los test de asociacin
libre en pacientes normales. Los trabajos de Catell en la creacin de
cuestionarios tipificados y escalas de estimacin merecen tambin
mencionarse. Otro Hito importante en este campo es la elaboracin del
Inventario Psiconeurtico de Woodworth (Woodworth Psychoneurotic
Inventory), diseado por el psiclogo Robert Woodworth, a quien el
Comit sobre salud emocional del gobierno, le asign la tarea de
elaborar una medida de adaptacin y estabilidad emocional que pudiera
administrarse con rapidez y eficiencia a grupos de reclutas (Cohen &
Swerlik, 2001).Cabe mencionar que en el contexto de la segunda guerra
mundial, muchos psiclogos fueron reclutados con el objetivo de
elaborar pruebas psicolgicas, administrarlas e interpretar sus datos. El
Inventario Psiconeurtico de Woodworth fue la primera prueba de
personalidad de corte individual empleada de forma extensa y cuyo
mtodo replicado en las pruebas de personalidad sucesivas. Este test
tena como objetivo la identificacin de pacientes neurticos graves que
no eran ptimos para el servicio militar. Este inventario ha servido como
modelo para la elaboracin de diversos inventarios de adaptacin
emocional.
Las pruebas proyectivas son tambin de suma importancia en la

evaluacin de la personalidad. Una de las pruebas proyectivas, ms
conocidas y empleadas es la Prueba de Manchas de Tinta de Rorschach,
diseada por el psiquiatra suizo Hermann Rorschach (Fig. 3). El empleo
de dibujos como estmulos proyectivos fue popularizado, a finales del
1930, por Henry Murray y Christiana Morgan de la Clnica Psicolgica de
Harvard (Cohen & Swerlik, 2001).
Fig.3. Hermann Rorschach (izquierda) y ejemplo de manchas de

tintas (derecha)
Desde 1947, el Educational Testing Service (Estados Unidos), se ha

encargado de la elaboracin de una variedad de test por encargo de
universidades, organismos gubernamentales y diversas instituciones. En
la actualidad, existen numerosas pruebas psicolgicas, aplicables en
diferentes reas de la psicologa, a personas de diferentes intervalos de
edad, de diferente condicin social, econmica y cultural; y aplicadas no
slo por psiclogos profesionales sino tambin por educadores,
trabajadores sociales, mdicos, enfermeras y otros. No es nuestra
intencin hacer una descripcin extensa de la historia de los test
psicolgicos, ni de la evolucin de las teoras en las que se sustentan
(para una mejor revisin ver tabla 9). En las lecciones posteriores se
ahondar en la teora clsica de los test y la teora de respuesta al tem.
Adems remitimos tambin al lector interesado a las siguientes fuentes
bibliogrficas.
Para saber ms
Meli, J. (1990) La Construccin de la Psicometra como Ciencia Terica y Aplicada.

Valencia: Cristobal Serrano. www.uv.es/psicometria Universitat de Valencia. [ISBN:
84-404-7866-6; DL: V-2533-1990.
Extrada de http://www.uv.es/~meliajl/Research/LibroCP/CPindex.htm
El libro electrnico revisa conceptos fundamentales de psicometra, su estructura,

niveles y relaciones con otras ciencias. Adems brinda una aproximacin histrica a la
Psicometra.
Tabla 9.
Principales hitos de la historia psicomtrica hasta el ao 2000
(Adaptado de Muiz, 2003, pp. 26-27)
Ao Acontecimiento
115 a.c. En China se utilizan test para acceder a puestos en el gobierno.
1599 Los jesuitas publican unas normas precisas sobre la forma de llevar a
cabo exmenes escritos.
1883 Galton publica el libro Inquires into human faculty and its development.
1884 Galton abre el Laboratorio Antropomtrico de Londres.
1891 J. McK. Cattell funda el Laboratorio de Psicologa de la Universidad de

Columbia en Estados Unidos.
1894 Kraepelin propone el uso de test en psicopatologa.
1896 Ebbinghaus propone el test de completar frases.
1904 Spearman publica su teora de dos factores de la inteligencia y las

frmulas de atenuacin.
1905 Binet y Simon publican la primera escala de inteligencia.
1907 Krueger y Spearman acuan el trmino Coeficiente de Fiabilidad.
1908 Se introduce el concepto de Edad Mental en la segunda edicin de la

escala de Binet.
1910 Frmula de Spearman-Brown que relaciona la fiabilidad y la longitud

de los test.
1912 Stern propone el concepto de Coeficiente Intelectual.
1916 Terman publica la revisin de Stanford de la escala de Binet-Simon.
1918 Se crean los test Army Test.
1921 Se publica el test de Rorschach.
1931 Thurstone publicaa su libro The reliability and validity of test.
1935 Se funda la Sociedad Psicomtrica. Buros publica su primera revisin

de los test (Mental Measurements Year-Book).
1936 Guilford publica el libro Psychometric Methods.
1937 Kuder y Richardson publican en Psychometrika sus frmulas KR20 y KR

21.
1938 Test Gestltico de Bender

Test de las Matrices Progresivas de Raven
Aptitudes Mentales Primarias de Thurstone
Tabla 9.
(Adaptado de Muiz, 2003, pp. 26-27) (continuacin)
Ao Acontecimiento
1939 Wechsler propone su escala para la medida de la inteligencia.
1940 Aparece el cuestionario de personalidad Minnesota Multiphasic

Personality Inventory (MMPI).
1946 Stevens propone sus cuatro escalas de medida: Nominal, ordinal,

intervalo y de razn.
1948 Se funda en Estados Unidos el Educational Testing Service (ETS).
1950 Gulliksen publica el libro Theory of Mental Test.
1951 Coeficiente Alfa de Cronbach.

Primera edicin del libro Educational Measurement por Lindquist.
1954 Primera edicin de los estndares tcnicos sobre los test (Technical
Recommendations for Psychological test and Diagnostic Techniques).
1955 Validez de constructo de Cronbach y Meehl.
1956 Primera edicin de Psicometra y Estadstica de Mariano Yela.

Se funda en Espaa la compaa editora de test TEA.
Mariano Yela publica el libro La Tcnica de Anlisis Factorial
1958 Torgenson publica el libro Theory and Methods of Scaling.
1959 Validez convergente discriminante de Capbell y Fiske.
1960 Rasch propone el modelo logstico de un parmetro.
1963 Concepto de test referidos al criterio, propuesto por Robert Glaser.
1966 Segunda edicin de los estndares tcnicos sobre los test.
1968 Lord y Novick publican el libro Statistical Theories of Mental Test

Scores.
1971 Segunda edicin de Educational Measurement por Thorndike.
1974 Tercera edicin de los estndares tcnicos sobre los test.
1979 Programa de ordenador BICAL para estimar los parmetros en el

modelo de Rasch.
1980 Lord publica el libro Applications of Item Response Theory to practical

testing problems.
1982 Programa de ordenador LOGIST para estimar los parmetros de los

modelos de teora de respuesta a los tems.
Tabla 9.
(Adaptado de Muiz, 2003, pp. 26-27) (continuacin)
Ao Acontecimiento
1984 Programa de ordenador BILOG para estimar los parmetros de los
modelos de teora de respuesta a los tems.
1985 Cuarta edicin de los estndares tcnicos sobre los test.

Libro de Hambleton y Swaminathan: Item Response Theory.
1989 Tercera edicin de Educational Measurement por Lim.
1997 Sptima edicin del libro de Anastasi: Psychological Testing

Manual de TRI editado por Van de Linden y Hambleton.
1999 Quinta dicin de los estndares tcnicos sobre los test.
2000 Directrices sobre el uso de los test de la Comisin Internacional de Test

(ITC).
En el Per, la historia de los test se ha caracterizado ms que por la

produccin original, por la adaptacin de las pruebas importadas del
exterior, especialmente Espaa y Estados Unidos. Alarcn (2000) seala
que la psicometra, que tiene como tema la adaptacin de test
extranjeros, la verificacin de sus ndices de validez y confiabilidad y el
desarrollo de normas y baremos, es la lnea de investigacin ms
antigua de la psicologa. Delgado, Escurra y Torres (2006) identifican
tres periodos en el desarrollo de la psicometra.
En el primer periodo, caracterizado por esfuerzos individuales y

espordicos iniciales de estandarizacin de pruebas, sobresalen los
trabajos del norteamericano Mac Knight, en Puno, quien en 1912
aplicando la prueba de Binet-Simon, los trabajos psicopedaggicos de
Felipe Chueca, los estudios sobre capacidad intelectual infantil de
Hermilio Valdizan y los esfuerzos de Nemesio Rodrguez y Federico Coz
con el Test Colectivo de Terman, la Escala de Inteligencia General de
Illinois y el Test de Habilidad Mental de Otis.
El segundo periodo (1941-1970 aproximadamente) se caracteriza por

una mayor sistematizacin de la investigacin psicomtrica. Un hito
importante es la creacin del Instituto Psicopedaggico Nacional, dirigido
por el psiclogo alemn Walter Blumenfeld (Fig. 4). El instituto publicaba
el Boletn del Instituto Psicopedaggico Nacional, en donde se difundan
trabajos con pruebas de inteligencia, personalidad e intereses
vocacionales, as como test de vocabulario, ortografa, aritmtica y
lectura.
Fig. 4. Dr. Walter Blumenfeld
El mismo Blumenfeld, junto a Violeta Tapia, inician a principios de 1960

la Serie de Estudios Pedaggicos, muy ledo en la poca por los
psicopedagogos que dirigan los Departamentos Psicopedaggicos de las
Grandes Unidades Escolares y Colegios Nacionales. Importantes
profesionales como Reynaldo Alarcn, Violeta Tapia y Ral Gonzales (Fig.
5), han dado importantes contribuciones a la investigacin psicomtrica.
Fig. 4. Dr. Reynaldo Alarcn (izquierda) y Dra. Violeta Tapia

(derecha)
El tercer periodo, se inicia desde 1970 hasta la actualidad,

caracterizndose por la profesionalizacin de la psicologa. Gran parte
del trabajo psicomtrico se debe a las investigaciones como requisito
para optar el ttulo profesional. Otro hito importante ocurre a fines del
2009, cuando un grupo de psiclogos de la Universidad Nacional Mayor
de San Marcos organiza la I Jornada de Investigacin Psicomtrica,
convirtindose en el primer evento a nivel nacional de corte

estrictamente psicomtrico. A la fecha la Jornada viene desarrollndose
de manera ininterrumpida por tres aos seguido.
2. Teora Clsica de los Test (TCT)
Fundada bajo los principios de Spearman, la teora clsica de los test

puede definirse como el conjunto de principios tericos y mtodos
cuantitativos en los que se basa la construccin de test psicolgicos
(Alarcn, 1998). El objetivo central del modelo clsico es la estimacin
de los errores no directamente observables, cometidos al momento de
emplear los test para la medicin de variables psicolgicas (Muiz,
2003). El modelo dicta que la puntuacin emprica (X), obtenida por un
sujeto al contestar el test es igual a la sumatoria de la puntuacin
verdadera (V), definida como la calificacin obtenida por una persona al
contestar el test, y el error (E) cometido en la medicin. En trminos
matemticos, el modelo expresa que el puntaje emprico (X) es una
funcin lineal (aditiva) de la puntuacin verdadera (V) y el error de
medida (E).
X= V+E
En medicin psicolgica no se puede obtener la puntuacin verdadera

de un sujeto en un test, sino la puntuacin emprica. La puntuacin
verdadera se estimar de acuerdo a tres supuestos derivado del modelo
lineal clsico (Muiz, 2003).
Supuesto 1:
El puntaje verdadero es la esperanza matemtica del puntaje emprico.

En trminos matemticos, la puntuacin verdadera (V) puede definirse
como la media aritmtica de los puntajes empricos que se obtendran
de aplicar un mismo test infinitas veces, al mismo sujeto, bajo las
mismas condiciones y asumiendo que no se contaminarn por efecto de
las prcticas sucesivas ni por variaciones del individuo (Alarcn, 1998).
Este primer supuesto, permite realizar estimaciones probabilsticas
acerca del valor de las puntuaciones verdaderas (V) a partir de las
puntuaciones empricas (X). Es decir, la puntuacin emprica es una
muestra de conducta que, a partir de determinados requisitos de medida
y de acuerdo a ciertos supuestos, permitir realizar inferencias
probabilsticas (Muiz, 2003).
Supuesto 2:
No existe correlacin entre las puntuaciones verdaderas (V) y los errores

de medida (E). Es decir, el tamao de los errores no se encuentran
asociados sistemticamente al tamao de las puntuaciones verdaderas
(Muiz, 2003).
Supuesto 3:
Los errores de medicin (E) de un test no se encuentran correlacionados

con sus errores de medicin en otro test distinto. Es decir, siguiendo a
Muiz (2003, p. 29), en el supuesto de una adecuada aplicacin de los
test, los errores sern aleatorios en cada ocasin, no existiendo razn a
priori para que covaren sistemticamente unos con otros.
Tabla 10
Resumen del modelo y los supuestos de la Teora Clsica de los
Test (Muiz, 2003, p.28)
Modelo: X= V+E
Supuestos: 1. V = E(X)
2. p (v, e) = 0
3. p (ej, ek) = 0
Podemos concluir esta leccin recordando que la Teora Clsica de los

Test dio vida al movimiento de los test y a la medicin psicolgica
(Alarcn, 1998). En la leccin siguiente se tratar acerca del moderno
enfoque de la Teora de Respuesta al Item (TRI), que aparece buscando
superar las limitaciones conceptuales y aplicadas de la Teora Clsica de
los Test. Ambos enfoques no son opuestos, ms bien, son
complementarios.
LECCIN II
Teora de Respuesta al tem: Conceptos bsicos
1. Limitaciones de la Teora Clsica de los Test
Como ya se trat en la leccin anterior, si bien la Teora Clsica de los

Test fue una respuesta inicial a los problemas de la medicin psicolgica,
dej en el camino algunas limitaciones que representan un escollo para
quienes trabajan los aspectos referidos a la medicin psicolgica bajo el
enfoque clsico (Muiz, 1998).
Una de dichas limitaciones se refiere a la variabilidad de mediciones

respecto a un constructo. Es decir, el mismo constructo obedece a
distintas mediciones. Esto ocurre cuando a un constructo corresponden
diferentes definiciones conceptuales (p.e. Inteligencia), cada una de las
cuales se corresponde a una definicin operacional, la que se hace
presente por medio del instrumento de medicin. Por ejemplo, la
inteligencia puede ser evaluada mediante el Test de Matrices Progresivas
de Raven o la Escala de Inteligencia para Adultos de Wechsler. Las dos
evalan la inteligencia, pero evidentemente el Cociente Intelectual (CI)
de una no significa lo mismo al CI del otro instrumento.
Otra limitacin est referida a la dependencia de los tems a la muestra

de aplicacin, en la medida que la propiedad del instrumento depende de
los objetos medidos. Esto se observa cuando los tems estn en funcin
de la competencia de quienes los resuelven, ya que un tem, en el caso
de test de aptitudes, es presentado a un grupo muy capaz, este resultar
sencillo. En cambio, ese mismo tem al presentrselo a sujeto de menor
nivel, resultara complicado. Esto afectara la confiabilidad del test en
cuestin, ya que dicha caracterstica psicomtrica de la prueba estara
afectada por la variabilidad de la muestra.
La solucin parcial a dichas limitaciones, que no tenan un punto de

avance en el enfoque clsico, se halla en la Teora de Respuesta al tem,
la cual utiliza a los tems como unidades centrales de anlisis. Ello
constituye un excelente aporte en la medida que complementa al enfoque
clsico.
Es conveniente sealar que dicho marco no escapa a los problemas

fundamentales de la medicin psicolgica, que al margen del enfoque que
se use al momento de construir instrumentos, estn presentes porque el
inconveniente se halla en el intento por cuantificar los fenmenos

psicolgicos.
2. Teora de Respuesta al tem (TRI): Aspectos fundamentales
Parte del supuesto de que las puntuaciones obtenidas en un tem, y por

ende en un test, por un sujeto dependen directamente del grado o nivel
en que el sujeto posee la habilidad o rasgo medido. Dicha teora cuenta
con tres postulados:
Postulado 1:
El resultado de un examinado en un tem puede ser explicado por un
conjunto de factores llamados rasgos o aptitudes.
Postulado 2:
La relacin entre la respuesta a un tem y el rasgo latente se describe
como una funcin monotnica creciente que es a CCI.
Postulado 3:
En la TRI los parmetros de aptitud y de los tems son invariantes.
3. Teora de Respuesta al tem: Conceptos Bsicos
Si bien es cierto los planteamientos de la teora clsica de los test estable

aspectos ms lineales en cuanto a la estimacin de las puntuaciones de
los sujetos (recordar: puntuacin emprica es igual a la puntuacin
verdadera ms un error aleatorio), los de la TRI no son tan sencillos en la
medida que trabaja en base a una funcin o relacin matemtica que
conecta la competencia de los sujetos, con la probabilidad que respondan
correctamente a los tems (Muiz, 1998).
4. Curva Caracterstica del tem
Es la funcin matemtica que une los niveles de competencia de los

sujetos con las probabilidades de que acierte un tem. Cada tem tiene
una curva caracterstica independiente de los dems. La mayora tiene un
parecido con el grfico que se presenta a continuacin, esto es, una
forma de S.
Fig. Ejemplo de curva caracterstica del tem
4.1 Partes de la Curva Caracterstica del tem
Le eje de las abscisas hace referencia a los valores de la variable

medida (); el eje de las ordenadas representa la probabilidad de
acertar el tem (P ()). Entonces, la informacin que nos da la curva
se refiere a la probabilidad de que las personas con un valor de
aptitud determinado superen el tem.
Fig. Parmetros de la CCI
a: ndice de discriminacin del tem: Representa la magnitud del

cambio en la probabilidad de acertar el tem conforme vara el
nivel de habilidad.
b: ndice de dificultad del tem: Representa la posicin de la CCI en

relacin al nivel de habilidad necesario para obtener una
probabilidad de acierto.
c: ndice de pseudo-azar del tem: Representa la probabilidad de
acertar de los sujetos que desconocen la respuesta correcta.
5. La unidimensionalidad del rasgo latente
Tericamente, la unidimensionalidad est establecida en tanto que la

probabilidad que las personas superen un tem est determinado por el
factor que se estudia. No obstante, como se apuntaba al inicio, los
problemas intrnsecos de la medicin en psicologa no permitan que se de
la unidimensionalidad en su totalidad (Muiz, 1998).
6. La independencia local
Est referida al supuesto de que la respuesta a un reactivo no debe influir

en la respuesta de los otros. Si hubiera influencia, sera un argumento en
contra de la unidimensionalidad, ya que la variacin de la probabilidad de
acertar un tem estara siendo afectada por factores ajenos a la habilidad
de la persona ().
LECCIN III
DEFINICIN TERICA Y OPERACIONAL DEL CONSTRUCTO A MEDIR

UTILIZANDO LAS TABLAS DE ESPECIFICACIONES.
En medicin psicolgica, lo primero para la construccin de un test

psicolgico consiste en definir conceptual y operacionalmente el constructo
o rasgo que pretendemos medir. Antes de entrar en detalles acerca de la
definicin conceptual y operacional pasemos, de manera breve, revista al
concepto de constructo.
1. Constructo
El trmino constructo hace referencia a conceptos que han sido

postulados con un propsito cientfico. Muchas veces son llamados
constructos hipotticos con el propsito de indicar que no son
considerados como objetos y eventos reales. Gran parte de las teoras
acerca de la conducta incluyen constructos tales como inteligencia,
motivacin, aprendizaje, etc.
Al intentar construir un test psicolgico, una de las primeras dificultades

que se presentan es definir de manera correcta los constructos con las que
deseamos trabajar. Esto implica indicar, de manera clara, lo que queremos
medir. En psicologa, la dificultad aumenta debido a la complejidad
inherente de los procesos, en los que intervienen mltiples variables y el
esfuerzo para salvar la distancia entre lo que pretendemos medir y lo que
realmente medimos.
Existen dos formas de definir los constructos con las que trabajamos. El
primero sera utilizando palabras que expliquen en qu consiste el
fenmeno a estudiar, es decir, utilizando otros constructos en la definicin.
El segundo asignara significados al constructo, especificando las actividades
u operaciones que han de realizarse para medirla. El primer tipo de
definicin se denomina conceptual o constitutiva y el segundo operativa u
operacional.
2. Definicin Conceptual.
Una definicin conceptual o constitutiva pretende mostrar la esencia del

constructo a evaluar, intentando presentarlo en base a sus caractersticas
fundamentales. En la medida que una variable haya sido definida
conceptualmente, la generalizacin se vuelve ms fcil y las conclusiones
pueden transferirse a otros planteamientos cientficos. Sin embargo,

existe una limitacin: La validez de esas mismas conclusiones. En efecto,
es realmente cierto que mi test est midiendo los mismos constructos
tal como han sido definidos?
3. Definicin Operacional.
Las definiciones operacionales pueden ser de dos clases: medidas y

experimentales.
Las primeras describen cmo la variable va a ser medida. Por ejemplo, la

madurez lectora puede ser definida operacionalmente como las
puntuaciones obtenidas en un test de madurez lectora de primer grado.
Por otro lado, una definicin operacional experimental explica en forma
clara los detalles u operaciones de las manipulaciones que efecta el
investigador con una variable. Por ejemplo, la inteligencia puede ser
definida como la respuesta original y efectiva que manifiesta una persona
al resolver un problema o un reactivo nuevo que se le presenta.
La tabla 11 muestra dos ejemplos de definiciones conceptuales y

operacionales.
Tabla 11
Ejemplo de definicin conceptual y operacional (Elaboracin propia)
Constructo Definicin Conceptual Definicin Operacional

Es el resultado del proceso Promedio aritmtico de las
de interaccin enseanza- notas en escala vigesimal
aprendizaje, que puede ser (0-20) alcanzado por los
medido y clasificado de estudiantes en las asignaturas
Rendimiento acuerdo a niveles de que permite clasificarlos en
Acadmico eficiencia y calidad que cuatro niveles de rendimiento:
indican el logro de los alto (15-20); medio (13-
objetivos propuestos. 14.99); bajo (11-12.99),
deficiente (10.99 menos).
Organizacin nica de Es medida por el grado de

rasgos "que nos dice lo acuerdo de los sujetos con los
que una persona har en reactivos de calificacin
una situacin tricotmica 2, 1 y 0 de las
determinada" (Catell, quince escalas de los rasgos
Personalidad
1975). estilsticos-temperamentales
del Cuestionario de
Personalidad 16PF de Catell,
Eber y Tatsuoka.
3. Tabla de Especificaciones
La tabla de especificaciones considera los tpicos que cubrirn el test y

las habilidades que se medirn en el mismo, junto con la importancia
relativa que se atribuye a cada categora de contenido y habilidad. La
tabla de especificaciones especifica con claridad las relaciones entre los
objetivos (habilidades) y el contenido temtico.
La tabla de especificaciones sirve para dos fines: a) en la etapa de

elaboracin de reactivos, indica la cantidad y el tipo de tems a elaborar
y, b) cuando se tiene la versin final del test, se puede comparar la
distribucin real de los tems con lo establecido en el plan de
construccin. Esta comparacin nos ayudar a determinar si los
reactivos fueron un muestreo adecuado del universo temtico.
Tabla 6
Tabla de especificaciones para un test de Algebra
OBJETIVOS
CONOCE COMPRENDE APLICA ANALIZA SELECCIONA TOTAL

CONTENIDOS
la principios y principios y principios tcnicas y
terminologa generalizaciones generalizaciones y grficos mtodos
adecuados
Conjuntos 2 6 2 - - 10
Variables 2 6 2 - - 10
Propiedades 4 2 2 2 5 15
numricas
Operaciones 4 2 2 2 5 15
aritmticas
Razn y - - 5 5 - 10
porcentaje
Empleos de 4 2 6 8 - 20
nmeros en la
medicin
Nmeros 4 2 6 8 - 20
reales
TOTAL 20 20 25 25 10 100
LECCIN IV
TCNICAS DE ELABORACIN DE PRUEBAS PSICOLGICAS
1. Aspectos conceptuales previos
En todo proceso de construccin de tests psicolgicos, la seleccin de un

marco terico, que fundamente su elaboracin, cobra un rol fundamental
en dicha tarea. En esta decisin, y en relacin al mbito que se va a
evaluar, se seleccionarn los procedimientos en base a los objetivos de la
prueba que se quiere construir.
Existen diversos enfoques metodolgicos que subyacen el proceso de

construccin de un test, los cuales estn enfocados en el sujeto, el tem y
en la respuesta.
El enfoque centrado en el sujeto, considera que la variacin sistemtica

de las puntuaciones se debe a las diferencias individuales entre los
sujetos que son evaluados. El objetivo de dicho mtodo es escalonar
(clasificar) a los sujetos en funcin de sus puntuaciones totales. La
caracterstica fundamental de estos procedimientos es seleccionar los
tems que resalten las diferencias individuales de acuerdo al dominio
evaluado.
Este procedimiento es de uso comn en nuestro medio, ya que puede

emplearse en diversas situaciones, ya sean estas de diagnstico,
clasificacin o seleccin.
Por otro lado, el enfoque centrado en el tem, considera que la variacin

sistemtica de las respuestas de los sujetos se atribuyen a la diferencia
entre los estmulos, es decir, a la forma como se presentan estos. El
objetivo, a diferencia del enfoque anterior, es el de escalonar (clasificar)
a los estmulos en funcin de las respuestas de los sujetos. La aplicacin
de este enfoque se observa en las Escalas de Actitudes de Intervalos
aparentemente iguales de Thurstone.
Por ltimo, para el enfoque centrado en la respuesta, la variacin

sistemtica de las respuestas de los sujetos se atribuye tanto a las
variaciones de los estmulos como de los sujetos. Su aplicacin ms
frecuente se observa en la Tcnica de Guttman para el anlisis de las
escalas de actitudes
2. Aspectos preliminares en la construccin de test: Modelo

psicomtrico
SUPUESTO 1
Todos los reactivos, tems o elementos del test miden exactamente el

mismo rasgo o dimensin, lo cual est referido a la unidimensionalidad
que deben poseer los instrumentos, mediante el cual cada uno de los
reactivos apunta a medir un rasgo unitario.
SUPUESTO 2
La medida de la posicin que tiene cada individuo en el rasgo o

dimensin puede hacerse sin ningn error. Aqu se hace referencia al
concepto de confiabilidad, que ser tratado en captulos posteriores.
3. Esquema genrico del proceso de construccin de un test
Todo procedimiento de elaboracin de test psicolgicos conlleva un

procedimiento estndar para llegar a resultados adecuados, lo cual va a
estar determinado por el tipo de test que se va a elaborar. As, se
procede de diferente manera cuando se desea elaborar un test de
aptitudes, que cuando se construye un inventario de personalidad.
3.1. Especificacin de la finalidad del test
El propsito del test debe estar sustentado en un marco terico. La

teora que subyace al test debe reflejarse en el contenido de los
reactivos. Para ello, como accin inicial, debe explicarse la
naturaleza del constructo, y as establecer el marco terico que
sustentar el contenido de todos y cada uno de los reactivos.
Considerando que las teoras son representaciones de la realidad, o

por lo menos buscan representarla, el basarse en un marco terico
servir para dar sustento emprico a las afirmaciones, es decir,
encontrar correlatos en la vida real.
Otro aspecto importante en esta etapa es la finalidad de la prueba,

enfocada ms en explicar las caractersticas de los sujetos a los
cuales va destinado el test, permitiendo regular el formato de
redaccin de los reactivos, as como aquellos aspectos que se van
a explorar. Asimismo, tambin es importante con el fin de
determinar el uso que se les dar a las puntuaciones.
Las caractersticas de los sujetos a examinarse, como ya se ha

mencionado, es un tema importante a considerar desde un inicio,
pues las variables de diversa ndole a considerar, tales como edad,
nivel intelectual, grado educativo, estrato socioeconmico, etc.;
marcarn la pauta en diversos aspectos relacionados con la
construccin del test.
3.2. Traduccin del propsito en trminos operacionales
El objetivo de esta etapa es hacer visible el constructo a travs de

sus indicadores observables, es decir, pasar de una definicin
conceptual a una operacional.
La recomendacin que se hace en esta etapa es definir

adecuadamente el constructo a fin de no dejar de lado aspectos
relevantes al momento de elaborar los indicadores, es decir,
considerar que los tems constituyan una muestra representativa
del universo de conductas que se quiere evaluar (Validez de
contenido).
El formato en el cual se va a aplicar el Test es decidido en esta

etapa. Se selecciona el tipo de test (tradicional / electrnico), tipo
de tem (respuesta abierta / seleccin mltiple), si hay lmite de
tiempo o no, la modalidad de aplicacin (individual / colectivo),
etc.
3.3. Determinacin de las caractersticas psicomtricas que se

desea alcance el test
Tal como se ver en captulos posteriores, contar con una

adecuada confiabilidad, y con las evidencias de validez suficientes,
harn de dicho test psicolgico una herramienta til en nuestro
quehacer psicolgico.
3.4. Elaboracin del pretest
En la etapa de elaboracin de los reactivos, estos deben

representar el constructo que se est intentando evaluar, para lo
cual es indispensable una adecuada definicin conceptual del
mismo (recordando que los reactivos o indicadores observables
forman parte de la definicin operacional).
La elaboracin adecuada de los materiales que contienen los

reactivos es fundamental en procesos de evaluacin que implica
algo adicional al formato habitual (protocolo y hoja de respuesta).

Los materiales estn referidos a elementos que, al ser
manipulados, brindan muestras de conducta a ser consideradas
como parte de la evaluacin. Son de uso comn en pruebas que
evalan desarrollo infantil (p.e. TEPSI) o en algunos casos que
evalan inteligencia (p.e. WAIS, Stanford-Binet).
Luego de la elaboracin de los reactivos (tengan o no materiales

adicionales), la redaccin de instrucciones preliminares es
importante, en tanto sern las directrices que da el investigador en
relacin a las posibles respuestas del evaluado. Ante ello, cualquier
ambigedad en la forma como se redacta alguna instruccin puede
llevar a respuestas que atentarn contra la validez del test.
La redaccin del procedimiento preliminar de calificacin est

referido tanto a la calificacin de los tems (que depender si es
directo o invertido), as como a un formato de correccin, ya
sea manual o informatizado.
UNIDAD III
Principio del Anlisis de

tems y Validez de los test
Psicolgicos
LECCIN I
ANLISIS DE TEMS, NDICE DE DIFICULTAD, NDICE

DISCRIMINATIVO
Cuando el puntaje de un sujeto en un test es el nmero de respuestas

correctas, se presentan diversas relaciones entre los estadsticos del
puntaje total y de la puntuacin de cada uno de los tems que lo conforman
(Cortada de Kohan, 2000). As, la finalidad del anlisis de tems es estudiar
el comportamiento estadstico de cada uno de los tems, as como del
conjunto de ellos.
El anlisis de tems comprende el estudio de dos aspectos fundamentales de

los tems: la dificultad y el poder de discriminacin. De ambos nos
ocuparemos en esta leccin.
1. ndice de dificultad.
El ndice de dificultad permite indicar la proporcin de personas que

responden correctamente o aciertan el tem. Esquemticamente,
podemos presentarlo de la siguiente manera:
ID = A
N
Donde A, es el nmero de sujetos que respondieron satisfactoriamente

el tem, mientras que N es el nmero de participantes evaluados que
han intentado resolver el tem.
En los test de personalidad no tiene sentido alguno hallar el ndice de

dificultad de los tems, pues en estos instrumentos de medida no hay
tems difciles ni fciles. Este ndice es comn emplearlo en pruebas de
ejecucin mxima.
Es necesario puntualizar que el ndice de dificultad de los tems va a

depender directamente de la muestra de sujetos con la que se est
trabajando, lo que indica que este ndice no es una propiedad intrnseca
del tem sino que va a depender del tipo de sujetos a los que se
apliquen los tems (Muiz, 2003). As, si los sujetos presentan altas
competencias, los tems les resultar fciles, con lo cual el nmero de
aciertos ser mayor; por el contrario, si los sujetos no son competentes,
el mismo tem resultar difcil.
Como dijimos lneas arriba, este ndice es comn utilizarlos en pruebas

de ejecucin mxima. En stas, la modalidad de presentacin de los
tems es de eleccin mltiple, lo que incrementa la posibilidad de
acertar en la respuesta correcta por azar. Para tratar de mitigar el papel
del azar o adivinacin al responder un tem se hace necesario calcular el
ndice de dificultad corrigiendo su valor mediante la siguiente frmula:
R W
P= O1
N
Donde:
P: ndice de dificultad corregida.

R: Nmero de participantes que contestaron correctamente el tem.
W: Nmero de participantes que contestaron incorrectamente el tem.
O: Nmero de alternativas que tiene el tem.
N: Nmero total de participantes evaluados.
Una vez calculado el ndice de dificultad corregido es posible jerarquizar

los tems desde los ms fciles hasta los ms difciles, como se observa
en la tabla 7.
Tabla 7
Grado de dificultad a priori (Adaptado de Delgado, Escurra y
Torres, 2006, p. 64)
Grado de dificultad a priori

N Lmites aproximados de los
(pretest) (antes de realizar el
aproximado ndices de dificultad.
anlisis de los tems)
(MF) Muy Fciles 10% De 0.75 a 0.99
(F) Fciles 20% De 0.55 a 0.74
(M) Medios 40% De 0.45 a 0.54
(D) Difciles 20% De 0.25 a 0.44
(MD) Muy Difciles 10% De 0.05 a 0.24
Un anlisis de la tabla 7 permite visualizar diversos aspectos

importantes para interpretar el ndice de dificultad (ID): a) primero, se
observa que el menor valor que puede tener el ID es 0 (en donde
ningn sujeto contesta correctamente el tem) y el mximo valor es 1
(en donde todos los sujetos que intentan responder el tem logran
acertar); b) segundo, mientras ms se acerca el ID a 0, el tem resulta
muy difcil; si se aproxima a 1, resulta ms fcil; mientras que si se
acerca a 0,5, es de dificultad media.
A nivel prctico, la tabla 7 nos permite estructurar adecuadamente

nuestro instrumento de medida. As en las pruebas de rendimiento
mximo, los tems ms fciles se sitan al inicio, los de dificultad media

en la parte central, y los tems ms difciles al final. Lo ideal es que la
mayor parte de los tems sean de mediana dificultad.
2. ndice de Discriminacin
El ndice de discriminacin brinda informacin acerca de hasta donde

un tem logra discriminar adecuadamente entre los sujetos evaluados
(Cortada de Kohan, 2000). Un tem tendr poder de discriminacin si
logra distinguir a los sujetos que obtiene altos y bajos puntajes, es
decir, si discrimina entre aquellos que tienen altas o bajas habilidades,
aptitudes o conocimientos (Delgado, Escurra & Torres, 2006; Muiz,
2003).
Para el clculo del ndice de discriminacin, suele emplearse la

diferencia entre el porcentaje de aciertos entre el grupo bajo y el
porcentaje de aciertos entre el grupo alto (Cortada de Kohan, 2000). Es
decir, se identifica, de manera separada, el grupo superior e inferior,
luego se obtiene para cada tem (de cada grupo) el porcentaje de
sujetos que han respondido correctamente, ambos se retan,
obtenindose como resultado final el poder de discriminacin de cada
tem (Cortada de Kohan, 1999, 2000). La frmula es la siguiente:
Discr. = GS GI
GS: Porcentaje del grupo superior que contest de manera correcta el

tem.
GS: Porcentaje del grupo inferior que contest de manera correcta el
tem.
De acuerdo a los resultados obtenidos podemos establecer una jerarqua

de la discriminacin de los tems, tal como se observa en la tabla 8.
Tabla 8
Clasificacin de la discriminacin de los tems (Adaptado de
Delgado, Escurra y Torres, 2006, p. 65)
Clasificacin Discriminacin
Muy buena discriminacin De 0.40 a 0.99
Discriminacin aceptable De 0.30 a 0. 39
Discriminacin intermedia De 0.20 a 0.29
Discriminacin inaceptable De 0.05 a 0.19
Para que un tem sea aceptado para ser parte del instrumento de
medida final, su poder de discriminacin debe ser igual o mayor a 0.30.
LECCIN II
VALIDEZ
DEFINICIN Y MTODO DE CONTENIDO POR JUICIO DE EXPERTOS
Cotidianamente, escuchamos y utilizamos el trmino validez o vlido, para

hacer referencia a una teora vlida, a un argumento vlido, etc. Esto hace
referencia a lo vlido como algo que es slido, significativo o que se
encuentra fundamentado en principios o evidencia (Cohen & Swerlik, 2001).
De manera similar, en medicin psicolgica empelamos el trmino validez
cuando nos queremos referir a la significacin de la puntuacin de una
prueba.
1. Definicin
La validez puede ser definida, en trminos generales, como el grado en

que el test mide lo que debe medir (Anastasi & Urbina, 1998), lo cual
responde a la pregunta qu mide el test? Pero Hasta dnde podemos
estar seguros de que estamos midiendo la conducta que pretendemos
medir? Cuando medimos, por ejemplo el peso de un libro, lo llevamos a
la balanza, la cual nos arroja un peso de 3 kg, en este caso no tenemos
mayor duda de que el libro pesa 3 kg. Pero cuando intentamos medir
alguna propiedad psicolgica (como la felicidad) no tenemos la plena
seguridad al respecto, a pesar de que estemos empleando, como
instrumento de medida, un test de autoestima. El problema radica aqu
en la congruencia entre el instrumento de medicin y el constructo a
medir (Alarcn, 1998, 2006). Siguiendo con nuestro ejemplo, el test de
felicidad ser vlido cuando mida la conducta feliz y no otra.
Muiz (2003), seala que la validez hace referencia al conjunto de

pruebas que han de emplearse para garantizar la pertinencia de las
inferencias llevadas a cabo a partir del test. As, ms que validar el test,
lo que se valida son las inferencias.
Cortada de Kohan (2000), seala que, en lugar de hablar de validez de

manera singular, se debera hablar de valideces, lo que nos lleva a
preguntarnos si un instrumento es vlido para qu. As, podemos hablar
de diferentes tipos de validez. La Asociacin Psicolgica Americana (APA)
ha establecido una clasificacin tripartita de las diversas maneras de
estudiar la validez (Anastasi & Urbina, 1998). Es as, que podemos hablar
de validez de contenido, validez relacionada con el criterio (en donde se
encuentran la validez concurrente y predictiva) y validez de construccin.

De stos, en esta leccin nos ocuparemos de la validez de contenido.
2. Validez de contenido
Este tipo de validez puede ser definido como la adecuacin del muestreo
de un determinado universo de contenido (Cortada de Kohan, 2000). Es
decir, constituye el grado en el cual los tems o reactivos de una prueba,
constituyen una muestra representativa de todo el universo de contenido
que se estudian (Delgado, Escurra & Torres, 2006). Por ejemplo, la
validez de contenido de una prueba de rendimiento escolar se
determinar analizando la correspondencia de sus tems con los temas
que la asignatura cubre (Alarcn, 1998). Este procedimiento para estimar
la validez puede ser empleado en pruebas de rendimiento, as como en
pruebas de adaptacin y actitudes (Brown, 1993). Para los dos ltimos
tipos de pruebas, este procedimiento presenta ciertas limitaciones que
son sealadas por Anastasi (1974), quien menciona que el contenido de
los test de aptitud y de personalidad apenas sirve ms que para revelar
el hiptesis que llev al elaborador del test a escoger un determinado
contenido para medir un rasgo especfico. Hay que confirmar
empricamente estas hiptesis para establecer la validez del test
(p. 107)
Dos son los procedimientos que reportamos a continuacin para el clculo

de este tipo de validez.
2.1 Anlisis lgico de los tems y de la estructura de la prueba
Este procedimiento consiste en un anlisis lgico y racional de los

tems, con el fin de tener fundamentos para incluirlos en la prueba
final. Aqu es comn emplear cuadros y tablas que ayuden a
representar de manera clara el universo de contenido que se
analizan (Delgado, Escurra & Torres, 2006).
2.2. Anlisis por criterio de jueces.
Aqu se requiere del apoyo de un conjunto de personas expertas con

amplios conocimientos en la temtica evaluada, quienes analizarn
el grado de concordancia de los tems con los planteamientos del
constructor (Delgado, Escurra & Torres, 2006), aprobando o
desaprobando la inclusin de un tem en la prueba, tratando de
evitar el caer en arbitrariedades (Cortada de Kohan, 2000). Esta ha
sido la estrategia ms utilizada para evaluar la validez de contenido
(Aiken, 1980).
El problema de este procedimiento para la estimacin de la validez

radica en la dificultad para cuantificar sus resultados (Aiken, 1980).
Un primer intento para superar esta limitacin es calcular el acuerdo
entre los jueces al evaluar un tem, lo que indicara la confiabilidad
de los juicios y por ende la confiabilidad del mismo. Este ndice, ha
sido definido como la proporcin que existe entre los juicios que
coinciden con la definicin propuesta por el autor (acuerdo A) y el
total de juicios emitidos (acuerdos A y desacuerdos D) (Escurra,
1989), siendo la frmula la siguiente:
IA = A/(A+D)
Guilford (1954) seala que los tems vlidos sern aquellos cuyos
valores sean iguales o mayores a 0.80.
Si bien este procedimiento es importante, tiene diversas

limitaciones, como el desconocimiento de la significacin estadstica
lo que indicara que sera arbitrario trabajar bajo esta forma de
validez (Escurra, 1989).
Un procedimiento para cuantificar la validez de contenido por

criterio de jueces que busca solucionar la limitacin anterior es el
coeficiente V de Aiken.
El coeficiente V de Aiken (Aiken, 1980, 1985), se calcula como la

razn de un dato obtenido sobre la suma mxima de la diferencia de
los valores posibles. Se calcula sobre la base de las valoraciones de
un conjunto de jueces en relacin a un tem o como las valoraciones
de un juez respecto a un grupo de tem (Escurra, 1989). Estas
valoraciones puede ser dicotmicas (0 o 1) o politmicas (de 0 a 5).
Se pueden obtener valores entre 0 y 1, en donde ms cercano a 1
sea el coeficiente, el tem tendr mayor validez de contenido. La
frmula es la siguiente:
V= S
(n (c-1))
Donde:
S = La sumatoria de si
n = Nmero de jueces.
c = Nmero de valores de la escala de valoracin.
LECCIN III
VALIDEZ DE LOS TEST PSICOLGICOS: MTODO CONCURRENTE Y

PREDICTIVA
De acuerdo a lo anteriormente expuesto, con relacin a las evidencias de

validez, otras de las estrategias ms utilizadas son la validez concurrente,
divergente y predictiva.
Se obtienen evidencias de validez convergente cuando se correlacionan los

hallazgos del test con los resultados de una prueba que tambin evala
dicho constructo. Ante tal anlisis se espera que haya una correlacin
directa y significativa. En este sentido, el estadstico de contraste es la r de
Pearson.
Por otro lado, se obtienen evidencias de validez divergente cuando se

correlacionan los hallazgos del test con los resultados de una prueba que no
evala dicho constructor, y ante tal anlisis se espera que haya una
correlacin inversa y significativa, o que no haya correlacin. Al igual que
en el caso anterior, el estadstico de contraste es la r de Pearson.
En este sentido, a modo de ejemplo, se cita la investigacin de Ocampo

(2007), quien realiz un estudio correlacional del Inventario de Depresin
Estado/Rasgo en adolescentes y universitarios de la ciudad de Medelln
(Colombia), usando como medida comparativa el Inventario de Depresin
de Beck-revisado, el Cuestionario Bsico de Depresin, el Inventario de
Ansiedad Estado-Rasgo y el Inventario de Expresin de la Ira Estado-Rasgo.
Se hallaron niveles de confiabilidad elevados, as como evidencia de validez
factorial, convergente y discriminante.
Tabla 7.
Correlaciones de las puntuaciones totales ST-DEP (escalas y subescalas),
con totales de las escalas y subescalas BDI, CBD, STAI Y Staxi con una
muestra de universitarios N=278
Tomado de: Ocampo (2007)
Es as que se observan correlaciones directas y significativas entre variables

que apuntan a afectividad negativa (por ejemplo, entre Distimia y Expresin
de la ira), lo cual es un indicador de validez convergente. Por otro lado, la
evidencia de validez divergente queda sentada por las correlaciones
inversas entre aquellas variables que expresan afectividad negativa y
aquellos que no (por ejemplo, Distimia y Control interno de la ira).
Por ltimo, se obtienen evidencias de validez predictiva cuando se

comparan los hallazgos del test en una persona con su desempeo posterior
en el dominio evaluado. Esta estrategia de validez se usa en mayor grado
en procesos de admisin, as como en procesos de Seleccin de Personal.
Entonces, tal como mencionan Prieto & Delgado (2010), se concluye que las
relaciones de las puntuaciones del test con otras variables externas a la
prueba constituyen una importante fuente de obtencin de evidencias de
validez.
LECCIN IV
MTODO DE CONSTRUCTO: MODELO DEL ANLISIS FACTORIAL
Un instrumento de medicin psicolgica puede ser considerado una medida

o ndice de un concepto, teora o constructo psicolgico (Muiz, 2003).
Todo test basa su construccin en una teora que el autor desarrollo o
asume (Alarcn, 1998). As un test de dogmatismo constituira un indicador
del constructo psicolgico dogmatismo. En relacin a esto, la validez de
constructo hace referencia a la recoleccin de evidencia emprica garantice
la existencia de un constructo psicolgico en condiciones exigibles a
cualquier otro modelo o teora psicolgica (Muiz, 2003, p. 154)
Cortada de Kohan (2000) seala que la validez de constructo hace

referencia a cules son las cualidades psicolgicas que un test mide, es
decir, este tipo de validez trata de dar respuesta a la pregunta qu
constructo psicolgico mide la prueba?
Delgado, Escurra y Torres (2006), sealan que para estimar la validez de

constructo es necesario tener en cuenta los siguientes aspectos:
a. Definir de manera clara el constructo que se quiere medir.

b. Evaluar lo adecuado de la interpretacin terica.
c. Sealar el procedimiento experimental, as como el razonamiento
empleado para realizar las inferencias en base a diversos
procedimientos seleccionados para el estudio del constructo a evaluar.
Dos son los procedimientos que, desde la psicologa, nos permiten obtener
datos acerca de la validez de constructo: el anlisis factorial y la matriz
multirasgo-multimtodo, los cuales se denominan respectivamente, validez
factorial y validez convergente discriminante.
1. Validez Factorial
El anlisis factorial hace referencia a un conjunto de procedimientos

matemticos de anlisis multivariado, diseados para identificar factores
en las pueden diferir las personas (Cohen & Swerlik, 2001).
Para la estimacin de la validez factorial se requiere de la aplicacin de

un conjunto de pruebas que tienen como objetivo conocer los factores
que subyacen a las intercorrelaciones entre las pruebas estudiadas
(Delgado, Escurra & Torres, 2006).
En medicin psicolgica, es comn, indagar acerca de la validez factorial

de los tems que conforman un test. Si un test mide un rasgo unitario,
es de esperar que, luego de aplicar el anlisis factorial, sus tems se
agrupen en torno a un nico factor, siendo el grado en que esto ocurre,
un indicador de la validez del test en funcin de sus tems (Muiz,
2003). Es oportuno recalcar que no siempre ocurre lo dicho
anteriormente, pues si se intenta medir rasgos psicolgicos complejos,
es de esperar que los tems evidencian tambin tal complejidad, lo que
ocasionara que no siempre se articularan en torno a un slo factor.
Podemos mencionar dos tipos de anlisis factorial: exploratorio y

confirmatorio.
El primero, hace referencia a la estimacin o extraccin de factores, la

decisin de cuntos factores conservar y la rotacin de stos a una
orientacin interpretable (Floyd y Widaman, 1995, p. 287). En base a
datos an no publicados de un estudio psicomtrico de la Escala de
Timidez Revisada de Check y Buss (ETR) (Caycho, 2012) se tratar de
ejemplificar el proceso del anlisis factorial exploratorio.
Con la finalidad de analizar la viabilidad del empleo del anlisis factorial

para la determinacin de la validez de constructo de la ETR se
emplearon las medidas de Kaiser-Meyer-Olkin (K-M-O) y el Test de
Esfericidad de Barlett reportadas en la tabla 9. La medida de adecuacin
K-M-O obtiene una puntuacin de 0.884, calificado como meritorio,
mientras que el test de Esfericidad de Barlett presentan un valor de
647.106 significativo al .00. Estos resultados permiten continuar con el
anlisis factorial.
Tabla 9
Medida de Kaiser-Meyer-Olkin de adecuacin y Test de
Esfericidad de Barlett
KM-O Test de Barlett Significacin

.884 647.106 .000
Como dijimos anteriormente, el proceso de factorizacin evidencia la

estructura factorial que subyace a un instrumento de medida. Para
nuestro ejemplo, se ha empleado un anlisis de factores de
componentes principales con rotacin ortogonal mediante el mtodo
varimax para la estimacin de los factores de la Escala de Timidez
Revisada en la muestra total. El anlisis de componentes principales
identific dos componentes con valores eigen que varan de 1.08 a
4.33; el primer componente explica el 24.9% de la varianza, mientras
que el segundo componente explica el 24.2%, valores superiores a 20%
exigido como mnimo para garantizar factores suficientemente

explicativos, en tanto que los dos componentes sumados explican el
49.15 % de la varianza total. El procedimiento de rotacin ortogonal
mediante el mtodo varimax de la matriz de componentes, ha agrupado
consistentemente los 11 elementos en dos factores independientes. El
factor 1 agrupa siete tems, mientras que el factor 2 rene cuatro tems
(Fig.).
Figura
Posiciones relativas en un espacio bidimensional de los tems: siete
sobre componente 1 y cuatro sobre componente 2
Luego de la rotacin, para la inclusin de un reactivo en un factor se

deben tener en cuenta dos criterios:
1. Las saturaciones (loading) deben ser iguales o superiores a 0.45.

2. Si el elemento carga en dos o ms factores se le incluir en el factor
con la saturacin ms elevada.
La Tabla 10 presenta las saturaciones factoriales correspondientes a los

tems de cada factor. Los dos factores estn definidos por reactivos con
cargas no inferiores a 0.50 (Nunally, 1987), a excepcin del tem 11,
evaluadas en las categoras de Bueno o Excelente con propsitos de
interpretacin factorial (Comrey, 1985). Se puede observar que el peso
factorial de cada variable (tems) se encuentra concentrada con mayor
fuerza en un solo factor, mientras, en los dems su peso es
comparativamente reducido. Este resultado evidencia la existencia de
coherencia factorial entre las variables (tems) integrantes de cada uno
de los factores.
Los resultados permiten concluir que la Escala de Timidez Revisada -

ETR posee una adecuada validez factorial, lo que garantiza cierta
coherencia entre las mediciones referidas al constructo que se mide
(Muiz, 2003).
El anlisis factorial realizado ha logrado identificar dos factores

subyacentes tras el constructo timidez, lo que puede interpretarse en el
sentido que la timidez, de acuerdo a la definicin operacional y la escala
utilizada para medirla, es un comportamiento complejo, en donde los
tems no se articulan en torno a un nico factor o componente, sino,
est integrada por dos dimensiones que se distinguen claramente. A
continuacin se describen los factores identificados.
Factor 1: Conformado por los tems 2, 3, 4, 5, 6, 9 y 11. Los tems de

este componente, indican profunda incomodidad en reuniones sociales,
dificultad de decisin acerca de temas adecuados de conversacin y
para solicitar informacin. Las respuestas de aceptacin, a lo que
afirman las proposiciones, indican propensin a comportamientos
identificados como tmidos, que reflejan una adecuado sostenimiento de
relaciones interpersonales. En este sentido, la timidez significa un dficit
y/o inadecuacin de las relaciones interpersonales.
El factor 1 tiene siete tems, el mayor nmero de la Escala de Timidez

Revisada, explicando el 24.9% de la varianza total siendo sus cargas
factoriales elevadas y con una alta confiabilidad (Alfa de Cronbach =
.781). Esta sub-escala la hemos denominado Inadecuacin de relaciones
interpersonales.
Factor 2: Los cuatro tems que componen este factor (tems 1, 7, 8 y

10) expresan, tensin, nerviosismo y evitacin para el contacto con
otras personas. Expresiones como Me resulta difcil actuar con
naturalidad cuando me encuentro con gente nueva, Me siento tenso
cuando estoy con gente que no conozco bien o Me siento nervioso
cuando tengo que hablar con alguien importante, indican estados
subjetivos negativos que evitan contacto social de los individuos.
La sub-escala que evala este factor posee una alta confiabilidad (Alfa
de Cronbach = .736), explicando el 24.2% de la varianza total.
Podemos denominar esta sub-escala como Evitacin de contacto social.
Tabla 10
Matriz de Factores Extrados por Rotacin Varimax y Cargas Factoriales
de los tems
tem F1 F2
4 Suelo encontrarme incmodo en fiestas u otras reuniones .700
sociales
2 Me siento un poco raro socialmente .688
9 Me siento tmido cuando estoy en reuniones sociales .623
5 Cuando estoy con un grupo de personas me cuesta decidir .603
sobre los temas adecuados de que hablar
6 Necesito mucho tiempo para vencer mi timidez en .550
situaciones nuevas
3 Encuentro difcil solicitar informacin a otras personas .535
11 Soy ms tmido con las personas del sexo opuesto .455
1 Me siento tenso cuando estoy con gente que no conozco .709
bien
7 Me resulta difcil actuar con naturalidad cuando me .760
encuentro con gente nueva
8 Me siento nervioso cuando tengo que hablar con alguien .693
importante
10 Me resulta difcil hablar con desconocidos .673
Valores eigen 4.325 1.082
Porcentaje de varianza explicada 24.9% 24.2%
Coeficiente Alfa de Cronbach .781 .736
El anlisis confirmatorio, plantea la hiptesis de una estructura

factorial en forma explcita y se prueba su ajuste con la estructura de la
covarianza observada de las variables medidas (Floyd y Widaman,
1995, p. 287). La Tabla 11 presenta los resultados arrojados en un
estudio propio (Caycho, 2011) de la validez de constructo de una
prueba de estrategias de aprendizaje, realizado mediante el Anlisis
Factorial Confirmatorio a travs del programa Amos 5.0.
Los resultados evidencian que el modelo de 1 factor presenta en el test

de Bondad de Ajuste Chi-cuadrado mnimo un valor de 1.15, el cual con
1 grado de libertad alcanza una probabilidad de 0.24. Esto indica que el
modelo es adecuado. As mismo, la revisin de los resultados de la Raz
Cuadrada del Promedio de los Residuales que evala la aproximacin
de la matriz de covarianzas terica con la matriz observada alcanz un
valor pequeo (RMR=0.05) y los anlisis complementarios de la bondad
de ajuste a travs del ndice de ajuste (GFI=0.97) y el ndice de ajuste
ponderado (AGFI=0.96) alcanzaron valores ptimos, estos hallazgos
permitieron corroborar lo pertinente de aceptar el modelo de un factor.
Estos hallazgos permiten concluir que la escala de estrategias de
aprendizaje presenta validez de constructo.
Tabla 11
Anlisis de la Validez de Constructo de la Escala ACRA a travs del
Anlisis Factorial Confirmatorio
Datos Modelo de 1 Factor Modelo

Independiente
Parmetros 9 4
Chi-cuadrado mnimo 1.15 27.84
G.L. 1 6
P 0.24 0.000
Chi-cuadrado 1.15 4.65
mnimo/G.L.
RMR 0.05 0.13
GFI 0.97 0.89
AGFI 0.96 0.59
N=60
UNIDAD IV
PRINCIPIO DE LA
CONFIABILIDAD Y TABLAS
NORMATIVAS DE LOS TEST
PSICOLGICOS
LECCIN I
CONFIABILIDAD: DEFINICIN, MTODOS, APLICACIONES Y

FACTORES QUE LO AFECTAN.
1. Aspectos conceptuales previos
Como ya se ha revisado anteriormente, en el marco de la teora clsica

de los tests, el puntaje observado de la escala es igual puntaje verdadero
ms el error de medicin, siguiendo la siguiente ecuacin.
X= V + e
Al igual que la mayora de conceptos que se guan bajo las premisas de la

teora clsica de los tests, el concepto de confiabilidad lleva implcita la
presencia de error en el proceso de medicin, es decir, todo puntaje
emprico est afectado por un error de medicin.
Entonces, segn la ecuacin inicial, la varianza total de los puntajes

(SX) est compuesta por la varianza de los puntajes verdaderos (SV)
ms la varianza de los puntajes de error (Se). La ecuacin resultante es
la siguiente:
SX= SV + Se
Bajo el supuesto que no existe correlacin entre la puntuacin verdadera

de los sujetos en un test y sus respectivos errores de medida, entonces
la confiabilidad queda definida por la siguiente expresin:
SV
rtt =
SX
Se
rtt = 1 -
Sv
A partir de un anlisis de la expresin anterior, cuando la proporcin de

varianza de error sea baja, la confiabilidad ser alta. Por ejemplo, un
coeficiente de confiabilidad de 0.95 se puede interpretar como el 95%
de la varianza de los puntajes del test corresponde a la varianza

verdadera y el 5% a la varianza del error.
2. Definiciones
Diversos autores han brindado su punto de vista acerca del concepto de

confiabilidad. Entre ellos, Cohen & Swerdlick (2001) sealan que la
confiabilidad es la proporcin de la varianza total atribuida a la varianza
verdadera, y en consecuencia, entre mayor sea la proporcin de la
varianza total atribuida a la varianza verdadera, la prueba ser ms
confiable. Hogan (2004) menciona que la confiabilidad se relaciona con la
consistencia de las puntuaciones en la medicin al margen de lo que mida
el instrumento. Esta idea deja por sentado el hecho que un instrumento
puede ser vlido pero no confiable.
Por su parte, Muiz (1994) refiere que la confiabilidad se refiere a la

estabilidad de las mediciones cuando no existan razones tericas o
empricas para suponer que la variable a medir haya sido modificada
diferencialmente para los sujetos.
Se puede concluir parcialmente que la confiabilidad suele estar definida

en trminos de constancia temporal y en su estructura interna, es decir,
si se encuentra que los reactivos que conforman la prueba son
consistentes entre s. Las estrategias de evaluacin de validez sern
discutidas en lecciones posteriores.
3. Factores que afectan la confiabilidad
La confiabilidad es afectada por factores de diversa ndole, los cuales

pueden ser controlados en la medida que el investigador tenga conciencia
de ellos y pueda identificarlos.
3.1 Caractersticas naturales del test
a. Homogeneidad contra heterogeneidad de los reactivos
Esta consideracin seala que si la prueba es homognea en sus

reactivos, sera necesario esperar un alto grado de consistencia
interna y por lo tanto, confiabilidad (Cohen & Swerdlik, 2001).
b. Caractersticas dinmicas versus las estticas de la

variable a medir
Se tiene en cuenta las implicancias de las caractersticas

dinmicas que pueden influir en la confiabilidad de un test,
ya que estas se dan en funcin de las experiencias
situacionales y cognoscitivas que afrontan los sujetos.
c. Segn el tipo de prueba: Pruebas de velocidad frente a

pruebas de poder
La estimacin de la confiabilidad en las pruebas de velocidad va

hacia la demostracin de la consistencia de velocidad de
respuesta y en tal sentido la confiabilidad en este tipo de
pruebas, no debe calcularse a partir de una sola aplicacin con
un lmite de tiempo nico, sino tiene que hacerse en dos
periodos. Al calcular la confiabilidad mediante mtodos de una
sola aplicacin, como los de la consistencia interna, se obtendra
un coeficiente de confiabilidad alto, pero falso.
En contraste a lo mencionado existen las pruebas de poder, que

son aquellas que presentan un lmite de tiempo bastante largo,
en donde, a diferencia de la prueba de velocidad, se es capaz
de obtener un puntuacin perfecta.
3.2. Variabilidad de las muestras
El coeficiente de confiabilidad puede aumentar, al incrementarse la

variabilidad de la muestra (muestra ms heterognea). Por lo tanto,
mientras mayor sea la varianza de las puntuaciones de un test o
prueba psicolgica y/o educativa, mayor ser el coeficiente de
confiabilidad encontrado.
3.3. Longitud del test
Cuando se incluyen ms tems o reactivos en una prueba, ms

aspectos de la variable o rasgo a medir se podrn evaluar,
evidenciando as, un incremento en la posibilidad de poseer un
mayor coeficiente de confiabilidad.
La longitud de una prueba es importante, debido a que la cantidad

de reactivos de una prueba, nos puede ayudar a predecir cun
confiable puede ser un test, y mientras ms larga sea la prueba,
ms confiable podr ser.
LECCIN II
CONFIABILIDAD POR EL MTODO TEST RETEST Y DE LA MITADES
Como vimos en la leccin anterior, el concepto de confiabilidad asume que

los puntajes empricos se encuentran afectados por las fuentes de error.
As, en la construccin de un instrumento de medida se busca minimizar los
errores atribuibles a la prueba. Para la estimacin de la confiabilidad se han
ideado numerosas frmulas, los que en su mayora se expresan como
coeficientes de correlacin. Esto a ha dado lugar a la distincin de cuatro
tipos de coeficientes de confiabilidad: estabilidad(o test retest), mtodo por
mitades, equivalencia (o de formas paralelas) y de consistencia. En esta
leccin nos ocuparemos de los dos primeros mtodos de estimacin de la
confiabilidad.
1. Mtodo de estabilidad o test retest
Se puede definir como la consistencia de los puntajes a travs del

tiempo, en donde se asume que lo estudiado es estable en el tiempo. El
procedimiento bsico de este mtodo es aplicar en dos situaciones
diferentes y con un intervalo predeterminado de tiempo (T), la misma
prueba a una muestra determinada (muestra A). Finalmente, para el
clculo del coeficiente se emplea principalmente el coeficiente r de
Pearson (Fig. ).
MUESTRA MUESTRA
A A
TEST X TEST X
Ptj A1 r de Pearson Ptj A2
Fig. Esquema del mtodo de estabilidad o test retest (elaboracin propia)

Nota: Ptj A1= Ptj A2
La doble aplicacin de un mismo instrumento tiene como ventaja el

tiempo y la economa sobre el empleo de, por ejemplo dos formas
equivalentes (leccin III), dada la dificultad de construirlas (Cortada de
Kohan, 2000).
Una limitacin del empleo de este mtodo es determinar el tiempo que

debe transcurrir entre ambas aplicaciones. Lo recomendable es que la
segunda aplicacin no debe seguir inmediatamente a la primera, ya que
el rendimiento en la segunda aplicacin puede verse afectado por el
factor memoria. Por otro lado, si el intervalo de tiempo es demasiado
amplio, los resultados pueden verse afectados por la intervencin de
factores de maduracin del medio ambiente. En conclusin no existe una
norma que defina el tiempo que debe pasar entre la primera y segunda
aplicacin.
2. Mtodo de divisin por mitades o "split half method"
Tericamente, este mtodo es similar al mtodo de estimacin por

formas equivalentes, con la diferencia de que aqu solamente se trabajo
con un solo instrumento, en donde los tems son divididos en dos partes
(pares-impares; primeros-ltimos, o cualquier otra forma de dividir la
prueba en dos partes).
Una vez dividida la prueba, las dos series de puntajes resultantes se

correlacionan con el coeficiente "r" de Pearson. Pero por haberse dividido
el test en dos partes, el coeficiente de correlacin resultante debe ser
"corregido" para arrojar el coeficiente de correlacin "r para todo el test.
Esta correccin se efecta con la frmula de profeca de Spearman-
Brown:
rxx= 2r0e
1 + r0e
Donde:
rxx: Coeficiente de Spearman-Brown.

roe: Coeficiente de Pearson de las dos mitades equivalentes.
LECCIN III
CONFIABILIDAD POR EL MTODO DE LAS PRUEBAS EQUIVALENTES

Y POR CONSISTENCIA INTERNA
1. Mtodo de pruebas equivalentes
El mtodo consiste en aplicar dos formas equivalentes o paralelas del test

al mismo grupo de individuos, en donde las dos series de puntajes
resultantes se correlacionan con el coeficiente producto de los momentos
de Pearson (r).
2. Estimacin de la Confiabilidad por consistencia interna
Los coeficientes de consistencia internada estn en relacin a la

homogeneidad de la prueba en la medida de que cada uno de los
elementos mide la misma caracterstica. Se usa para tal efecto diversas
medidas como son el Alpha de Cronbach y el coeficiente KR-20.
2.1. Alpha de Cronbach
Se trata de un ndice de consistencia interna que toma valores entre

0 y 1. El coeficiente Alpha de Cronbach se basa en las magnitudes
de las covariaciones entre los tems en relacin con la varianza total
del test, en vez de considerar las correlaciones entre medidas
paralelas.
K Si
2
= 1 2
K 1 ST

Donde K est referido al nmero de tems; Si, a la Sumatoria de
Varianzas de los tems; ST, a la Varianza de la suma de los tems,
y el al Coeficiente de Alfa de Cronbach
2.2. Ecuacin Kuder-Richardson 20
Se trata de un caso particular del coeficiente Alfa de Cronbach

cuando los tems que componen la escala son dicotomicos. Es decir,
cada tem slo admite dos opciones de respuesta, que son
exhaustivas y mutuamente excluyentes. Viene expresada por la

siguiente expresin matemtica.
Donde st representa a la varianza de cada elemento, expresada

como el producto de las probabilidades de obtener una respuesta
correcta (p) e incorrecta (q); y siendo k el nmero de tems de la
escala.
3. Interpretacin
De acuerdo con Oviedo & Campo-Arias (2005), el alfa de Cronbach

mnimo aceptable es de 0.70, considerando adems que un indicador
entre 0.80 y 0.90 es ptimo. Cuando sobrepasa esta valla, de 0.90, se
dice que hay redundancia en los tems.
LECCIN IV
TRANSFORMACIN DE PUNTAJES DIRECTOS A PUNTUACIONES

ESTNDAR Z, T Y TRANSFORMACIONES PERCENTILES
1. Elaboracin de normas
Si bien es cierto el test es un elemento auxiliar en el quehacer

psicolgico, el hecho de contar con indicadores de confiabilidad y validez
adecuados, le da consistencia a los hallazgos que se realicen. Pero
queda pendiente el problema de la interpretacin de las puntuaciones
Se interpreta las puntuaciones directas de la prueba? Esa pregunta
ser respondida en breve.
1.1. Proceso de elaboracin de normas de un test
Para comprender este procedimiento en su real dimensin, es

necesario tratar algunos aspectos conceptuales previos.
a. Poblacin de referencia
Est referida a personas que comparten caractersticas

comunes (edad, sexo, grado de instruccin, etc.), las que
estarn bajo criterios de inclusin y exclusin. Ejemplo: la
poblacin de referencia est compuesta por las estudiantes del
I al VIII ciclo de la carrera de Psicologa de la UIGV.
Atendiendo a criterios de exclusin, no formarn parte de la
muestra estudiantes varones, ni de IX ciclo de dicha carrera.
b. Grupo normativo (Muestra)
Se refiere a un grupo seleccionado de la poblacin, el cual debe

tener tres caractersticas: 1) Debe ser definido, es decir, estar
en funcin de la poblacin y cumplir las caractersticas de esta.
2) Debe ser representativo, lo cual indica que aquellos
hallazgos en la muestra, podrn ser generalizados a la
poblacin de origen. Y por ltimo, 3) debe ser de tamao
suficiente, para evitar errores asociados al muestreo.
c. Norma
La norma es de suma importancia, ya que da informacin

acerca del desempeo de una poblacin de referencia en un
test. El sustento de esta postura est en los clculos

estadsticos acerca de las diferentes puntuaciones estndar que
existen.
d. Baremo o Tabla de Normas
La tabla de normas o baremo, es una tabla que sistematiza la

conversin de puntajes directos en puntajes derivados. Cabe
resaltar que las normas ms recomendadas son aquellas que
se asemejan a una escala de intervalos.
e. Puntajes derivados o unidades de calificacin
Son aquellos puntajes que se obtienen a partir de los puntajes

directos por medio de mtodos estadsticos. Dicha conversin
tiene dos objetivos, convertir los datos en un solo tipo de
escala, y tambin posibilitar una mejor interpretacin de los
datos.
Entonces, a partir de dichos objetivos, Tres son los tipos de

puntajes derivados ms conocidos: Los puntajes percentiles,
los puntajes estndar o tpicos y los puntajes estndar o tpicos
normalizados
Percentiles (Pc)
Son puntajes derivados, los cuales conforman una escala

ordinal que se expresa en funcin del porcentaje de
personas del grupo normativo que quedan por debajo de una
puntuacin directa determinada. Indica la posicin del
individuo en un grupo normativo. Es decir, indican a qu
porcentaje del grupo normativo superan. Por ejemplo,
alguien con percentil 85, superar al 85% de su poblacin de
referencia en la variable estudiada, y es superado por un
15% en la misma variable.
Puntaje estndar o tpicos
Toman como unidad fracciones de la desviacin estndar de

la distribucin de puntajes del grupo normativo. Dichas
puntuaciones expresan la distancia del individuo a la media
aritmtica en funcin de la desviacin estndar.
Los puntajes tpicos ms usados son el Cociente intelectual

(usado en la mayora de pruebas de inteligencia), Puntaje T,
Eneatipo (Estanino) y Decatipo (Sten)
A continuacin se presenta una tabla que sistematiza las

medias aritmticas y desviaciones estndar de cada uno de
los puntajes tpicos mencionados.
Con relacin al clculo, se ha propuesto una expresin

matemtica que se muestra a continuacin:
Donde:
X= puntaje directo
X1= media del grupo
S= DE del grupo
S2= DE del puntaje estndar elegido
X2= media del puntaje estndar elegido
Puntaje estndar o tpicos normalizados
Se obtienen a travs de la conversin de los puntajes

directos en puntuaciones Z, respetando la forma inicial de
distribucin de las puntuaciones.
1.2. Distribucin normal y correspondencia con puntuaciones

estndar
Para dar una mejor lectura a las equivalencias, se usar la

propuesta de Seashore (1955) acerca de ello.
Fig. xx. Curva normal, percentiles y puntuaciones estndar. Tomado de Seashore (1955)
2. Aspectos Tcnicos complementarios
2.1. Normas especficas o de centro
Dichas normas hacen referencia a aquellas elaboradas a partir de

grupo ms especficos, en vez de amplios, es decir, con un rango
menor de accin, pero que permiten comparar a la persona con sus
futuros competidores (procesos de seleccin) o compaeros
(evaluacin de aptitudes en determinado nivel educativo), lo cual
dar ms certeza al evaluador al momento de brindar alguna
conclusin respecto al examinado en relacin a su grupo inmediato
de referencia.
2.2. Obsolescencia de las normas

Esta situacin, que es un problema real en nuestro medio, implica la

renovacin de baremos cada cierto tiempo, ya que se experimentan
cambios en la poblacin a consecuencia de los contextos sociales. El
tiempo para renovar las normas se estima en 10 aos.

Módulo Medicion Psicologica

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Módulo Medicion Psicologica

Hochgeladen von

Copyright:

Verfügbare Formate

Toms Caycho Rodrguez

Sergio Domnguez Lara

TOMAS CAYCHO RODRIGUEZ

CONCEPTO DE MEDICIN Y SISTEMA NUMRICO

La medicin es un concepto bsico y fundamental en todas las

En resumen podemos decir que medir es brindar la magnitud de

El concepto propiedad o atributo que caracteriza a personas y

Algunas propiedades son sencillas de medir, pues sus indicadores no

asignar nmeros puede ser fcilmente formulados. Por ejemplo, la

Por otro lado, el trmino numeral hace referencia a smbolos, tales

1.2 Sistema numrico empleado en la medicin psicolgica

El sistema numrico que se emplea en la medicin es el concerniente

a. Origen: La serie de nmeros (1, 2, 3,n) tiene un origen nico

b. Orden: Los nmeros estn ordenados de mayor a menor (despus

c. Distancia: La diferencia entre dos nmeros tambin se encuentran

6-3 > 5-3

An as, los fenmenos pueden no satisfacer todas las propiedades

los mismos. Es decir, existe en la medicin ciertos grados de

De acuerdo con Cortada de Kohan (1994), son nueve postulados

a. Postulados bsicos de identidad o equivalencia:

1. a = b o bien a b. Los nmeros son iguales o diferentes.

b. Postulados relativos al orden jerrquico.

4. Si a > b luego b < a. L relacin mayor que es asimtrica.

c. Postulados relativos a la aditividad.

6. Si a = p y b > o, entonces a + b > p, lo cual indica la

Las caractersticas y postulados del sistema numrico pueden

Algunos autores plantean el problema del isomorfismo en los

Es posible tambin plantear la existencia de isomorfismo a) entre un

Finalmente, Cortada de Kohan (2000) muestra que la medicin en

a. La medicin fundamental o medicin de magnitudes. Aqu, los

b. La medicin derivada. Esta categorizacin muestra que la

c. La medicin por fiat. Esta referida a la definicin arbitraria que

Con todo lo revisado acerca de la medicin en las ciencias en general,

En psicologa, medir es brindar magnitud a cierta propiedad o atributo,

Fig. 1. Ejemplo de medicin de atributos psicolgicos del ser humano

"Cuando puedas medir aquello de lo

La psicometra, en sentido amplio, se define como un conjunto de

Entonces, se puede decir que la psicometra es la disciplina que se

En lo que respecta a la funcin terica, se encarga de realizar el

En resumen, en psicologa, se trata de medir aspectos que no son

menor perfeccin. Esto, junto con la posibilidad de que los nmeros

2.2. Niveles o escalas de medicin

Retomando lo referido en la primera leccin, se entiende a la

2.2.1. Escala Nominal

En este tipo de variables los nmeros slo se usan para

2.2.2. Escala Ordinal

Los nmeros representan relaciones de orden. Esto quiere decir

pueden realizar operaciones aritmticas con los nmeros que

2.2.3. Escala de Intervalo

Esta escala es diferente de las otras dos tratadas con antelacin,

CI= EM/EC x 100 CATEGORA

130 - ms Muy superior

120 - 129 Superior

110 - 119 Normal brillante

69 - menos Deficiente mental

2.2.4. Escala de Razn

Presenta las mismas caractersticas que la escala de intervalo,

persona u objeto. Son muy escasas las variables psicolgicas

Teniendo en cuenta todo lo anterior sealado, podemos decir que el

De los test, su clasificacin y funciones, consistes en medir diferencias entre

DEFINICIN, OBJETIVO, CLASIFICACIN Y

En la actualidad, cuando hablamos de evaluacin casi siempre nos

El primero en emplear la palabra test fue el psiclogo estadounidense

a. Una prueba o test psicolgico constituye una medida objetiva y