Sie sind auf Seite 1von 77

Temas histricos

y profesionales.
Docente: Ps. Jos Luis Corts
Araya

Antecedentes Histricos y
Profesionales.

Cualquiera que haya asistido a la escuela bsica o a la


universidad, ingresado al servicio militar o bien solicitado

algn empleo durante el ltimo medio siglo, sin duda ha


completado una o ms pruebas.

Hace casi 2,500 aos, Platn y Aristteles escribieron


acerca de las diferencias individuales.

Ao 2200 a. C., el entonces emperador chino instituy un

sistema de exmenes en el servicio civil para determinar


los

funcionarios

gubernamentales

desempear sus labores.

eran

aptos

para

Ilustracin y Renacimiento

Un mundo ms progresista, menos doctrinario donde


fue desarrollndose la idea de que las personas eran
nicas y tenan derecho a afirmar sus dones naturales
y a mejorar su posicin en la vida.

El inters por el aprendizaje y la creatividad resurgi y


fue fomentado, constituy tambin un renacimiento
del individualismo.

El espritu de la libertad y el valor individual, que


floreca gracias al estmulo poltico y econmico que
proporcionaban el capitalismo y la democracia,
encontr su expresin en el arte, la ciencia, la filosofa
y el gobierno.

S. XIX: La medicin mental


cientfica
A

principios del siglo XIX, los cientficos solan


considerar las diferencias en cuanto a
habilidades sensoriomotrices y mentales sobre
todo como un fastidio o una fuente de error.

Debido

a que la bsqueda de leyes generales


en la naturaleza es difcil cuando las
mediciones de fenmenos naturales son
imprecisas y no confiables, los fsicos dirigieron
su atencin hacia la construccin de
instrumentos que fueran ms precisos y
consistentes que la sola observacin humana.

Charles Darwin y El origen de las especies.

Al final del siglo XIX Gustav Fechner, Wilhelm Wundt,


Hermann Ebbinghaus y otros psiclogos experimentales
demostraron que los fenmenos psicolgicos podan ser
descritos en trminos cuantitativos y racionales.

Francis Galton, primo del naturalista Charles Darwin, fue


un caballero ingls que se interes en las bases
hereditarias de la inteligencia y en la medicin de las
habilidades humanas. Galton dedic su atencin en
particular a la herencia del talento, pero tambin
elabor una serie de pruebas sensoriomotrices y dise
varias tcnicas para investigar las diferencias
individuales en cuanto a aptitudes y temperamento.
Entre sus contribuciones metodolgicas figura la
tcnica de co-relaciones, que sigue siendo un mtodo
popular para analizar calificaciones de pruebas.

S. XX: la estandarizacin y la
Ciencia.
Alfred

Binet, construir la primera prueba


mental que contribuy en forma
significativa a la prediccin del
aprovechamiento acadmico. Aporte
significativo concepto Edad Mental.

Clasificando tests

Las pruebas se pueden clasificar segn su contenido, la forma en que se


elaboraron, el parmetro para cuya medicin se disearon, el propsito

de su aplicacin, e incluso de acuerdo con la manera en que se


administran, califican e interpretan.

Un criterio de clasificacin sencillo es la dicotoma entre pruebas


estandarizadas contra no estandarizadas. Una prueba estandarizada,

elaborada por profesionales especialistas en desarrollar pruebas y que es


administrada a una muestra representativa de personas pertenecientes a

la poblacin para la que se dise el instrumento, tiene procedimientos


establecidos de administracin y calificacin(normas) que son constantes

en los distintos examinandos. As, todos ellos tienen la misma oportunidad


de responder los distintos reactivos de acuerdo con sus habilidades.

Otros criterios de clasificacin


Individuales

contra colectivas.
Velocidad contra potencia.
Pruebas objetivas contra no objetivas.
Verbales o de Ejecucin.
Cognoscitivas contra afectivas.
Rendimiento(fluida) y
aprovechamiento(cristal).

Usos Comunes de los tests

Clasificar, colocar, conservar, despedir, promover y/o


rotar a las personas en contextos educativos y laborales.

Asesorar y guiar a las personas con propsitos de asesora


educativa, vocacional y personal.

Diagnosticar y prescribir tratamientos psicolgicos y fsicos


en clnicas y hospitales.

Evaluar cambios cognoscitivos, intra o interpersonales


relativos a programas educativos, psicoteraputicos y
otros de intervencin en el comportamiento.

tica y uso de los tests


Quien?, Como? A quien?
para qu?
La

preparacin requerida para aplicar, evaluar


e interpretar pruebas vara en cierta medida de
acuerdo con el tipo de prueba en particular.
Preparacin mayor para:
individuales que colectivas.
Inteligencia y personalidad que en rendimiento
y aptitudes especiales.

La

evaluacin y el diagnstico deberan ser


realizados slo en un contexto profesional y por
parte de especialistas capacitados y
competentes en las pruebas adecuadas.
Tambin se pone nfasis en
1. La aplicacin de procedimientos cientficos
para disear y seleccionar pruebas y tcnicas
que sean apropiadas para poblaciones
especficas.
2. La interpretacin juiciosa de los resultados de
las pruebas.
3. El uso cuidadoso de las calificaciones de las
pruebas y los servidos de interpretacin.
4. Explicaciones claras pero cuidadosas de los
hallazgos de la evaluacin.

Factores a considerar
Consentimiento

Informado escrito y

firmado.
Etiqueta menos estigmatizante.
Resultados son informacin privilegiada
incluida en secreto profesional.

Diseo y Elaboracin de tests

La cantidad de esfuerzo invertido en la


elaboracin de un test psicolgico o educativo
vara con el tipo de prueba y con los propsitos
para los cuales se crea.

Cualquiera que sea el tipo de prueba o las metas


de los usuarios, se necesita cierto grado de
planeacin incluyendo definiciones claras de las
variables o constructos que van a medirse,
descripciones de las personas que van a ser
examinadas, condiciones bajo las cuales se
administrar
la
prueba,
e
informacin
concerniente a la calificacin, interpretacin de
las puntuaciones y uso que se dar a los
resultados.

Proceso

de elaboracin varia en cierto grado de


acuerdo con el propsito que se pretenda
lograr.

De

manera ideal, la elaboracin de una prueba


u otro instrumento psicomtrico empieza con la
definicin de las variables o constructos que van
a medirse y con el esbozo del contenido
propuesto.

Test

de inteligencia: se rene un conjunto de


reactivos que supuestamente miden algn
aspecto del constructo inteligencia. Esos
reactivos pueden ser elaborados de acuerdo
con una teora especfica de la conducta
inteligente o haciendo referencia slo a los tipos
de tareas que la gente muy inteligente puede
realizar de manera ms efectiva que las personas
menos inteligentes.

Inventarios y escalas de
personalidad
Se

han empleado varios enfoques,


algunos basados en el sentido comn,
otros en las teoras de personalidad y
otros ms en procedimientos estadsticos.

Pruebas de rendimiento

Se ha dedicado ms atencin a los procedimientos


usados para elaborar pruebas de rendimiento
acadmico que a los de otras clases de pruebas.
Se aplican ms pruebas de rendimiento que todos
los otros tipos de pruebas combinados.
Pese a la actual cultura anti exmenes, debe
considerrseles parte integral y formativa del
proceso educativo: cuando se usan de manera
efectiva, los resultados de los exmenes no se limitan
a la sola evaluacin y motivacin de los estudiantes,
si no que proporcionan informacin a los maestros, al
personal administrativo y a los padres, concerniente
a la medida en que se han alcanzado los objetivos
educativos especficos.

Preguntas para las personas


que planifican los instrumentos

Cules son los temas y materiales sobre los que se


examinar a los estudiantes?

Qu tipos de preguntas deben elaborarse?

Qu formatos o esquemas de reactivos y pruebas


deben utilizarse?

Cundo, dnde y cmo debe administrarse la prueba?

Cmo debe calificarse y evaluarse la prueba resuelta?

Taxonomas de objetivos
cognoscitivos

Taxonomas de objetivos
cognoscitivos

PREPARACIN DE LOS
REACTIVOS DEL TEST

Ciertos tipos de reactivos de prueba son ms apropiados

que otros para medir la obtencin de objetivos especficos.

Prepare alrededor de 20% ms de reactivos de los que en

realidad se necesiten .

Tipos de Reactivos

1.

Completamiento o llenado contra seleccin.

2.

Recuerdo contra reconocimiento.

3.

Construccin de respuesta contra identificacin.

4.

Ensayo contra objetivo.

Reactivos

de respuesta corta

Reactivos

de verdadero y falso

Reactivos

de aparejamiento

Reactivos

de opcin mltiple

FORMACIN Y
REPRODUCCIN DE UN TEST
Una

vez que se han preparado los reactivos


para una prueba, es aconsejable hacer que
los revisen y editen personas conocedoras.

Tiempo!!: Lmites en los tests

Un minuto = 1 reactivo de opcin mltiple o de respuesta


corta.

Un minuto = dos reactivos de verdadero y falso.

Ocho minutos = 1 pregunta de ensayo que requiere

respuesta de media pgina.

La extensin de la prueba y los lmites de tiempo necesitarn


ajustarse hacia abajo o hacia arriba cuando se examine a
alumnos de escuela primaria o a estudiantes de universidad.

PRUEBAS DE DESEMPEO
Tpicamente

en Chile Evaluacin por


competencias. Se le conoce tambien
como evaluacin autntica o, para
enfatizar que son una opcin a las
pruebas escritas, evaluacin alternativa.

ADMINISTRACION,
APLICACION Y CALIFICACIN
DE LOS TESTS
Sin

importar qu tan cuidadosamente se


elabore una prueba, los resultados no
tienen ningn valor si no se administra y
califica sta en forma adecuada.

El procedimiento que debe seguirse para aplicar una

prueba o cualquier otro instrumento psicomtrico


depende de:
1.

Tipo de instrumento (individual o colectiva, con tiempo

predeterminado o sin ste, cognoscitiva o afectiva).


2.

Evaluado(edad cronolgica, la educacin, los


antecedentes culturales y el estado fsico y mental y

especialmente de la disposicin y motivacin.


3.

Evaluador (apariencia, comportamiento y


conocimiento de la tcnica, entre otros)

Deberes del examinador


antes de la prueba

Programacin.

Consentimiento informado.

Familiarizarse con la prueba.

Garantizar condiciones de evaluacin


satisfactorias.

Reducir los fraudes.

Deberes del examinador


durante la prueba

Seguir las instrucciones de la prueba.


Permanecer alerta .

Establecer una relacin interpersonal.

Prepararse para manejar problemas


especiales.

Flexibilidad,

Deberes del examinador


despus de la prueba
Tras

la administracin de una prueba


colectiva de grupo, el examinador tiene
que recoger los materiales pertinentes.

Pruebas adaptativas
En

pruebas adaptativas o a la medida,


los reactivos especficos aplicados a una
persona en particular dependen de su
capacidad calculada a partir de sus
respuestas a reactivos previos. Debido a
que las pruebas son ms precisas para
medir la habilidad de las personas si la
dificultad de los reactivos corresponde a
su propio nivel de habilidad .

CALIFICACIN DE LOS TESTS

Cuando esta diseando el instrumento, el evaluador

debe decidir si quiere obtener calificaciones separadas


de las diversas partes, as como un resultado general de
la prueba en su conjunto.

Tambin debe decidirse si se restar una correccin por


adivinar, si se asignarn distintos pesos a la calificacin

de los diversos reactivos o secciones y si se entregarn


los resultados en forma directa o convertidos a otras

escalas numricas.

Para pruebas estandarizadas, el maestro de aula no


necesita tomar todas estas decisiones.

Correccin por adivinacin.

es la cantidad de reactivos que el examinado


acierta.
W la cantidad de reactivos en que el examinado
se equivoca.
k la cantidad de opciones por reactivo.
S la calificacin corregida

ANALISIS DE REACTIVOS Y
ESTANDARIZACIN DE
PRUEBAS
Anlisis

de reactivos se centra en el funcionamiento


de reactivos individuales, mientras que la
estandarizacin de pruebas se ocupa de la
interpretacin normativa de los resultados de la
prueba en su conjunto o de algunas de las partes o
subpruebas que la integran.

Se

deben analizar las respuestas de esa muestra


piloto para determinar si los reactivos estn
funcionando de manera adecuada.
Cualquiera que sea el tipo de prueba,
estandarizada o elaborada por el maestro, de
habilidad o de personalidad, un anlisis post mortem
o post hoc de los resultados es necesario.

Validez de reactivo
A

fin de evaluar la utilidad de un reactivo como


medida de las diferencias individuales en cuanto
a las caractersticas de habilidad o de
personalidad, se requiere un criterio externo de
medida de dicho rasgo.

La

validez de un reactivo para predecir una


posicin con base en un criterio externo puede
determinarse al correlacionar las calificaciones
de un reactivo (0 para los errores y 1 para los
aciertos) con las calificaciones de la medida de
criterio.

Se

han usado distintos tipos de coeficientes de


correlacin para este propsito; el ms comn
es el coeficiente biserial puntual,

nt = la cantidad total de examinados.


np = la cantidad de examinados que resuelven correctamente el
reactivo
Yp = la media de las calificaciones de criterio de quienes pasan el
reactivo,
Y = la media de todas las calificaciones de criterio,
s, = la desviacin estndar de todas las calificaciones de criterio.

Conclusin de peso en
evaluacin.
Mayor

correlacin entre reactivo y criterio= ms


preciso ser el reactivo como predictor del
criterio.
Coef. de .20 o menores pueden contribuir a
predecir el criterio, se prefieren coeficientes ms
elevados.
No solo correlacin entre reactivo y criterio, sino
tambin de la correlacin del reactivo con otros
reactivos de la prueba.
Son mejores los reactivos que tienen correlaciones
elevadas con el criterio, pero bajas con otros
reactivos, porque representan una contribucin
ms independiente a la prediccin de
calificaciones de criterio.

No

hay un criterio externo fcilmente disponible


contra el cual validar los reactivos de las pruebas
de aprovechamiento en el aula: entonces
usamos consistencia interna.

El

procedimiento ms breve consiste en dividir a


los examinandos en tres grupos segn sus
calificaciones en la prueba como un todo: un
grupo superior formado por el 27% que obtuvo las
calificaciones ms altas, un grupo inferior
compuesto por el 27% que tuvo las calificaciones
ms bajas, y el restante 46% incluido en un grupo
intermedio, luego se realiza el siguiente clculo.

Up y Lp son la cantidad de individuos que hay en los


grupos superior e inferior, respectivamente, y que
aciertan en el reactivo; U y L son el nmero total de
personas en los grupos superior e inferior (obsrvese
que U = L), respectivamente. Al valor de p se le
conoce como ndice de dificultad del reactivo y al
de D como ndice de discriminacin del reactivo.

Slo porque la forma como se responde un reactivo


vara de grupo a grupo no quiere decir necesariamente
que un reactivo est sesgado en contra de alguno de
los grupos. Tcnicamente, un reactivo se considera
sesgado slo cuando mide algo distinto una
caracterstica o rasgo diferente en un grupo con
respecto a otro.

A pesar de sus desventajas, los ndices de dificultad y de


discriminacin de reactivos proporcionan informacin
til sobre el funcionamiento de los reactivos individuales.
En general, se ha descubierto que el anlisis de reactivos
produce mejoras considerables en la eficacia de las
pruebas. En particular, el ndice de discriminacin de
reactivos es una medida bastante adecuada de la
calidad del reactivo.

ESTANDARIZACIN Y NORMAS
DE LAS PRUEBAS.

Los datos sobre el desempeo de un grupo numeroso


de individuos, como aquellos en quienes se basa el
diseo de un instrumento, son tiles para propsitos de
interpretacin de calificaciones.

La estandarizacin tambin incluye aplicar la prueba a


una muestra grande de personas (la muestra de
estandarizacin) aleccionada como representante de
la poblacin meta a la que est destinada la prueba.

Toda prueba estandarizada tiene instrucciones


estndar de aplicacin y calificacin que deben
seguirse estrictamente, sin dejar lugar a la
interpretacin personal o al sesgo.

El

principal propsito de estandarizar una prueba


es determinar la distribucin de puntuaciones
eradas en la muestra de estandarizacin (grupo
norma). Las calificaciones crudas obtenidas se
transforman entonces en alguna forma de
calificaciones derivadas o normas.

Los

principales tipos de normas son equivalentes


de edad, de grado, rangos de percentilares y
calificaciones estndar.

Este

mtodo de interpretacin con referencias a


normas, las normas obtenidas no funcionan como
estndares del desempeo deseado, sino
simplemente como un marco de referencia para
interpretar calificaciones.
Normas indican la posicin de una persona en la
prueba con respecto a la distribucin de las
calificaciones obtenidas por personas de la misma
edad cronolgica, grado, sexo u otras
caractersticas demogrficas.

Seleccin de una muestra de


estandarizacin

Muestreo aleatorio sencillo, cada uno de los miembros


de la poblacin meta tiene la misma oportunidad de
ser seleccionado, pero aleatoriedad no garantiza que
haya representatividad.

Muestreo aleatorio estratificado, se reduce la


probabilidad de elegir una muestra atpica o sesgada,
categorizar, o estratificar, la poblacin de una serie de
variables demogrficas (sexo, edad, nivel
socioeconmico, regin geogrfica y similares) que
presumiblemente estn relacionadas con las
calificaciones de la prueba. Entonces la cantidad de
individuos seleccionados al azar de cada categora o
estrato es proporcional al nmero total de personas de
la poblacin que caen en ese estrato.

El

muestreo por grupos: dividir una regin


geogrfica designada o alguna otra
entidad relevante en bloques o grupos
luego elige al azar un porcentaje
especificado de los grupos y dentro de
cada uno se selecciona aleatoriamente
una cantidad determinada de
subunidades (escuelas, residencias, etc.).

Normas de calificacin
estndar
A

diferencia de los rangos percentilares,


las calificaciones estndar representan la
medicin en una escala de intervalos.

Las

normas de calificacin estndar son


puntuaciones convertidas que tienen
cualesquier media y desviacin estndar
deseadas.

Calificaciones z

X es una puntuacin cruda dada, X es la media


aritmtica, y s es la desviacin estndar de las
puntuaciones crudas.

Transformar puntuaciones crudas en calificaciones z


produce una distribucin de calificaciones con la
misma forma, pero con una media y desviacin
estndar distintas a la distribucin de la puntuacin
cruda (X).

Media de las calificaciones z es 0, y la desviacin


estndar es 1.

Calificaciones Wechsler.

Las puntuaciones crudas en las subpruebas de las

escalas de inteligencia de Wechsler se transformaron


para tener una media de 10 y desviacin estndar de
3. No obstante, las puntuaciones verbales, de

ejecucin y de escala total (CIs de desviacin) en las


pruebas de Wechsler se convirtieron a una distribucin

con una media de 100 y desviacin estndar de 15


(vea las ltimas dos lneas de la figura 4.3).

Otra

escala de calificacin es la calificacin


estanina (nueve estndar).
En esta escala estndar normalizada, que tiene
una media de 5 y desviacin estndar de
aproximadamente 2, hay nueve rangos distintos, o
estaninas.
Calificacin estanina no es una verdadera escala
de calificaciones estndar, porque la primera y la
novena estanina estn abiertas.
Equilibrar la tendencia a considerar las
calificaciones de pruebas como medidas precisas,
invariables, de las diferencias individuales.

Otro

procedimiento que tiene el mismo efecto


es registrar no slo el rango percentilar o la
calificacin estndar correspondiente a una
puntuacin cruda dada, sino tambin un rango
percentilar o un intervalo de calificacin
estndar dentro de los cuales pueda esperarse
razonablemente que caiga la verdadera
posicin.

CONFIABILIDAD Y VALIDEZ
CONFIABILIDAD:

para medir.

para medir lo que fue diseada

Teora

clsica de la confiabilidad
La calificacin observada de una persona en una
prueba est compuesta por una puntuacin
real ms algn error no sistemtico de medicin.
Puntuacin

real de una persona = promedio de


las puntuaciones de infinitas aplicaciones.

La

varianza de las puntuaciones observadas


(s2obs) de un grupo de personas es igual a la
varianza de sus puntuaciones reales (s2rea) ms la
varianza debida a los errores no sistemticos de
medicin (s2err):

Entonces

la confiabilidad (rn)= proporcin de la


varianza observada que es explicada por la
varianza real.

La

confiabilidad de un conjunto de
calificaciones en una prueba se expresa
como un nmero decimal positivo que
flucta entre .00 y 1.00. Una r de 1.00
indica una confiabilidad perfecta, y una r
de .00 indica una falta absoluta de
confiabilidad de la medic.n

Coeficiente

test-retest: coeficiente de

Coeficiente

de formas paralelas.

estabilidad.

Coeficientes de consistencia
interna
Mitades

de Spearman: Enfoque
simplificado de la consistencia interna
una sola prueba se considera compuesta
por dos partes (formas paralelas) que
miden la misma cosa.
Kuder-Richardson: Una prueba puede
dividirse de muchas formas diferentes en
dos mitades que contengan igual
nmero de reactivos.

Alfa de Cronbach
k

es el nmero de reactivos, s2i la varianza de las


calificaciones en el reactivo i, y s2t la varianza de
las calificaciones totales de la prueba.

Kuder-Richanison slo son aplicables cuando los


reactivos de la prueba se califican con 0 o 1, pero el
coeficiente alfa es una frmula general para estimar
la confiabilidad de una prueba que consta de
reactivos en los cuales pueden asignarse
calificaciones de distinto peso a respuestas diferentes.

Confiabilidad entre
calificadores
Importante

conocer el grado en que diferentes


calificadores estn de acuerdo en las
calificaciones y otros valores numricos dados a
las respuestas de diferentes examinados y
reactivos.
1. Los personas califican las respuestas de un
nmero considerable de examinados y calcular
luego la correlacin entre los dos conjuntos de
calificaciones.
2. muchas personas califiquen las respuestas de un
examinado
3. Muchas personas califiquen las respuestas de
varios examinados.

Interpretacin de los
coeficientes de confiabilidad

Qu tan alto debe ser un coeficiente de confiabilidad


para que una prueba u otro instrumento psicomtrico
sean tiles? La respuesta depende de lo que
planeemos hacer con las puntuaciones de la prueba:

1.

Determinar si las calificaciones promedio de dos


grupos de personas son significativamente diferentes :
.60 a .70

2.

Comparar la calificacin de una persona con la de


otra, o la calificacin de una persona en una prueba
con su calificacin en otro instrumento: .85+ .

agregar

reactivos que miden algo


diferente de lo que miden los reactivos
originales puede dar lugar a una
reduccin en la confiabilidad.

Variabilidad y extensin de la
prueba.
Coeficientes

de confiabilidad tienden a ser ms


altos cuando la varianza de las puntuaciones de la
prueba, las puntuaciones del reactivo, las
calificaciones u otras variables que son evaluadas,
es grande que cuando es pequea.
La varianza de la calificacin de la prueba se
relaciona con la extensin de sta.
Mayor extensin de la prueba =mayor
confiabilidad.

Frmula

general de Spearman-Brown es una


expresin del efecto que tiene sobre la
confiabilidad el alargar una prueba incluyendo
ms reactivos del mismo tipo general.

es el factor por el cual se alarga la prueba


rll la confiabilidad de la prueba original no alargada
rmm la confiabilidad estimada de la prueba
alargada.

Aplicacin de Spearman
Brown.
Puede

utilizarse para determinar el incremento


necesario en la longitud de la prueba y, en
consecuencia, el nmero de reactivos que
deben agregarse para incrementar la
confiabilidad de un valor desde rll hasta rmm

Varianza y confiabilidad.
Adems

de depender del nmero de reactivos, la


varianza y la confiabilidad de una prueba son
afectadas por la heterogeneidad de la muestra
de personas que la presentan.

Entre

mayor sea el rango de diferencias


individuales en cierta caracterstica, mayor ser la
varianza de las calificaciones en una medida de
esa caracterstica.

Error estndar de medicin

S obs
es la desviacin estndar de las calificaciones
observadas de la prueba
rll el coeficiente de confiabilidad test-retest.
Para ilustrar el clculo y el significado del error estndar de
medicin, suponga que la desviacin estndar de una prueba es
6.63 y el coeficiente de confiabilidad test-retest es .85; entonces
Serr = 6.631-.85 = 2.57. Si la calificacin de una persona en la
prueba es 40, puede concluirse, con 68% de confianza, que forma
parte de un grupo de personas que tienen calificaciones
observadas de 40 cuyas calificaciones reales en la prueba caen
entre 37.43(40 - 2.57)y 42.57(40 + 2.57).

Confiabilidad de las pruebas


referidas a criterio
Un

grupo consta de personas cuyas puntuaciones


igualan o exceden el nivel de criterio (de
dominio) en la habilidad que se est evaluando;
el otro grupo consta de personas cuyas
puntuaciones no alcanzan el nivel de criterio.

VALIDEZ
El

grado en que una prueba mide lo que est


diseada para medir.
Metodos: (1) analizar el contenido de la prueba, (2)
calcular la correlacin entre las calificaciones en la
prueba y las calificaciones en el criterio de inters y
(3) investigar las caractersticas psicolgicas
particulares o constructos medidos por la prueba.
A diferencia de la confiabilidad, la cual es influida
slo por los errores no sistemticos de medicin, la
validez de una prueba es afectada tanto por los
errores no sistemticos como por los sistemticos
(constantes).

Validez de contenido
Atae

a si la prueba produce un rango de


respuestas que son representativas del dominio
entero o universo de habilidades, entendimientos
y otras conductas que supuestamente debe
medir la prueba.
A menudo en conexin con las pruebas de
aprovechamiento, las cuales por lo general no
existe un criterio externo especificado.
Si expertos en la materia coinciden en que una
prueba parece y acta como un instrumento
diseado para medir lo que se supone debe
medir, entonces se dice que posee validez de
contenido.

Validez con relacin a criterio


Procedimientos

en los cuales las calificaciones en


la prueba de un grupo de personas se comparan
con las puntuaciones, clasificaciones u otras
medidas de desempeo.
Siempre que se dispone de una medida de criterio
en el momento de la prueba puede determinarse
la validez concurrente del instrumento. Cuando las
calificaciones en el criterio no estn disponibles sino
hasta cierto tiempo despus de que se aplic la
prueba, se enfatiza la validez predictiva de la
prueba.
Validez predictiva es del mayor inters en la
seleccin y ubicacin en un contexto ocupacional
o educativo.

Validez de constructo
Grado

en que el instrumento mide un constructo


particular, o concepto psicolgico .
El tipo ms general de validez, no se determina de
una sola manera o por una investigacin, mas bien
involucra una red de investigaciones y otros
procedimientos diseados para determinar si un
instrumento de evaluacin que supuestamente
mide una determinada variable de personalidad
en realidad lo hace.

Evidencia a favor de la validez


de constructo.

Los juicios de expertos en contenido.


Anlisis de la consistencia interna.
Estudios, tanto en grupos formados de manera
experimental como en grupos que se presentan de
manera natural, de las relaciones entre las
puntuaciones de la prueba y otras variables en las
cuales difieren los grupos.
Correlaciones de las puntuaciones en la prueba con
las puntuaciones en otras pruebas y variables con las
cuales se espera que tengan cierta relacin, seguidas
por un anlisis factorial de esas correlaciones.
Interrogar con detalle a los examinados o a los
calificadores acerca de sus respuestas a una prueba
o escala de calificacin para revelar los procesos
mentales especficos implicados al dar respuesta a los
reactivos.

Validacin

convergente y discriminante. Un
instrumento con validez de constructo debe tener
correlaciones altas con otras medidas o mtodos
de medicin del mismo constructo (validez
convergente), pero correlaciones bajas con las
medidas de constructos diferentes (validez
discriminante)

Cuando

las correlaciones entre el mismo


constructo medidas por el mismo y por diferentes
mtodos son significativamente mayores que las
correlaciones entre diferentes constructos
medidas por los mismos o por diferentes mtodos.

Bibliografa
AIKEN,

Cap 1, Temas histricos y profesionales

AIKEN,

Cap 2, Diseo y elaboracin de tests

AIKEN,

Cap 4, Anlisis de reactivos y

estandarizacin de pruebas.
AIKEN,

Cap 5, Confiablidad y Validez.

Das könnte Ihnen auch gefallen