Clase 2 - A - Temas Históricos y Profesionales

Temas histricos
y profesionales.
Docente: Ps. Jos Luis Corts
Araya
Antecedentes Histricos y
Profesionales.
Cualquiera que haya asistido a la escuela bsica o a la

universidad, ingresado al servicio militar o bien solicitado
algn empleo durante el ltimo medio siglo, sin duda ha

completado una o ms pruebas.
Hace casi 2,500 aos, Platn y Aristteles escribieron

acerca de las diferencias individuales.
Ao 2200 a. C., el entonces emperador chino instituy un
sistema de exmenes en el servicio civil para determinar

los
funcionarios
gubernamentales
desempear sus labores.
eran
aptos
para
Ilustracin y Renacimiento
Un mundo ms progresista, menos doctrinario donde

fue desarrollndose la idea de que las personas eran
nicas y tenan derecho a afirmar sus dones naturales
y a mejorar su posicin en la vida.
El inters por el aprendizaje y la creatividad resurgi y

fue fomentado, constituy tambin un renacimiento
del individualismo.
El espritu de la libertad y el valor individual, que

floreca gracias al estmulo poltico y econmico que
proporcionaban el capitalismo y la democracia,
encontr su expresin en el arte, la ciencia, la filosofa
y el gobierno.
S. XIX: La medicin mental

cientfica
A
principios del siglo XIX, los cientficos solan

considerar las diferencias en cuanto a
habilidades sensoriomotrices y mentales sobre
todo como un fastidio o una fuente de error.
Debido
a que la bsqueda de leyes generales

en la naturaleza es difcil cuando las
mediciones de fenmenos naturales son
imprecisas y no confiables, los fsicos dirigieron
su atencin hacia la construccin de
instrumentos que fueran ms precisos y
consistentes que la sola observacin humana.
Charles Darwin y El origen de las especies.
Al final del siglo XIX Gustav Fechner, Wilhelm Wundt,

Hermann Ebbinghaus y otros psiclogos experimentales
demostraron que los fenmenos psicolgicos podan ser
descritos en trminos cuantitativos y racionales.
Francis Galton, primo del naturalista Charles Darwin, fue

un caballero ingls que se interes en las bases
hereditarias de la inteligencia y en la medicin de las
habilidades humanas. Galton dedic su atencin en
particular a la herencia del talento, pero tambin
elabor una serie de pruebas sensoriomotrices y dise
varias tcnicas para investigar las diferencias
individuales en cuanto a aptitudes y temperamento.
Entre sus contribuciones metodolgicas figura la
tcnica de co-relaciones, que sigue siendo un mtodo
popular para analizar calificaciones de pruebas.
S. XX: la estandarizacin y la
Ciencia.
Alfred
Binet, construir la primera prueba

mental que contribuy en forma
significativa a la prediccin del
aprovechamiento acadmico. Aporte
significativo concepto Edad Mental.
Clasificando tests
Las pruebas se pueden clasificar segn su contenido, la forma en que se

elaboraron, el parmetro para cuya medicin se disearon, el propsito
de su aplicacin, e incluso de acuerdo con la manera en que se

administran, califican e interpretan.
Un criterio de clasificacin sencillo es la dicotoma entre pruebas

estandarizadas contra no estandarizadas. Una prueba estandarizada,
elaborada por profesionales especialistas en desarrollar pruebas y que es

administrada a una muestra representativa de personas pertenecientes a
la poblacin para la que se dise el instrumento, tiene procedimientos

establecidos de administracin y calificacin(normas) que son constantes
en los distintos examinandos. As, todos ellos tienen la misma oportunidad

de responder los distintos reactivos de acuerdo con sus habilidades.
Otros criterios de clasificacin

Individuales
contra colectivas.
Velocidad contra potencia.
Pruebas objetivas contra no objetivas.
Verbales o de Ejecucin.
Cognoscitivas contra afectivas.
Rendimiento(fluida) y
aprovechamiento(cristal).
Usos Comunes de los tests
Clasificar, colocar, conservar, despedir, promover y/o

rotar a las personas en contextos educativos y laborales.
Asesorar y guiar a las personas con propsitos de asesora

educativa, vocacional y personal.
Diagnosticar y prescribir tratamientos psicolgicos y fsicos

en clnicas y hospitales.
Evaluar cambios cognoscitivos, intra o interpersonales

relativos a programas educativos, psicoteraputicos y
otros de intervencin en el comportamiento.
tica y uso de los tests

Quien?, Como? A quien?
para qu?
La
preparacin requerida para aplicar, evaluar

e interpretar pruebas vara en cierta medida de
acuerdo con el tipo de prueba en particular.
Preparacin mayor para:
individuales que colectivas.
Inteligencia y personalidad que en rendimiento
y aptitudes especiales.
La
evaluacin y el diagnstico deberan ser

realizados slo en un contexto profesional y por
parte de especialistas capacitados y
competentes en las pruebas adecuadas.
Tambin se pone nfasis en
1. La aplicacin de procedimientos cientficos
para disear y seleccionar pruebas y tcnicas
que sean apropiadas para poblaciones
especficas.
2. La interpretacin juiciosa de los resultados de
las pruebas.
3. El uso cuidadoso de las calificaciones de las
pruebas y los servidos de interpretacin.
4. Explicaciones claras pero cuidadosas de los
hallazgos de la evaluacin.
Factores a considerar
Consentimiento
Informado escrito y
firmado.
Etiqueta menos estigmatizante.
Resultados son informacin privilegiada
incluida en secreto profesional.
Diseo y Elaboracin de tests
La cantidad de esfuerzo invertido en la

elaboracin de un test psicolgico o educativo
vara con el tipo de prueba y con los propsitos
para los cuales se crea.
Cualquiera que sea el tipo de prueba o las metas

de los usuarios, se necesita cierto grado de
planeacin incluyendo definiciones claras de las
variables o constructos que van a medirse,
descripciones de las personas que van a ser
examinadas, condiciones bajo las cuales se
administrar
la
prueba,
e
informacin
concerniente a la calificacin, interpretacin de
las puntuaciones y uso que se dar a los
resultados.
Proceso
de elaboracin varia en cierto grado de

acuerdo con el propsito que se pretenda
lograr.
De
manera ideal, la elaboracin de una prueba

u otro instrumento psicomtrico empieza con la
definicin de las variables o constructos que van
a medirse y con el esbozo del contenido
propuesto.
Test
de inteligencia: se rene un conjunto de

reactivos que supuestamente miden algn
aspecto del constructo inteligencia. Esos
reactivos pueden ser elaborados de acuerdo
con una teora especfica de la conducta
inteligente o haciendo referencia slo a los tipos
de tareas que la gente muy inteligente puede
realizar de manera ms efectiva que las personas
menos inteligentes.
Inventarios y escalas de
personalidad
Se
han empleado varios enfoques,

algunos basados en el sentido comn,
otros en las teoras de personalidad y
otros ms en procedimientos estadsticos.
Pruebas de rendimiento
Se ha dedicado ms atencin a los procedimientos

usados para elaborar pruebas de rendimiento
acadmico que a los de otras clases de pruebas.
Se aplican ms pruebas de rendimiento que todos
los otros tipos de pruebas combinados.
Pese a la actual cultura anti exmenes, debe
considerrseles parte integral y formativa del
proceso educativo: cuando se usan de manera
efectiva, los resultados de los exmenes no se limitan
a la sola evaluacin y motivacin de los estudiantes,
si no que proporcionan informacin a los maestros, al
personal administrativo y a los padres, concerniente
a la medida en que se han alcanzado los objetivos
educativos especficos.
Preguntas para las personas

que planifican los instrumentos
Cules son los temas y materiales sobre los que se

examinar a los estudiantes?
Qu tipos de preguntas deben elaborarse?
Qu formatos o esquemas de reactivos y pruebas

deben utilizarse?
Cundo, dnde y cmo debe administrarse la prueba?
Cmo debe calificarse y evaluarse la prueba resuelta?
Taxonomas de objetivos
cognoscitivos
Taxonomas de objetivos
cognoscitivos
PREPARACIN DE LOS
REACTIVOS DEL TEST
Ciertos tipos de reactivos de prueba son ms apropiados
que otros para medir la obtencin de objetivos especficos.
Prepare alrededor de 20% ms de reactivos de los que en
realidad se necesiten .
Tipos de Reactivos
1.
Completamiento o llenado contra seleccin.
2.
Recuerdo contra reconocimiento.
3.
Construccin de respuesta contra identificacin.
4.
Ensayo contra objetivo.
Reactivos
de respuesta corta
Reactivos
de verdadero y falso
Reactivos
de aparejamiento
Reactivos
de opcin mltiple
FORMACIN Y
REPRODUCCIN DE UN TEST
Una
vez que se han preparado los reactivos

para una prueba, es aconsejable hacer que
los revisen y editen personas conocedoras.
Tiempo!!: Lmites en los tests
Un minuto = 1 reactivo de opcin mltiple o de respuesta

corta.
Un minuto = dos reactivos de verdadero y falso.
Ocho minutos = 1 pregunta de ensayo que requiere
respuesta de media pgina.
La extensin de la prueba y los lmites de tiempo necesitarn

ajustarse hacia abajo o hacia arriba cuando se examine a
alumnos de escuela primaria o a estudiantes de universidad.
PRUEBAS DE DESEMPEO
Tpicamente
en Chile Evaluacin por

competencias. Se le conoce tambien
como evaluacin autntica o, para
enfatizar que son una opcin a las
pruebas escritas, evaluacin alternativa.
ADMINISTRACION,
APLICACION Y CALIFICACIN
DE LOS TESTS
Sin
importar qu tan cuidadosamente se

elabore una prueba, los resultados no
tienen ningn valor si no se administra y
califica sta en forma adecuada.
El procedimiento que debe seguirse para aplicar una
prueba o cualquier otro instrumento psicomtrico

depende de:
1.
Tipo de instrumento (individual o colectiva, con tiempo
predeterminado o sin ste, cognoscitiva o afectiva).

2.
Evaluado(edad cronolgica, la educacin, los

antecedentes culturales y el estado fsico y mental y
especialmente de la disposicin y motivacin.

3.
Evaluador (apariencia, comportamiento y

conocimiento de la tcnica, entre otros)
Deberes del examinador

antes de la prueba
Programacin.
Consentimiento informado.
Familiarizarse con la prueba.
Garantizar condiciones de evaluacin

satisfactorias.
Reducir los fraudes.

durante la prueba
Seguir las instrucciones de la prueba.

Permanecer alerta .
Establecer una relacin interpersonal.
Prepararse para manejar problemas

especiales.
Flexibilidad,

despus de la prueba
Tras
la administracin de una prueba

colectiva de grupo, el examinador tiene
que recoger los materiales pertinentes.
Pruebas adaptativas
En
pruebas adaptativas o a la medida,

los reactivos especficos aplicados a una
persona en particular dependen de su
capacidad calculada a partir de sus
respuestas a reactivos previos. Debido a
que las pruebas son ms precisas para
medir la habilidad de las personas si la
dificultad de los reactivos corresponde a
su propio nivel de habilidad .
CALIFICACIN DE LOS TESTS
Cuando esta diseando el instrumento, el evaluador
debe decidir si quiere obtener calificaciones separadas

de las diversas partes, as como un resultado general de
la prueba en su conjunto.
Tambin debe decidirse si se restar una correccin por

adivinar, si se asignarn distintos pesos a la calificacin
de los diversos reactivos o secciones y si se entregarn

los resultados en forma directa o convertidos a otras
escalas numricas.
Para pruebas estandarizadas, el maestro de aula no

necesita tomar todas estas decisiones.
Correccin por adivinacin.
es la cantidad de reactivos que el examinado

acierta.
W la cantidad de reactivos en que el examinado
se equivoca.
k la cantidad de opciones por reactivo.
S la calificacin corregida
ANALISIS DE REACTIVOS Y
ESTANDARIZACIN DE
PRUEBAS
Anlisis
de reactivos se centra en el funcionamiento

de reactivos individuales, mientras que la
estandarizacin de pruebas se ocupa de la
interpretacin normativa de los resultados de la
prueba en su conjunto o de algunas de las partes o
subpruebas que la integran.
Se
deben analizar las respuestas de esa muestra

piloto para determinar si los reactivos estn
funcionando de manera adecuada.
Cualquiera que sea el tipo de prueba,
estandarizada o elaborada por el maestro, de
habilidad o de personalidad, un anlisis post mortem
o post hoc de los resultados es necesario.
Validez de reactivo
A
fin de evaluar la utilidad de un reactivo como

medida de las diferencias individuales en cuanto
a las caractersticas de habilidad o de
personalidad, se requiere un criterio externo de
medida de dicho rasgo.
La
validez de un reactivo para predecir una

posicin con base en un criterio externo puede
determinarse al correlacionar las calificaciones
de un reactivo (0 para los errores y 1 para los
aciertos) con las calificaciones de la medida de
criterio.
Se
han usado distintos tipos de coeficientes de

correlacin para este propsito; el ms comn
es el coeficiente biserial puntual,
nt = la cantidad total de examinados.

np = la cantidad de examinados que resuelven correctamente el
reactivo
Yp = la media de las calificaciones de criterio de quienes pasan el
reactivo,
Y = la media de todas las calificaciones de criterio,
s, = la desviacin estndar de todas las calificaciones de criterio.
Conclusin de peso en
evaluacin.
Mayor
correlacin entre reactivo y criterio= ms

preciso ser el reactivo como predictor del
criterio.
Coef. de .20 o menores pueden contribuir a
predecir el criterio, se prefieren coeficientes ms
elevados.
No solo correlacin entre reactivo y criterio, sino
tambin de la correlacin del reactivo con otros
reactivos de la prueba.
Son mejores los reactivos que tienen correlaciones
elevadas con el criterio, pero bajas con otros
reactivos, porque representan una contribucin
ms independiente a la prediccin de
calificaciones de criterio.
No
hay un criterio externo fcilmente disponible

contra el cual validar los reactivos de las pruebas
de aprovechamiento en el aula: entonces
usamos consistencia interna.
El
procedimiento ms breve consiste en dividir a

los examinandos en tres grupos segn sus
calificaciones en la prueba como un todo: un
grupo superior formado por el 27% que obtuvo las
calificaciones ms altas, un grupo inferior
compuesto por el 27% que tuvo las calificaciones
ms bajas, y el restante 46% incluido en un grupo
intermedio, luego se realiza el siguiente clculo.
Up y Lp son la cantidad de individuos que hay en los

grupos superior e inferior, respectivamente, y que
aciertan en el reactivo; U y L son el nmero total de
personas en los grupos superior e inferior (obsrvese
que U = L), respectivamente. Al valor de p se le
conoce como ndice de dificultad del reactivo y al
de D como ndice de discriminacin del reactivo.
Slo porque la forma como se responde un reactivo

vara de grupo a grupo no quiere decir necesariamente
que un reactivo est sesgado en contra de alguno de
los grupos. Tcnicamente, un reactivo se considera
sesgado slo cuando mide algo distinto una
caracterstica o rasgo diferente en un grupo con
respecto a otro.
A pesar de sus desventajas, los ndices de dificultad y de

discriminacin de reactivos proporcionan informacin
til sobre el funcionamiento de los reactivos individuales.
En general, se ha descubierto que el anlisis de reactivos
produce mejoras considerables en la eficacia de las
pruebas. En particular, el ndice de discriminacin de
reactivos es una medida bastante adecuada de la
calidad del reactivo.
ESTANDARIZACIN Y NORMAS
DE LAS PRUEBAS.
Los datos sobre el desempeo de un grupo numeroso

de individuos, como aquellos en quienes se basa el
diseo de un instrumento, son tiles para propsitos de
interpretacin de calificaciones.
La estandarizacin tambin incluye aplicar la prueba a

una muestra grande de personas (la muestra de
estandarizacin) aleccionada como representante de
la poblacin meta a la que est destinada la prueba.
Toda prueba estandarizada tiene instrucciones

estndar de aplicacin y calificacin que deben
seguirse estrictamente, sin dejar lugar a la
interpretacin personal o al sesgo.
El
principal propsito de estandarizar una prueba

es determinar la distribucin de puntuaciones
eradas en la muestra de estandarizacin (grupo
norma). Las calificaciones crudas obtenidas se
transforman entonces en alguna forma de
calificaciones derivadas o normas.
Los
principales tipos de normas son equivalentes

de edad, de grado, rangos de percentilares y
calificaciones estndar.
Este
mtodo de interpretacin con referencias a

normas, las normas obtenidas no funcionan como
estndares del desempeo deseado, sino
simplemente como un marco de referencia para
interpretar calificaciones.
Normas indican la posicin de una persona en la
prueba con respecto a la distribucin de las
calificaciones obtenidas por personas de la misma
edad cronolgica, grado, sexo u otras
caractersticas demogrficas.
Seleccin de una muestra de

estandarizacin
Muestreo aleatorio sencillo, cada uno de los miembros

de la poblacin meta tiene la misma oportunidad de
ser seleccionado, pero aleatoriedad no garantiza que
haya representatividad.
Muestreo aleatorio estratificado, se reduce la

probabilidad de elegir una muestra atpica o sesgada,
categorizar, o estratificar, la poblacin de una serie de
variables demogrficas (sexo, edad, nivel
socioeconmico, regin geogrfica y similares) que
presumiblemente estn relacionadas con las
calificaciones de la prueba. Entonces la cantidad de
individuos seleccionados al azar de cada categora o
estrato es proporcional al nmero total de personas de
la poblacin que caen en ese estrato.
El
muestreo por grupos: dividir una regin

geogrfica designada o alguna otra
entidad relevante en bloques o grupos
luego elige al azar un porcentaje
especificado de los grupos y dentro de
cada uno se selecciona aleatoriamente
una cantidad determinada de
subunidades (escuelas, residencias, etc.).
Normas de calificacin
estndar
A
diferencia de los rangos percentilares,

las calificaciones estndar representan la
medicin en una escala de intervalos.
Las
normas de calificacin estndar son

puntuaciones convertidas que tienen
cualesquier media y desviacin estndar
deseadas.
Calificaciones z
X es una puntuacin cruda dada, X es la media

aritmtica, y s es la desviacin estndar de las
puntuaciones crudas.
Transformar puntuaciones crudas en calificaciones z

produce una distribucin de calificaciones con la
misma forma, pero con una media y desviacin
estndar distintas a la distribucin de la puntuacin
cruda (X).
Media de las calificaciones z es 0, y la desviacin

estndar es 1.
Calificaciones Wechsler.
Las puntuaciones crudas en las subpruebas de las
escalas de inteligencia de Wechsler se transformaron

para tener una media de 10 y desviacin estndar de
3. No obstante, las puntuaciones verbales, de
ejecucin y de escala total (CIs de desviacin) en las

pruebas de Wechsler se convirtieron a una distribucin
con una media de 100 y desviacin estndar de 15

(vea las ltimas dos lneas de la figura 4.3).
Otra
escala de calificacin es la calificacin

estanina (nueve estndar).
En esta escala estndar normalizada, que tiene
una media de 5 y desviacin estndar de
aproximadamente 2, hay nueve rangos distintos, o
estaninas.
Calificacin estanina no es una verdadera escala
de calificaciones estndar, porque la primera y la
novena estanina estn abiertas.
Equilibrar la tendencia a considerar las
calificaciones de pruebas como medidas precisas,
invariables, de las diferencias individuales.
Otro
procedimiento que tiene el mismo efecto

es registrar no slo el rango percentilar o la
calificacin estndar correspondiente a una
puntuacin cruda dada, sino tambin un rango
percentilar o un intervalo de calificacin
estndar dentro de los cuales pueda esperarse
razonablemente que caiga la verdadera
posicin.
CONFIABILIDAD Y VALIDEZ
CONFIABILIDAD:
para medir.
para medir lo que fue diseada
Teora
clsica de la confiabilidad
La calificacin observada de una persona en una
prueba est compuesta por una puntuacin
real ms algn error no sistemtico de medicin.
Puntuacin
real de una persona = promedio de

las puntuaciones de infinitas aplicaciones.
La
varianza de las puntuaciones observadas

(s2obs) de un grupo de personas es igual a la
varianza de sus puntuaciones reales (s2rea) ms la
varianza debida a los errores no sistemticos de
medicin (s2err):
Entonces
la confiabilidad (rn)= proporcin de la

varianza observada que es explicada por la
varianza real.
La
confiabilidad de un conjunto de
calificaciones en una prueba se expresa
como un nmero decimal positivo que
flucta entre .00 y 1.00. Una r de 1.00
indica una confiabilidad perfecta, y una r
de .00 indica una falta absoluta de
confiabilidad de la medic.n
Coeficiente
test-retest: coeficiente de
Coeficiente
de formas paralelas.
estabilidad.
Coeficientes de consistencia
interna
Mitades
de Spearman: Enfoque
simplificado de la consistencia interna
una sola prueba se considera compuesta
por dos partes (formas paralelas) que
miden la misma cosa.
Kuder-Richardson: Una prueba puede
dividirse de muchas formas diferentes en
dos mitades que contengan igual
nmero de reactivos.
Alfa de Cronbach
k
es el nmero de reactivos, s2i la varianza de las

calificaciones en el reactivo i, y s2t la varianza de
las calificaciones totales de la prueba.
Kuder-Richanison slo son aplicables cuando los

reactivos de la prueba se califican con 0 o 1, pero el
coeficiente alfa es una frmula general para estimar
la confiabilidad de una prueba que consta de
reactivos en los cuales pueden asignarse
calificaciones de distinto peso a respuestas diferentes.
Confiabilidad entre
calificadores
Importante
conocer el grado en que diferentes

calificadores estn de acuerdo en las
calificaciones y otros valores numricos dados a
las respuestas de diferentes examinados y
reactivos.
1. Los personas califican las respuestas de un
nmero considerable de examinados y calcular
luego la correlacin entre los dos conjuntos de
calificaciones.
2. muchas personas califiquen las respuestas de un
examinado
3. Muchas personas califiquen las respuestas de
varios examinados.
Interpretacin de los
coeficientes de confiabilidad
Qu tan alto debe ser un coeficiente de confiabilidad

para que una prueba u otro instrumento psicomtrico
sean tiles? La respuesta depende de lo que
planeemos hacer con las puntuaciones de la prueba:
1.
Determinar si las calificaciones promedio de dos

grupos de personas son significativamente diferentes :
.60 a .70
2.
Comparar la calificacin de una persona con la de

otra, o la calificacin de una persona en una prueba
con su calificacin en otro instrumento: .85+ .
agregar
reactivos que miden algo

diferente de lo que miden los reactivos
originales puede dar lugar a una
reduccin en la confiabilidad.
Variabilidad y extensin de la
prueba.
Coeficientes
de confiabilidad tienden a ser ms

altos cuando la varianza de las puntuaciones de la
prueba, las puntuaciones del reactivo, las
calificaciones u otras variables que son evaluadas,
es grande que cuando es pequea.
La varianza de la calificacin de la prueba se
relaciona con la extensin de sta.
Mayor extensin de la prueba =mayor
confiabilidad.
Frmula
general de Spearman-Brown es una

expresin del efecto que tiene sobre la
confiabilidad el alargar una prueba incluyendo
ms reactivos del mismo tipo general.
es el factor por el cual se alarga la prueba

rll la confiabilidad de la prueba original no alargada
rmm la confiabilidad estimada de la prueba
alargada.
Aplicacin de Spearman
Brown.
Puede
utilizarse para determinar el incremento

necesario en la longitud de la prueba y, en
consecuencia, el nmero de reactivos que
deben agregarse para incrementar la
confiabilidad de un valor desde rll hasta rmm
Varianza y confiabilidad.
Adems
de depender del nmero de reactivos, la

varianza y la confiabilidad de una prueba son
afectadas por la heterogeneidad de la muestra
de personas que la presentan.
Entre
mayor sea el rango de diferencias

individuales en cierta caracterstica, mayor ser la
varianza de las calificaciones en una medida de
esa caracterstica.
Error estndar de medicin
S obs
es la desviacin estndar de las calificaciones
observadas de la prueba
rll el coeficiente de confiabilidad test-retest.
Para ilustrar el clculo y el significado del error estndar de
medicin, suponga que la desviacin estndar de una prueba es
6.63 y el coeficiente de confiabilidad test-retest es .85; entonces
Serr = 6.631-.85 = 2.57. Si la calificacin de una persona en la
prueba es 40, puede concluirse, con 68% de confianza, que forma
parte de un grupo de personas que tienen calificaciones
observadas de 40 cuyas calificaciones reales en la prueba caen
entre 37.43(40 - 2.57)y 42.57(40 + 2.57).
Confiabilidad de las pruebas

referidas a criterio
Un
grupo consta de personas cuyas puntuaciones

igualan o exceden el nivel de criterio (de
dominio) en la habilidad que se est evaluando;
el otro grupo consta de personas cuyas
puntuaciones no alcanzan el nivel de criterio.
VALIDEZ
El
grado en que una prueba mide lo que est

diseada para medir.
Metodos: (1) analizar el contenido de la prueba, (2)
calcular la correlacin entre las calificaciones en la
prueba y las calificaciones en el criterio de inters y
(3) investigar las caractersticas psicolgicas
particulares o constructos medidos por la prueba.
A diferencia de la confiabilidad, la cual es influida
slo por los errores no sistemticos de medicin, la
validez de una prueba es afectada tanto por los
errores no sistemticos como por los sistemticos
(constantes).
Validez de contenido
Atae
a si la prueba produce un rango de

respuestas que son representativas del dominio
entero o universo de habilidades, entendimientos
y otras conductas que supuestamente debe
medir la prueba.
A menudo en conexin con las pruebas de
aprovechamiento, las cuales por lo general no
existe un criterio externo especificado.
Si expertos en la materia coinciden en que una
prueba parece y acta como un instrumento
diseado para medir lo que se supone debe
medir, entonces se dice que posee validez de
contenido.
Validez con relacin a criterio

Procedimientos
en los cuales las calificaciones en

la prueba de un grupo de personas se comparan
con las puntuaciones, clasificaciones u otras
medidas de desempeo.
Siempre que se dispone de una medida de criterio
en el momento de la prueba puede determinarse
la validez concurrente del instrumento. Cuando las
calificaciones en el criterio no estn disponibles sino
hasta cierto tiempo despus de que se aplic la
prueba, se enfatiza la validez predictiva de la
prueba.
Validez predictiva es del mayor inters en la
seleccin y ubicacin en un contexto ocupacional
o educativo.
Validez de constructo
Grado
en que el instrumento mide un constructo

particular, o concepto psicolgico .
El tipo ms general de validez, no se determina de
una sola manera o por una investigacin, mas bien
involucra una red de investigaciones y otros
procedimientos diseados para determinar si un
instrumento de evaluacin que supuestamente
mide una determinada variable de personalidad
en realidad lo hace.
Evidencia a favor de la validez

de constructo.
Los juicios de expertos en contenido.

Anlisis de la consistencia interna.
Estudios, tanto en grupos formados de manera
experimental como en grupos que se presentan de
manera natural, de las relaciones entre las
puntuaciones de la prueba y otras variables en las
cuales difieren los grupos.
Correlaciones de las puntuaciones en la prueba con
las puntuaciones en otras pruebas y variables con las
cuales se espera que tengan cierta relacin, seguidas
por un anlisis factorial de esas correlaciones.
Interrogar con detalle a los examinados o a los
calificadores acerca de sus respuestas a una prueba
o escala de calificacin para revelar los procesos
mentales especficos implicados al dar respuesta a los
reactivos.
Validacin
convergente y discriminante. Un
instrumento con validez de constructo debe tener
correlaciones altas con otras medidas o mtodos
de medicin del mismo constructo (validez
convergente), pero correlaciones bajas con las
medidas de constructos diferentes (validez
discriminante)
Cuando
las correlaciones entre el mismo

constructo medidas por el mismo y por diferentes
mtodos son significativamente mayores que las
correlaciones entre diferentes constructos
medidas por los mismos o por diferentes mtodos.
Bibliografa
AIKEN,
Cap 1, Temas histricos y profesionales
AIKEN,
Cap 2, Diseo y elaboracin de tests
AIKEN,
Cap 4, Anlisis de reactivos y
estandarizacin de pruebas.
AIKEN,
Cap 5, Confiablidad y Validez.

Clase 2 - A - Temas Históricos y Profesionales

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Clase 2 - A - Temas Históricos y Profesionales

Hochgeladen von

Copyright:

Verfügbare Formate

Temas histricos

Cualquiera que haya asistido a la escuela bsica o a la

algn empleo durante el ltimo medio siglo, sin duda ha

Hace casi 2,500 aos, Platn y Aristteles escribieron

Ao 2200 a. C., el entonces emperador chino instituy un

sistema de exmenes en el servicio civil para determinar

desempear sus labores.

Un mundo ms progresista, menos doctrinario donde

El inters por el aprendizaje y la creatividad resurgi y

El espritu de la libertad y el valor individual, que

S. XIX: La medicin mental

principios del siglo XIX, los cientficos solan

a que la bsqueda de leyes generales

Charles Darwin y El origen de las especies.

Al final del siglo XIX Gustav Fechner, Wilhelm Wundt,

Francis Galton, primo del naturalista Charles Darwin, fue

Binet, construir la primera prueba

Las pruebas se pueden clasificar segn su contenido, la forma en que se

de su aplicacin, e incluso de acuerdo con la manera en que se

Un criterio de clasificacin sencillo es la dicotoma entre pruebas

elaborada por profesionales especialistas en desarrollar pruebas y que es

la poblacin para la que se dise el instrumento, tiene procedimientos

en los distintos examinandos. As, todos ellos tienen la misma oportunidad

Otros criterios de clasificacin

Usos Comunes de los tests

Clasificar, colocar, conservar, despedir, promover y/o

Asesorar y guiar a las personas con propsitos de asesora

Diagnosticar y prescribir tratamientos psicolgicos y fsicos

Evaluar cambios cognoscitivos, intra o interpersonales

tica y uso de los tests

preparacin requerida para aplicar, evaluar

evaluacin y el diagnstico deberan ser

Diseo y Elaboracin de tests

La cantidad de esfuerzo invertido en la

Cualquiera que sea el tipo de prueba o las metas

de elaboracin varia en cierto grado de

manera ideal, la elaboracin de una prueba

de inteligencia: se rene un conjunto de

han empleado varios enfoques,

Se ha dedicado ms atencin a los procedimientos

Preguntas para las personas

Cules son los temas y materiales sobre los que se

Qu tipos de preguntas deben elaborarse?

Qu formatos o esquemas de reactivos y pruebas

Cundo, dnde y cmo debe administrarse la prueba?

Cmo debe calificarse y evaluarse la prueba resuelta?

Ciertos tipos de reactivos de prueba son ms apropiados

que otros para medir la obtencin de objetivos especficos.

Prepare alrededor de 20% ms de reactivos de los que en

Completamiento o llenado contra seleccin.

Recuerdo contra reconocimiento.

Construccin de respuesta contra identificacin.

Ensayo contra objetivo.

vez que se han preparado los reactivos

Tiempo!!: Lmites en los tests

Un minuto = 1 reactivo de opcin mltiple o de respuesta

Un minuto = dos reactivos de verdadero y falso.

Ocho minutos = 1 pregunta de ensayo que requiere

respuesta de media pgina.

La extensin de la prueba y los lmites de tiempo necesitarn

en Chile Evaluacin por

importar qu tan cuidadosamente se

El procedimiento que debe seguirse para aplicar una