Sie sind auf Seite 1von 14

1.

ELABORACIÓN DE UNA PRUEBA


La elaboración de una nueva prueba es tanto una ciencia como un arte. El
responsable de su desarrollo debe elegir estrategias y materiales, y luego tomar
cada día decisiones de investigación que van a influir en la calidad del
instrumento resultante.

La elaboración de pruebas consta de seis etapas entrelazadas:

1. Definición de la prueba
2. Elección del método de escalamiento
3. Elaboración de los reactivos
4. Análisis de los reactivos
5. Revisión de la prueba
6. Publicación de la prueba

Fuente: Gregory, R. (2012). Pruebas psicológicas.

1.1. DEFINICION DE LA PRUEBA


Para elaborar una nueva prueba, su creador debe tener una idea clara de lo
que esta debe medir y en qué debe diferenciarse de los instrumentos
existentes. Puesto que la medición psicológica está entrando en su segundo
centenario y se han publicado miles de pruebas, es claro que la labor de
demostrar que el instrumento propuesto es diferente y mejor que los ya
existentes recaen sobre los creadores.

1.2. ELECCION DEL METODO DE ESCALAMIENTO


El propósito inmediato de la medición psicológica es asignar números a las
respuestas en una prueba de modo que pueda juzgarse si el examinado
posee la característica medida en mayor o menor grado. Las reglas por medio
de las cuales se asignan números a las respuestas definen el método de
escalamiento. Los constructores de las pruebas seleccionan un método de
escalamiento que se adapte de manera óptima a la forma en que
conceptualizaron el rasgo o rasgos medidos por su instrumento.

Ningún método de escalamiento es invariablemente mejor que los otros. Para


algunos rasgos, la clasificación ordinal de jueces expertos puede ser el mejor
método de medición; para otros rasgos, el escalamiento complejo de los
datos de autoinforme tal vez produzca las mediciones más válidas.

1.2.1. METODOS DE ESCALAMIENTO REPRESENTATIVOS

1.2.1.1. Ordenamientos de expertos


Suponga que deseamos medir la profundidad del estado de coma
en pacientes que sufrieron una lesión encefálica reciente que los
dejó inconscientes. Una escala de profundidad del estado de coma
sería muy importante para predecir el curso de la mejoría, porque
es bien sabido que un periodo prolongado de inconciencia entraña
un mal pronóstico para la recuperación final. Además, el personal
de rehabilitación tiene la necesidad práctica de saber si un paciente
está sumido en un coma profundo o en un estado parcialmente
comunicativo de semi conciencia.

Una aproximación al escalamiento de la profundidad del coma sería


confiar en los ordenamientos conductuales de los expertos. Ello a
través de la Escala de Coma de Glasgow que se califica
observando al paciente y asignando el nivel más alto de
funcionamiento en cada una de tres subescalas. En cada
subescala se supone que el paciente exhibe todos los niveles de
conducta por debajo del nivel calificado. Por consiguiente, desde el
punto de vista psicométrico, la escala consta de tres subescalas
(ojos, respuesta verbal y respuesta motriz), cada una de las cuales
produce una clasificación ordinal de la conducta.

Fuente: Gregory, R. (2012). Pruebas psicológicas.

1.2.1.2. Escalas Likert


Likert (1932) propuso un método sencillo para el escalamiento de
actitudes que todavía se utiliza ampliamente en la actualidad. Una
escala Likert presenta al examinado cinco respuestas ordenadas
sobre un continuo de acuerdo/ desacuerdo o de
aprobación/desaprobación. Por ejemplo, un reactivo de una escala
que evalúa las actitudes hacia la pertenencia a la iglesia podría
decir:

“Los servidos religiosos me dan inspiración y me ayudan para dar


lo mejor de mí durante la siguiente semana.”

Está usted:
Dependiendo de la redacción de un reactivo individual, una
respuesta extrema de “totalmente de acuerdo” o “totalmente en
desacuerdo” indicará la respuesta más favorable en la actitud
subyacente medida por el cuestionario.

Likert (1932) asignó una puntuación de 5 a esta respuesta extrema,


1 al extremo opuesto, y 2, 3 y 4 a las respuestas intermedias. Para
obtener la puntuación total de la escala se suman las puntuaciones
de los reactivos individuales, de ahí que una escala Likert se
conoce también como una escala sumativa.

1.2.1.3. Escalas de Guttman


En una escala de Guttman los participantes que apoyan una
afirmación también coinciden con afirmaciones más moderadas
relacionadas con el mismo continuo subyacente (Guttman, 1947).
Por consiguiente, si se conoce la afirmación más extrema del
continuo con que puede coincidir un examinado, también es posible
reconstruir las respuestas intermedias. Las escalas de Guttman se
producen por medio de la selección de reactivos que caen en una
secuencia ordenada en términos del aval que reciben del
examinado. Los errores de medición hacen difícil obtener una
escala de Guttman perfecta, pero aun así es una meta adecuada
para ciertos tipos de prueba.

Por ejemplo, Beck utilizó el escalamiento tipo Guttman para


producir los reactivos individuales de su inventario de depresión
(Beck Depression Inventory, BDI; Beck, Steer y Garbin, 1988). Los
reactivos del inventario de Beck son parecidos a los siguientes:

( ) A veces me siento triste o melancólico.

( ) A menudo me siento triste o melancólico.

( ) La mayor parte del tiempo me siento triste o melancólico.

( ) Siempre me siento triste y no puedo soportarlo.


Se pide a los clientes que “en cada grupo marquen la afirmación
que sientan que mejor los describe”. Es casi seguro que un cliente
que muestra su aprobación por la alternativa extrema (por ejemplo,
“Siempre me siento triste y no puedo soportarlo”) también estará de
acuerdo con afirmaciones más moderadas.

1.2.2. ELABORACIÓN DE LOS REACTIVOS


La elaboración de los reactivos es un procedimiento arduo y laborioso que
pone a prueba la creatividad de los constructores de las pruebas. El redactor
de los reactivos se confronta con una gran cantidad de preguntas iniciales:

• ¿El contenido de los reactivos debe ser homogéneo o variado?

• ¿Qué rango de dificultad deben abarcar los reactivos?

• ¿Cuántos reactivos iniciales deben elaborarse?

• ¿Qué procesos cognoscitivos y dominios de los reactivos deben


utilizarse?

• ¿Qué tipo de reactivos de examen deberán usarse?

1.2.2.1. Preguntas iniciales en la elaboración de la prueba


La primera pregunta se refiere al tema de la homogeneidad contra la
heterogeneidad del contenido del reactivo. En gran medida, la
homogeneidad o diversidad del contenido depende de cómo haya definido
el creador de la prueba el nuevo instrumento. Considere una prueba de
inteligencia general con una carga cultural reducida; dicho instrumento
podría incorporar reactivos variados en la medida que las preguntas no
supongan una educación específica. El creador de la prueba podría tratar de
incluir nuevos problemas que sean igualmente desconocidos para todos los
examinados. Por otro lado, con una prueba de pensamiento espacial basada
en una teoría, se requerirían sub pruebas en que los reactivos tengan un
contenido homogéneo.

El rango de dificultad de las preguntas debe ser suficiente para permitir la


diferenciación significativa de los examinados en ambos extremos. Por ende,
las pruebas más útiles son las que incluyen una serie graduada de reactivos
muy sencillos que puedan ser aprobados casi por todos, así como un grupo
de reactivos gradualmente más difíciles que casi nadie pueda aprobar. Se
observa un efecto de límite superior cuando grandes cantidades de
examinados obtienen puntuaciones perfectas o casi perfectas. El problema
con un efecto de límite superior es que no es posible distinguir entre los
examinados con altas puntuaciones, aunque estos presenten diferencias
considerables en el rasgo subyacente que mide la prueba.

Se observa un efecto de límite inferior cuando cantidades significativas de


examinados obtienen puntuaciones cercanas en la parte inferior, o cerca de
la parte inferior, de la prueba. Po r ejemplo, la escala WAIS-R poseía u n
grave efecto de límite inferior ya que no lograba discriminar entre los niveles
moderado, grave y profundo de retraso mental: todas las personas con
discapacidades graves del desarrollo eran incapaces de responder
prácticamente todas las preguntas.

1.2.2.2. La tabla de especificaciones


Los diseñadores profesionales de pruebas de aprovechamiento y capacidad
suelen utilizar uno o más esquemas de redacción de reactivos para asegurar
que su instrumento tome en consideración una mezcla de procesos
cognoscitivos y dominios de contenido. Por ejemplo, un esquema muy simple
de redacción podría indicar que una prueba de aprovechamiento sobre la
Guerra Civil estadounidense debería constar de 10 reactivos de opción
múltiple y 10 preguntas de completamiento, la mitad de cada tipo sobre
cuestiones factuales (por ejemplo, fechas, batallas importantes) y la otra
mitad sobre temas conceptuales (por ejemplo, diferentes perspectivas sobre
la esclavitud).

Antes de iniciar el desarrollo de una prueba, los redactores suelen recibir una
tabla de especificaciones, la cual especifica la información y las tareas
cognoscitivas en que debe evaluarse a los examinados. Es posible que la
tabla de especificaciones más común sea la matriz de contenido por proceso,
la cual incluye el número exacto de reactivos en áreas relevantes de
contenido y detalla la combinación precisa de reactivos que debe ejemplificar
diferentes procesos cognoscitivos (MÜlman y Greene, 1989).
Al proporcionar una tabla de especificaciones antes de la etapa de redacción
de los reactivos, el creador de la prueba puede garantizar que el instrumento
resultante contenga un equilibrio apropiado de la cobertura de temas y que
toque el rango deseado de habilidades cognoscitivas. (Ver tabla)

Fuente: Gregory, R. (2012). Pruebas psicológicas.

1.2.2.3. Formatos de los reactivos


Cuando se trata del método por el cual deben evaluarse los atributos
psicológicos, el creador de la prueba se enfrenta a docenas de opciones.

En el caso de las pruebas grupales de inteligencia o de aprovechamiento, la


técnica preferida es la pregunta de opción múltiple. Por ejemplo, un reactivo
de una prueba de aprovechamiento sobre la historia estadounidense podría
incluir esta combinación de planteamiento y opciones:

¿Quién era el presidente de Estados Unidos durante la Guerra Civil?

a) Washington

b) Lincoln

c) Hamilton
d) Wilson

Los defensores de la metodología de opción múltiple sostienen que los


reactivos bien elaborados pueden medir no solo el conocimiento factual sino
también el conceptual. Además, las pruebas de opción múltiple permiten la
calificación rápida y objetiva con la ayuda de una máquina. Por otro lado, la
equidad de las preguntas de opción múltiple puede demostrarse (o en
ocasiones refutarse) con procedimientos muy sencillos de análisis de
reactivos que vamos a revisar más adelante. Las principales desventajas de
las preguntas de opción múltiple son, primero, la dificultad de escribir buenas
opciones distractoras y, segundo, la posibilidad de que la presencia de la
respuesta pueda llevar a la respuesta correcta a un examinado con u n
conocimiento insuficiente. En la tabla 4.6 se presentan pautas para la
redacción de buenos reactivos de opción múltiple.

Fuente: Gregory, R. (2012). Pruebas psicológicas.

Las preguntas de aparejamiento son comunes en la evaluación dentro


del aula, pero presentan graves deficiencias psicométricas. El siguiente
es un ejemplo de una pregunta de aparejamiento:

Utilice las letras presentadas a la izquierda para relacionar el nombre


con su logro:
El problema más grave de las preguntas de aparejamiento es que las
respuestas no son independientes: fallar en una relación por lo general
induce al examinado a fallar en otra. Otro problema es que en una
pregunta de aparejamiento las opciones deben estar estrechamente
relacionadas o la pregunta será demasiado sencilla.

Para las pruebas de aplicación individual el procedimiento preferido es el


reactivo objetivo de respuesta corta. De hecho, los tipos más simples de
preguntas suelen poseer la mayor confiabilidad y validez. Un buen
ejemplo es la subprueba de Vocabulario de la WAIS-IV, la cual consiste
simplemente en pedir al examinado que defina palabras. Esta subprueba
tiene una confiabilidad muy alta (.96) y suele considerarse la mejor medida
individual de la inteligencia general en la prueba.

Las pruebas de personalidad suelen utilizar preguntas de verdadero o


falso porque resultan sencillas de entender para los sujetos. A la mayoría
de la gente le resulta sencillo responder reactivos de verdadero o falso
como el siguiente:

V F

----- ----- Me gustan las revistas deportivas.

Los críticos de este método han señalado que las respuestas a dichas
preguntas pueden reflejar más la deseabilidad social que los rasgos de
personalidad (Edwards, 1961).

Un formato alternativo diseñado para contrarrestar este problema es la


metodología de elección forzada en que el examinado debe elegir entre
dos opciones igualmente deseables (o indeseables).
¿Qué preferiría hacer?

_____ Limpiar un galón de almíbar del piso.

_____ Ofrecerse como voluntario a pasar medio día en un asilo.

Aunque el método de elección forzada tiene muchas propiedades


psicométricas deseables, los creadores de las pruebas de personalidad
no se han apresurado a adoptar esta interesante metodología.

1.2.3. ANÁLISIS DE LOS REACTIVOS


Los psicólogos esperan que muchos de los reactivos del conjunto original
sean descartados o corregidos a medida que avanza el desarrollo de la
prueba. Por esta razón, los creadores de las pruebas al principio elaboran
muchos reactivos de más, tal vez el doble del número que pretenden usar.
¿Cómo se selecciona entonces la muestra final de preguntas a partir del
conjunto inicial de reactivos? Quienes elaboran la prueba usan el análisis de
reactivos, un conjunto de procedimientos estadísticos, para identificar cuáles
son los mejores. En general, el objetivo de dicho análisis es determinar qué
reactivos deberían conservarse, cuáles hay que corregir y cuáles deben
eliminarse. Al realizar un análisis cuidadoso de los reactivos, el creador de la
prueba puede utilizar los índices de dificultad, de confiabilidad y de validez
del reactivo, así como la curva característica y el índice de discriminación del
mismo.

1.2.4. REVISIÓN DE LA PRUEBA


El siguiente paso en el desarrollo de la prueba consiste en reunir nuevos
datos de una segunda muestra. Desde luego, esos examinados deben ser
similares a aquellos a quienes se dirige en última instancia el instrumento. El
objetivo de recabar datos adicionales es repetir los procedimientos de análisis
de reactivos. Si los nuevos cambios son ajustes menores, el creador de la
prueba puede decidir que esta es satisfactoria y que se encuentra lista para
un estudio de validación cruzada, un asunto que se analiza en la siguiente
sección. Si se requieren cambios importantes, es deseable recabar datos de
una tercera e incluso de una cuarta muestras. Pero en cierto punto deben
concluir los ajustes psicométricos; el creador debe proponer un instrumento
terminado y proceder al siguiente paso, la validación cruzada.
1.2.4.1. Validación cruzada
Cuando se utiliza una muestra para determinar si una prueba posee
validez relacionada con el criterio, la evidencia es bastante preliminar y
tentativa. En el desarrollo de una prueba es prudente buscar una
confirmación nueva independiente de la validez del instrumento antes de
proceder a su publicación. El término validación cruzada se refiere a la
práctica de usar la ecuación de regresión original en u n a nueva muestra
para determinar si la prueba predice el criterio tan bien como lo hizo en la
muestra original. Ghiselli, Campbell y Zedeck (1981) describen la razón
de la validación cruzada:

Ya sea que los reactivos sean elegidos con base en una clave
empírica o que sean corregidos o ponderados, los resultados
obtenidos deben considerarse específicos de la muestra usada
para el análisis estadístico, a menos que se recaben datos
adicionales. Esto es necesario porque probablemente los
resultados hayan obtenido provecho de los factores de azar que
operaban en ese grupo y, por ende, solo sean aplicables a la
muestra estudiada.

1.2.5. PUBLICACIÓN DE LA PRUEBA


El proceso de elaboración de la prueba no termina con la obtención de los
datos de validación cruzada. El creador del instrumento también debe
supervisar la producción de los materiales de evaluación, publicar un manual
técnico y redactar el manual del usuario.
1.2.5.1. Producción de los materiales de evaluación
Los materiales de evaluación deben ser sencillos de usar si se
pretende que sean aceptados por psicólogos y educadores. Por
consiguiente, una primera sugerencia para la producción de la
prueba es que la presentación física de los materiales permita una
aplicación rápida y sin complicaciones.

1.2.5.2. Manual técnico y manual del usuario


Los datos técnicos acerca de un nuevo instrumento por lo general
se resumen con las referencias apropiadas en un manual técnico.
El posible usuario puede encontrar aquí información acerca de los
análisis de reactivos, la confiabilidad de las escalas, los estudios de
validación cruzada y asuntos semejantes. En algunos casos esta
información se incluye en el manual del usuario, el cual, además de
d a r las instrucciones para la aplicación, ofrece directrices para la
interpretación de la prueba.

Los manuales de la prueba cumplen muchos propósitos, como se


explica en los Estándares para la evaluación educativa y
psicológica (AERA, APA y NCME, 1985,1999). El manual de estos
influyentes Estándares sugiere que los manuales de las pruebas
cumplan las siguientes metas:

 Describir la base y los usos recomendados para la prueba.


 Hacer advertencias específicas en contra de los usos
inadecuados de la prueba que se anticipan.
 Citar estudios representativos concernientes a los usos
generales y específicos de la prueba.
 Identificar cualificaciones necesarias para administrar e
interpretar la prueba.
 Proporcionar las revisiones, las enmiendas y los complementos
necesarios.
 Usar material de promoción que sea preciso y que se base en
la investigación.
 Citar relaciones cuantitativas entre las puntuaciones obtenidas
en la prueba y los criterios.
 Informar sobre el grado en que son intercambiables los modos
alternativos de respuesta (por ejemplo, folleto contra hoja de
respuestas).
 Dar materiales interpretativos adecuados al examinado.
 Proporcionar evidencia de la validez de cualquier interpretación
automatizada de la prueba.

Por último, los manuales de la prueba deben incluir los datos esenciales
sobre la confiabilidad y validez en vez de referir al usuario a otras fuentes,
una práctica desafortunada que se encuentra en los manuales de algunas
pruebas.

REFERENCIAS BIBLIOGRÁFICAS

Costa, N. K. M. (1996). Manual de pruebas de inteligencia y aptitudes. México:


Plaza y Valdés, S.A. de C.V.. Retrieved from http://www.ebrary.com

Gregory, R. (2012). Pruebas psicológicas. 1ª Edición en español. México:


Pearson Educación. p. 648

Martínez, A. M. R., & Hernández, L. M. V. (2014). Psicometría. España: Larousse


- Alianza Editorial. Retrieved from http://www.ebrary.com

Meneses, J. (2014). Psicometría. España: Editorial UOC. Retrieved from


http://www.ebrary.com

ENLACES WEB
file:///D:/Nueva%20carpeta/153484497-5-Elaboracion-Del-Pre-Test.pdf

http://biblio3.url.edu.gt/Libros/tests_p/2.1.pdf

http://23118.psi.uba.ar/academica/carrerasdegrado/psicologia/informacion_adic
ional/obligatorias/059_psicometricas1/tecnicas_psicometricas/archivos/f2.pdf
http://portal.fagro.edu.uy/docs/uensenia/Univ.%20Navarra%20_Pruebas%20obj
etivas.pdfç

Das könnte Ihnen auch gefallen