Beruflich Dokumente
Kultur Dokumente
La primera parte de este libro ofrece un panorama general del campo de las pruebas psicológicas y, des-
pués, se enfoca en los principios y procedimientos fundamentales que se pueden aplicar a todo tipo de
pruebas. El capítulo 1 introduce al estudiante en el campo actual y presenta un esbozo de cómo se llegó a
ese estado. En el capítulo 2 se revisan las fuentes de información a las que el estudiante puede recurrir para
averiguar más sobre las pruebas. Dichas fuentes se usan con frecuencia en los capítulos posteriores para
identificar qué pruebas se emplean con propósitos específicos; por ello, es importante aprender a usarlas.
En los capítulos 3 al 6 se presentan los principios fundamentales para juzgar cualquier prueba. Estos
capítulos se ocupan de las normas (3), confiabilidad (4), validez (5) y elaboración de pruebas, incluyendo
la neutralidad (6). Aunque no se trata de un material sencillo, es esencial que el estudiante aprenda estos
conceptos básicos, ya que son la base para manejar las pruebas que se tratan en la segunda parte de este
libro. Para asimilar el material, el estudiante debe hacer los ejercicios INTÉNTALO, que aparecen a lo largo
del texto. Los capítulos 1 y 2 pueden leerse de manera relajada, pero los capítulos 3 al 6 requieren de mu-
cha concentración y análisis. Estudiar estos capítulos apropiadamente tendrá una recompensa, pues dará
buenos dividendos al leer los capítulos posteriores.
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
CAPÍTULO 1
Campo de las pruebas psicológicas
Objetivos
1. Enumerar las principales categorías de pruebas presentando, al menos, un ejemplo de cada una.
2. Identificar los principales usos y usuarios de las pruebas.
3. Resumir los principales supuestos y las preguntas fundamentales relacionadas con las pruebas.
4. Bosquejar las características importantes de los principales períodos de la historia de las pruebas.
5. Identificar los seis principales acontecimientos que influyeron en el desarrollo de las pruebas.
6. Dar una definición de “prueba”.
Introducción
Este capítulo ofrece un panorama general del campo de al campo de las pruebas, es decir, lo examinamos des-
las pruebas. Desde luego, todos saben, al menos en ge- de diferentes ángulos o con distintos lentes. Primero,
neral, qué significa “prueba”. Todos tienen alguna expe- bosquejamos las principales categorías de pruebas,
riencia con diversas pruebas, por ejemplo, pruebas de las cuales, en su mayoría, corresponden a capítulos
admisión a la universidad, exámenes finales de cursos, de la segunda parte del libro. Al describir estas ca-
inventarios de intereses vocacionales y, quizá, algunas tegorías, presentamos ejemplos de algunas de las
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
medidas de personalidad. Sin embargo, al emprender pruebas más empleadas. En segundo lugar, identifi-
el estudio formal de este campo, es importante adqui- camos los principales usos y usuarios de las pruebas.
rir una comprensión más amplia y precisa de él. “Más ¿Quién las usa y con qué propósitos? En tercer lugar,
amplia” implica considerar todos los tipos de pruebas y bosquejamos los asuntos primordiales que nos preo-
todos los temas pertinentes: no queremos omitir nada cupan en relación con las pruebas. Este bosquejo, es
importante. “Más precisa” significa adquirir el dominio decir, la lista de las principales preocupaciones, co-
técnico indispensable para los profesionales de la ex- rresponde a los capítulos de la primera mitad del li-
tensa área de la psicología y disciplinas afines: no esta- bro. En cuarto lugar, rastreamos las raíces históricas
remos satisfechos con sólo dar a conocer estos temas. del estado actual del campo de las pruebas. Distingui-
Ésta es una agenda ambiciosa para un capítulo; mos los principales períodos de esta historia e identi-
sin embargo, en este primer capítulo sólo intentamos ficamos algunas de las principales fortalezas que han
brindar un panorama general de estos temas, mien- moldeado este campo. Por último, examinamos al-
tras que en los restantes proporcionaremos detalles. gunos de los intentos de definir “prueba” y otros tér-
Hay distintos modos de cumplir con nuestro objetivo, minos relacionados. Después de haber revisado el
pero ninguno es el mejor, por lo que recurrimos a cin- campo de las pruebas desde estas cinco perspecti-
co perspectivas o aproximaciones para introducirnos vas, será posible tener un panorama general.
3
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
Resumen de puntos clave 1-1 desempeño en asignaturas escolares típicas. Otra
prueba de esta categoría es el SAT2, que se usa para
Cinco maneras de introducirnos al campo predecir el éxito en la universidad.
1. Categorías de las pruebas
2. Usos y usuarios de las pruebas
¡Inténtalo!
3. Supuestos y preguntas fundamentales
4. Períodos históricos y fortalezas Para profundizar más en una categoría, pasa a la
5. Definición página 291. Echa un vistazo rápido a las páginas
291 a la 300. Verás cómo los capítulos subsi-
guientes brindan detalles acerca de las pruebas
Principales categorías de las pruebas mencionadas en este capítulo.
clásico de esta categoría es la Escala de Inteligencia pruebas en áreas como lectura, matemáticas, lenguaje,
Stanford-Binet. Estas pruebas son administradas por ciencia y ciencias sociales. La segunda subdivisión in-
psicólogos bien capacitados para realizar evaluacio- cluye pruebas de un solo tema, es decir, explora una
nes individuales, esto es, de uno a uno, con el objeti- sola área, como psicología, francés o geometría.
vo de proporcionar un índice de la capacidad general Un ejemplo de tales pruebas es la Prueba Psicoló-
mental de un individuo. Un ejemplo de una prueba gica: Graduate Record Examinations (GRE [Exámenes
de inteligencia de aplicación grupal es el Otis-Lennon de Registro para Graduados]).
School Ability Test (OLSAT [Prueba de Capacidad Es-
colar Otis-Lennon]), la cual se aplica a un grupo de 2
Por muchos años, esta prueba se llamó Scholastic Aptitude
estudiantes, por lo general en un salón de clases, Test [Prueba de Aptitudes Escolares]. El título se cambió de
para estimar la capacidad mental para tener un buen manera oficial a Scholastic Assessment Test [Prueba de Eva-
luación Escolar] en 1992 y después simplemente a SAT. Estos
1
En este capítulo, nos referimos sólo a la primera edición de antiguos nombres aún aparecen en muchas publicaciones.
las pruebas. En los siguientes capítulos, nos referimos a las Aquí se refiere en particular al SAT I: Prueba de razonamien-
ediciones más recientes y a sus iniciales correspondientes, por to. El SAT II: Prueba de materias es una serie de pruebas en
ejemplo, WAIS-IV, MMPI-2 y así sucesivamente. áreas específicas como literatura, francés o química.
cesos mentales crees que están involucrados + 19 o 24 × 8? Por otra parte, una prueba de poder, por
en esta prueba? lo general, implica material desafiante y no hay límite de
tiempo o éste es muy generoso. El punto esencial de
estas pruebas es evaluar los límites del conocimiento o
capacidad del examinado (no importa la velocidad). La
distinción no necesariamente es tan tajante: velocidad
pura o poder puro. Algunas pruebas de poder pueden
tener un elemento de velocidad; no se puede contestar
Otras maneras de clasificar las pruebas el SAT eternamente; sin embargo, la capacidad mental y
el conocimiento, más que la velocidad, son los determi-
Hasta aquí, hemos clasificado las pruebas de acuer- nantes primordiales del desempeño en una prueba de
do con el tipo predominante de contenido; de hecho, poder. Algunas pruebas de velocidad pueden tener un
ésta es la manera más común y, para la mayoría de elemento de poder; se tiene que pensar un poco y, qui-
perspectivas, más útil de hacerlo. Sin embargo, hay zá, también hacer un plan para tachar todas las “e” de
otras, las cuales enumeraremos brevemente. Se pue- esta página. Sin embargo, esta tarea es primordialmen-
den ver en el Resumen de puntos clave 1-3. te cuestión de velocidad, no de conocimiento científico.
Esta distinción se refiere simplemente al modo en Un segundo modo de introducirse en el campo de las
que se aplica la prueba. Una prueba individual puede pruebas es identificar los usos y usuarios regulares de
aplicarse sólo a un examinado a la vez. Los ejemplos las pruebas. ¿Quién usa las pruebas ubicadas en las
clásicos son las pruebas de inteligencia en las que un categorías enumeradas en la sección anterior? ¿En qué
examinador presenta cada pregunta o tarea al indi- escenarios? Consideremos los siguientes ejemplos.
viduo y registra sus respuestas. Una prueba grupal • John es psicólogo clínico que ejerce en el ámbi-
se puede aplicar a varios individuos al mismo tiem- to privado, donde ve muchos clientes que sufren
po, es decir, a un grupo; desde luego, cada uno de de ansiedad y depresión. Algunos casos pueden
ellos recibe su propia puntuación. En general, cual- ser de intensidad moderada susceptibles de te-
quier prueba de aplicación grupal puede aplicarse a rapia conductual y cognitivo conductual de corto
un solo individuo a la vez cuando las circunstancias lo plazo, pero otros pueden ser más crónicos con
ameritan, pero una de aplicación individual nunca se síntomas que encubren un padecimiento poten-
puede aplicar a un grupo a la vez. cialmente esquizofrénico. Al principio de la eva-
luación de sus clientes, John emplea de manera
Ejecución máxima versus ejecución típica rutinaria el MMPI y, en casos muy complicados, la
Prueba Rorschach de Manchas de Tinta.
Ésta es otra distinción útil entre tipos de pruebas. Al- • Kristen es psicóloga educativa. Cuando un maes-
gunas buscan la ejecución máxima: ¿qué tan bue- tro le envía algún alumno, por lo general revisa
no es el desempeño del examinado cuando hace lo los registros escolares que incluyen las puntua-
mejor que puede? Por lo general, esto sucede con ciones del Otis-Lennon School Ability Test y el
las pruebas de rendimiento y capacidad. Por otro Stanford Achievement Test. Además, aplica la Es-
lado, a veces queremos ver la ejecución típica del cala Wechsler de Inteligencia para Niños (WISC) y
individuo, como en las pruebas de personalidad, in- alguna escala para evaluar la conducta.
tereses y actitudes. Por ejemplo, en una prueba de • Frank es consejero de bachillerato y supervisa la
personalidad queremos saber qué tan extrovertido aplicación anual del Strong Interest Inventory (SII)
es regularmente el examinado, no cuán extroverti- por parte de la escuela. Los resultados de la prue-
do puede ser si en verdad se esfuerza por parecer ba se reparten en los salones donde se pasa lista
extrovertido. a los alumnos. Ya que Frank no se puede reunir
con cada uno para entregarle sus resultados, pre-
Referidas a la norma versus referidas al criterio para materiales para los maestros que pasan lista
para que puedan ayudar a los alumnos a interpre-
Muchas pruebas tienen normas basadas en el des- tar sus informes.
empeño de los casos en un programa de estandariza- • Annika es psicóloga del desarrollo que se intere-
ción. Por ejemplo, si la puntuación de un individuo en sa en el estrés infantil que se presenta cuando los
el SAT o ACT está en el percentil 84, significa que su chicos y chicas pasan de la etapa prepuberal a la
puntuación es mejor que la de 84% del grupo nacio- adolescencia. En su estudio longitudinal, usa una
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
nal del que se obtuvieron las normas. Ésta constituye medida del autoconcepto (Piers-Harris Children’s
una interpretación referida a la norma del desem- Self-Concept Scale [Escala Piers-Harris de Auto-
peño en una prueba. En contraste, algunas interpre- concepto Infantil]) para rastrear los cambios en
taciones dependen de algún criterio definido con cómo se sienten los participantes consigo mismos.
claridad que se usa como referencia y no de un con- También cuenta con puntuaciones de pruebas de
junto de normas; por ejemplo, un instructor puede de- inteligencia que toma de los registros escolares
cir: quiero que se aprendan todos los términos clave sólo para describir la naturaleza de su muestra.
que están al final del capítulo. Si en la prueba del ins- • Brooke es neuropsicólogo. En una demanda legal
tructor un alumno define correctamente sólo 60% de contra un productor de automóviles, un individuo
los términos, se considera insuficiente sin importar los declaró haber sufrido daño cerebral en un acci-
resultados del resto de los alumnos. Ésta es una inter- dente. En defensa del productor, Brooke presentó
pretación referida al criterio. En realidad, es el méto- evidencia, obtenida de distintas pruebas, de que
do de interpretación más que la prueba en sí misma lo no había tal daño cerebral.
que se puede calificar como referida a la norma o re- • Bill es asistente del director de recursos humanos
ferida al criterio. Exploramos esta distinción con todo en la compañía MicroHard, la cual contrata casi
detalle en el capítulo 3. 100 nuevas secretarias al año en sus diferentes
chas de ellas, se puede consultar a Hogan (2005a). estandarizadas en escenarios educativos se resuelve en
En capítulos posteriores, describiremos los usos de dos subdivisiones. En primer lugar, hay pruebas de rendi-
las pruebas específicas. miento que se usan para determinar el nivel del aprendi-
• Los psicólogos que se desempeñan en escenarios zaje del alumno. Incluso limitando nuestro recuento a las
de la salud mental y hospitales estatales pasan de pruebas estandarizadas de rendimiento (es decir, dejan-
15 a 18% de su tiempo en actividades de evaluación. do fuera un vasto conjunto de pruebas hechas por maes-
tros), podemos decir que cada año se aplican decenas de
millones de ellas. Las pruebas de rendimiento también se
Resumen de puntos clave 1-4 utilizan para documentar la competencia con el fin de ob-
tener una certificación o licencia en muchas profesiones.
Principales contextos en que se usan las pruebas En segundo lugar, en escenarios educativos las
1. Clínico pruebas se emplean para predecir el éxito en el tra-
2. Educativo bajo académico. Los principales ejemplos de esta
3. Laboral categoría son los exámenes de admisión que se apli-
4. Investigación can en universidades. Por ejemplo, en EUA cerca de
dos millones de estudiantes hacen el SAT cada año,
pruebas pueden aportar información útil acerca de la ción sobre las pruebas mismas. Como veremos en el
colocación óptima de los recursos humanos en este siguiente capítulo, revistas enteras se dedican a este
escenario. El Armed Services Vocational Aptitude Ba- tipo de investigación; además, la elaboración de nuevas
ttery (ASVAB [Batería de Aptitudes Vocacionales de pruebas es una empresa importante de la investigación.
los Servicios Armados]) fue diseñado con este obje- Ya que las pruebas tienen un papel destacado en las
tivo. Entre los 1000 nuevos reclutas, algunos pueden ciencias sociales y de la conducta, la investigación con-
ser particularmente hábiles para las actividades me- tinua sobre ellas es una valiosa contribución profesional.
cánicas, otros en las labores de oficina y otros más
en tareas de comunicación exclusivamente verbales. Temas de gran importancia: supuestos y
La cuarta categoría principal del uso de pruebas, y preguntas fundamentales
en la que mayor diversidad existe, es la investigación.
Las pruebas se usan en cualquier área imaginable de Un tercer modo de introducirse en el campo de las prue-
investigación en psicología, educación y otras ciencias bas es examinar los supuestos y preguntas fundamen-
sociales y de la conducta. Por comodidad, es posible tales de él. Cuando los psicólogos piensan de manera
identificar tres subcategorías del uso en investigación. cuidadosa sobre las pruebas, sin importar el tipo de
Primero, a menudo sirven como variable dependiente. prueba, ¿qué aspectos le preocupan y qué suposiciones
Menos Más
Tercero, preguntamos cómo interpretar las pun- contraste, la perspectiva diferencial asume que la res-
tuaciones de una prueba. Olivia obtuvo una puntua- puesta puede diferir para distintas personas; estamos
ción de 13 reactivos correctos de 20 posibles en una más interesados en la manera en que los individuos son
prueba de aritmética, ¿es una buena calificación o es diferentes que en la manera en que se parecen. Esta
mala? Pete respondió “verdadero” en 45 de 60 reac- perspectiva diferencial permea en el campo de las prue-
tivos en una escala de depresión, ¿significa que está bas; tener en mente esta perspectiva ayuda a pensar
deprimido o eufórico? La interpretación de las pun- acerca de los asuntos relacionados con las pruebas.
tuaciones de una prueba, por lo general, depende del Un debate que está surgiendo en el contexto de la
uso de normas, las cuales se basan en las puntuacio- perspectiva diferencial se relaciona con cómo pensa-
nes de grandes grupos de individuos. En el capítulo 3, mos acerca de las diferencias: como síndromes o como
describimos los tipos de normas que se usan con las dimensiones (véase Widiger & Costa, 2012). Un síndro-
pruebas y cómo se elaboran. me describe un padecimiento específico, como tener un
Las preguntas relacionadas con la confiabilidad, va- tobillo roto o un tumor cerebral: se tiene o no se tiene.
lidez y normas son fundamentales en lo que se refiere El enfoque dimensional describe un continuo que va de
a las pruebas, y los intentos por responderlas constitu- menos a más o de abajo hacia arriba. Ejemplos muy cla-
yen el meollo de la teoría de las pruebas. Éstos son los ros son la estatura o la velocidad al correr un kilómetro,
especies y, luego, entre los individuos. En particular, hicie- 1880 y 1915, pues las primeras medidas que tuvieron in-
ron que Francis Galton pensara en las diferencias indivi- fluencia duradera aparecieron en él. Muchos de los te-
duales; hablaremos más de Galton en un momento. mas y métodos básicos emergieron en una forma más o
Cuarto, surgió la psicología experimental. El año que menos explícita. Al principio de este periodo, había pocos
tradicionalmente se considera su fecha de nacimiento –muy pocos– ejemplos que uno podría señalar y decir:
es 1879, cuando Wilhelm Wundt abrió su laboratorio en ésa es una prueba. En cambio, al final de este periodo,
la Universidad de Leipzig, ciudad alemana que actual- había un ejército de instrumentos, algunos de los cuales
mente cuenta con medio millón de habitantes y se ubi- son prácticamente idénticos a los actuales, excepto por
ca a unos 120 kilómetros al sur de Berlín. La psicología algunas palabras arcaicas. Al principio de este periodo, el
experimental fue una ramificación de la fisiología, cuya coeficiente de correlación y el concepto de confiabilidad
conexión fue la psicofísica. En sus inicios, la psicología no se habían inventado y, al final, estas piedras angulares
experimental fue, en esencia, sinónimo de la psicofísi- metodológicas de las pruebas no sólo se habían inventa-
ca. Su contribución al campo de las pruebas, para bien do, sino que se habían elaborado e incorporado a la re-
o para mal, fue doble; por un lado, como toda ciencia ciente teoría de las pruebas mentales.
de laboratorio, se concentró en la estandarización de Destacaremos los eventos y personalidades clave
las condiciones y la precisión de las mediciones. Por de este emocionante periodo; nos centraremos en cua-
otro, se concentró en procesos elementales, por ejem- tro individuos y, además, mencionaremos otro persona-
plo, sensación, umbrales, percepción y reacciones mo- je y luego un amplio conjunto de otros contribuidores.
trices simples. El laboratorio de Wundt fue elegido por La primera figura clave fue Francis Galton (figura 1-4),
muchos psicólogos de esa época para formarse, por lo a quien muchos consideran el fundador del campo de las
que sus intereses y métodos ejercieron gran influencia pruebas psicológicas. Señor británico acaudalado e inde-
en el naciente campo de la psicología. pendiente, nunca tuvo un trabajo real, ni siquiera como
Así llegamos a 1880: la psicología experimental es profesor universitario. Fue un diletante, pero lo fue a lo
una nueva ciencia, la evolución se discutía en todo el grande, con una impresionante creatividad y versatilidad.
mundo, hay un amplio interés en la enfermedad men- Digno sobrino segundo de Charles Darwin, Galton
tal, incluyendo el retraso mental, y algunos pioneros fue el primero en llevar la teoría de la evolución al na-
tratan de llevar la educación al terreno de la ciencia. ciente campo de la psicología. Su interés radicaba en
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
¡Inténtalo!
Después de un breve periodo en la Universidad de Pen-
nsylvania, pasó la mayor parte de su carrera profesional De las pruebas que aparecen en el cuadro 1-1,
en la Universidad Columbia en la ciudad de Nueva York. ¿cuál crees que podría ser el mejor predictor del
La preparación de Cattell era ideal para combinar dos éxito académico?
corrientes metodológicas. Por un lado, hizo su trabajo de
graduación primero con Wundt en Leipzig, donde refinó
sus habilidades en los estudios rigurosos de laborato-
rio de la tradición psicofísica. Por otro, después estudió Resumen de puntos clave 1-9
con Galton, de quien al parecer absorbió la fascinación
por recolectar datos sobre las diferencias individuales Personas importantes para establecer las raíces
en los rasgos humanos. De acuerdo con la noción pre- • Francis Galton
dominante en ese momento, Cattell creía que la clave • James McKeen Cattell
del funcionamiento mental eran los procesos elemen- • Alfred Binet
tales, por lo que creó una batería de 50 pruebas, de las • Charles Spearman
cuales 10 eran consideradas los pilares (véase cuadro • Creadores de las “pruebas nuevas”
1-1), pues cubrían áreas como agudeza sensorial, tiempo
de reacción, bisección visual de una línea y juicios en in-
tervalos cortos de tiempo. Cattell las aplicaba a grupos la formación avanzada en medicina y en ciencias na-
de estudiantes universitarios con el propósito de prede- turales. Durante la mayor parte de su carrera, Binet
cir el éxito académico –el abuelo conceptual de los ac- se concentró en investigar las funciones mentales;
tuales SAT y ACT– y persuadió a otros psicólogos para en contraste con Galton, Binet buscaba actividades
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
emprender proyectos similares. Las pruebas de Cattell mentales más holísticas, como usar palabras, encon-
fueron un colosal fracaso como predictores; sin embar- trar relaciones o captar significados. En esa época,
go, su trabajo tuvo gran influencia. En un famoso artículo las escuelas parisinas querían identificar a los estu-
de 1890, acuñó el término prueba mental (Cattell, 1890), diantes que más probabilidades tenían de benefi-
el cual se usó para caracterizar el campo los siguientes ciarse de enseñanza en escuelas especiales que de
50 años. Como era debido, aparecía un comentario de programas en escuelas regulares. Un comité, del que
Galton después del artículo. Binet y Theodore Simon formaban parte, se creó para
La tercera figura de este periodo que tuvo in- elaborar un método que permitiera identificar a es-
fluencia fue el francés Alfred Binet (que se pronuncia tos estudiantes; el resultado fue la Escala Binet-Si-
Bă-nay’]. En su sección sobre las pruebas menta- mon,3 que se publicó por primera vez en 1905. En
les, Boring (1950) resume el tema de manera sucin- 1908 y en 1911, aparecieron formas revisadas, en las
ta: “La década de 1880 fue el decenio de Galton en
este campo; la de 1890, de Cattell, y la de 1900, de 3
Seguimos la práctica moderna de referirnos a ésta como la
Binet” (p. 573). Binet es el verdadero padre de las Escala Binet-Simon. En su propio trabajo, Binet no empleó un
pruebas de inteligencia; de manera inusual, su for- nombre oficial para esta prueba; simplemente se refirió a ella
mación original era en leyes, pero después terminó como la “escala” o la “prueba”.
tores de pruebas creó lo que llamaron “nuevo tipo” de yó nuevos reactivos (que casi duplicaron el número
pruebas de rendimiento. Su principal preocupación era original), una nueva investigación de prueba, un am-
la falta de confiabilidad del ensayo y los exámenes ora- bicioso programa nacional para obtener normas y el
les. Las pruebas de nuevo tipo eran tan objetivas como uso de la razón CI: en conjunto, todo esto fue un exi-
era posible, lo cual significaba en la práctica que los re- tazo. Un investigador que lo examinara hoy se burla-
activos eran de opción múltiple, verdadero-falso y de ría, pero en su tiempo, fue un avión de propulsión a
llenar espacios. Estos reactivos se podían calificar de chorro, el primer hombre en la luna, el primer teléfono
manera objetiva y eran más confiables que los de las inteligente. En un lapso relativamente corto, la Stan-
pruebas del “viejo tipo”. La literatura actual está repleta ford-Binet se convirtió en la definición por excelencia
de referencias a las deficiencias de las pruebas del vie- de la inteligencia humana, un pilar de la práctica clí-
jo tipo. En los debates actuales, el problema es la con- nica y, quizá, el símbolo más distintivo de la contribu-
fiabilidad entre distintos calificadores. Muchas personas ción de la psicología al mundo moderno. Así empezó
suponen que los reactivos de opción múltiple y otros pa- el periodo de florecimiento.
recidos se inventaron para el procesamiento masivo de Uno de los eventos que más influyeron en la histo-
pruebas mediante computadoras; nada podría ser más ria de las pruebas fue el desarrollo de la primera prueba
absurdo. Las computadoras ni siquiera existían cuando de inteligencia de aplicación grupal ampliamente usada.
to bien conocidas (p. ej., las series Metropolitan, Iowa y cribimos en detalle la actual edición de esta última
California), así como una multitud de pruebas de temas publicación.
simples en cualquier área imaginable.
Las pruebas de personalidad, tanto objetivas como Consolidación: 1940-1965
proyectivas, también florecieron en este periodo. El
prototipo de los inventarios objetivos de personalidad Después del estallido de la actividad desde distintos
actuales, el Woodworth Personal Data Sheet [Hoja de frentes de 1915 a 1940, el campo de las pruebas entró en
Datos Personales de Woodworth], se elaboró para ayu- un periodo que bien puede denominarse como de con-
dar en los procesos de reclutamiento del ejército en la solidación o madurez, y tuvo una duración de 25 años:
Primera Guerra Mundial. En esencia, era una entrevista de 1940 a 1965. La actividad no se redujo; de hecho si-
de lápiz y papel, 116 reactivos en total, que se respon- guió floreciendo. Aparecieron nuevas ediciones revisa-
dían con “Sí” o “No”, para detectar individuos que re- das de muchas pruebas que se crearon en el periodo
querían un examen psicológico más completo. Muchos anterior, pero también se elaboraron pruebas nuevas.
instrumentos similares surgieron después de la Prime- El uso de las pruebas se extendió en la práctica clínica,
ra Guerra Mundial. Los siguientes son ejemplos de la las escuelas, las empresas y el ejército, así que las prue-
profusión de nuevas publicaciones en este periodo. bas ya no eran el niño nuevo en la cuadra. Se aceptaron
bro a lo largo de capítulos posteriores. teórico quedó marcado, quizá, por la publicación de
Figura 1-5. Autores de los primeros libros de texto sobre pruebas: Lee Cronbach y Anne Anastasi.
de la inteligencia de los adultos. Los SAT originales rial moderno, el cual fue un gran adelanto que llegó
pretendían eliminar o minimizar cualquier desventaja junto con el trabajo de Thurstone sobre las capaci-
que los estudiantes de las escuelas menos acaudala- dades mentales básicas. Muchas de las subsiguien-
das pudieran tener al entrar a la universidad. Las me- tes elaboraciones del análisis factorial resultaron de
didas de los intereses vocacionales buscaban ayudar la guerra de palabras que siguió entre Spearman y
a individualizar la selección para el trabajo. Al leer una Thurstone y de los datos sobre la naturaleza funda-
selección representativa de manuales de pruebas y mental de la inteligencia, un campo de batalla que
de la literatura profesional del campo a lo largo de la aún sigue activo. Así, la historia de las pruebas ha
historia, es impresionante encontrar frecuentes refe- ido de la mano con la historia de, al menos, ciertos
rencias al mejoramiento de muchos individuos. métodos estadísticos.
Cualquier desarrollo importante en el campo de las La psicología clínica es una de las principales áreas
pruebas fue resultado del trabajo sobre un problema de aplicación de las pruebas y también de la psicolo-
práctico. Binet trató de resolver problemas de este tipo gía. Esto es especialmente cierto si interpretamos el
ca continúa el día de hoy; en términos absolutos de potentes que usan los editores de pruebas, las agen-
pruebas empleadas, el campo de la educación enca- cias de gobierno y las corporaciones especializadas en
beza el campo de las pruebas. En términos de la ver- escanear pueden procesar 150 hojas de respuesta por
tiginosa serie de varios tipos de pruebas disponibles minuto (9000/hr). El resultado básico del escáner sigue
en la actualidad, el campo clínico (entendido amplia- siendo el mismo: el conteo o registro de marcas. En al-
mente) ha sido el de mayor influencia. gunos casos, el conteo se imprime simplemente en un
documento de respuestas; en otros casos, junto con la
Computadoras ubicación de cada marca, se convierten en algún medio
electrónico, que puede procesarse en una computadora.
Las computadoras han tenido una profunda influen- ¿Las hojas de respuesta y el escáner serán los dino-
cia en el desarrollo de la pruebas; como se señaló saurios del mañana? Es muy probable, pues los exami-
anteriormente, éste es un fenómeno muy reciente. La nados ya responden directamente en la computadora
computadora electrónica se inventó en 1946 y se em- y ahí trabajamos con ellas. Esto se hace en los salones
pezó a comercializar en 1951. Sin embargo, el uso de de clase, clínicas, departamentos de recursos huma-
las computadoras no se generalizó sino hasta la dé- nos e incluso en centros ubicados en centros comer-
cada de 1960. Los modelos de escritorio aparecieron ciales. Además, con las mejoras en el reconocimiento
Relación computadora-pruebas
• Procesamiento estadístico
• Informe de puntuaciones
• Aplicación de la prueba
el campo de las pruebas, ya que permitió que se rea- preparan tales informes y ofreceremos ejemplos de
lizaran programas de investigación a gran escala y informes reales a lo largo de los capítulos posteriores.
se emplearan de manera habitual metodologías so- Los desarrollos en estas líneas continúan en la
fisticadas. Este tipo de desarrollo continúa a un ritmo actualidad. Algunos lectores de este texto proba-
vertiginoso en la actualidad. Las computadoras de es- blemente contribuyan a los nuevos y mejorados infor-
critorio permiten a casi cualquier investigador realizar mes de este tipo.
análisis en unos pocos segundos que antes le habrían La tercera fase se relaciona con la aplicación de la
llevado meses a equipos enteros de investigadores. prueba por medio de la computadora. Desde la pers-
En ejercicios posteriores de este libro, podrás realizar pectiva de los creadores de pruebas, hay dos tipos
con facilidad análisis computacionales que habrían diferentes de aplicación mediante la computadora.
constituido una tesis de maestría hace 40 años. El examinado puede no darse cuenta de la diferen-
En la segunda fase, las computadoras preparaban cia. El primer tipo, aplicación de la prueba basada en
los informes de las puntuaciones de la prueba. Esto la computadora, presenta simplemente en la panta-
empezó con informes muy sencillos, útiles en espe- lla de una computadora (el monitor) las preguntas tal
cial para programas a gran escala. Un programa de y como aparecerían en un cuadernillo impreso. Sólo
cómputo determinaba las puntuaciones naturales (es se ponen las preguntas de la prueba en un archivo de
formar las puntuaciones se están convirtiendo en lo es- influyeron en la mayoría de los tipos de pruebas, si no
tándar. Otras áreas de aplicación no están muy atrás; en todas. Pero han habido otros hechos y tendencias
el tema principal aquí no es tanto la resolución de la más restringidas a un tipo de pruebas o a pocos de
prueba, sino la entrega de la información de la prue- ellos; por ejemplo, la psicología cognitiva ha afectado
ba (informes, algunos muy elaborados) a individuos sin las pruebas de inteligencia. El movimiento de manejo
ninguna capacitación para interpretar esa información responsable ha afectado las pruebas de rendimiento.
y posiblemente sin acceso a la asesoría profesional. Reservamos el tratamiento de estas influencias más
Como veremos en capítulos posteriores, interpretar la restringidas a los capítulos sobre los tipos específicos
información de las pruebas no es siempre un asunto de pruebas, por ejemplo, la psicología cognitiva en el
sencillo; la psicología siempre ha hecho hincapié en la capítulo 7 y el manejo responsable en el 11.
necesidad de una capacitación adecuada para hacer-
lo. Los informes en línea, ajenos a la aplicación de la Definición
prueba, crean un escenario nuevo por completo. Para
tener un panorama general de los temas que están El último tema para introducirse en el campo de
surgiendo, se puede consultar a Naglieri et al. (2004). las pruebas es el de la definición. ¿A qué nos referi-
Por último, ha surgido una aplicación de lo que se mos exactamente con el término prueba? Desde una
procesos cognitivos. De hecho, para hacer esto explí- darizadas” o “Haciendo trampa en supuestas pruebas
cito, ampliaremos el objeto de las pruebas para incluir estandarizadas”. O un amigo puede decir, refiriéndose
la conducta y los procesos cognitivos. al desempeño en las pruebas de admisión universitarias
Cuarto, muchas definiciones hacen hincapié en que SAT o ACT, “No me va muy bien en las pruebas estanda-
una prueba ofrece información sólo de una muestra de rizadas”. Este tercer significado es obviamente mucho
la conducta. Al aplicar pruebas, por lo general no ha- más limitado que cualquiera de los otros dos. Es impor-
cemos un censo exhaustivo de toda la conducta o los tante que el estudiante de psicología distinga entre es-
procesos cognitivos de una persona, sino sólo tomamos tos tres significados del término estandarizado.
una pequeña muestra. Esta noción será crucial cuando Un sexto y último elemento en las distintas definicio-
consideremos la confiabilidad y la validez. Quinto, una nes es cierta referencia a la cuantificación o medición.
prueba es un procedimiento estandarizado y sistemá- Es decir, al final presentamos la información en forma nu-
tico. Ésta es una de las características más distintivas mérica. Este elemento es muy explícito en algunas fuen-
de una prueba, pues la distingue de fuentes de infor- tes y parece estar implicado en las otras; la cuantificación
mación como las entrevistas informales o las observa- puede ocurrir de una manera muy rudimentaria o muy so-
ciones anecdóticas, las cuales pueden ser fuentes de fisticada. Por ejemplo, una cuantificación cruda puede im-
información útiles, pero no son pruebas. plicar formar dos grupos (de deprimidos y no deprimidos
Resumen
1. Clasificamos las pruebas en cinco categorías principales: pruebas de capacidad mental, de rendimiento,
de personalidad, de intereses y neuropsicológicas. Cada categoría se divide en otras subcategorías. Utiliza
este acrónimo para recordar estas categorías: MERPIN.
2. Las pruebas también se pueden caracterizar de acuerdo con las siguientes características: a) son de lápiz y
papel o de ejecución, b) de velocidad o de poder, c) de aplicación individual o grupal, d) de ejecución máxi-
ma o típica y e) su interpretación depende de una norma o de un criterio.
3. Los usos principales de las pruebas son en las áreas clínica, educativa, laboral y de investigación.
4. Cuatro supuestos importantes apuntalan la empresa de las pruebas:
• La gente tiene diferencias en sus rasgos, las cuales son importantes.
• Podemos cuantificar estos rasgos.
• Los rasgos tienen un grado razonable de estabilidad.
• Nuestra cuantificación de los rasgos tiene relación con la conducta real.
5. Las tres preguntas fundamentales en el campo de las pruebas se relacionan con:
• Confiabilidad, es decir, la estabilidad de la medida.
• Validez, es decir, lo que una prueba en realidad mide.
• Normas, es decir, el marco para interpretar las puntuaciones de la prueba.
Estudiamos estos temas en profundidad en los capítulos 3, 4 y 5. El modo en que se elaboran las pruebas,
tratado en el capítulo 6, y las preocupaciones prácticas, como el tiempo y costo, también son aspectos im-
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
portantes a considerar.
6. Identificamos siete períodos principales en la historia de las pruebas. Comprender los temas predominan-
tes en ellos ofrece una perspectiva sobre los temas actuales. Los períodos y los nombres que les dimos son:
• Hasta 1840 Antecedentes remotos
• 1840-1880 Creación del escenario
• 1880-1915 Raíces
• 1915-1940 Florecimiento
• 1940-1965 Consolidación
• 1965-2000 Pasado reciente
• 2000 al presente Actualidad
7. Identificamos seis fortalezas principales que influyeron en el desarrollo del campo de las pruebas tal y como
existe en la actualidad: el impulso científico, la preocupación por el individuo, las aplicaciones prácticas, la
metodología estadística, el ascenso de la psicología clínica y las computadoras.
8. Desarrollamos la siguiente definición de seis elementos de una prueba: Una prueba es un proceso o dis-
positivo estandarizado que ofrece información sobre una muestra de la conducta o los procesos cognitivos
de una manera cuantificada.
Ejercicios
1. Por medio de la biblioteca de tu universidad, consulta el artículo de Cattell de 1890, donde acuñó el térmi-
no “prueba mental”. Busca en las referencias de este libro para encontrar los datos completos del artículo.
O también puedes encontrarlo en http://psychclassics.yorku.ca. Revisa la lista de pruebas que ahí se descri-
ben. ¿Qué piensas de estas pruebas como predictores del éxito académico?
2. Si sucede que estás tomando un curso de historia al mismo tiempo que lees este libro, trata de relacionar
algo de tu curso con los períodos del desarrollo en la historia de las pruebas. ¿Encuentras alguna tendencia
o fortaleza en tu curso que pueda haber influido en el desarrollo de este campo?
3. La mayoría de las universidades, incluso muchos departamentos dentro de grandes universidades, tienen
su propio escáner para procesar las hojas de respuesta de las pruebas. Intenta localizar un escáner para
que veas cómo trabaja. ¿Cuál es el “producto” del escáner?
4. Piensa en las pruebas que has contestado aparte de las pruebas en el salón de clases. Clasifica cada una de
ellas de acuerdo con estas distinciones: a) lápiz y papel o ejecución, b) velocidad o poder, c) de aplicación in-
dividual o grupal, d) de ejecución máxima o típica y e) referidas a la norma o al criterio para la interpretación.
5. Consulta la página http://psychclassics.yorku.ca/ para acceder al trabajo clásico de Alfred Binet New Me-
thods for the Diagnosis of the Intellectual Level of Subnormals [Nuevos métodos para el diagnóstico del ni-
vel intelectual de los subnormales], escrito en 1905. (Toma nota del uso de palabras como imbécil e idiota,
que hoy son considerados términos peyorativos, pero que entonces eran descriptores clínicos estándar.) A
partir de la lectura de los primeros párrafos de la obra de Binet, ¿qué crees que intentaba hacer?
6. Entra a la página http://www.nces.ed.gov/nationsreportcard para ver los resultados del National Assess-
ment of Educational Progress (NAEP). ¿Cuántos grados evaluó NAEP? ¿De cuántas materias escolares hay
informes disponibles? Accede a los informes de alguna materia que te interese. ¿Cuáles son algunos de los
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
CAPÍTULO 2
Fuentes de información sobre las pruebas
Objetivos
1. Identificar las nueve fuentes principales de información sobre las pruebas.
2. Evaluar las fortalezas y debilidades de cada fuente.
3. Determinar dónde puedes encontrar una copia impresa de las fuentes en tu biblioteca.
4. Ser competente para acceder a las versiones electrónicas de las fuentes.
Los siguientes son ejemplos de este problema. una prueba de destreza manual para seleccionar
a cierto tipo de empleados. ¿Ya existen pruebas
• Un artículo de revista cita el ABC Personality In- diseñadas para este propósito?
ventory [Inventario ABC de Personalidad]. No • Eres consejero escolar que colabora en una co-
conoces esta prueba, pero quieres saber qué in- misión de pruebas en la escuela y que busca
formación está disponible sobre su validez. una prueba diagnóstica de lectura. ¿Qué pruebas
• Eres psicólogo escolar. Recibes un informe de debe revisar la comisión para tomar una decisión?
otra escuela sobre un estudiante que fue trans- • Tu investigación del desarrollo matemático en
ferido a tu escuela. El informe incluye puntuacio- niños te lleva a pensar que la capacidad cuan-
nes del Pennsylvania Nonverbal Intelligence Test titativa puede relacionarse con la capacidad de
[Prueba de Inteligencia No Verbal Pennsylvania]. pensamiento creativo. ¿Qué prueba de pensa-
Necesitas conocer las normas de esta prueba. miento creativo debes considerar usar en tu pro-
• Ves un anuncio en una revista profesional del yecto de investigación?
Vasquez Index of Life Stress [Índice Vasquez de
Estrés en la Vida]. Te preguntas si esta prueba ha Ambos problemas –encontrar información so-
sido reseñada en algún lugar. bre una prueba en particular y obtener una lista de
29
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
pruebas que podrían usarse con cierto propósito– capítulo son externas a la prueba misma. En el apén-
son muy comunes. Además, los psicólogos encuen- dice A se dan sugerencias para llevar a cabo una re-
tran los problemas cada vez con mayor frecuencia, ya visión de materiales de pruebas reales.
que la cantidad de pruebas aumenta. Antes, se podía Todos los capítulos restantes de este libro utili-
conocer de manera razonable una buena parte de las zan las fuentes que presentamos en este capítulo. En
pruebas disponibles, pero eso ya no es posible. Cada particular, se recomienda a menudo al lector consul-
año, aparecen docenas de pruebas nuevas o revisa- tar estas fuentes para encontrar ejemplos de los te-
das; algunas de las bases de datos que examinamos mas que se tratan en los otros capítulos. Por ejemplo,
en este capítulo contienen más de 10 000 pruebas. cuando discutamos las normas en el siguiente capítu-
Por lo tanto, existe una gran necesidad de ser capaz lo, se pedirá al lector encontrar ejemplos de normas;
de obtener información sobre ellas. Un informe de la en el capítulo 8, al discutir las pruebas de inteligen-
American Psychological Association (Turner, DeMers, cia, se pedirá al lector encontrar información sobre
Fox, & Reed, 2001) subrayó la responsabilidad profe- estas pruebas en las fuentes que presentamos aquí.
sional de ser competente en la selección de pruebas. Por tanto, es importante ser competente al usar estas
De hecho, este informe sobre los requerimientos del fuentes a partir de ahora.
usuario de pruebas ubica “selección de las pruebas Identificamos nueve fuentes principales de informa-
apropiadas” inmediatamente después de la conside- ción sobre las pruebas: listas exhaustivas de pruebas,
ración de la confiabilidad, validez y normas entre los reseñas sistemáticas de pruebas publicadas, listados
conocimientos y las habilidades que el usuario de las electrónicos, colecciones para propósitos especiales,
pruebas debe poseer. El consejo de administración libros sobre pruebas únicas, libros de texto sobre el
de la Society for Personality Assessment [Sociedad campo de las pruebas, revistas profesionales, catálo-
para la Evaluación de la Personalidad] (2006) emitió gos de las editoriales y otros usuarios de pruebas. En
una declaración similar. La habilidad para elegir y eva- las siguientes secciones, describiremos cada una de
luar pruebas ha adquirido mayor importancia a medi- estas fuentes de información; después, compararemos
da que el número de pruebas nuevas y revisadas ha sus fortalezas y debilidades, sobre todo en relación
aumentado en los años recientes. con los dos problemas que identificamos más arriba.
Por fortuna, hay excelentes fuentes de informa- Nota especial: Antes de leer las siguientes dos
ción que ayudan a responder a estas preguntas. En secciones, tal vez desees echar una mirada rápida a
este capítulo se describen las fuentes de información la tercera sección sobre los listados electrónicos (p.
y se examinan sus fortalezas y defectos. 33). Mucho de lo que se trata en las siguientes dos
secciones puede encontrarse en internet. Primero
presentamos el tratamiento de las copias impresas,
Resumen de puntos clave 2-1 porque éstas antecedieron históricamente a las ver-
siones electrónicas, y establecemos el formato bási-
Dos preguntas comunes sobre las pruebas co de las versiones electrónicas.
1. ¿Cómo obtengo información sobre una prueba
en particular?
2. ¿Qué pruebas están disponibles para cierto
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
propósito? Manual de
aplicación
y
Materiales de una prueba Informe Manual
l calificación
del perfi
Una vez que se ha identificado una prueba específi- Técnico
ca, se debe examinar la prueba misma y su manual. La
inspección inicial suele basarse en lo que se denomi-
na materiales de la prueba (distintas casas editoriales Cuadernillo
emplean nombres diferentes para dichos materiales). de Hoja de
Los materiales incluyen una copia de los elementos la prueba
básicos de la prueba, entre los cuales suelen estar
Respuestas
un cuadernillo y otros estímulos, las instrucciones de
aplicación, documentos para registrar las respuestas
y un manual técnico, como se muestra en la figura
2-1. Las fuentes de información que se tratan en este Figura 2-1. Contenidos típicos de los materiales de una prueba.
[Anuario de Mediciones Mentales] (MMY), del que se publicadas en inglés. La casa editora de esta lista, Pro-
habla en la siguiente sección. La figura 2-2 presenta Ed, no tiene planeada una nueva edición en el futuro in-
una entrada del TIP como ejemplo. Examina la figura mediato, por lo que esta fuente será menos útil.
para determinar el tipo de información que proporcio- La tercera lista es Directory of Unpublished Exper-
na. TIP también consigna todas las reseñas que apa- imental Mental Measures (Goldman & Mitchell, 2008).
recen en el MMY, que se describe más adelante. Sin Como lo sugiere su nombre, esta fuente, en contras-
embargo, no todas las pruebas que aparecen en el te con TIP y Tests, se centra en medidas que no han
TIP se han reseñado en el MMY. sido publicadas; no incluye pruebas disponibles de
La segunda lista es Tests: A Comprehensive Refe- editoriales comerciales. Publicado por la American
rence for Assessments in Psychology, Education and Psychological Association, el Directory más reciente,
Business [Libro de Consulta Completo para las Eva- que es el volumen 9, contiene 3605 entradas; tam-
luaciones en Psicología, Educación y Negocios], quin- bién incluye listas acumulativas de pruebas que apa-
ta edición (Maddox, 2003). Por lo general, se cita esta recieron en los volúmenes previos. Las entradas del
lista sólo como Tests; sus primeras ediciones, a cargo volumen 9 se obtuvieron escaneando 34 revistas del
de D. J. Keyser y R. C. Sweetland, aparecieron en 1983, periodo 2001-2005. La figura 2-3 presenta una en-
1986 y 1991. Al igual que TIP, Tests incluye sólo medidas trada muestra.
10308
Nombre de la prueba: Mathematics Anxiety Scale For Children [Escala para Niños de Ansiedad ante las
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
Matemáticas]
Objetivo: Identificar ansiedad ante las matemáticas en niños.
Número de reactivos: 22.
Formato: Las escalas de calificación van de 1 (no nervioso) a 4 (muy, muy nervioso). Se aplican todos los
reactivos.
Confiabilidad: Coeficiente alfa de .92.
Validez: Las correlaciones con otras variables variaron entre −.21 y .53.
Autor: Beasley, T. M. et al.
Artículo: A confirmatory factor analysis of the Mathematics Anxiety Scale for Children.
Revista: Measurement and Evaluation in Counseling and Development, abril, 2001, 34, 14-26.
Investigación relacionada: Chiu, L. H., & Henry, L. L. (1996). Development and validation of the Mathematics
Anxiety Scale for Children. Measurement and Evaluation in Counseling and Development, 23, 121-127.
Figura 2-3. Entrada muestra del Directory of Unpublished Experimental Mental Measures.
Fuente: Goldman, B. A., & Mitchell, D. F. Directory of Unpublished Experimental Mental Measures (Vol. 9, p. 23). Copyright ©
2008 por la American Psychological Association. Reproducida con autorización. El uso de información de la APA no implica el
respaldo de esta organización.
Hay cuatro fuentes electrónicas importantes de informa- inventario de reseñas. Por ejemplo, se puede bus-
ción acerca de las pruebas. Usar estas fuentes puede au- car mediante la palabra clave “creatividad” y obtener
mentar en gran medida la eficacia al buscar información. una lista de pruebas relacionadas con este construc-
to, además de una indicación sobre si existe o no una
Colección de pruebas ETS en la red reseña en Buros de dichas pruebas.
Como con otras bases de datos de la APA (p. ej., Psy- blemas relacionados con el peso: medida, teoría e
cINFO y PsycARTICLES), sólo se puede tener acceso a investigación] (Allison & Baskin, 2009) ofrece una
PsycTEST por medio de una suscripción. colección exhaustiva de métodos de evaluación
Desde 2012, PsycTESTS contiene cerca de 10 000 relacionados con todos los aspectos de los
pruebas; es muy pronto para decir si este producto trastornos alimentarios, incluyendo, por ejemplo,
“tendrá éxito” entre los usuarios que buscan informa- medidas de imagen corporal, ingesta de alimentos
ción sobre pruebas. Seguiremos pendientes. e, incluso, actitudes hacia las personas obesas.
• Measures for Clinical Practice and Research: A
Colecciones para propósitos especiales Sourcebook [Medidas para la práctica clínica y la
investigación: libro de fuentes] (Fischer & Corco-
Las colecciones para propósitos especiales brindan in- ran, 2007) es una colección de dos volúmenes
formación sobre pruebas en un rango de temas limita- de medidas de lápiz y papel simples para cons-
do; en ellas, la información es, por lo común, como la de tructos clínicamente pertinentes. En el primer vo-
los listados exhaustivos antes descritos, es decir, bási- lumen aparecen medidas para familias, niños y
ca y descriptiva. Sin embargo, en algunos casos, es- parejas, mientras que el segundo contiene medi-
tas fuentes incluyen la prueba completa y comentarios das para otros tipos de adultos.
libros sobre las escalas de inteligencia Wechsler (véase lo general, suponen que el lector ya tiene un entre-
capítulo 8), el Inventario Multifásico de Personalidad de namiento considerable en teoría y uso de pruebas.
Minnesota (MMPI; véase capítulo 13) y la prueba Rors- Estos libros no fueron diseñados para novatos; quizá
chach de manchas de tinta (véase capítulo 14). más importante, hay muy pocas pruebas de las que
• Las escalas Wechsler han aparecido en numerosos se disponga un tratamiento tan amplio.
libros; un buen ejemplo es el que editaron Prifitera,
Saklofske y Weiss (2008), que incluye consejos de Libros de texto sobre el campo
expertos para usar e interpretar el WISC-IV. Incluye de las pruebas
capítulos acerca de grupos de niños con problemas
de aprendizaje o con superdotación intelectual. Hay Los libros de texto sobre el campo de las pruebas,
un trabajo similar sobre el WAIS-IV (Weiss, Saklofs- como éste, no pretenden ser fuentes importantes de
ke, Coalson, & Raiford, 2010) que incluye capítulos información sobre pruebas particulares, sino que bus-
sobre temas como el empleo de WAIS para la eva- can enseñar conceptos fundamentales sobre él (confia-
luación neuropsicológica y de la psicopatología. bilidad, validez, etc.) y ejemplifican los tipos de pruebas
• La obra en dos volúmenes de Dahlstrom, Welsh que están disponibles en varios dominios. Sin embar-
y Dahlstrom (1960, 1972) sobre el MMPI ayudó a go, por realizar esta última tarea, los libros de texto son
Revisa el sitio web de una de las editoriales enu- ofrecen evaluaciones críticas de la calidad de la prueba,
meradas que aparecen en el apéndice C. Entra al de modo que una que cuenta con una extensa informa-
sitio y determina si el catálogo completo de la edi- ción sobre su validez y normas nacionales excelentes
torial está disponible. También revisa junto con tu se encuentra en la misma lista que otra que práctica-
departamento académico si algún catálogo está mente no cuenta con dicha información ni con normas.
disponible en versión impresa. Trata de ubicar, a Las reseñas sistemáticas son una fuente excelen-
partir del sitio web o del catálogo, a una persona te de evaluaciones críticas de pruebas, pues ofrecen
que puedas contactar para pedir información so- un servicio profesional sobresaliente. Sin embargo,
bre las pruebas de la editorial. no son perfectas. Primero, las reseñas de muchas
pruebas simplemente no están disponibles. Segundo,
la naturaleza del proceso de reseñar es tal que, a me-
Otros usuarios de pruebas nudo, todavía no se encuentran en el caso de la edi-
ción más reciente de pruebas muy usadas y revisadas
Otros usuarios de pruebas pueden ser de utilidad como con frecuencia. Siempre hay un retraso, que a menu-
fuentes de información sobre las pruebas que usan ac- do es considerable, entre la publicación de una prue-
tualmente. A menudo, sabrán sobre pruebas similares; ba y la aparición de sus reseñas. Mientras tanto, el
escritos por personas que tienen un sentimiento muy fuentes importantes de información sobre las peculia-
positivo por la prueba, lo cual es comprensible, pero ridades de la prueba; sin embargo, algunos de ellos
a veces conduce a hacer una evaluación demasiado no están actualizados con los últimos desarrollos en
optimista de la prueba. el campo. Las pruebas que utilizan puede estar deter-
Los libros de texto ofrecen un índice de la populari- minado más por la inercia que por el juicio crítico y el
dad de una prueba. Al consultar varios de estos libros, conocimiento actualizado.
se puede tener idea de qué pruebas pueden usarse Todas las fuentes de información pueden ser úti-
mucho con propósitos específicos. Sin embargo, el he- les para algunos propósitos, pero no para otros. En úl-
cho de que una prueba esté incluida en un libro de tex- tima instancia, el usuario de la prueba debe ser capaz
to no debería tomarse como respaldo de la prueba, ni de combinar todas estas fuentes con su propia expe-
siquiera como un indicador válido de la frecuencia de riencia para juzgar la idoneidad de una prueba para
su uso. Una prueba puede incluirse en un libro de texto propósitos particulares.
Palabras clave
Buros materiales de la prueba Test Critiques
equipo de muestra MMY Tests
ETS Test Collection PsycTESTS TIP
Ejercicios
Nota: Muchos de estos ejercicios pueden dividirse entre los miembros de una clase, y los resultados pueden
compartirse entre todos.
1. Entra a uno de los sitios web enumerados en el Resumen de puntos clave 2-4
a. Introduce palabras clave y obtén una lista de pruebas. Aquí hay algunas palabras clave de muestra: pensa-
miento crítico, autoconcepto, lectura diagnóstica, agresión, depresión. O introduce tus propias palabras clave.
b. Toma el nombre de una prueba de los capítulos 8 al 15. Introdúcelo y ve qué información obtienes.
2. Visita tu biblioteca.
a. Encuentra cuáles listas exhaustivas de pruebas y cuáles de reseñas sistemáticas tiene la biblioteca. (Es-
tos libros, por lo general, estarán en la sección de consulta general de la biblioteca). Toma nota de su ubi-
cación para usarlas en ejercicios posteriores.
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
Objetivos
1. Definir el propósito de las normas de las pruebas.
2. Refrescar tu conocimiento sobre los siguientes temas de estadística descriptiva: tipos de escalas,
distribuciones de frecuencia, términos para describir las formas de las distribuciones, medidas de ten-
dencia central, medidas de variabilidad y puntuaciones z.
3. Identificar los distintos tipos de puntuaciones naturales de las pruebas.
4. Identificar el significado de theta.
5. Definir estos tipos de normas: percentiles y rangos percentiles, puntuaciones estándar, normas de desarrollo.
6. Resumir las fortalezas y debilidades de cada tipo de norma.
7. Identificar las características de cada uno de estos tipos de grupos normativos: nacional, por conve-
niencia, del usuario, de subgrupo, local e institucional.
8. Distinguir entre la interpretación orientada al criterio e interpretación orientada a la norma.
9. Describir cómo determinar la utilidad de un grupo normativo.
vocabulario; ¿eso es bueno o malo? Meg respondió o de estandarización. También se conoce a las puntua-
“Sí” a 14 de 30 reactivos en una prueba de ansiedad; ciones normativas como puntuaciones derivadas o es-
¿eso significa que es excepcionalmente ansiosa, o calares. Este capítulo se ocupa de las dos preguntas
despreocupada, para contestar una prueba? Dan tuvo cruciales en relación con las normas. Primera, ¿cuáles
52 respuestas correctas en una prueba de lectura de son los tipos de normas que se usan por lo general?
80 reactivos y 24 correctas en una prueba de ciencia Segunda, ¿qué son los grupos de estandarización, es
de 40 reactivos; ¿es relativamente mejor en lectura o decir, de dónde vienen las normas?
en ciencia? Este tipo de preguntas son las que se abor- Las puntuaciones naturales y las puntuaciones de la
dan cuando se habla de normas de una prueba. La TRR (teoría de la respuesta al reactivo) son difíciles
idea básica es traducir lo que se denomina puntuación de interpretar sin más información, pero esto puede
natural a otro tipo de puntuación normativa o estan- ser más fácil si dichas puntuaciones se convierten
darizada. La puntuación natural es el resultado más en puntuaciones escalares.
o menos inmediato de las respuestas de un individuo Standards... (AERA, APA, & NCMW, 2013)1
en una prueba. Para obtener la puntuación normati-
va, la puntuación natural de un individuo se compara 1
En el capítulo 1 describimos el importante papel de Stan-
con las puntuaciones de individuos del grupo del que dards for Educational and Psychological Testing, publicado
41
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
Las nociones fundamentales de las normas no son el lector ha tomado algún curso introductorio de es-
exclusivas del campo de las pruebas psicológicas. Usa- tadística, pero que puede necesitar refrescar en su
mos las nociones de puntuación natural y posición re- mente algunos temas de ese curso. Esta sección ofre-
lativa dentro de un grupo en numerosas situaciones ce un repaso; no pretende repetir el curso entero de
cotidianas. Consideremos estos ejemplos: ¿1.95 m es estadística, ni enseñar cómo hacer cálculos estadís-
alto? No lo es si se trata de un árbol, pero, si se trata ticos, sino ser un repaso rápido. Esta sección trata
de un ser humano, sí lo es. Incluso entre seres huma- ideas clave de estadística univariada. El capítulo 4 in-
nos, no es una estatura impresionante para un jugador cluye un repaso de estadística bivariada, es decir, co-
de basquetbol de la NBA, pero es asombrosa para un rrelación y regresión.
alumno de sexto grado. ¿Y qué hay de un pulso de 100? Los ejemplos de esta sección recurren a peque-
No es extraordinario para un recién nacido (humano) ni ños conjuntos de datos para ilustrar los conceptos
para un adulto que acaba de hacer un ejercicio inten- estadísticos. En la práctica, por lo general, tenemos
so; sin embargo, podría ser una señal de peligro para conjuntos mucho más grandes, a menudo de miles
un adulto que se encuentra en reposo, ¿Qué piensas de casos, por lo que usamos programas de cómputo
de correr 100 metros en 58.85 segundos? Para un equi- para aplicar la estadística a estos datos. En el apén-
po de atletismo de bachillerato o universitario, éste se- dice D se presentan varios conjuntos de datos que el
ría un pésimo tiempo, pero Ida Keeling corrió en este lector puede usar para calcular cualquiera de los es-
tiempo en junio de 2012 e impuso récord en EUA en la tadísticos que revisamos en esta sección.
categoría de 95 o más años de edad: ¡excelente, Ida!
(masterstrack.com, 2012). Estos ejemplos ilustran la idea Variables
de hacer comparaciones dentro de un grupo para reali-
zar muchos tipos de interpretaciones en la vida cotidia- ¿Cómo se relaciona la estadística con el campo de las
na. En evaluación psicológica, operacionalizamos estas pruebas psicológicas? Para contestar esta pregunta,
comparaciones en forma de normas. tenemos que comprender los matices del significado
Aquí hay otros ejemplos de puntuaciones natu- del término variable. Una ciencia se construye alre-
rales que constituyen el contexto de la discusión de dedor de las variables que estudia; por ejemplo, la
normas que aparece más adelante en este capítulo. psicología estudia variables como inteligencia, extro-
• Matt tuvo 36 reactivos correctos en una prueba de me- versión, inadaptación o agudeza visual. Los objetos
moria a corto plazo. ¿Qué tan buena es su memoria? de estudio (humanos, ratas, etc.) varían a lo largo de
• Meg respondió “Sí” a 14 reactivos de una medida estas variables de bajo a alto, de menos a más, o de
de ansiedad. ¿Es despreocupada o un caso perdi- maneras semejantes. Las variables se pueden descri-
do para contestar pruebas? bir en tres niveles de generalidad. En el nivel más ge-
• Dan tuvo 32 reactivos correctos en una prueba neral, una variable es un constructo, que consiste en
de lectura y 24 correctos en una prueba de mate- descripciones verbales y definiciones de la variable;
máticas. ¿Es mejor en lectura o en matemáticas? por ejemplo, la inteligencia puede definirse como la
• Sheri mide 1.57 m. ¿Su estatura es alta, baja o capacidad para manipular símbolos abstractos, la in-
promedio? adaptación puede describirse como un sentimiento o
• El pulso de Tom es de 71 latidos por minuto. ¿Es como evidencia objetiva de dificultades importantes
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
Tipos de escalas
Resumen de puntos clave 3-2
Las variables se miden en escalas. Stevens (1951) pre-
sentó una clasificación en cuatro tipos de escalas que Resumen de los tipos de escalas
se cita con gran frecuencia en estadística y en el cam-
po de las pruebas. Las distinciones entre estos tipos Escala Propiedades
de escalas son importantes porque podemos realizar
ciertos tipos de operaciones aritméticas y estadísti- Nominal Clasifica, asigna números
cas con algunas, aunque con otras no.
La clasificación de las escalas se ciñe a su nivel de Ordinal + Ubica de acuerdo con la magnitud
sofisticación. El nivel menos sofisticado o más primitivo
es la escala nominal, que distingue simplemente obje- Intervalar + Intervalos iguales en la escala
tos etiquetando cada uno de ellos con un número. Los
números no significan más o menos, más grande o más De razón + Hay un cero verdadero
pequeño, ni cualquier otra distinción cuantitativa. Ejem-
plos de esto son los números en las playeras de los ju-
gadores de basquetbol, el número de seguridad social
o los códigos 0 y 1 que se asignan a hombres y mujeres y resta son operaciones legítimas en esta escala; por
con el objetivo de codificarlos en una computadora. ejemplo, la diferencia entre 30° y 40° es la misma que
En una escala ordinal se asignan números a los ob- la que existe entre 50° y 60°. Sin embargo, multiplica-
jetos para indicar un orden, como tener más o menos de ción y división no son operaciones legítimas, porque
un rasgo, sin especificar de ninguna manera las distan- 60°F no representan el doble de calor que 30°F o la
cias entre dichos objetos en la escala. El ordenamiento mitad de 120°F. Para hacer tales afirmaciones, sería
por rangos ilustra las escalas ordinales; por ejemplo, las necesario usar la escala Kelvin, que sí tiene un cero
encuestas de preferencia de equipos de fútbol universi- absoluto, el punto en que no existe el calor.
tario ofrecen una clasificación de los equipos: 1, 2, 3, 4,... La escala de razón, la más sofisticada, ubica los ob-
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
25. Ya que se entiende que estos números están en una jetos en orden de menor a mayor, con intervalos equiva-
escala ordinal, no se puede inferir que la diferencia en- lentes, y tiene un cero absoluto. La mayoría de nuestras
tre el equipo 2 y el 3 sea igual a la que hay entre el equi- mediciones físicas, como altura y peso, son escalas de
po 1 y el 2. De hecho, la diferencia entre los equipos 1 y razón. En contraste, la mayoría de nuestras mediciones
2 puede ser muy pequeña, mientras que entre los equi- psicológicas son escalas ordinales o intervalares.
pos 2 y 3 la diferencia puede ser muy grande. ¿Cuál es la pertinencia de estas distinciones, en
La escala intervalar ubica los objetos en orden de apariencia arcanas, para nuestro interés en la medi-
menor a mayor y los intervalos entre distintos puntos ción psicológica? Consideremos el caso de la cono-
de la escala son equivalentes. De ahí que, en una es- cida escala de CI. No es una escala de razón, pues
cala intervalar, la distancia entre 2 y 4 es la misma que no tiene un cero absoluto; de ahí que no sea legítimo
entre 6 y 8 o entre 20 y 22. Sin embargo, esta esca- decir que una persona con un CI de 150 es dos ve-
la carece de un cero absoluto; aunque tiene un cero, ces más inteligente que una persona con un CI de 75.
éste no indica la ausencia total de la variable que se Además, si la escala del CI es sólo ordinal, tampoco
mide. El ejemplo cásico de una escala intervalar es el podemos decir que la diferencia entre un CI de 80
termómetro que marca grados Fahrenheit; en esta es- y otro de 100 es igual que la diferencia entre un CI
cala, el cero no indica la ausencia total de calor. Suma de 120 y otro de 140. Tenemos que preocuparnos por
Normas 43
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
la naturaleza de nuestras escalas para hacer declara- difícil darle sentido a una serie de datos crudos, pero
ciones coherentes sobre nuestras mediciones o, en la distribución de frecuencia revela con facilidad ca-
otras palabras, evitar decir estupideces sobre ellas. racterísticas como el rango de puntuaciones y el área
El método de Stevens (1951) para clasificar escalas, a donde se concentran. La distribución de frecuencia
pesar de ser tan citado, no es el único modo de pen- de la figura 3-1 muestra los intervalos en que se clasi-
sar acerca de ellas, pero es muy útil. fican las puntuaciones, la frecuencia o conteo de las
puntuaciones que corresponden a cada intervalo y la
Organización de datos crudos frecuencia acumulativa (f acu), es decir, la frecuencia
en cada intervalo y debajo de éste.
Cuando nos encontramos con una gran cantidad de Una distribución de frecuencia a menudo se con-
datos, a menudo queremos organizarlos. La manera vierte en una gráfica; las dos formas gráficas más
más usual de hacerlo es mediante una distribución comunes son el histograma de frecuencias y el po-
de frecuencia, la cual organiza los datos en grupos lígono de frecuencias. La figura 3-2 presenta estas
de puntuaciones cercanas. La figura 3-1 presenta un gráficas empleando los datos de la distribución de
conjunto de datos y su distribución de frecuencia. Es frecuencia de la figura 3-1.
Puntuaciones (N = 100)
Distribución de frecuencia
Intervalo F F Acu
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
150-159 3 100
140-149 4 97
130-139 7 93
120-129 10 86
110-119 18 76
100-109 23 58
90-99 19 35
80-89 9 16
70-79 6 7
60-69 1 1
Frecuencia
16 16
14 14
12 12
10 10
8 8
6 6
4 4
2 2
60 70 80 90 100 110 120 130 140 150 160 60 70 80 90 100 110 120 130 140 150 160
Puntuación Puntuación
Histograma de frecuencias Polígono de frecuencias
Figura 3-2. Histograma de frecuencias y polígono de frecuencias.
Tendencia central
¡Inténtalo!
Aunque la distribución, el histograma y el polígono
de frecuencias son resúmenes muy útiles de los da- Calcula las tres medidas de tendencia central de
tos crudos, es conveniente tener un índice que repre- este conjunto de puntuaciones.
sente mejor el conjunto entero de datos. Tal índice
se denomina medida de tendencia central: el centro Puntuación:
alrededor del cual los datos crudos tienden a agru- 2 5 4 5 3 4 5 2 6
parse. Existen tres medidas de tendencia central que
se usan de manera habitual: media, mediana y moda. Media = Mediana = Moda =
La media es un promedio aritmético. Se represen-
ta con M o X (léase “equis-barra” o simplemente “me-
dia”). Su fórmula es: Variabilidad
M=
ΣX
N Las medidas de tendencia central ofrecen un resumen
muy útil de los datos, pero no nos dicen nada acerca
Fórmula 3-1 de de su variabilidad. Por ejemplo, dos conjuntos de
donde datos pueden tener la misma media, pero en uno to-
X = puntuación o dato crudo das las puntuaciones están a dos puntos de la media,
N = número de puntuaciones y mientras que en otro las puntuaciones pueden estar
Σ = es el signo de suma, pues indica “suma todas muy dispersas. Por lo tanto, para describir mejor los da-
estas cosas (representadas por X)”. tos crudos, ofrecemos un índice de variabilidad.
El índice de variabilidad más simple es el rango,
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
La mediana es la puntuación que se encuentra que consiste en la distancia entre la puntuación más
justo a la mitad cuando las puntuaciones están orde- baja y la más alta. Para indicar el rango, se puede es-
nadas de menor a mayor. La mediana divide el con- pecificar la puntuación más baja y la más alta o sólo la
junto de puntuaciones justo a la mitad. La moda es la diferencia entre ellas. En el caso de los datos de la fi-
puntuación que se presenta con mayor frecuencia. La gura 3-1, podemos decir que el rango es 65-158 o 93.
figura 3-3 muestra ejemplos de las tres medidas de La desviación estándar es el índice de variabili-
tendencia central de un pequeño conjunto de datos. dad más usado. Se puede representar en distintos
contextos con cualquiera de estos símbolos2: D, DE
o σ. Su fórmula es:
Datos crudos: 2, 5, 3, 6, 6, 7, 6, 4, 8, 3, 4
Media: M = ΣX /N = 54 /11 = 4.91 2
El símbolo σ (sigma) es la letra griega (minúscula) que corresponde
Mediana: 5 a la S. En estadística, usamos las letras griegas para designar medidas
Moda: 6 de la población entera y las letras latinas para designar las medidas de
las muestras. Así, DE representa la desviación estándar de una mues-
Figura 3-3. Medidas de tendencia central de un pequeño tra, mientras que σ, la desviación estándar de la población. La distin-
conjunto de datos. ción no se respeta siempre en la literatura de las pruebas psicológicas.
Normas 45
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
Puntuaciones: 6 9 4 5 5 1 M = X/N = 30/6 = 5
(X – M) = x 1 4 -1 0 0 -4
x2 = 1 16 1 0 0 16
DE = 2.38 Varianza = DE2 = 5.66 Rango = 1 – 9
¡Inténtalo!
DE =
Σ( X - M ) 2
N Calcula la desviación estándar y el rango de los
siguientes datos.
Fórmula 3-2
Puntuaciones: 1 4 7
A menudo se escribe también como: DE = Rango =
DE =
Σx2
N
Fórmula 3-3 Puntuaciones z
donde x = X – M. Estas fórmulas son la definición for- Una puntuación z, o simplemente z, se define como:
mal de la desviación estándar. Cuando se calcula la
DE de una muestra con el fin de tener una estimación
z= X-M
de la DE de la población, la “N” de la fórmula se reem- DE
plaza con “N – 1”. Fórmula 3-4
La fórmula no ayuda a formarnos una idea intuitiva
de cómo es que la DE mide la variabilidad. Sin embar- donde X es una puntuación individual o un dato, M
go, tiene felices consecuencias en términos matemá- es la media y DE es la desviación estándar. La distri-
ticos para su uso posterior, así que tan sólo hay que bución de las puntuaciones z tiene una media de 0 y
acostumbrarse a su presencia desgarbada. La desvia- una DE de 1. De ahí que, sin importar los valores de
ción estándar se usará en gran medida más adelante las puntuaciones originales, cuando se convierten en
en este capítulo. puntuaciones z, siempre tienen la misma media y des-
Un índice de variabilidad que tiene una relación viación estándar.
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
muy estrecha es la varianza, la cual es simplemente Las puntuaciones z se usan para “trazar” la curva
la DE elevada al cuadrado; a la inversa, la DE es la raíz normal en términos de áreas bajo la curva. La figura
cuadrada de la varianza. En algunos libros avanzados 3-5 ilustra este uso de las puntuaciones z. Recorde-
de estadística, la varianza se usa más que la desvia- mos las tablas de las áreas bajo la curva de la estadís-
ción estándar, pero en el campo de las pruebas psi- tica básica. Debido a que las puntuaciones z tienen
cológicas, usamos la desviación estándar con mayor una media (0) y una desviación estándar (1) en común,
frecuencia, aunque no siempre. La figura 3-4 muestra sin importar los valores de las puntuaciones origina-
la desviación estándar (DE), la varianza y el rango de les, su papel es crucial en el desarrollo de las normas
un pequeño conjunto de datos. de las pruebas.
Una cuarta medida de variabilidad es el rango inter-
cuartílico. Como lo sugiere su nombre, es la distancia Formas de distribuciones
entre el primero y el tercer cuartil. El primero y el tercer
cuartil corresponden a los percentiles 25 y 75, respec- En el campo de las pruebas psicológicas, solemos ha-
tivamente. Si ya se conocen los percentiles, como sue- cer referencia a la forma de una distribución de fre-
le ocurrir con los datos de las pruebas psicológicas, se cuencias de las puntuaciones de una prueba, por lo
puede determinar con facilidad el rango intercuartilar. que debemos conocer los términos empleados para
Figura 3-5. Ejemplos de las puntuaciones z que marcan áreas bajo la curva normal.
describir estas formas. El punto de referencia o la dis- negativa o a la izquierda tiene una larga cola del lado
tribución por excelencia es la curva normal o distribu- izquierdo y un abultamiento de puntuaciones del lado
ción normal. Su popular nombre es curva de campana, derecho. La asimetría positiva o a la derecha tiene
aunque el parecido con la campana no sea tan nota- una larga cola del lado derecho y un abultamiento
ble. La curva, generada por una fórmula difícil de ma- de puntuaciones del lado izquierdo. El último tipo de
nejar3, es una función de densidad; es decir, el área desviación de la normalidad es en términos de la mo-
bajo la curva está llena, en realidad repleta, de puntos dalidad de la distribución. Cuando es normal, la dis-
que representan datos. La distribución de la figura 3-5 tribución es unimodal, pero puede tener más de una
es una curva normal; está trazada con una media de 0 moda, como la distribución bimodal que aparece en
al centro y una escala establecida por las unidades de la parte inferior de la figura 3-6.
desviación estándar (a veces llamadas unidades σ) en ¿Por qué es importante la curva normal para las
su base. Observa con atención la posición de las uni- pruebas psicológicas? Muchos fenómenos que ocurren
dades de desviación estándar. de manera natural tienden a tener una distribución
Esta distribución es unimodal, pues sólo tiene una normal; por ejemplo, en el caso de la gente de cierto
“joroba”. Es simétrica en relación con su eje central, sexo y edad, las siguientes variables, que pueden
una línea imaginaria perpendicular a la base a la al- medirse con facilidad, tienen una distribución normal:
tura de la media. Alrededor de su eje central, el lado estatura, memoria a corto plazo para los dígitos, tiem-
izquierdo de la curva es la imagen en espejo del de- po de reacción, fuerza de agarre y así sucesivamente.
recho. Las “colas” de la curva son asintóticas en rela- Esta tendencia hacia la normalidad es tan omnipresen-
ción con la base, es decir, continúan hasta el infinito te que, cuando la distribución real de una variable es
acercándose siempre a la base, pero sin llegar nun- desconocida, no es impensable suponer que proba-
ca a ella. Desde luego, esto es verdad sólo para el blemente sea normal. De ahí que muchas pruebas se
modelo teórico de la curva normal, pues en la prácti- construyan para obtener una distribución más o me-
ca los datos terminan en algún punto finito. Nota que nos normal de las puntuaciones. Sin embargo, a veces
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
casi toda el área (cerca de 99.8%) bajo la curva está creamos pruebas de manera deliberada para obtener
contenida dentro de +/− 3 unidades de σ. distribuciones asimétricas en sentido positivo o negati-
Las distribuciones pueden “alejarse de la norma- vo, como lo discutiremos en el capítulo 6.
lidad”, es decir, ser diferentes de la curva normal de También hay algunas distribuciones, que ocurren
varias maneras. La figura 3-6 muestra estas desvia- de manera natural, que son marcadamente no norma-
ciones; la primera lo es en términos de la curtosis, les, por ejemplo, las distribuciones de ingresos, peso
que se refiere a qué tan pronunciado es el pico de la y población de la ciudad.
distribución. En una distribución leptocúrtica es más Con esta revisión de la estadística es suficiente
pronunciado el pico, mientras que una distribución para salir bien librados de este capítulo. Extendere-
platicúrtica es más plana que la distribución normal. mos esta revisión al principio del capítulo 4.
Otro tipo de desviación de la normalidad es en tér-
minos de asimetría, el grado en que los lados izquier- Puntuación natural
do y derecho de la curva son diferentes. La asimetría
Todas las normas de las pruebas son transformaciones
3
Esta ecuación genera una curva normal: de las puntuaciones naturales; de ahí que antes de defi-
Y= nir los tipos de normas, será de utilidad considerar estas
Normas 47
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
Normal
Leptocúrtica Platicúrtica
Bimodal
mero de respuestas correctas en una prueba de apro- 54 latidos por minuto; Grazia nada 180 m de mariposa
vechamiento, el número de preguntas respondidas en en 2:20. Todas estas medidas son puntuaciones na-
cierta dirección –por ejemplo, “Sí” o “De acuerdo” en turales; reemplazarlas en un contexto normativo ayu-
un inventario de personalidad o intereses– o la suma de dará a interpretarlas. Las normas ayudan a responder
respuestas codificadas numéricamente en una serie de a preguntas como éstas: ¿Sheri es muy alta para su
reactivos de actitud, como en una escala de actitud de edad? ¿El pulso de Dan es anormal? ¿Grazia nada a
10 reactivos. En ésta, cada reactivo exige una respues- nivel de competidora olímpica?
ta en una escala de cinco puntos, que va desde En to-
tal desacuerdo (1) a En total acuerdo (5). La puntuación Por lo general, la calificación empieza seleccionan-
natural es la suma de respuestas numéricas a los 10 re- do las respuestas a los diferentes tipos de reactivos
activos. La figura 3-7 muestra un ejemplo de este tipo de la prueba. Las puntuaciones de los reactivos se
de puntuación natural de una medida de seis reactivos combinan, a veces sumándolas, para obtener una
de actitudes hacia las matemáticas. En este ejemplo, los puntuación natural utilizando la teoría clásica de las
reactivos con una redacción o connotación negativa in- pruebas o para producir una puntuación TRR utili-
vierten los valores de la escala con el fin de determinar zando la teoría de la respuesta al reactivo...
la puntuación natural. Standards... (AERA, APA, & NCME, 2013)
Figura 3-7. Obtención de la puntuación natural de una escala de actitudes hacia las matemáticas.
Los procedimientos de calificación de algunas prue- prueba calificada de acuerdo con la TRR no es una
bas requieren una puntuación natural “corregida” o simple suma de respuestas, sino una función de las
“ajustada”. El más popular de estos ajustes es la correc- respuestas del examinado que interactúan con las
ción por adivinación. Ésta se aplica en algunas pruebas características de los reactivos. La puntuación TRR
de capacidad y aprovechamiento que emplean un for- suele llamarse theta (θ). Consideremos dos ejemplos
mato de respuesta de opción múltiple. La teoría dice de cómo θ puede surgir; en ambos, es crucial que los
que en este formato se pueden obtener respuestas co- reactivos sean seleccionados de acuerdo con la uni-
rrectas adivinando a ciegas; es decir, se puede obtener dimensionalidad y escalados según su dificultad en
1 / K reactivos correctos sólo por adivinar la respuesta, programas de investigación previos. Trataremos las
donde K es el número de opciones de respuesta posi- características TRR de los reactivos de manera más
bles. Así, la fracción [I/(K – 1)], donde I es el número de completa en el capítulo 6. La calificación real de las
respuestas incorrectas, se resta de la puntuación natural pruebas de acuerdo con los procedimientos TRR es
original para obtener una puntuación natural corregida. compleja, pues requiere de sofisticados programas
La corrección por adivinación, que alguna vez fue muy de cómputo. No es una simple cuestión de sumar las
empleada, ha caído en desuso. respuestas correctas. Sin embargo, en este punto,
podemos dar una idea aproximada de cómo la meto-
El caso especial de theta (θ) dología TRR proporciona puntuaciones theta.
Primero, consideremos los datos de la figura 3-8;
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
Recordemos la discusión de la teoría de la respues- los reactivos están ordenados de acuerdo con su di-
ta al reactivo (TRR) del capítulo 1. Mientras que una ficultad de izquierda a derecha. Los reactivos con
prueba calificada de la manera convencional propor- números inferiores son muy fáciles, mientras que
ciona una puntuación natural que es la suma de las los que tienen números superiores son muy difíci-
respuestas a todos los reactivos de la prueba, una les. Por ejemplo, si ésta fuera una prueba de cálculo
Reactivo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Dificultad del reactivo Fácil Moderada Difícil
Miguel x x x x x x x
José x x x x x x x
x = respuesta correcta
Normas 49
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
Reactivo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Dificultad del reactivo Fácil Moderada Difícil
Valores theta –4.0 –3.0 –2.0 –1.0 0.0 +1.0 +2.0 +3.0 +4.0
Puntuación de Miguel Θ= –2.0
Puntuación de José Θ = +2.0
Figura 3-9. Puntuaciones theta alineadas con los reactivos ordenados de acuerdo con su dificultad.
aritmético para estudiantes de escuelas primarias, el examinado. Además, como una puntuación natural,
reactivo 1 podría ser 6 + 3; el reactivo 10, 740 – 698; y no tiene significado por sí misma. Es como una
el reactivo 20, 0.56 × 1.05. Aquí hemos clasificado los puntuación escalar porque no es una simple suma
reactivos simplemente como fáciles, moderados y di- de las respuestas del examinado; no depende sólo
fíciles. En una aplicación real se usarían los valores de de que la respuesta sea correcta (o “Sí” o respues-
dificultad exactos. (Los reactivos no necesitan orde- tas como ésa), sino también de los valores TRR del
narse de acuerdo con la dificultad físicamente, pero reactivo al que corresponde la respuesta. Theta ubi-
es útil mostrar tal ordenamiento en nuestros ejem- ca al examinado de acuerdo con un rasgo o capaci-
plos.) Cada “x” en la figura representa una respuesta dad que, se supone, subyace en el conjunto total de
correcta. A Miguel se le presentaron los reactivos 1 al reactivos del banco de la prueba. No es fácil inter-
10 y obtuvo 7 aciertos, mientras que a José se le apli- pretar los valores numéricos de la dimensión, porque
caron los reactivos 11 al 20 y también obtuvo 7 acier- son arbitrarios; sin embargo, suelen establecerse con
tos. Ya que José respondió a más reactivos difíciles, 0.00 como valor central y un rango aproximado de
se le asigna una puntuación theta más alta a pesar −4.0 a +4.0, por lo que pueden verse como puntua-
de que ambos examinados tuvieron 7 aciertos. Ob- ciones z. No obstante, estos valores no se refieren
viamente, este procedimiento no funcionará a menos a una posición dentro de un grupo de normalización
que los reactivos primero se ordenen de acuerdo con bien definido.
su dificultad. La figura 3-9 muestra cómo las respues- Aunque los valores theta pueden ser el resultado in-
tas de la figura 3-8 se traducen a puntuaciones de la mediato de las respuestas del examinado en un contex-
escala theta alineada con los reactivos. to TRR, en la práctica suelen interpretarse por medio de
las puntuaciones escalares o normativas que se presen-
tan en este capítulo. Es decir, se convierten en percen-
¡Inténtalo! tiles, puntuaciones estándar, equivalentes de grado y
así sucesivamente. De hecho, en un informe de puntua-
En internet hay excelentes demostraciones de la ciones de una prueba, podemos encontrar un percen-
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
interacción de la respuesta del examinado con las til o una puntuación T sin darnos cuenta de que es una
características del reactivo empleando la metodo- transformación de una puntuación theta en vez de que
logía TRR. Entra a http://edres.org/scripts/cat/ lo sea de una puntuación natural convencional.
catdemo.htm. Entra al sistema y trata de respon-
der la prueba. Observa cómo la “estimación de la Tipos de normas
capacidad” se ajusta después de cada respuesta.
Aunque las puntuaciones se reportarán como En esta sección se discuten los tipos de normas que,
percentiles o alguna otra puntuación escalar o por lo general, se usan con las pruebas psicológicas.
normativa, pueden transformarse de theta, que Hay tres principales categorías de normas, con varias
se actualiza después de cada respuesta. subcategorías; en esta sección, describiremos cada
una de ellas y señalaremos sus fortalezas y debilida-
des. En el caso de muchas pruebas, se dispone de va-
Theta tiene algunas propiedades de la puntua- rios tipos de normas, pero casi siempre se relacionan
ción natural y otras de la puntuación escalar, es como entre sí de manera sistemática. De modo que podemos
una puntuación natural porque también es un resul- convertir un tipo de norma en otro, aunque esto no sea
tado relativamente inmediato de las respuestas del posible con todos los tipos de normas. Las relaciones
Desviación
estándar -4o -3o -2o -1o 0 +1o +2o +3o +4o
Equivalentes
de percentiles 1 5 10 20 30 40 50 60 70 80 90 95 99
Q1 Md Q3
Puntuaciones z
-4.0 -3.0 -2.0 -1.0 0 +1.0 +2.0 +3.0 +4.0
Puntuaciones T
20 30 40 50 60 70 80
Puntuaciones
CEEB 200 300 400 500 600 700 800
Puntuaciones
NCE 1 10 20 30 40 50 60 70 80 90 99
Estaninas o eneatipos 1 2 3 4 5 6 7 8 9
Porcentaje en estaninas 4% 7% 12% 17% 20% 17% 12% 7% 4%
Escalas Wechsler
Subpruebas
1 4 7 10 13 16 19
CI de desviación
o 15 55 70 85 100 115 130 145
Otis-Lennon
o 16 52 68 84 100 116 132 148
entre las normas son importantes; por lo general, se Resumen de puntos clave 3-3
conceptualizan en el contexto de la curva normal que
revisamos antes en este capítulo. Varias de estas rela- Principales categorías de las normas de las pruebas
ciones se muestran en las figuras 3-10a y 3-10b y se re-
presentan de modo tabular en el cuadro 3-1. • Rangos percentiles
La figura 3-10a es clásica, pero un poco abrumadora, • Puntuaciones estándar
mientras que la figura 3-10b es una versión simplificada. • Normas de desarrollo
El principiante o novato hará bien en aprenderse de me-
moria esta versión simplificada, pues los psicólogos ex-
perimentados, que enfrentan la necesidad de integrar de Rangos percentiles y percentiles
manera rápida información de varias fuentes, a menudo
usan una imagen mental como la de la figura 3-10b para Uno de los tipos más comunes de normas en el caso
hacer comparaciones entre las puntuaciones de distintos de las pruebas psicológicas es el rango percentil o
sistemas de normas. Desde luego, el cuadro 3-1 permite percentil. Existe una distinción técnica entre ambos
hacer conversiones exactas cuando sea necesario. términos. El rango percentil (RP) nos dice el porcentaje
Normas 51
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
–4.0 –3.0 –2.0 –1.0 0.0 1.0 2.0 3.0 4.0
Desviaciones estándar
Puntuaciones z -3 -2 -1 0 +1 +2 +3
Puntuaciones T 20 30 40 50 60 70 80
Figura 3-10b. Versión simplificada de las comparaciones entre sistemas de normas de una distribución normal.
Fuente: Adaptada de Clinician’s guide to evidence based practices: Mental health and addiction por Norcross, Hoigan and
Koocher (2008) fig. 5.1, pag. 126. Con autorización de Oxford University Press, USA
de casos en el grupo normativo que están por debajo y luego encuentra el porcentaje de casos que caen
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
de cierta puntuación natural. Así, si una puntuación na- por debajo de esta puntuación. En la práctica, los tér-
tural de 48 tiene un RP de 60, significa que 60% de los minos percentil y rango percentil a menudo son inter-
casos de dicho grupo tuvo una puntuación natural igual cambiables sin ningún problema.
o menor de 48. Esta puntuación se considera como un A veces, encontramos ramificaciones del sistema
intervalo que va de 47.5 a 48.5, por lo que 48 está en la de percentiles, entre las que se encuentran los deci-
mitad del intervalo. Por ello, en algunas aplicaciones, el les, quintiles y cuartiles. Como lo indican sus raíces
RP se calcula para que incluya la mitad de los casos que latinas, estos sistemas dividen la distribución en diez,
están en el intervalo de la puntuación natural. cinco y cuatro partes, respectivamente. En este senti-
Un percentil es un punto en una escala debajo del do, podemos pensar en los percentiles como un siste-
cual cae un porcentaje especificado de casos. La di- ma que divide en cien partes la distribución.
ferencia entre un percentil y un rango percentil puede Las figuras 3-10a y 3-10b ilustran el lugar de los
resumirse del siguiente modo: en el caso del percen- rangos percentiles en la curva normal, que varían
til, uno empieza con un porcentaje determinado y lue- desde 1 hasta 99 y 50 es su punto medio o mediana.
go encuentra la puntuación natural que corresponde La relación entre rangos percentiles y puntuaciones z
a este punto, mientras que en el caso de un rango per- está definida por el cuadro de áreas bajo la curva nor-
centil, uno empieza con una puntuación determinada mal, el cual se estudia en estadística básica.
67 6 59 107 67
66 6 59 106 54 540 0.4 66
65 6 58 106 65
64 6 58 64
63 6 57 105 11 63
62 6 56 105 53 530 0.3 62
61 6 56 104 61
60 6 55 104 60
59 5 55 59
58 5 54 103 103 52 520 0.2 58
57 5 54 57
56 5 53 56
55 5 53 102 102 55
54 5 52 51 510 0.1 54
(continúa)
Normas 53
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
Cuadro 3-1 (continuación)
Percentil Estanina NCE CI(15) CI(16) W-sub Puntuación T SAT Puntuación z Percentil
o eneatipo
53 5 52 101 53
52 5 51 101 52
51 5 50 51
50 5 50 100 100 10 50 500 0.0 50
49 5 50 49
48 5 49 99 48
47 5 48 99 47
46 5 48 49 490 −0.1 46
46 5 48 49 490 −0.1 46
45 5 47 98 98 45
44 5 47 44
43 5 46 43
42 5 46 97 97 48 480 −0.2 42
41 5 45 41
40 5 45 96 40
39 4 44 96 39
38 4 44 95 47 470 −0.3 38
37 4 43 95 9 37
36 4 42 36
35 4 42 94 35
34 4 41 94 46 460 −0.4 34
33 4 41 93 33
32 4 40 93 32
31 4 40 92 45 450 −0.5 31
30 4 39 92 30
29 4 38 91 29
28 4 38 28
27 4 37 91 90 44 440 −0.6 27
26 4 36 26
25 4 36 90 89 8 25
24 4 35 43 430 −0.7 24
23 4 34 89 88 23
22 3 34 22
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
21 3 33 88 87 42 420 −0.8 21
20 3 32 20
19 3 32 87 86 19
18 3 31 86 41 410 −0.9 18
17 3 30 85 17
16 3 29 85 84 7 40 400 −1.0 16
15 3 28 15
14 3 27 84 83 39 390 −1.1 14
13 3 26 83 82 13
12 3 25 82 81 38 380 −1.2 12
11 3 24 80 11
10 2 23 81 6 37 370 −1.3 10
9 2 22 80 79 9
8 2 20 79 78 36 360 −1.4 8
(continúa)
¡Inténtalo!
Usa la figura 3-10b para responder a estas preguntas. Escribe las estimaciones y la puntuación z que correspon-
da a cada rango percentil. Luego usa el cuadro 3-1 para revisar tus estimaciones.
Fortalezas y debilidades de los rangos de salón de clases. De acuerdo con una tradición con-
percentiles4 sagrada, en el sistema de puntuación de porcentaje co-
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
Normas 55
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
3 puntos 3 puntos 3 puntos
Puntuación
natural 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Percentil 1 1 2 3 5 7 10 14 19 27 35 44 51 59 67 73 79 84 88 92 95 97 98 99
Figura 3-11. Normas de percentiles de una escala de puntuaciones naturales que muestran la desigualdad
de las unidades percentiles.
implicaciones prácticas importantes. Una diferencia en Cuadro 3-2. Algunos sistemas de puntuación están-
las puntuaciones naturales, digamos de 3 puntos, cu- dar muy usados
brirá muchos puntos percentiles en la mitad de la dis- Prueba Media DE
tribución, pero sólo unos pocos en los extremos. Este
fenómeno puede observarse en las normas de rangos Escala Total de Wechsler y Stanford-Binet (SB) 100 15
percentiles de cualquier prueba. Esta dificultad no es Puntuaciones de subpruebas de Wechsler y 10 3
un atributo de los rangos percentiles, sino del hecho de SB
que se apliquen a una variable que sigue una distribu- Law School Admissions Test 150 10
ción normal, lo cual es difícilmente cierto en la mayoría
SAT 500 100
de las pruebas psicológicas. La dificultad no se presen-
taría en circunstancias inusuales en las que la variable MMPI 50 10
tenga una distribución rectangular; de hecho, el fenó-
meno se invertiría adoptando una distribución en forma distribución muy asimétrica, donde la “joroba” está a la iz-
de U. quierda o a la derecha del centro, los análisis que acaba-
La figura 3-11 ilustra el problema de unidades des- mos de describir cambian en consecuencia.
iguales en el sistema de percentiles; se muestran las
normas en percentiles de la escala de puntuaciones na- Puntuaciones estándar
turales. Puede observarse que un cambio en las unida-
des de puntuación natural de 7 a 10 (3 puntos) resulta en Las puntuaciones estándar son otro tipo de normas
un cambio de sólo 2 puntos de percentil, mientras que que se usan con frecuencia en las pruebas educati-
un cambio en la puntuación natural de 17 a 20, también vas y psicológicas. Conforman una familia de normas,
de 3 puntos, resulta en un enorme cambio de 24 pun- pues hay varias versiones muy utilizadas de ellas y
tos en unidades de percentil. Consideremos estos dos un número potencialmente infinito de otras versiones.
escenarios: Olivia gana 3 puntos en la puntuación natu- Primero, describimos lo que tienen en común todas
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
ral de la primera a la segunda aplicación de una prueba, las puntuaciones estándar y, luego, identificamos las
¿qué tan grande es la diferencia en su posición en tér- propiedades de las versiones específicas. Véanse los
minos de percentiles? Eso depende de dónde se ubica ejemplos del cuadro 3-2.
en la distribución de puntuaciones. Si está en el extremo Un sistema de puntuación estándar es una con-
inferior o superior, sus 3 puntos más producen una pe- versión de puntuaciones z (revisadas antes en este
queña diferencia en su posición, pero si se encuentra a capítulo) en un nuevo sistema con una media (M) y
la mitad de la distribución, sus 3 puntos más harán una una desviación estándar (DE) elegidas de manera ar-
gran diferencia en su posición. Un resultado similar ocu- bitraria. Como M y DE, en este sistema suelen elegir-
rre si comparamos dos individuos cuyas puntuaciones se números lindos y fáciles de recordar como 50 y 10
naturales difieren por 3 puntos; si estos individuos se en- o 500 y 100. En pocos casos, como veremos, se bus-
cuentran cerca de la parte inferior o superior de la distri- can otras características deseables.
bución, sus posiciones en términos de percentiles serán Para convertir una puntuación natural en una están-
similares, pero si se encuentran a la mitad de la distribu- dar, primero se traduce la puntuación natural a una pun-
ción, sus posiciones serán notablemente diferentes. To- tuación z; ésta se multiplica, después, por la nueva DE
dos estos ejemplos se basan en una distribución más o de la puntuación estándar y se suma la nueva media
menos normal, donde la “joroba” está en la mitad. En una también de la puntuación estándar. En la figura 3-12 se
Puntuaciones z
M = 0.0
DE = 1.0
z = 1.5
–2 –1 0 +1 +2
z = 1.5
Puntuaciones
estándar
M = 50
DE = 10
PE = 65
30 40 50 60 70
PE = 65
Sistema de puntuación
natural M = 38 DE = 6 X = 47
Puntuación z z = (X – M )/ DE = (47 – 38)/6
Puntuaciones estándar M = 50 DE = 10 PE = 65
Figura 3-13. Ejemplo de una conversión de puntuación natural en estándar (puntuación T).
esquematizan estos pasos. La siguiente fórmula realiza Me = media en el sistema de puntuación estándar
estos pasos: X = puntuación natural
DE e
PE = ( X - M n) + Me Cuando la puntuación (X) se traduce a puntuación
DE n
z, la fórmula es:
Fórmula 3-5 PE = z(DEe) + Me Fórmula 3-6
Normas 57
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
Figura 3-14. Ejemplo de transformación no lineal de una distribución no normal de puntuaciones naturales en un sistema
de puntuación estándar que se aproxima a la distribución normal.
que las puntuaciones estándar son transformaciones li- El SAT (antiguamente Scholastic Assessment Test)
neales a menos que se indique lo contrario. utiliza un sistema de puntuaciones estándar con M =
500 y DE = 100. Este sistema se aplica a las principa-
Puntuaciones T les pruebas de las series: Lectura crítica (antes Ver-
bal), Matemáticas y Escritura. Las pruebas, a menudo,
Las puntuaciones T, a veces llamadas puntuaciones T se combinan para obtener una puntuación total; por
de McCall, son puntuaciones estándar con M = 50 y DE ejemplo, la puntuación combinada de Verbal y Mate-
= 10. Así, el rango real de estas puntuaciones va de 20 máticas a menudo se usa en el SAT. Cuando esto se
(que corresponde a −3z) a cerca de 80 (+3z). Las puntua- hace, las medias son aditivas, pero las DE no; es decir,
ciones T (escrito con T mayúscula) deben distinguirse la media de la puntuación combinada o Total es 500
de los valores t (con t minúscula) de Student que se usan + 500, pero la DE de la puntuación total no es 100 +
en las pruebas de significancia estadística. Las puntua- 100, sino que es menor de 200, ya que las dos prue-
ciones T son muy utilizadas en pruebas de personali- bas que se combinan no están perfectamente corre-
dad, aunque también se usan en pruebas de otro tipo. lacionadas. Este fenómeno no es exclusivo del SAT,
Por ejemplo, el Inventario Multifásico de Personalidad sino que ocurre en cualquier combinación de prue-
de Minnesota (MMPI) y el Strong Interest Inventory bas cuya correlación no sea perfecta.
Mientras tanto, el sistema con M = 500 y DE = 100 se man- esfuerzan con afán para rechazar el término CI, mien-
tiene fijo. Cada cierto periodo de tiempo, la editorial de la tras que otros mantienen la tradición de usar un sis-
prueba reajusta el grupo base para el sistema de puntua- tema de puntuación estándar con M = 100 y DE = 15 o
ción estándar, realineando así los sistemas de puntuación 16. De ahí que a lo que nosotros nos referimos como
estándar y de percentiles. Entonces, continúa el desfase. CI de desviación a veces sale a la superficie en los
Este confuso asunto confirma la importancia de saber so- manuales de las pruebas y en los informes de puntua-
bre las normas y su origen para poder interpretar de una ciones bajo diferentes nombres, por ejemplo, school
manera adecuada las puntuaciones de las pruebas. ability index (SAI [índice de capacidad escolar]). Por lo
general, estos nombres alternos pueden reconocerse
CI de desviación con facilidad como sistemas de puntuación estándar
con una M y DE conocidas.
La definición tradicional de CI (cociente de inteligencia)
es: CI = (EM/EC) × 100, donde EM significa edad mental Estaninas
(véase la página 61 para ver la descripción de este térmi-
no), EC, edad cronológica, y 100 es un multiplicador para Las estaninas, contracción de “standard nine” [nueve
eliminar el punto decimal. Por ejemplo, la edad mental estándar], son un sistema de puntuación estándar con
Normas 59
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
4% 7% 12% 17% 20% 17% 12% 7% 4%
1 2 3 4 5 6 7 8 9
Stanines
Abajo 4 4-10 11-22 23-39 40-59 60-76 77-88 89-95 Arriba 95
Rangos percentiles
Las puntuaciones estándar brindan una medida prác- Cuando el rasgo que se mide se desarrolla de manera
tica para interpretar el desempeño en una prueba en sistemática en el tiempo, es factible crear lo que se de-
distintas circunstancias. Ya que muchos rasgos de in- nomina una norma de desarrollo. Existen dos normas de
terés para los psicólogos, supuestamente tienen una este tipo que son muy usadas: equivalentes de edad (EE)
distribución normal, las conexiones de las puntuacio- y equivalentes de grado (EG). Los EE se usan en algunas
nes estándar con las puntuaciones z son útiles. Las pruebas de capacidad mental, en cuyo caso la puntua-
puntuaciones estándar evitan el problema de los per- ción se denomina edad mental (EM), por mucho la más
centiles relacionado con la desigualdad de sus unida- conocida de los equivalentes de edad. Los EG se usan
des en varias regiones de la distribución normal. Por en muchas pruebas de aprovechamiento. Las normas de
esta razón, las puntuaciones estándar son más flexi- desarrollo sólo tienen sentido en la medida en que el ras-
bles para los cálculos estadísticos. go que se mide se desarrolla o crece con el tiempo en
Las puntuaciones estándar tienen algunos incon- la población pertinente. En una norma de desarrollo, una
venientes. Primero, debe admitirse que una fracción puntuación natural se interpreta en términos de la edad o
extremadamente pequeña de la raza humana tiene grado para el que dicha puntuación es típica.
idea de qué es una curva normal o una puntuación
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
Normas 61
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
60
50
Puntuación natural
40
30
Puntuación mediana de un grupo de edad
en el proceso de obtención de normas
20
10
+ + + + + + + +
4-0 5-0 6-0 7-0 8-0 9-0 10-0 11-0
Edad
Puntuación
15 20 25 30 35 40 45
natural
Edad mental 4-0 4-2 4-5 5-0 5-4 6-2 8-8
Figura 3-17. Cuadro de correspondencias entre puntuación natural y edad mental creado a partir de la figura 3-16.
Sep Oct Nov Dic Ene Feb Mar Abr May Jun
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
examinados en niveles de edad sucesivos. Los grupos un cuadro preparado a partir de la curva de desarrollo;
de edad pueden formarse por intervalos de un año, la figura 3-17 es un ejemplo de tal cuadro.
medio año, tres meses o cualquier otra forma semejan-
te de agrupar individuos. Luego se determina la pun- Equivalentes de grado (EG)
tuación mediana en las pruebas para cada grupo. Los
resultados se grafican y una suave curva se adecua a Los equivalentes de grado se elaboran aplicando una
los puntos como en la figura 3-16. Cada “●” que apa- prueba a estudiantes de diferentes grados, lo cual se
rece en la figura es una mediana obtenida del proceso hace en el proceso de obtención de normas. Se obtiene
de obtención de normas de la prueba. La figura ilustra el desempeño típico o mediano de cada grado. Los pun-
cómo obtener la EM a partir de una puntuación natural. tos medianos se grafican y una curva se adecua a los
Por ejemplo, un niño que obtiene una puntuación na- puntos, como en la figura 3-16, pero con grados en lugar
tural de 42 tiene una EM de 88 meses o 7 años 4 me- de edades en la base. Semejante al procedimiento de la
ses (a menudo, escrito como 7–4 en el lenguaje de los EM, la EG correspondiente a una puntuación natural se
equivalentes de edad). En la práctica, las puntuaciones lee a partir de la curva, y se prepara un cuadro para las
naturales se convierten en edad mental con ayuda de conversiones de puntuación natural en EM.
muy atractivas. Decir que una persona de 16 años de La segunda desventaja de las normas de desa-
edad funciona mentalmente como una de 3 o que un rrollo son sus descontroladas desviaciones están-
estudiante de segundo grado puede leer al nivel de dar. Las DE suelen ser diferentes en distintos niveles
uno de octavo son afirmaciones que parecen trans- o distintas pruebas, pues varían de manera no siste-
mitir un significado considerable, libre de la jerga mática entre distintas pruebas de la misma batería, in-
estadística estéril de los rangos percentiles y las pun- cluso cuando las normas se basan en el mismo grupo
tuaciones estándar. Las ideas sobre los patrones de de normalización. Aunque esto pueda sonar trivial o
desarrollo normal están profundamente arraigadas demasiado técnico, tiene implicaciones prácticas im-
en nuestra forma de pensar sobre los humanos. La portantes. Por ejemplo, un niño de 5 años de edad
noción básica de las normas de desarrollo se usa en que se encuentre un año por debajo del promedio en
muchas situaciones. El adulto que hace un berrinche capacidad mental (es decir, EC = 5–0, EM = 4–0) está
es acusado de “actuar como un niño de 2 años”. Se mucho más abajo del promedio en unidades de des-
puede observar que los estudiantes de sexto grado viación estándar o de percentiles que un joven de 16
en Japón estudian el álgebra “que por lo general se años que se encuentra un año por debajo del prome-
reserva para los alumnos de noveno grado en EUA”. dio (es decir, EC = 16–0, EM = 15–0). Un estudiante del
Miguel recibe elogios porque “se desempeñó en su grado 1.5 que lee al nivel EG = 3.5 está prácticamente
Normas 63
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
Nivel de contenido Grado 2 Grado 3 Grado 4 Grado 5 Grado 6 Grado 7 PN EG
Reactivos xxxxx xxxxx xxxxx xxxxx xxxxx xxxxx
Estudiante del grado 3 ///// ///// ///// 15 6.5
Estudiante del grado 6 //// /// /// /// / / 15 6.5
Cada x representa un reactivo de la prueba y cada /, una respuesta correcta.
fuera de la distribución de los estudiantes del grado Cuadro 3-3. Ejemplo de un cuadro de normas con va-
1, mientras que uno del grado 7.5 que lee al nivel de rios tipos de normas
EG = 9.5 no es tan extraordinario. Consideremos tam- PN PE CID RP S ECN
bién al estudiante del grado 3.5 con un EG = 4.5 tanto
en cálculos matemáticos como en lectura; en compa- 60 420 119 90 8 77
ración con otros estudiantes, éste se encuentra pro- 59 417 117 86 7 74
bablemente mucho más avanzado en cálculo que en 58 414 114 82 7 69
lectura porque la DE de los GE es, por lo general, me-
nor en cálculo que en lectura. Estas diferencias en las
DE de varias pruebas no son sistemáticas, sino que puntuación normativa. En este ejemplo, primero se
pueden diferir de una serie de pruebas a otra. busca una puntuación natural en la columna de la iz-
La tercera crítica que suele hacerse a los equiva- quierda y luego alguna de las diversas puntuaciones
lentes de grado es la siguiente: se ha observado que escalares: puntuación estándar (PE), CI de desviación
un estudiante, digamos, del grado 3 puede obtener (CID), rango percentil (RP), estaninas (S) y equivalen-
un EG de 6.5 sin saber el material de un estudiante te de curva normal (ECN). En muchas aplicaciones se
típico del grado 6, pues basta que responda de ma- realiza la conversión con ayuda de una computado-
nera perfecta todos los reactivos de los grados 2, 3 y ra, y lo único que se ve es la puntuación escalar en
4, mientras que el estudiante típico del grado 6 tiene el informe. En la práctica, solemos concentrarnos en
correctos sólo algunos reactivos, no todos, de los gra- sólo un tipo de puntuación normativa aun cuando ci-
dos 2 al 7. Esta situación se describe en la figura 3-19. tamos varias.
Este argumento, que se suele mencionar sólo en
relación con los equivalentes de grado, puede aplicar- Informes interpretativos y normas
se a cualquier tipo de puntuación normativa. La pun-
tuación de dos estudiantes ubicados en el percentil 75 Recordemos que el propósito fundamental de las nor-
o en una puntuación estándar de 60 no necesariamen- mas es ofrecer un contexto para interpretar una puntua-
te implica que tuvieron correctos los mismos reactivos. ción natural. Por lo general, la información normativa es
Las pruebas elaboradas de acuerdo con la teoría de la cuantitativa: otro conjunto de números. Sin embargo, las
respuesta al reactivo intentan minimizar este proble- puntuaciones de las pruebas cada vez se informan con
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
ma, pero éste es una función del método de elabora- mayor frecuencia en forma de narrativa generada por
ción de la prueba, no del tipo de normas empleadas. computadora. El usuario puede no ver ningún número,
pero la mayoría de los informes proporcionan tanto nú-
Ejemplos de cuadros de normas meros –las normas usuales– como un informe interpre-
tativo. ¿Cómo se originan estos informes?
Ahora que hemos considerado los principales tipos La sustancia de los informes interpretativos siem-
de normas, será de utilidad observar el modo en que pre empieza con la puntuación de una prueba, al me-
aparecen en los manuales de las pruebas. ¿Qué apa- nos una puntuación natural o theta, y casi siempre
riencia tienen los cuadros de normas? En realidad, con una puntuación escalar. Desde el principio, el in-
estos cuadros aparecen en una gran variedad de for- forme varía considerablemente en complejidad; en el
mas; sin embargo, hay algunos patrones estándar. nivel más sencillo, puede sólo traducir una puntua-
Después de ver algunos ejemplos, es fácil descifrar ción normativa a una descripción verbal. Por ejemplo,
las variaciones de estos patrones. una computadora puede tener un cuadro que mues-
El cuadro 3-3 muestra la presentación típica de tra la siguiente correspondencia entre puntuaciones
un cuadro de normas. Siempre se empieza con la estándar (en un sistema con M = 100, DE = 15) y cate-
puntuación natural (PN), que luego se convierte en gorías verbales:
Querida Alicia,
A principios de junio hiciste los exámenes universitarios de colocación en escritura, matemáticas y lengua ex-
tranjera, y también respondiste preguntas sobre tus intereses académicos. Los resultados de estos exámenes ayu-
darán a planear tu primer año en la Universidad. Tu desempeño estuvo por encima del promedio en escritura
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
y matemáticas, de hecho, muy alto en el examen de matemáticas. Los estudiantes de tu nivel suelen tener éxito
en sus estudios en la Universidad. A menudo continúan sus estudios de posgrado o especialización con éxito,
lo cual es importante si consideramos lo que indicaste sobre tus intereses académicos. Desde luego, ¡tienes que
trabajar duro para hacerlo bien!
En vista de tu desempeño en matemáticas, te recomendamos tomar el curso 150 de matemáticas en tu primer se-
mestre. También te recomendamos el curso de 140 de inglés. En cuanto a la lengua extranjera (hiciste el examen
de colocación de español), puedes omitir los cursos 101 y 102 de español y entrar directamente al curso 201.
Ese será un buen inicio para ti e, incluso, te permitirá considerar el español como un curso secundario.
Bienvenida a la Universidad. Esperamos verte en el semestre de otoño. La mejor de las suertes. Si deseas discu-
tir tu desempeño en los exámenes de colocación, por favor, solicítalo poniéndote en contacto con la oficina de
Asesoría Académica al teléfono 700-111-2222 o en el correo electrónico AcadAdvis@daU.edu.
Dr. Cordial
Director de Asesoría Académica
Normas 65
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
¡Inténtalo!
En años recientes se ha desarrollado una auténtica industria artesanal psicométrica para producir informes in-
terpretativos de resultados de pruebas. Puedes encontrar ejemplos de tales informes en las páginas web de las
editoriales. Usa uno de los siguientes sitios para examinar uno o dos ejemplos de informes sobre pruebas muy
utilizadas: http://psychcorp.pearsonassessments.com/pai/ca/research/publications/samplerpts/reslist.htm
http://www4.parinc.com/WebUploads/samplerpts/PAI32.pdf
http://portal.wpspublish.com/portal/page?_pageid=53,124601&_dad=portal&_schema=PORTAL
aunque éstos (primero las puntuaciones naturales, lue- • De acuerdo con esta prueba, hay veces en que
go sus percentiles equivalentes) sean el punto de par- piensas que no es justo que la gente se aprove-
tida. Aquí señalamos algunos puntos sobre cómo se che de otras personas.
puede elaborar dicho informe con un programa de cóm-
puto relativamente sencillo. El primer enunciado tiene Ahora consideremos estas afirmaciones basadas
una redacción común en la que se indica el mes y los en pruebas de capacidad mental y de rendimiento
nombres de las pruebas aplicadas. La segunda oración aplicadas a José y Abigail, estudiantes de escuela
es común a todos los informes. La tercera oración par- primaria:
te de un cuadro como el que acabamos de presentar y, • La batería de pruebas muestra que José no es
luego, se convierten los percentiles en palabras: “arri- igual de bueno en todas las áreas. Su maestro ne-
ba del promedio” se refiere a percentiles arriba de 70 y cesita sacar provecho de sus fortalezas y motivar-
“muy alto”, a percentiles arriba de 90. Los siguientes dos lo para mejorar en otras áreas.
enunciados se basan en estudios sobre la validez de las • Estos resultados pueden ser de especial ayuda
pruebas –lo que llamamos validez predictiva en el capí- para tratar casos como el de Abigail. Sin duda,
tulo 5. ¡El último enunciado del primer párrafo se aplica ella puede mejorar de muchas maneras.
a todos! Las afirmaciones sobre el curso en que debe
ubicarse al examinado, que se presentan en el segundo Todas estas afirmaciones podrían hacerse sobre
párrafo, se basan en los juicios del profesorado sobre casi cualquier persona, pues no contienen informa-
los niveles de las puntuaciones requeridas para dichos ción específica basada en los resultados de las prue-
cursos. El programa de cómputo jala el último enuncia- bas. De hecho, podríamos escribir un informe entero
do de este párrafo para cualquiera que se ubique en el basado en estas afirmaciones estilo Barnum, las cua-
curso de español 201 o superior. El tercer párrafo es co- les no son útiles. Los informes narrativos deben dar
mún a todos los reportes. información que sólo caracterice al individuo y surja
directamente de los resultados de las pruebas.
Efecto Barnum
normas representativas de una población Algunas pruebas emplean lo que llamamos normas
del usuario, las cuales se basan en los grupos que
Las normas de esta prueba se basan en todas las perso- en realidad respondieron la prueba, por lo general,
nas que la respondieron y cuyas puntuaciones fueron pro- dentro de un tiempo especificado. Conforme nuevos
cesadas por la editorial en los tres años más recientes. grupos responden la prueba, la editorial sólo agrega
Las normas del Scranton Anxiety Test se basan en 236 estos casos en su base de datos normativos. De ahí
casos que respondieron a la prueba en el centro comuni- que este tipo de normas suelan encontrarse sólo en
tario de consejería de Scranton. casos en que la editorial de la prueba califica todos o
al menos una parte considerable de las pruebas apli-
Normas internacionales cadas. Las normas de rango percentil del SAT y ACT
son normas del usuario (véase capítulo 9), pues se
En el contexto de los estudios internacionales de ren- basan en todos los estudiantes que respondieron la
dimiento escolar, se han elaborado normas interna- prueba dentro de un periodo reciente. Las normas del
cionales en años recientes. Las normas se basan en Major Field Test (véase capítulo 11) se basan en todos
niños de escuelas tomados de grupos de países que los individuos que respondieron la prueba en un pe-
decidieron participar en estos estudios. La mayoría riodo de tres años.
Normas 67
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
En las normas del usuario no hay un intento a Resumen de puntos clave 3-5
priori de asegurarse de que el grupo sea represen-
tativo de una población bien definida. En realidad, es- Principales tipos de grupos normativos
tas normas son un tipo de normas por conveniencia. Normas nacionales
Como señalamos en las normas por conveniencia, se Normas internacionales
espera que una detallada descripción acompañe las Grupos normativos por conveniencia
normas del usuario. Normas del usuario
Normas de subgrupos
Normas de subgrupos Normas locales
Normas institucionales
Algunas pruebas incluyen normas de subgrupos, que
se toman del grupo total de normalización. Por ejem-
plo, pueden incluirse normas separadas de acuerdo
con sexo, raza, nivel socioeconómico, ocupación o re- las puntuaciones de sus propios estudiantes e inter-
gión geográfica. preta la de cada uno en relación con las puntuaciones
Las normas de subgrupos pueden ser útiles sólo si de los demás alumnos de la escuela. Esto se denomi-
hay diferencias considerables entre los subgrupos en na norma local; estas normas casi siempre se expre-
las variables que mide la prueba. Si los subgrupos no san como percentiles.
difieren en la variable, estas normas no serán diferen- Consideremos otro ejemplo. Una compañía usa
tes de las normas basadas en el grupo total. una prueba de aptitud cuantitativa para elegir em-
Dependiendo del propósito de la aplicación de la pleados de oficina. Cada año, la compañía evalúa a
prueba, se puede preferir emplear sólo la norma del 200 solicitantes del trabajo. Aunque existen normas
grupo total o la del subgrupo. En muchas situaciones, nacionales de la prueba, la compañía usa las 200
usar ambas mejora la interpretación de la prueba; por aplicaciones de la prueba para crear una norma local.
ejemplo, puede ser útil saber que la puntuación de Las normas locales pueden ser de utilidad para al-
Zeke se ubica en el percentil 60 de la norma nacio- gunos propósitos de interpretación. Una ventaja de
nal, pero en el 30 de las personas que tienen la mis- las normas locales es que sabemos con certeza las
ma ocupación que él. características del grupo normativo, ya que es preci-
samente gente del contexto local. Desde luego, en
Normas locales una norma local, la persona típica estará en el prome-
dio, lo cual puede ser engañoso.
Una escuela emplea los Metropolitan Achievement Por ejemplo, en la situación escolar de evalua-
Tests. Las puntuaciones de los estudiantes de esta ción anteriormente mencionada, el estudiante típico
escuela se informan en términos de las normas nacio- de cada grado estará “en la norma”, lo cual no es muy
nales; además, la escuela prepara una distribución de informativo, ya que es una afirmación verdadera por
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
Norma nacional
Norma local
x = percentil nacional 55
= percentil local 45
definición. No se puede determinar con una norma lo- Una prueba de 50 reactivos de habilidad de cálculo bá-
cal si el individuo típico está arriba o abajo del prome- sico se aplicó a un grupo de adultos. La prueba incluye
dio en términos de algún marco de referencia externo. reactivos como 7 × 9 = , 417 + 236 = y
La figura 3-21 muestra un ejemplo. En este caso, en 2596 – 1688 = . Un individuo tiene 30 reacti-
que el grupo local está arriba de la norma nacional, una vos (60%) correctos; un maestro o un padre de familia
puntuación natural de “X” se ubica en el percentil 55 de podría juzgar este desempeño como “insatisfactorio”.
la norma nacional, pero en el 45 de la norma local. Cuan- Éste es un ejemplo de una interpretación referida a un
do el grupo local está muy por encima o muy por debajo criterio. Al hacer el juicio de que 60% de respuestas
del promedio, se observará una mayor diferencia. correctas es insatisfactorio, no hay referencia a ningún
grupo normativo. Así, la interpretación referida a un cri-
Normas institucionales terio contrasta con la interpretación referida a la nor-
ma, la cual fue el tema de las primeras secciones de
Algunas pruebas, en especial las de aprovechamien- este capítulo.
to, incluyen normas basadas en instituciones y en in- Las pruebas mismas a veces son calificadas como
dividuos. Las normas institucionales se basan en los referidas a un criterio o a una norma, pero esta termi-
promedios de los individuos que están dentro de las nología es inapropiada. No es la prueba sino el marco
instituciones; por ejemplo, una prueba se aplica a en que se interpreta lo que se puede calificar de estos
5000 estudiantes en 200 universidades y se obtie- modos. De hecho, ambos tipos de interpretación pue-
ne el promedio de cada una de ellas y una distribu- den usarse para la misma prueba; por ejemplo, en la
ción de frecuencias de dichos promedios. Con base prueba descrita en el párrafo anterior, podemos notar
en esta distribución, por lo general, se elabora una que una puntuación natural de 30 ubica al individuo en
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
norma de percentiles, la cual constituye una norma el percentil 75 de un grupo normativo que representa
institucional. También podría llamarse norma escolar, a la población adulta general de EUA.
norma grupal o de alguna otra manera. La interpretación con referencia a un criterio sue-
Por lo común, la distribución de puntuaciones in- le ser aplicable sólo a algunos dominios de conteni-
dividuales y promedios grupales tendrá aproxima- do bien definidos, como computación, ortografía o
damente el mismo centro, pero las puntuaciones cualquier habilidad requerida en cierta ocupación. A
individuales serán mucho más variadas que los pro- menudo aplicamos este tipo de interpretación a pun-
medios grupales. De ahí que una puntuación natural, tuaciones de exámenes para otorgar licencias profe-
excepto si está a la mitad de la distribución, estará sionales y en exámenes de competencia mínima para
más alejada de la norma de las instituciones que de la graduación del bachillerato. Mientras menos de-
la norma de los individuos. Las puntuaciones arriba finido esté el dominio, más difícil es la interpretación
del promedio estarán más arriba en la norma institu- con referencia a un criterio. El método de evaluación
cional que en la individual y viceversa en el caso de también es importante cuando se aplica esta interpre-
las puntuaciones debajo del promedio. Las diferen- tación; por ejemplo, en la prueba de cálculos mencio-
cias pueden ser radicales. En la figura 3-22 se des- nada antes, la interpretación del desempeño puede
cribe una comparación entre normas individuales e variar de manera considerable dependiendo de si los
Normas 69
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
reactivos de la prueba eran de respuesta libre o de op- uno de los últimos pasos en la elaboración de prue-
ción múltiple, si se usó una calculadora y si había límite bas. En el capítulo 6 se describe con detalle el proce-
de tiempo. ¿Cómo podría cambiar la interpretación de so entero de elaboración de pruebas. Aquí tratamos
“60% correcto” si no había límite de tiempo o cada re- la cuestión de cómo determinar si un programa de
activo tenía que responderse en 10 segundos? La inter- estandarización es bueno. El uso competente de las
pretación con referencia a un criterio a menudo suena pruebas psicológicas requiere no sólo de conocimien-
como una idea simple, pero puede volverse problemá- to sobre los tipos de normas –percentiles, puntua-
tica cuando se examina con mayor detenimiento. ciones estándar– sino también de la capacidad para
La interpretación con referencia a un criterio a me- juzgar la utilidad de las normas. Por ejemplo, pense-
nudo se aplica a los exámenes de salón de clases. mos, utilidad se refiere al grado en que las normas
El conocido esquema de calificación “90% es una A, proporcionan un marco significativo para interpretar
80-89% es una B,... menos de 60% es no aprobado” la prueba. En la mayoría de casos, esto significa tener
es un ejemplo de esta interpretación. El dominio de una norma que es 1) estable y 2) representativa de
contenido puede definirse como “lo que el maestro una población bien definida. De ahí que existan dos
revisó en clase” o “todo lo que aparece en los ca- temas: estabilidad y representatividad.
pítulos 1 al 4 del libro de texto”. El criterio es que los La estabilidad de una norma se determina en gran
estudiantes debieron aprender todo o casi todo este medida por el tamaño del grupo normativo, es decir, el
material; luego, se aplica el conocido esquema de ca- número de casos en el programa de estandarización.
lificación. Por supuesto, las calificaciones pueden es- Esto rara vez es un problema, pues no se necesitan
tar “curveadas”, de modo que la calificación promedio muchos casos para alcanzar la estabilidad estadística.
es “C” y así sucesivamente. Tal “curvatura” es, en rea- Algunos cientos de casos producirán suficiente estabi-
lidad, un tipo de interpretación con referencia a una lidad para la mayoría de usos prácticos de las normas.
norma, en particular, la aplicación de una norma local. Consideremos la norma de un sistema de puntuación
Los niveles de competencia establecidos para las estándar con M = 100 y DE = 15; con N = 300, el error
evaluaciones estatales del aprovechamiento ofrecen estándar de la media es menor de un punto y el inter-
otro buen ejemplo de la interpretación con referencia valo de confianza de 95% es +/−1.7 puntos; ésa es una
a un criterio. Estos niveles se denominan a menudo es- buena estabilidad. En la práctica, las normas de mu-
tándares de desempeño. Un sistema común emplea chas pruebas se basan en miles de casos.
cuatro categorías: Avanzado, Competente, Básico e Al considerar el número de casos de un grupo de
Inferior al básico. Las comisiones, por lo general inte- normalización, necesitamos determinar el tamaño de
gradas por maestros, administradores escolares y re- dicho grupo en que se basa una norma específica. El
presentantes del público, examinan el contenido de número total de casos agregados en los distintos gru-
las pruebas y hacen juicios sobre qué puntuación natu- pos normativos no es el número decisivo. Por ejemplo,
ral en la prueba justifica llamar “competente” o “avan- una prueba puede jactarse de que sus normas se ba-
zado” a un estudiante. Así, se necesitan tres puntos de san en casi 1000 casos; sin embargo, supongamos que
corte para separar las cuatro categorías mencionadas las normas reales aparecen por separado para cada
arriba. Se han desarrollado numerosos procedimientos género y cada uno de 10 grados. Así, en realidad hay
específicos para crear tales puntos de corte, pero to- 20 grupos normativos con 50 casos cada uno; por lo
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
dos fallan frente a un juicio con referencia a un crite- tanto, aquí el número importante para determinar la es-
rio sobre el desempeño. En Cizek (2001b) se puede tabilidad es 50 y no 1000.
encontrar la descripción de una gran variedad de mé- Como lo señalamos, la estabilidad rara vez es un
todos, y en Cizek, Bunch y Koons (2004) se encuentra problema y, en cualquier caso, se puede determinar
una introducción práctica a los métodos. Usar estas ca- con facilidad. Sin embargo, la estabilidad no garan-
tegorías de competencia no excluye usar también las tiza representatividad; la diferencia entre estos dos
normas; por ejemplo, podríamos encontrar que el pun- conceptos es lo más importante que se debe apren-
to de corte que separa las categorías básico y compe- der en relación con las normas. Es posible tener gru-
tente corresponde al percentil 45 de la prueba. pos normativos muy grandes que producen normas
sumamente estables, pero que no son representati-
Grupo de estandarización: vos de la población meta de la prueba.
determinar su utilidad ¿Cómo determinaremos la representatividad
de un grupo de normalización? La respuesta a esta
Aplicar una prueba a los individuos del grupo norma- pregunta depende de lo que el autor de la prueba
tivo en lo que se domina programa de obtención de afirme sobre las normas. Hay dos posibilidades; pri-
normas o de estandarización. Éste es, por lo común, mero, el autor puede afirmar que las normas son
Sur
bien en tales características.
Oeste 23.3 25.4 12.3
A menudo, cuando no hay correspondencia entre
el grupo de estandarización y la población meta, se les Nivel educativo % % %
agregará peso a los casos de dicho grupo para mejo- Bachillerato inconcluso 12.9 12.1 4.5
rar la correspondencia. Supongamos, por ejemplo, que 31.2 29.6 9.8
la población tiene 50% de hombres y 50% de mujeres, Bachillerato terminado
mientras que el grupo de estandarización tiene 40% Estudios universitarios 16.8 15.4 12.6
inconclusos
Pasante 9.1 8.0 10.4
Cuadro 3-6. Tipos de información útil para juzgar la uti-
lidad de un grupo de normalización Licenciado 19.4 22.3 30.5
Edad Grupo racial/étnico Posgrado 10.5 12.6 32.2
Género Estatus socioeconómico * Datos de acuerdo con el Censo 2010 de EUA.
Nivel de capacidad Región geográfica
Figura 3-23. Ejemplos de información demográfica para
Nivel educativo Tamaño de la ciudad dos programas de estandarización.
Normas 71
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
necesita ser especialmente precavido frente a este tipo de una población. ¿Qué criterios emplearemos para
de afirmaciones cuando la información sobre la corres- juzgar la calidad de las normas? Básicamente, inver-
pondencia entre el grupo de estandarización y la po- timos el proceso anterior. En el primer caso, teníamos
blación es mínima en características importantes. Por una población meta y tratábamos de demostrar que el
ejemplo, sólo mostrar que un grupo de estandarización grupo de estandarización era representativo de ella;
para una prueba de inteligencia corresponde a la pobla- la demostración dependía de la información sobre ca-
ción nacional en términos de edad y género es insufi- racterísticas importantes. En este segundo caso, es-
ciente. ¿Qué hay del estatus socioeconómico y el nivel peramos tener información adecuada sobre el grupo
educativo? Debemos ser precavidos frente a declara- normativo de modo que podamos proyectar qué po-
ciones como: “Las normas se basan en una muestra blación podría reflejarse en dicho grupo. Por ejem-
grande de 1250 estudiantes de tres universidades urba- plo, si tenemos normas de usuario de una prueba de
nas en el sureste de EUA”. Sí, 1250 casos conforman una aprovechamiento empleada en universidades, de-
muestra grande, pero eso no dice prácticamente nada searíamos información sobre las universidades, como
acerca del grupo de estandarización, como su nivel de tamaño, índices de aceptación y retención, datos cu-
capacidad, nivel socioeconómico o composición racial. rriculares, género o raza/etnia. Con base en esta infor-
Incluso cuando un grupo de estandarización mación descriptiva, podríamos inferir que las normas
muestra una buena correspondencia con la pobla- corresponden a una academia de artes pequeña, se-
ción meta en características importantes, existen dos lectiva y liberal, pero no a una universidad grande,
problemas que infestan el proceso de obtención de urbana, de admisión abierta. Si tenemos normas por
normas. El primero es efecto de la no participación, conveniencia de una prueba de autoconcepto para
es decir, surge del hecho de que la participación en estudiantes de bachillerato, desearíamos saber sobre
un programa de estandarización casi siempre es vo- el nivel de capacidad, género, raza/etnia y estatus so-
luntaria, sea del individuo o de la organización a la cioeconómico de los participantes. Con base en esta
que éste pertenece. ¿Qué clase de individuos u orga- información, podríamos concluir que las normas pro-
nizaciones no aceptaron participar? ¿Cuáles son sus bablemente corresponden a escuelas de nivel socioe-
características? ¿Qué efecto puede tener su no parti- conómico bajo, muy urbanizadas, pero, sin duda, no se
cipación en las normas? A menudo no tenemos muy trata de un grupo representativo a nivel nacional.
buenas respuestas a estas preguntas. Aquí hay un punto importante (y contrario al sentido
Segundo, los programas de estandarización son pro- común) relacionado con la composición de los grupos
gramas de investigación más que usos ordinarios de las normativos.. El desglose del grupo en distintas carac-
pruebas, y los participantes, por lo general, lo saben. En terísticas, como edad o género, es importante sólo en
estas circunstancias es difícil asegurar que los niveles la medida en que los subgrupos difieren en la caracte-
de motivación de los participantes sean los mismos que rística que mide la prueba. Por ejemplo, en el caso de
cuando se trata de una aplicación ordinaria de la prue- una prueba de autoconcepto, si hombres y mujeres no
ba. Al igual que con la no participación, a menudo no difieren en esta variable, la combinación de ambos gé-
conocemos el efecto del nivel de motivación en las nor- neros en un grupo normativo es irrelevante. Se podrían
mas. Lo mejor que podemos esperar es una discusión hacer las normas de la prueba sólo con hombres (o
franca de estos problemas en el manual de la prueba. con mujeres) sin afectar la calidad de las normas. Sería
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
Ahora consideremos nuestro segundo caso: cuando un desastre político, pero, desde el punto de vista de la
no se afirma que el grupo normativo es representativo psicometría, sería por completo aceptable.
Resumen
1. La puntuación natural es, por lo general, el resultado más inmediato de una prueba. Por lo común, esta pun-
tuación es el número de respuestas correctas en las pruebas cognitivas y el número de respuestas en cier-
ta dirección en pruebas no cognitivas.
2. Las pruebas que se califican de acuerdo con los métodos TRR y que producen una puntuación theta (θ) to-
man en cuenta el nivel de dificultad de los reactivos y, a veces, los patrones de respuesta.
3. La distribución de las puntuaciones naturales en un grupo de estandarización constituye la base para con-
vertirlas en puntuaciones normativas, las cuales ayudan a dar significado a las puntuaciones naturales.
4. Para entender las normas de las pruebas, se necesita tener conocimiento sobre los siguientes temas de
estadística básica: distribuciones de frecuencia, formas de las distribuciones, medidas de tendencia central
y de variabilidad, y puntuaciones z dentro de la distribución normal.
Palabras clave
asimetría estadística descriptiva pruebas referidas al criterio
cero absoluto estadística inferencial puntuación de porcentaje correcto
CI de desviación estandarización puntuación escalar
CI de razón estanina o eneatipo puntuación estándar
con referencia a un criterio grupo de normalización puntuación estándar normalizada
constructo grupo por conveniencia puntuación natural
curtosis histograma de frecuencias puntuación normativa
curva normal informe interpretativo puntuación T
desviación estándar media puntuación z
distribución de frecuencias mediana rango
edad cronológica moda rango intercuartil
edad mental norma de desarrollo rango percentil
efecto Barnum norma del usuario tendencia central
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
Ejercicios
1. Con los datos de la figura 3-1, crea una distribución de frecuencias con intervalos de 5 puntos empezando
con 65-69.
2. Calcula la media, mediana y desviación estándar de estas puntuaciones:5, 3, 6, 8, 8.
M=
Mdn =
DE =
Normas 73
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
3. Si es factible, registra la estatura de todos tus compañeros de clase y crea una distribución de frecuencias.
¿Qué forma tiene la distribución comparada con los modelos que aparecen en la figura 3-6? Haz el mismo
ejercicio, pero ahora con el pulso.
4. Usando la figura 3-10a, haz estimaciones de los valores faltantes.
puntuación z = +1.0 Percentil = ECN = CI Wechsler =
Percentil = 75 puntuación z = Otis-Lennon = estanina =
5. Usando el cuadro 3-1, llena los valores exactos de los mismos casos (Nota: en el caso del CI Wechsler, DE
= 15, y en el del CI Otis-Lennon, DE = 16).
puntuación z = +1.0 Percentil = ECN = CI Wechsler =
Percentil = 75 puntuación z = Otis-Lennon = estanina =
puntuación T = 30 Percentil = estanina = puntuación z =
1-25
26-50
51-75
76-99
10. Introduce los datos del apéndice D1: GPA en una hoja de cálculo de un paquete estadístico como SPSS,
SAS o Excel. Corre el programa para obtener las medias y desviaciones estándar de cada variable. Por
cada dos variables, obtén distribuciones de frecuencia e histogramas. ¿Cómo describirías las formas de las
distribuciones?
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
11. Entra al sitio web de estas editoriales para examinar los informes interpretativos de pruebas muy usadas.
Escribe descripciones breves de cómo piensas que el programa de cómputo generó tales informes.
• http://psychcorp.pearsonassessments.com/pai/ca/research/publications/samplerpts/reslist.htm
• http://www4.parinc.com/WebUploads/samplerpts/PAI32.pdf
• http://portal.wpspublish.com/portal/page?_pageid=53,124601&_dad=portal&_schema=PORTAL
O también puedes escribir “interpretive report” o “interpretive report for [agregas el nombre o el acrónimo
de la prueba]” en cualquier buscador de internet para acceder a una gran cantidad de muestras de informes
interpretativos.
Objetivos
1. Definir confiabilidad tal como se usa el término en las pruebas psicológicas.
2. Refrescar tu conocimiento de conceptos estadísticos básicos relacionados con la correlación y pre-
dicción, incluyendo factores que afectan la magnitud de las correlaciones.
3. Distinguir entre confiabilidad y validez, entre distintos usos cotidianos del término confiabilidad, entre
cambios reales y fluctuaciones temporales, y entre errores constantes y errores no sistemáticos.
4. Identificar las principales fuentes de falta de confiabilidad de las puntuaciones de las pruebas.
5. Describir los componentes de la teoría de la puntuación verdadera.
6. Para cada uno de estos métodos de confiabilidad, decir cómo se lleva a cabo un estudio y qué fac-
tores que afectan la confiabilidad atacan: test-retest, interjueces, formas paralelas, consistencia interna.
7. Definir y calcular el error estándar de medición y los intervalos de confianza.
8. Distinguir el error estándar de medición del error estándar de la media y del error estándar de estimación.
9. Definir qué significa precisión de la medición en la TRR.
10. Describir qué teoría de la generalizabilidad se describe.
11. Determinar cómo los factores que afectan el coeficiente de correlación influyen en los datos de confiabilidad.
12. Ofrecer puntos de referencia de los niveles aceptables de confiabilidad.
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
Introducción
Juan hace la prueba de admisión a la universidad el formas. ¿La calificación de Tomás será muy distinta si
sábado 2 de octubre, después de una dura semana le toca la forma A o la forma B?
en la escuela, coronada por un partido de futbol la ¿Qué tanto fluctúan las puntuaciones en una
noche del viernes. También Raúl hace la prueba el 2 prueba de personalidad de un día a otro? ¿Qué tan
de octubre; se siente filoso como cuchillo y dispues- parecidas son las calificaciones de un ensayo depen-
to a comerse el mundo. ¿Juan y Raúl obtendrán pun- diendo de quién lo califique? Cuando dos clínicos
tuaciones considerablemente distintas si presentan el emplean una forma para valorar la gravedad de un
examen el sábado 9 de octubre, cuando sus circuns- desajuste psicológico, ¿es probable que concuerden
tancias personales sean diferentes? en sus valoraciones?
La clase de química de Tomás incluye a 700 de Todas estas preguntas se relacionan con el tema
nuevo ingreso. Para evitar que hagan trampa durante de la confiabilidad. Este capítulo considera cómo res-
el examen, el profesor toma 100 problemas y los divi- ponder a esta clase de preguntas. Antes de empezar
de en cuatro para tener las formas A, B, C y D del exa- nuestro tratamiento formal de la confiabilidad, debe-
men, con 25 problemas cada una. Reparte al azar las mos hacer cuatro distinciones importantes.
75
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
Cuatro distinciones importantes
Resumen de puntos clave 4-1
Primero, debemos distinguir entre confiabilidad y va- Cuatro distinciones importantes de la confiabilidad
lidez de las medidas. La validez se tratará de manera 1. Confiabilidad frente a validez
más completa en el siguiente capítulo, pero la defini- 2. Usos cotidianos en oposición a definición técnica
remos brevemente aquí para contrastarla con la con- 3. Cambio real frente a cambio temporal
fiabilidad. La validez se ocupa de lo que mide una 4. Errores sistemáticos o constantes contra errores
prueba, es decir, si mide lo que pretende medir; en no sistemáticos
cambio, la confiabilidad se ocupa sólo de la consis-
tencia de la medida, sin importar qué es, con preci-
sión, lo que se está midiendo. Una medida puede ser
confiable sin ser válida; por ejemplo, la prueba de quí- debidas a quien se encarga de calificarla. Los cam-
mica a la que nos referíamos antes puede ser muy bios reales no son fuente de falta de confiabilidad,
confiable, pero puede ser más una medida de habili- mientras que los otros factores sí lo son, a menos que
dad matemática que de conocimiento sobre química. estemos tratando de medir cambios en el estado de
Puede haber un excelente consenso entre los clínicos ánimo o emocional. No hay una clara demarcación
que valoran un desajuste, pero la forma de valoración entre los cambios temporales a corto plazo y los cam-
puede ser más una medida de habilidad verbal pobre bios reales a largo plazo, pero la distinción es impor-
que una de desajuste. Aunque una prueba puede ser tante en términos conceptuales.
confiable sin ser válida, no puede ser válida a menos Cuarto, necesitamos distinguir entre errores sis-
que sea confiable. En este capítulo, nos ocuparemos temáticos o constantes y errores no sistemáticos en
sólo del tema de la confiabilidad. nuestras mediciones. Un error constante lleva a que la
Segundo, debemos estar conscientes de las dife- puntuación de una persona sea sistemáticamente alta
rencias entre los usos cotidianos de la palabra con- o baja, sin importar la constancia en el rasgo que se
fiabilidad y su uso técnico en el campo de las pruebas está midiendo en la condición que la persona esté pre-
psicológicas. En lenguaje cotidiano, la palabra confia- sentando. Por ejemplo, consideremos el nivel de inteli-
bilidad tiene varios significados relacionados entre sí. gencia de un niño cuya lengua materna es el español,
Una máquina confiable inicia y funciona de manera pero a quien se aplica la prueba en inglés. Es proba-
continua cuando oprimimos el botón on. Un emplea- ble que el nivel de inteligencia del niño se subestime,
do confiable llega con puntualidad y casi nunca falta pero esta subestimación será relativamente constan-
al trabajo. Una “fuente por lo general confiable” pro- te si el niño es evaluado el martes o el miércoles. O
porciona información exacta en lugar de rumores. Un consideremos a Jessica, que es buena para responder
vendedor de autos confiable ha estado en el negocio pruebas, pues sabe detectar pistas para encontrar la
por años, se espera que continúe ahí y dé un buen respuesta correcta incluso cuando no sabe mucho del
servicio a los clientes. tema en cuestión. Jessica tiende a obtener puntuacio-
Todos estos significados cotidianos son pertinen- nes superiores a lo que su conocimiento le permitiría, y
tes para el concepto de confiabilidad en el campo de esto sucede sin importar cuándo hace las pruebas. La
las pruebas psicológicas. Sin embargo, la confiabili- confiabilidad no explica estos errores constantes, pues
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
dad de las pruebas tiene un significado más técnico y sólo trata con errores no sistemáticos. Podemos notar
cuantitativo. Los mejores sinónimos en español para que lo que llamamos errores “constantes” no son en
el término técnico de confiabilidad son consistencia, realidad constantes, sino que son tendencias que mo-
replicabilidad y fiabilidad. Una prueba confiable, en difican las puntuaciones en cierta dirección.
sentido psicométrico, produce de manera consisten-
te la misma puntuación o una similar para un indivi- Revisión de estadística:
duo. La puntuación puede replicarse al menos dentro Parte 2 – Correlación y predicción
de cierto margen de error. Nos podemos fiar de que
una prueba confiable producirá la misma puntuación Los coeficientes de correlación y sus derivaciones
para un individuo. Este capítulo se ocupa del significa- –errores estándar y fórmulas de predicción– son
do técnico, psicométrico, de la palabra confiabilidad. elementos cruciales en nuestro estudio de la confia-
Tercero, debe hacerse la distinción entre un cam- bilidad y la validez, temas de éste y el siguiente capí-
bio real en el rasgo que se mide y fluctuaciones en las tulo. De ahí que será útil hacer una rápida revisión de
puntuaciones que se pueden atribuir a cambios pa- conceptos y procedimientos clave relacionados con
sajeros en las circunstancias personales, la “suerte” estos métodos estadísticos. Al igual que en la revi-
de cada quien mientras hace la prueba o diferencias sión de estadística en el capítulo anterior, suponemos
41
40 30
Variable Y 33
30 20
25
20 10
17
10 0 9
10 20 30 40 50 0 10 20 30 9 17 25 33 41 49
Variable X Variable X Variable X
r = +1.00 r = .00 r = –1.00
A B C
24 30 30
20
16 20 20
Variable Y
12
8 10 10
4
2 0 0
6 12 18 24 30 36 9 17 25 33 41 49 0 10 20 30
Variable X Variable X Variable X
r = .30 r = .60 r = .90
D E F
varias de estas distribuciones; en cada caso, la va- El valor de r puede variar de −1.00 a +1.00. Una r
riable X está en el eje horizontal y la variable Y en el de +1.00 representa una relación lineal positiva per-
eje vertical. Cada punto (•) de una distribución corres- fecta entre dos variables, como se muestra en la grá-
ponde a las coordenadas (X, Y) de un único caso; por fica A de la figura 4-1. Una r de −1.00 representa una
ejemplo, si X es una puntuación de la forma X de una relación lineal negativa perfecta entre dos variables,
prueba y Y es una puntuación de la forma Y de una como se muestra en la gráfica C. En cambio, una r
prueba, entonces las coordenadas (X, Y) representan de .00 representa la ausencia de relación entre las
las puntuaciones de un individuo en las formas X y Y. dos variables, como se muestra en la gráfica B. En la
El coeficiente de correlación r de Pearson brinda mayor parte del trabajo práctico en el campo de las
un resumen numérico de la relación representada en pruebas psicológicas, encontramos r que están lejos
una distribución bivariada. Al presentar las fórmulas de ser perfectas. La figura 4-1 muestra distribuciones
de r, solemos distinguir entre una definición básica de bivariadas de distintos valores intermedios de r: .30,
r y un cómputo o fórmula de puntuaciones naturales. .60 y .90. La mayor parte de las correlaciones que en-
Las siguientes suelen emplearse como definiciones y contramos en las pruebas psicológicas, así como en
versiones de cómputo de las fórmulas. Sin duda, las otras obras del área de las ciencias sociales y de la
viste en tu curso de estadística básica. conducta, son correlaciones de Pearson.
Confiabilidad 77
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
Las fórmulas de r que presentamos antes son de esta co- Cuadro 4-1. Ejemplos de los tipos de coeficientes de co-
rrelación. Sin embargo, existen otros tipos de coeficien- rrelación distintos del de Pearson
tes de correlación, algunos de los cuales son variantes Biserial r (rbis) Biserial por puntos r(rpbis)
del de Pearson y se pueden aplicar cuando la naturaleza Tetracórica r (rtet) Coeficiente phi (Θ)
de la escala permite la simplificación computacional de la
fórmula. Por ejemplo, cuando una variable es dicotómica Coeficiente de Correlación por rangos ordenados
y las únicas puntuaciones posibles son 0 y 1, entonces contingencia (C) de Spearman (R)
[Σ] X / N = p, el porcentaje de casos con puntuación de 1. Correlación Eta (η)
Esto permite simplificar la fórmula de cómputo de r. Otros intraclase (CIC)
tipos de correlación no son simples variaciones del coe- Kappa (κ) Tau de Kendall (τ)
ficiente de Pearson, sino que se han obtenido por otras
vías. Sin embargo, todos los coeficientes de correlación
pueden interpretarse de la misma manera que el de Pear-
son. Hay unas pocas excepciones a esta generalización, Supongamos que tenemos una correlación entre
pero las excepciones rara vez tienen implicaciones prácti- una prueba de admisión a la universidad (X) y el gra-
cas importantes. El cuadro 4-1 enumera los distintos tipos de point average (GPA [promedio de las calificaciones
de coeficientes de correlación bivariada. A menos que se de un grado]) (Y). Ahora tenemos la puntuación X de
especifique otra cosa, a lo largo de este libro suponemos un estudiante y deseamos predecir su Y’ del GPA (usa-
que una correlación es la de Pearson. En el capítulo 5, mos ’ para indicar que se trata de una Y predicha y no
examinaremos la correlación multivariada, en particular, de una Y conocida). La forma general de la ecuación
la correlación múltiple y la correlación parcial. de predicción es:
Y’ = bX + a
Regresión lineal donde b es la pendiente de la línea de regresión1 y a
es la intersección con el el eje y u ordenada al origen.
Una vez establecida la correlación r entre dos varia- Ésta es la línea más adecuada de acuerdo con el cri-
bles X y Y, podemos usarla para predecir el valor de terio de los mínimos cuadrados: minimiza la cantidad
Y si conocemos el de X (o viceversa).
Σ(Y– Y') 2
( )
Calcula las r de las siguientes distribuciones bivariadas. DE y
Y’ = rxy
(X-X) + Y
DEx
x Fórmula 4-3
x x
rxy = correlación entre X y Y
x x DEx = desviación estándar de X
x x DEy = desviación estándar de Y
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
En este cuadro, llena con marcas (*) para representar La figura 4-2 presenta un ejemplo de una línea
una distribución bivariada correspondiente a r = .40. de regresión. Cada punto de la figura representa las
coordenadas X y Y de una persona. Usamos esta lí-
nea para predecir los valores de Y a partir de los de
X; por ejemplo, la línea punteada en el cuadrante
Y’
Y’= bX + a
60 60
Y Y
30 30
0 0
0 10 20 30 0 10 20 30
X
X
Figura 4-2. Línea de regresión para predecir Figura 4-3. Distribución de puntuaciones reales
Y a partir de X. de Y alrededor de Y’.
Confiabilidad 79
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
30
25
20
Variable C
15
10
0 5 10 15 20 25 30 35 40
Variable A
40
35
30
25
Variable B
20
15
10
0 5 10 15 20 25 30 35 40
Variable A
¿Cómo se podrían presentar estas situaciones niños de los grados 1 al 8, un grupo muy heterogé-
en la práctica? Supongamos que calculamos la neo. Podríamos obtener una correlación mucho más
correlación entre las puntuaciones del SAT y del alta que si hubiéramos limitado la correlación de la
GPA sólo en estudiantes que se han graduado con talla de los zapatos y la prueba de lectura sólo a ni-
los máximos honores, es decir, con GPA superiores ños de octavo grado.
a 3.90. Este grupo es muy homogéneo con respecto Las diferencias en la variabilidad grupal pueden
al GPA, por lo que es probable que obtengamos una tener una influencia considerable en la magnitud de
correlación muy baja, quizá casi de cero, entre el SAT la correlación. Necesitamos estar siempre pendientes
y el GPA en este grupo. Sin embargo, sería temerario de esta influencia. Hay fórmulas que permiten la co-
concluir que, por regla general, el GPA no está rela- rrección de r si la variabilidad del grupo ha aumenta-
cionado con las puntuaciones del SAT. Si calculamos do o se ha reducido; se denominan “correcciones por
la correlación entre el SAT y el GPA de estudiantes restricción de rango”. Aquí proporcionamos las fórmu-
de todo el espectro de puntuaciones del GPA, obten- las más usadas para tales correcciones. El lector que
dremos un resultado muy diferente. O supongamos desee conocer una multitud de variaciones de las fór-
que calculamos la correlación entre la talla de zapa- mulas para casos especializados puede consultar Sa-
tos y la puntuación de una prueba de lectura para ckett y Yang (2000). Supongamos que conocemos las
Confiabilidad 81
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
A
Figura 4-6. Ejemplo del efecto de la restricción del rango en el coeficiente de correlación.
varianzas (o desviaciones estándar) de los grupos con efecto de la homogeneidad grupal en el coeficiente
variabilidad restringida y variabilidad no restringida (o de correlación (r). Sin embargo, es más fácil si inserta-
que conocemos una de las varianzas y podemos ha- mos valores en las fórmulas y observamos los resul-
cer una estimación razonable de la otra). Luego, co- tados. Ahora trabajemos con la fórmula 4-5; ésta es la
nociendo la r para el grupo restringido, podemos que más se emplea, ya que los proyectos de investi-
estimar qué r habría en el grupo no restringido. Asi- gación usan grupos que son más homogéneos que
mismo, conociendo la r del grupo no restringido, po- la población general. Queremos saber cómo puede
demos estimar qué r habría en el grupo restringido. cambiar r en nuestro proyecto si llevamos a cabo un
Para estimar qué r podría haber en un grupo más he- estudio con poblaciones enteras. Fijemos los valores
terogéneo a partir de una r obtenida de un grupo más de r en .20, .50 y .90; luego, fijemos la DE del grupo
homogéneo, usamos la fórmula 4-5. Para estimar qué más restringido al 50%, 70% y 90% de la DE del grupo
r habría en un grupo más homogéneo a partir de una menos restringido. Por ejemplo, digamos que la DE
r obtenida de un grupo más heterogéneo, usamos la del grupo menos restringido es 10 y que la DE del gru-
fórmula 4-6. En Glass y Hopkins (1996) aparecen más po más restringido asume los valores 5, 7 y 9, suce-
ejemplos de los efectos de la restricción de rango so- sivamente. Por último, aplicamos la fórmula 4-5 para
bre el coeficiente de correlación. determinar qué r habrá en el grupo menos restringi-
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
haustiva, por lo que aquí identificamos cuatro catego- ros dos reactivos son correctas y que la del tercero
rías principales de estas fuentes. es incorrecta.
Confiabilidad 83
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
Cuadro 4-5. Respuestas de la prueba de cálculo aritmético
Reactivo Respuesta del estudiante Juez 1 Juez 2
6+2 C C
10 − 5 C C
3×3 I I
4+3 C I
35 − 12 C I
Puntuación total 4 2
C = correcta, I = incorrecta.
tendrán alguna influencia en las puntuaciones finales. ve de este marco son puntuación observada (O), pun-
Por ejemplo, el ruido de una avenida o iluminación tuación verdadera (V) y puntuación de error (E). La
insuficiente durante la aplicación pueden afectar de puntuación observada es la puntuación real de una
manera negativa la puntuación de la prueba. Si una persona en una prueba; podemos pensarla como la
prueba tiene un límite de tiempo de 30 minutos, un puntuación natural –por ejemplo, 30 reactivos correc-
aplicador puede ser un poco más generoso y con- tos de 45 en una prueba de solución de problemas
ceder quizá 31 minutos, mientras que otro puede aritméticos– aunque el concepto se aplica igual de
ser bastante estricto y dar 29.5 minutos. Todas estas bien a las puntuaciones normativas tales como las es-
pequeñas variaciones en la aplicación de la prue- tándar. La puntuación observada puede ser afectada,
ba pueden ser fuentes de varianza inestable en las en sentido positivo o negativo, por varias fuentes que
puntuaciones. afectan a la confiabilidad; por ejemplo, esta puntua-
ción puede ser un poco alta debido a la buena suer-
Condiciones personales te al responder preguntas de las que no se conoce la
respuesta correcta, o puede ser un poco baja debido
Las condiciones temporales del examinado pueden a que el examinado estuvo demasiado cansado du-
tener influencias no sistemáticas en sus puntuaciones. rante la aplicación.
Confiabilidad 85
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
La puntuación verdadera es la que una persona
obtendría si todas las fuentes que afectan a la confia- Varianza observada total
bilidad pudieran ser eliminadas o canceladas. Podría-
mos pensarla como la puntuación promedio obtenida Varianza de error
en muchas aplicaciones (en teoría, un número infinito
de ellas) de la prueba en distintos momentos y en con- Varianza verdadera
diciones ligeramente diferentes. Cada variación en la
aplicación puede introducir cierta falta de confiabili-
dad, pero cuando todas las puntuaciones reales u ob-
servadas se promedian, la media podría ser igual a la Panel A
puntuación verdadera. Ésta es la que en realidad que-
remos conocer, aunque en la práctica nunca podemos Varianza observada total
estar por completo seguros, pues sólo tenemos una
puntuación observada. Varianza de error
Decir que una puntuación incluye error implica que
hay un valor hipotético libre de errores que caracte-
Varianza verdadera
riza la variable que se evalúa. En la teoría clásica de
las pruebas, este valor se denomina puntuación ver-
dadera de la persona en la prueba. Se conceptua-
liza como el promedio hipotético de puntuaciones
obtenidas de una serie infinita de réplicas del proce- Panel B
dimiento de aplicación.
Standards... (AERA, APA, & NCME, 2013) Figura 4-7. Relaciones ente las varianzas observada,
verdadera y de error.
La puntuación de error es sólo la diferencia entre
la puntuación verdadera y la puntuación observada. E
puede ser positivo o negativo. Es la sumatoria de to- varianza es sólo la desviación estándar elevada al
das las influencias no sistemáticas en la puntuación cuadrado. En esta formulación,
real de una persona que abordarnos en la sección de
factores que atentan contra la confiabilidad. La fórmu- σ2O = σ2V + σ2E Fórmula 4-9
la 4-7 expresa las relaciones entre las puntuaciones
observada, verdadera y de error. o
σ2V = σ2O − σ2E
V=O±E Fórmula 4-7
Es decir, la varianza de las puntuaciones observadas
La fórmula también podría escribirse como: es la suma de la varianza de la puntuación verdadera y la
varianza de la puntuación de error, o bien, la varianza de
O=V±E Fórmula 4-8 la puntuación verdadera es igual a la varianza observada
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
V V
Prueba A: Confiabilidad alta Prueba B: Confiabilidad baja
Figura 4-8. Distribuciones hipotéticas de puntuaciones observadas (O) alrededor de puntuaciones verdaderas (V).
en que se puede presentar esta última fórmula es: Métodos para determinar la confiabilidad
σ2O - σ2
E
r= Fórmula 4-11 Pueden usarse diferentes métodos para determinar la
σ2O confiabilidad de una prueba; cada uno de ellos trata
Esta fórmula será importante en algunos trata- una o más de las fuentes que afectan a la confiabilidad
mientos más avanzados de la confiabilidad. y que describimos antes. Aquí consideraremos los mé-
Como sugerimos antes, es conveniente pensar en todos que se utilizan con mayor frecuencia. A lo largo
la puntuación verdadera de una persona como el pro- de toda esta sección, nos situaremos dentro del marco
medio de muchas puntuaciones observadas. La figura conceptual de la teoría clásica de las pruebas.
4-8 muestra ejemplos de distribuciones que resultan de
muchas aplicaciones de dos pruebas. En la gráfica A, la Confiabilidad de test-retest
prueba es muy confiable, pues las puntuaciones obser-
vadas se agrupan de manera estrecha alrededor de la Uno de los tipos más fáciles de entender es la con-
puntuación verdadera V. En la gráfica B, la prueba no fiabilidad de test-retest. Como lo sugiere su nombre,
es muy confiable, pues las puntuaciones observadas se este coeficiente de confiabilidad se obtiene aplican-
dispersan ampliamente alrededor del promedio o pun- do la misma prueba a los mismos individuos en dos
tuación verdadera V. La diferencia entre cualquier pun- ocasiones diferentes, que, por lo general, pueden es-
tuación O y V en esta distribución es error de medición E. tar separadas desde un día hasta un mes. Este coe-
Solemos suponer que las puntuaciones observadas tie- ficiente consiste simplemente en la correlación (casi
nen una distribución normal alrededor de la puntuación siempre la de Pearson) entre las puntuaciones de la
verdadera. La figura 4-8 parte de este supuesto, lo que primera aplicación y las de la segunda. A menudo se
tendrá consecuencias convenientes más adelante en le llama coeficiente de estabilidad temporal. El cuadro
este capítulo (véase Error estándar de medición, p. 93).
Por lo común, en situaciones prácticas de eva- Cuadro 4-7. Datos para determinar la confiabilidad de
luación, obtenemos sólo una puntuación observada,
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
test-retest
de modo que la distribución de puntuaciones ob-
servadas, como la que aparece en la figura 4-8, es Examinado Primera Segunda
meramente hipotética. Ése es el modo en que las aplicación aplicación
puntuaciones observadas se distribuirían, supone- 1 85 81
mos, si obtuviéramos muchas de ellas de un solo in- 2 92 79
dividuo. Nuestro estudio de la confiabilidad ayudará a
3 76 75
operacionalizar este supuesto.
Como señalamos antes, nunca podemos saber la 4 61 69
puntuación verdadera de una persona aunque eso es 5 93 93
lo que queremos. Siempre tenemos sólo una puntua-
— — —
ción observada. Los distintos métodos para determi-
nar la confiabilidad, que revisaremos a continuación, — — —
están diseñados para estimar qué tanta diferencia — — —
puede haber entre la puntuación observada y la pun- 100 80 82
tuación verdadera de una persona, es decir, cuánto
error puede haber en la medición. r = .85
Confiabilidad 87
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
4-7 presenta un conjunto de datos que pertenecen a Confiabilidad interjueces
un estudio de confiabilidad de test-retest.
¿Qué fuentes de las que describimos antes afectan La confiabilidad interjueces se puede entender con
este tipo de confiabilidad? Es evidente que evaluar facilidad. Evalúa la variación no sistemática debida sim-
la influencia de los cambios en las condiciones plemente a quién califica la prueba. “Quién” se refiere,
personales ayuda; también es evidente que no se tra- por lo común, a dos personas diferentes, aunque tam-
ta de la influencia de los cambios en el contenido de bién podría referirse a dos máquinas o a una persona
la prueba, ya que se emplea exactamente la misma. La y una máquina, o cualquier otra combinación. Este tipo
confiabilidad test-retest puede o puede no relacionar- de confiabilidad también se podría denominar inter-
se con variaciones debidas a la aplicación de la prue- observadores o inter-evaluadores de acuerdo con lo
ba, dependiendo de si la prueba es aplicada por la que en realidad se hace en la situación de prueba. Por
misma persona, en el mismo lugar, etc., en ambas oca- ejemplo, dos personas pueden valorar la creatividad
siones. Además, puede o puede no indicar variaciones o la gravedad del desajuste del examinado. También
interjueces, dependiendo de si la prueba es calificada se usan formas alternas para denominar esta confiabi-
por la misma persona o siguiendo el mismo procedi- lidad: confiabilidad de jueces, confiabilidad de obser-
miento en ambas ocasiones. vadores o confiabilidad de evaluadores.
Determinar la confiabilidad mediante este método tie- La confiabilidad interjueces se obtiene con facili-
ne tres inconvenientes principales. Primero, el método dad. Se aplica una prueba a un grupo y se califica dos
obviamente no toma en cuenta el error no sistemático de- veces. La confiabilidad interjueces es simplemente la
bido a las variaciones en el contenido de la prueba. Se- correlación, casi siempre la de Pearson, entre las ca-
gundo, en cualquier prueba, excepto las más sencillas y lificaciones del primer juez con las del segundo. Los
breves, obtener la confiabilidad de test-retest es un fasti- datos del cuadro 4-7 pueden usarse para este tipo de
dio, ¿Quién quiere hacer la misma prueba de cuatro horas confiabilidad simplemente cambiando el encabezado
dos veces en un periodo de dos semanas? Tercero, existe de las columnas Primera aplicación y Segunda aplica-
cierta preocupación acerca del efecto de la primera apli- ción por Juez A y Juez B.
cación en la segunda; quizá el examinado recordará las Es importante que los dos (o más) jueces trabajen
respuestas de la primera aplicación y, de manera delibe- de manera independiente, es decir, ninguno de ellos
rada, dará las mismas respuestas en la segunda buscan- debe influir en el otro o los otros jueces. Por ejemplo,
do ser consistente aun cuando piense de modo diferente. si el juez B sabe qué puntuación asignó el juez A a
Esto tiende a inflar el coeficiente de confiabilidad. Si un un reactivo o a la prueba entera, podría inclinarse a
reactivo demanda una solución de problemas novedosa asignar la misma calificación o una parecida, lo cual
y el examinado falla en la primera aplicación, es posible inflaría el coeficiente de confiabilidad resultante. Des-
que más tarde se le ocurra otra solución que le permi- de luego, también podríamos imaginar que el juez B
ta responder correctamente ese reactivo en la segunda detesta al juez A, por lo que estará en desacuerdo
aplicación. En los reactivos que demandan información, de manera deliberada al asignar calificaciones, lo cual
el examinado puede buscar la respuesta correcta entre disminuiría el coeficiente de confiabilidad. Cualquie-
la primera y la segunda aplicación. El grado en que estos ra que sea el caso, la influencia de un juez sobre otro
factores pueden influir en las puntuaciones de la segunda contamina el estudio de la confiabilidad, por lo que
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
aplicación es, en gran medida, cuestión de criterio. los jueces deben trabajar de manera independiente.
El tiempo entre la primera y la segunda aplicación es En algunos estudios se requiere de más de dos
motivo de preocupación para la confiabilidad test-retest. jueces; por ejemplo, después de la entrevista inicial
Por un lado, los intervalos deben ser suficientemente con 50 clientes, cuatro clínicos de manera indepen-
largos para que la primera aplicación tenga una influen- diente valoran el grado de desajuste en una escala
cia mínima sobre la segunda. Por otro lado, el intervalo de 20 puntos que va de “gravemente desajustado” a
no debe ser tan largo como para que el rasgo que se
mide pueda sufrir cambios reales. Por tomar un ejemplo
extremo, si el intervalo entre dos aplicaciones fuera de Resumen de puntos clave 4-4
cinco años, podríamos suponer que la correlación en-
tre la primera y la segunda estaría en función de cam- Métodos para determinar la confiabilidad
bios reales en el rasgo más que de la confiabilidad de la • Test-retest
prueba. En la práctica, los estudios de confiabilidad de • Interjueces
test-retest, por lo general, emplean intervalos de unos • Formas alternas
cuantos días o semanas. Sin embargo, no hay una regla • Consistencia interna
definida en relación con este asunto.
información sobre los errores no sistemáticos que sur- ciones entre puntuaciones derivadas de reactivos
gen de los distintos jueces, pero de ninguna otra fuente individuales o subconjuntos de ellos dentro de una
de error. La información de este tipo de confiabilidad es prueba; todos los datos proceden de una sola apli-
de particular importancia cuando el juicio de los evalua- cación (coeficientes de consistencia interna). Ade-
dores interviene en el proceso de calificación. más, cuando la calificación de la prueba implica un
elevado uso del de calificación a través de jueces,
Confiabilidad de formas alternas suelen obtenerse los índices de la consistencia en-
tre jueces.
También conocida como confiabilidad de formas parale- Standards... AERA, APA, & NCME, 2013)
las o equivalentes, la confiabilidad de formas alternas
requiere que existan dos formas de la prueba. Éstas de-
ben ser iguales o muy similares en términos del núme- nas, por ejemplo, formas estrictamente paralelas, equivalentes τ y
ro de reactivos, límites de tiempo, especificaciones del esencialmente equivalentes τ. Las diferencias entre estas formas
contenido y de otros factores de este tipo.3 El estudio de tienen implicaciones para algunos temas de psicometría avanzada.
Para ahondar en estas distinciones, se puede consultar Lord y No-
3
Técnicamente, se distingue entre diversos tipos de formas alter- vick (1968), Feldt y Brennan (1989) y Nunnally y Bernstein (1994).
Confiabilidad 89
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
Confiabilidad de consistencia interna confiabilidad de la prueba entera. La corrección de
Spearman-Brown es la adecuada, y su fórmula es:
La consistencia interna es uno de los métodos de con- 2r m
fiabilidad que se usa con mayor frecuencia. Existen nu- rc = Fórmula 4-12
1 + rm
merosos métodos para determinar la confiabilidad de
consistencia interna de una prueba. Describiremos tres rc = confiabilidad corregida de toda la prueba
de los métodos más usados: división por mitades, Ku- rm = correlación entre las dos mitades de la prueba
der-Richardson y coeficiente alpha. Todos los métodos
de consistencia interna, incluyendo los que no revisare- La fórmula de Spearman-Brown tiene una forma
mos aquí, intentan medir las características comunes de más general que permite determinar el efecto estima-
la consistencia interna de la prueba. do sobre la confiabilidad de consistencia interna de
Los métodos de consistencia interna, como otros cualquier cambio en la extensión de la prueba. La for-
que hemos considerado en este libro, producen un ma más general es:
coeficiente de confiabilidad. Sin embargo, lo que su- nro
cede con exactitud con estos métodos es menos evi- rc = Fórmula 4-13
dente que con otros métodos; una vez descritos, los 1 + (n−1 )ro
métodos de test-retest, de interjueces y de formas
alternas parecen claros a nivel intuitivo. Pero eso no
ocurre con los métodos de consistencia interna, por n = factor por el cual se cambia la extensión de la
lo que tendremos que comenzar describiendo su lógi- prueba
ca; el primero será el método de división por mitades. rc = confiabilidad corregida
ro = confiabilidad original
Confiabilidad de división por mitades En esta fórmula, n puede ser una fracción; por
ejemplo, es posible estimar la confiabilidad corregida
Recordemos el método de formas paralelas de la sec- de una cuarta parte (n = .25) de la prueba original. Tam-
ción anterior. Ahora pensemos en el caso específico en bién se puede estimar el efecto de triplicar (n = 3) la ex-
que las dos formas se aplican en sucesión inmediata. tensión de la prueba. O se puede fijar rc en algún valor
Pensemos, entonces, en la aplicación de una sola prue- deseado, y luego encontrar el valor de n para determi-
ba, pero la cual calificaremos por mitades, como si cada nar qué cambio en la extensión de la prueba se requie-
una fuera una forma alterna de la prueba. Después co- re para obtener rc dado el valor de inicio ro. Para todos
rrelacionamos las puntuaciones de las dos mitades de estos cambios en la extensión de la prueba, la fórmu-
la prueba. Esto es como una medida de confiabilidad de la de Spearman-Brown supone que los reactivos aña-
“miniformas alternas”, que es lo que en esencia sucede didos (o eliminados en caso de acortar la prueba) son
con la confiabilidad de división por mitades. equivalentes a los otros reactivos de la prueba.
Hay dos importantes desarrollos en este último es-
cenario. Primero, la prueba no suele dividirse en dos
tomando la primera parte y la segunda, porque a me- ¡Inténtalo!
nudo en la segunda parte de la prueba se encuentran
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
los reactivos más difíciles. Los examinados pueden es- Practica con la fórmula de Spearman-Brown en
tar más fatigados al final de la prueba, y si hay algún el siguiente ejemplo: una prueba de 20 reactivos
efecto del tiempo, es más probable que su influencia tiene una confiabilidad original de consistencia
sea mayor en la segunda parte que en la primera. En- interna de .75. Supón que la prueba aumenta al
tonces, ¿cómo se divide por la mitad una prueba? Un doble de extensión (es decir, n = 2). ¿Cuál es la
método que se usa con frecuencia consiste en divi- confiabilidad de la prueba aumentada al doble?
dir la prueba en reactivos pares y reactivos nones, en
cuyo caso el resultado suele denominarse confiabili-
dad de pares y nones. Otros tipos de división pueden Fórmulas de Kuder-Richardson
ser útiles con cierta clase de reactivos, pero el méto-
do de pares y nones es, por mucho, el más empleado. Una serie de fórmulas desarrolladas por G. Fredrick
Segundo, la correlación entre las dos mitades de Kuder y M. W. Richardson (1973) proporcionan otras
la prueba no indica la confiabilidad de la prueba en- medidas de consistencia interna. Dos de estas fórmu-
tera, sino de la mitad de la prueba en que estamos las, 20 y 21, por lo general citadas como KR-20 y KR-
interesados. Por ello, debe aplicarse una corrección 21, se han usado mucho, por lo que las presentamos
a la correlación entre las mitades para obtener la aquí. KR-20, la de mayor uso de las dos, se define así:
ten muchas otras divisiones posibles. Por ejemplo, una con el alpha que usamos en las pruebas de signifi-
prueba de 10 reactivos podríamos dividirla en reactivos cancia, porque no tienen nada que ver una con otra.
del 1 al 5 y del 6 al 10, o 1, 2, 5, 6, 9 en una mitad y 3, 4, 7, Las dos versiones equivalentes de la fórmula del co-
8, 10 en la otra, o 1, 2, 3, 9, 10 y 4, 5, 6, 7, 8, y así sucesi- eficiente alpha son:
vamente. La fórmula KR-20 produce la correlación pro- DE2x - ∑ DE2r
K
medio entre todas las posibles mitades de la prueba. α = Fórmula 4-16
K -1 DE x2
Al empezar con la fórmula KR-20, asumimos que
todas las “p” son iguales, es decir, todos los reactivos y
tienen el mismo porcentaje de respuestas “correctas” K ∑ DE2r
o de “sí”. Recordemos que la suma de una constante α = 1 -
K -1 DEx2
(C) sobre n objetos es igual a n × C. Por ejemplo, su-
pongamos que la constante es 3; si sumamos la K = número de reactivos de la prueba
constante sobre cinco objetos, obtenemos 3 + 3 + 3 + 3 DEX = desviación estándar de las puntuaciones
+ 3 = 5 × 3. Aplicando el principio a “pq” cuando todas de la prueba
las “p” son iguales, [Σ]pq se convierte en npq. Ya que DEr = desviación estándar de las puntuaciones
np = M (la media de las puntuaciones de la prueba), de los reactivos
Confiabilidad 91
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
Podemos observar la semejanza de la notación Después, podemos sumar toda esta información en una
entre estas fórmulas y la de KR-20. De hecho, cuan- medida de confiabilidad de consistencia interna. En esta
do los reactivos se califican de manera dicotómica, [α] fórmula, rij es la intercorrelación promedio entre todos los
= rKR-20, ya que para los reactivos que se califican de reactivos. Sin duda, no es una fórmula conveniente para
este modo (0, 1), DE2r = pq, así que [Σ]DEr = [Σ]pq. Re- propósitos de cálculo prácticos. Sin embargo, proporcio-
visa un libro de estadística básica para verificar que na una mejor idea de lo que indican fórmulas anteriores
la varianza de un determinado porcentaje es pq o p(1 KR-20 y el coeficiente alpha.
– p). El coeficiente alpha es muy usado en las prue- Las aplicaciones de la última fórmula ofrecen cier-
bas contemporáneas actuales. Hogan, Benjamin y ta orientación práctica acerca de cómo funciona la
Brezinski (2000) encontraron que el coeficiente alpha consistencia interna de las pruebas. Introduce los va-
se informa en más de dos terceras partes de las prue- lores muestra para K y rij en la fórmula y observa las
bas incluidas en el Directoy of Unpublished Experi- consecuencias. En el cuadro 4-10, asignemos a K los
mental Mental Measures. Así, aunque el coeficiente valores 5, 20 y 50, y a rij, los valores .10, .25 y .40. En-
alpha no es fácil de comprender, es importante para tonces, calculamos [α]. ¿Qué podemos observar?
el estudiante de psicología estar familiarizado con él. Primero, a medida que el número de reactivos au-
¿Qué indica el coeficiente alpha? Una forma menta, también aumenta la confiabilidad. Segundo, a me-
alternativa de las que ya hemos presentado ayuda dida que la correlación inter-reactivo aumenta, también
a responder esta pregunta. Suponiendo que todos aumenta la confiabilidad. Además, cuando hay relativa-
los reactivos están “estandarizados”, es decir, mente pocos reactivos (5, por ejemplo), la confiabilidad
convertidos en una forma que tenga una media = 0 y es muy baja si las correlaciones inter-reactivo son bajas;
una DE = 1, la siguiente fórmula se puede aplicar: cuando las correlaciones inter-reactivo son altas, la con-
_
K ( rij ) fiabilidad es mucho mayor, pero todavía no es muy alta.
α = _ Fórmula 4-17 Cuando hay un gran número de reactivos (digamos, 50),
1 + ( K -1 ) rij la confiabilidad es muy respetable aun cuando las corre-
donde laciones inter-reactivo sean relativamente bajas. Así, la
rij = correlación entre los reactivos i y j fórmula muestra que alpha depende de la correlación
K = número de reactivos promedio entre los reactivos. El número de reactivos tam-
bién es muy importante; alpha indica el grado en que los
¿Qué hace esta fórmula? Sin duda no es evidente reactivos miden el mismo constructo o rasgo. A veces,
con sólo inspeccionar los elementos de la fórmula. esto se denomina medida de homogeneidad de reacti-
Recordemos los fundamentos del método de división vos, es decir, el grado en que los reactivos son iguales en
por mitades; era como crear miniformas alternas de la términos de lo que miden. Podemos notar que los reac-
prueba. Ahora extendamos este razonamiento a los re- tivos individuales no son muy confiables por sí mismos;
activos individuales; cada reactivo puede pensarse como de ahí que la intercorrelación entre ellos parezca, por lo
una miniforma de la prueba. Entonces, podemos pregun- general, baja. Por ejemplo, una correlación de .25 suele
tar cómo cada una de estas miniformas (reactivos) con- considerarse muy baja, pero es un nivel respetable si se
cuerda con todas las demás miniformas de la prueba. trata de la correlación entre reactivos individuales.
En relación con las fuentes que atentan contra la
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
Confiabilidad 93
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
1 EEM
Puntuación natural
(M = 75, DE = 5) 60 65 70 75 80 85 90
Puntuación estándar
(M = 500, DE = 100) 200 300 400 500 600 70 800
Percentiles 1 2 16 50 84 98 99
aplicar todas las relaciones habituales. Regresemos a la EEM debe convertirse en normalizada. Esto se puede
curva normal de la figura 3-10b para refrescar la memoria. hacer con facilidad si las puntuaciones normalizadas
Por ejemplo, en 68% (cerca de dos terceras partes) de los son conversiones lineales de las naturales, como las
casos, la puntuación verdadera estará dentro de +/−1 EEM puntuaciones estándar lineales. La tarea es mucho
de la puntuación observada. A la inversa, en cerca de una más complicada si se trata de conversiones no linea-
tercera parte de los casos, la puntuación observada dife- les. Por ejemplo, los rangos percentiles son conver-
rirá de la puntuación verdadera por al menos 1 EEM. siones no lineales a causa de la marcada desigualdad
Los informes sobre las puntuaciones generados de las unidades percentiles (suponiendo una distribu-
por computadora a menudo utilizan la banda de con- ción más o menos normal de las puntuaciones).
fianza. El cuadro 4-11 muestra un ejemplo. La banda El error estándar de medición... debe proporcionar-
de confianza de la prueba A varía de 9 a 17, alrededor se en unidades de la puntuación que se informa.
de la puntuación observada 13. La prueba B tiene una Standards... (AERA, APA, & NCME, 2013)
banda que va de 24 a 36, alrededor de la puntuación
observada 30. Tales informes suelen citar la “banda” Consideremos los siguientes ejemplos de una
como +/−1 EEM, en esencia un intervalo de confianza prueba de 100 reactivos. La figura 4-9 muestra la dis-
de 68%, aunque también es fácil emplear una banda tribución de las puntuaciones naturales de esta prue-
de 95% (+/−1.96 EEM) o de 99% (+/−2.58 EEM). ba (M = 75, DE = 5), las puntuaciones estándar (M =
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
Confiabilidad 95
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
Algunos temas especiales relacionados grupos de, digamos, tres o cuatro reactivos es notable-
con la confiabilidad mente baja, en el mejor de los casos alrededor de .30 a
Confiabilidad en los informes interpretativos .40. Por lo general, no consideraríamos usar una prue-
ba con una confiabilidad de .30. Lamentablemente, los
La información de la confiabilidad suele aparecer en grupos de reactivos con confiabilidades en este rango
términos cuantitativos precisos, es decir, en forma de aparecen de manera cotidiana en los informes. El des-
coeficientes de confiabilidad y errores estándar de empeño en los reactivos individuales es aun menos con-
medición. Sin embargo, cada vez más el desempeño fiable. ¡Hay que ser cuidadosos con esto!
en la prueba se informa con una narración, a menudo
llamada informe interpretativo, el cual puede aligerar Confiabilidad de los perfiles
mucho la tarea de interpretar las puntuaciones de la
prueba. Desafortunadamente, los informes narrativos Los perfiles de las puntuaciones a menudo son la base
no se adaptan con facilidad a las herramientas tradi- para interpretar las pruebas. En la figura 4-10 aparecen
cionales del análisis de confiabilidad. Algunos infor- perfiles de muestra de una batería de cuatro pruebas. Lo
mes narrativos incorporan con claridad los conceptos que puede ser interesante aquí no es el nivel absoluto de
de confiabilidad y errores de medición, pero otros no. las puntuaciones de las pruebas, sino los patrones que
Los informes pueden dar la impresión de que la confia- se despliegan en los perfiles. Por ejemplo, la “V” formada
bilidad no es importante, aunque en realidad siempre por las puntuaciones en las pruebas A-C de Sue y Fred
lo es. El lector del informe narrativo debe asegurarse puede ser de especial interés. La confiabilidad de tales
de que a) conoce la información de confiabilidad acer- patrones no se puede representar con facilidad, pero, sin
ca de la prueba y b) utiliza la información cuando inter- duda, es menos confiable que las pruebas individuales.
preta el informe. Incluso los informes narrativos deben Este tema se relaciona con el error estándar de la dife-
incorporar el concepto de error de medición. rencia tratado antes; señalamos que el error de medición
en el caso de las diferencias combina los errores en las
Confiabilidad de subpuntuaciones y reactivos puntuaciones individuales. Esta composición de la falta
individuales de confiabilidad es aún mayor cuando un perfil de tres o
más puntuaciones es la base de la interpretación.
Debe proporcionarse la información de confiabilidad de
la “puntuación” que, en realidad, se está interpretando. Confiabilidad de las pruebas con referencia
Consideremos el siguiente ejemplo. Una batería tiene a un criterio
cuatro pruebas separadas; el manual de la prueba ofre-
ce información de confiabilidad de cada prueba; todas Recordemos la distinción entre pruebas referidas a un
tienen una buena confiabilidad, digamos r > .90. Sin em- criterio (PRC) y pruebas referidas a una norma (PRN), la
bargo, los informes de puntuaciones de la batería pue- cual vimos en el capítulo 3. La diferencia clave está en el
den dar información sobre el desempeño del individuo método de interpretación. Los métodos para determinar
en grupos de reactivos o, incluso, en reactivos indivi- la confiabilidad pueden no ser diferentes para las PRC,
duales de las pruebas. No podemos asumir que estos dependiendo de la distribución de las puntuaciones de
grupos o reactivos individuales tienen la misma confia- la prueba y de los usos de dichas puntuaciones. Los en-
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
bilidad que las puntuaciones totales de las pruebas. De foques clásicos de la confiabilidad revisados en este
hecho, es muy cierto que el desempeño en los grupos capítulo suponen una distribución normal de las puntua-
o reactivos individuales será, por mucho, menos confia- ciones. Al menos, debe haber una distribución razona-
ble que las puntuaciones totales. La confiabilidad de los ble de las puntuaciones; de lo contrario, el coeficiente
o o o o
o o o o o o o
A B C D A B C D A B C D
Sue Fred Bill
gran mayoría de las pruebas existentes sigue este en- se puede consultar un tratamiento detallado de la con-
foque. Sin embargo, cada vez más pruebas siguen el fiabilidad de pruebas de aplicación adaptable por com-
enfoque de la TRR; de ahí que debamos examinar la putadora basadas en la TRR.
confiabilidad en el contexto de la TRR. Primero, note-
mos que el enfoque único de la TRR en relación con la Teoría de la generalizabilidad
confiabilidad se ocupa sólo de la consistencia interna.
Aun cuando una prueba sea construida y calificada De la revisión de los distintos tipos de confiabilidad que
de acuerdo con la TRR, si la preocupación gira en tor- presentamos en este capítulo, debería ser claro que no
no a la estabilidad temporal o a la consistencia entre existe algo que pueda considerarse la confiabilidad de
los jueces, deben usarse los métodos descritos antes una prueba. Hay muchas fuentes que atentan contra la
en este capítulo para determinar la confiabilidad. confiabilidad. Cada método para determinar la confiabi-
Para los propósitos del análisis de la consistencia in- lidad intenta tratar una o unas pocas de estas fuentes;
terna, la TRR proporciona un enfoque diferente de los que de ahí que podamos decir que una prueba tiene una
ya hemos descrito. Como el coeficiente alpha, el análisis
de la confiabilidad en la TRR depende del funcionamien- 4
Thorndike (1982) sugirió un procedimiento para evitar esta
to de los reactivos dentro de la prueba. Sin embargo, en suposición, pero su sugerencia no se usó mucho.
Confiabilidad 97
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
confiabilidad de test-retest de .85, una confiabilidad de estudiar la varianza debida a cada factor, así como a las
formas alternas de .78 y un coeficiente alpha de .92. Cada interacciones entre los factores.
una de ellas puede determinarse en un estudio separa- La literatura de la TG distingue entre un estudio de
do. La teoría de la generalizabilidad (TG) intenta evaluar generalizabilidad (estudio G) y un estudio de decisión
varias fuentes de falta de confiabilidad al mismo tiempo. (estudio D). El estudio G analiza los componentes de la
La TG empieza con la misma noción básica que la varianza, incluyendo las interacciones, mientras que el
teoría clásica de las pruebas, es decir, que cada perso- estudio D utiliza los resultados del estudio G para decidir
na tiene una puntuación verdadera, la cual, en la TG, se cómo podría mejorarse la medición haciendo cambios
denomina a menudo puntuación de universo o pun- en uno de los componentes. Pensemos en nuestro
tuación de dominio. Pensemos en una persona que estudio sobre la ansiedad. Usamos cuatro jueces;
es evaluada en varias ocasiones con muchas formas y ¿eso ofrece suficiente estabilidad en los resultados?
puntuaciones diferentes. La puntuación verdadera de la ¿Tendríamos suficiente estabilidad si usáramos sólo
persona o puntuación de universo es la puntuación pro- dos jueces? Las respuestas a estas preguntas pueden
medio de todas las ocasiones en que se aplicaron las ayudar a refinar y mejorar el proceso de medición.
pruebas. Ahora imaginemos 500 personas respondien- Los detalles para llevar a cabo un análisis de gene-
do estas evaluaciones múltiples. En el caso de cualquier ralizabilidad están fuera del alcance de este libro, pero
par específico de evaluaciones, podríamos determinar el lector interesado en este tema puede consultar Sha-
una de las medidas clásicas de confiabilidad; por ejem- velson, Webb y Rowley (1989) para tener un buen pa-
plo, la correlación entre puntuaciones de dos ocasiones norama de él, Shavelson y Webb (1991) para revisar un
sería la confiabilidad de test-retest. Sin embargo, sería tratamiento más detallado y Brennan (2001b) para leer
muy útil si pudiéramos determinar, en un solo estudio, la una exposición completa. Brennan (2001a, 2011) ofre-
confiabilidad para varias ocasiones, varias formas y va- ce un análisis histórico que muestra el desarrollo de la
rios jueces. Esto es lo que la TG intenta hacer. TG desde los primeros métodos de análisis de confia-
El análisis de varianza (ANOVA) brinda el marco bilidad. Brennan (2000) también advierte que el marco
básico para el estudio de generalizabilidad (estudio del ANOVA anteriormente descrito para la TG puede
G). Recordemos que el ANOVA permite estudiar el ser tomado con demasiada literalidad. No obstante,
efecto de diversas variables independientes de ma- este marco constituye una buena introducción a la TG.
nera simultánea sobre una variable dependiente y las La teoría de la generalizabilidad ofrece un marco de
interacciones, es decir el efecto único creado por la excepcional utilidad para pensar en la confiabilidad de las
combinación de dos (o más) variables independientes medidas. Sin embargo, hasta ahora, no se ha empleado
muy aparte de sus efectos por separado. mucho en aplicaciones prácticas, probablemente porque
... la teoría de la generalizabilidad impulsa al investi- es un fastidio llevar a cabo incluso los estudios sencillos de
gador a especificar y estimar los componentes de la confiabilidad (excepto los de consistencia interna). ¿Quién
varianza de la puntuación verdadera, la varianza de quiere hacer la misma prueba en dos ocasiones diferen-
la puntuación de error y la varianza de la puntuación tes? ¿O responder dos formas distintas de la misma prue-
observada, y a calcular los coeficientes con base en ba? Llevar a cabo un estudio que varía en, digamos, tiempo
estas estimaciones, las cuales suelen realizarse apli- de aplicación, número de formas y procedimientos de cali-
cando técnicas del análisis de varianza. ficación se vuelve muy difícil desde un punto de vista prác-
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
Standards... (AERA, APA, & NCME, 2013) tico. Sí encontramos estudios de generalizabilidad de unas
pocas pruebas y, quizá, podamos ver, al menos, cierto au-
Supongamos que estamos midiendo ansiedad. Tene- mento en el uso de esta metodología en el futuro. Schmi-
mos una muestra de 50 personas y las examinamos en dt, Le e Ilies (2003) sugirieron un intento en cierta forma
cinco ocasiones diferentes. En cada una, les presentamos más práctico de establecer múltiples fuentes que atentan
dos tareas que podrían aumentar su ansiedad. Tenemos contra la confiabilidad, pero ese método no ha conseguido
cuatro jueces valorando el grado de ansiedad manifiesta. mucha atención. Por el momento, el punto más importante
Este diseño nos permite investigar la consistencia: es la perspectiva que la metodología nos ofrece acerca del
• A lo largo de las cinco ocasiones (como en la con- campo entero de la confiabilidad.
fiabilidad de test-retest)
• Entre las tareas (como en la confiabilidad de for- Factores que afectan los coeficientes
mas alternas) de confiabilidad
• Entre los jueces (como en la confiabilidad interjueces)
Recordemos nuestra discusión en este capítulo sobre
Esto da origen a un diseño factorial ANOVA de 5 × 2 × los cuatro factores que afectan los coeficientes de
4: ocasiones × tareas × jueces. Con este diseño, podemos correlación. Ya que la confiabilidad suele expresarse
de la confiabilidad, nos sentimos inclinados a pre- confiablidad cubren sólo una fuente (p. ej., consisten-
guntar: ¿qué tan alta debe ser la confiabilidad de una cia interna o test-retest), pero en nuestra práctica de-
prueba? No hay respuesta más sencilla a esta pre- bemos tomar en cuenta múltiples factores que influyen
gunta que: depende. En particular, depende de qué en la confiabilidad (como en el análisis de la teoría de
queremos hacer con la prueba. Es como preguntar la generalizabilidad, que casi nunca está disponible).
“¿qué tan alta debe ser una escalera?” Depende. ¿Es Así, cuando encontramos un coeficiente alpha de, diga-
para cambiar un foco que no alcanzas o necesitas su- mos, .90, nos engañaríamos si pensamos que “tenemos
bir al techo de un edificio de tres pisos? todo resuelto” con respecto a la confiabilidad. Segundo,
Si necesitamos tomar una decisión muy importante muchos usos de las pruebas tienen que ver con las di-
en la que la información sobre la prueba tenga mucho ferencias entre puntuaciones, sea de manera directa o
peso –por ejemplo, otorgar una licencia de ejercicio en la forma del perfil. Estas diferencias casi siempre son
profesional en algún campo–, vamos a requerir de una menos confiables que las confiabilidades de las prue-
prueba con una confiabilidad alta. Si la prueba es sólo bas que forman parte de las diferencias o los perfiles.
una de muchas fuentes de información que nos darán Tercero, a veces nos encontramos con el argumen-
una idea aproximada acerca del nivel general de ajus- to de que la confiabilidad no es un tema importante para
te de una persona, entonces un grado moderado de cierto tipo de pruebas o para cierta puntuación particular
Confiabilidad 99
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
de una prueba. ¡Nunca debemos creer en tal afirmación! autores de pruebas informan la significancia estadística
La confiabilidad siempre es importante. La información de los coeficientes de confiabilidad señalando, a menu-
que no es confiable o cuya confiabilidad es desconocida do con malicia, que el coeficiente es sumamente signifi-
no debe utilizarse. Cuarto, recordemos nuestra discusión cativo. Tales informes no son muy útiles, pues tenemos
de la relación entre la extensión de la prueba y la confia- estándares más elevados para los coeficientes de confia-
bilidad: las pruebas cortas suelen ser más bien no confia- bilidad que la sola significancia estadística.
bles. A veces nos encontramos con que el autor de una Más importante que la confiabilidad de la prueba es
prueba o incluso de una reseña dice que la prueba tiene su validez. Aunque una prueba sin confiabilidad no pue-
una confiabilidad bastante buena tomando en cuenta lo de tener validez alguna, es posible tener pruebas muy
breve que es. Debemos tener cuidado con esta afirma- confiables que no sean válidas para los propósitos que
ción. Una prueba con una confiabilidad de .60 –breve o tenemos en mente. Además, una prueba con una confia-
extensa– es una prueba con una confiabilidad de .60, la bilidad y validez moderadas es preferible que una prueba
cual no es muy buena. Si esta prueba se tuviera que usar con una confiabilidad alta y una validez baja. Estas breves
para propósitos serios, su confiabilidad debería aumen- observaciones constituyen una transición hacia el tema
tarse, quizá, haciéndola más extensa. Quinto, algunos crucial del siguiente capítulo: la validez de las pruebas.
Resumen
1. La confiabilidad, uno de los conceptos más importantes en el campo de las pruebas, se ocupa de la consis-
tencia o replicabilidad de las puntuaciones de las pruebas.
2. Distinguimos entre confiabilidad y validez, el sentido psicométrico de la confiabilidad y diversos usos coti-
dianos del término, cambios reales y fluctuaciones temporales en las medidas, y errores constantes y erro-
res no sistemáticos.
3. El coeficiente de correlación (r) es el método más común para expresar la confiabilidad; de ahí la importan-
cia de comprender las correlaciones y los factores que influyen en ellas.
4. Las principales fuentes de varianza que afectan la confiabilidad son la calificación de la prueba, su conte-
nido, las condiciones de aplicación y las condiciones personales del examinado.
5. La teoría clásica de las pruebas utiliza los conceptos de puntuación verdadera, puntuación de error y pun-
tuación observada.
6. Entre los métodos de uso común para determinar la confiabilidad están el de test-retest, formas alternas,
interjueces y varias medidas de consistencia interna. Cada método se ocupa de una o algunas fuentes que
atentan contra la confiabilidad, pero no de todas.
7. El error estándar de medición (EEM) y los intervalos de confianza ayudan a traducir los coeficientes de con-
fiabilidad en interpretaciones prácticas.
8. El concepto de error estándar se aplica no sólo a la interpretación de puntuaciones únicas, sino también a
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
Ejercicios
1. Usa algún programa de cómputo con el que estés familiarizado (p. ej., SPSS, Minitab, SAS o Excel) para ob-
tener la correlación de estos datos.
Examinado Prueba X Prueba Y
1 20 24
2 18 12
3 23 27
4 34 37
5 19 15
6 33 45
7 16 10
8 35 42
9 15 10
10 22 24
2. Prepara una distribución bivariada para las puntuaciones del problema anterior.
3. Utilizando cualquier base de datos de tu biblioteca, haz una búsqueda por palabras clave introduciendo
test reliability [confiabilidad de la prueba]. ¿Qué clase de referencias encontraste? (Nota: es probable que
encuentres referencias de otros campos aparte de los relacionados con las pruebas psicológicas).
4. Usa la fórmula de Spearman-Brown (p. 90) con los siguientes ejemplos. Una prueba de 20 reactivos tiene
una confiabilidad de consistencia interna original de .75.
a. ¿Cuál es rc si la prueba cuadruplica su número de reactivos (80 reactivos, n = 4)?
b. ¿Cuál es rc si la prueba reduce a la mitad su número de reactivos (10 reactivos, n = .5)?
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
c. Quieres que rc sea de .90. ¿Cuántos reactivos debería tener la prueba? (Encuentra el valor de n, luego
multiplica n por 20, la extensión original de la prueba).
5. Calcula rKR-20 con los siguientes datos. Los números del cuadro indican respuestas correctas (1) e incorrec-
tas (0). Algunos de los cálculos ya están hechos.
Confiabilidad 101
Thomas, P., Hogan. Pruebas psicológicas: una introducción práctica (2a. ed.), Editorial El Manual Moderno, 2015. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/bibliouniminutosp/detail.action?docID=4823931.
Created from bibliouniminutosp on 2019-02-20 11:18:05.
(continuación)
Reactivo 1 2 3 4 5 Puntuación total
Examinado
G 1 1 1 0 1 4
H 0 0 0 1 0 1
I 0 1 0 0 0 1
J 0 0 0 0 0 0
p= .7 .6 .6 .5 .4 M = 28 / 10 = 2.8
Px = 1.81
(usando n – 1 en el
denominador)
8. Usando la fórmula 4-17 de [α], completa el siguiente cuadro. (Esto requerirá de un poco de álgebra sencilla.)
Copyright © 2015. Editorial El Manual Moderno. All rights reserved.
K rij α
10 .15 _
25 _ .90
_ .20 .80