Sie sind auf Seite 1von 18

TEMA 01:“FUNDAMENTOS TEÓRICOS DE LAS PRUEBAS PSICOLÓGICAS”

Introducción al tema

Hablar de pruebas psicologías ayudan a las personas a poder escoger lo que más le gusta mediante el
conocimiento de las destrezas más sobresalientes, y es por eso que se utiliza mucho las pruebas
psicológicas, también se utilizan para la aceptación de algunas universidades, o para una oferta de
empleo, esto puede marcar la vida de una persona, por eso es prudente que los estudiantes de psicología
aprendan a utilizar los usos actuales y de los abusos ocasiónales en la aplicación de las pruebas.

Al revisar esta asignatura permitirá conocer una amplia gama de pruebas psicológicas para niños que
constituirá una herramienta esencial que hará uso continuamente en su labor de evaluación y diagnóstico.
Asimismo, le permitirá tener criterios para integrar los datos de la historia clínica y los resultados de las
pruebas para la elaboración de informes psicológicos aplicando el código de ética del Psicólogo.

Organizador gráfico referido al tema

1.1. FUNDAMENTOS TEÓRICOS DE LAS PRUEBAS PSICOLÓGICAS

1.1.1. CONSIDERACIONES HISTÒRICAS

En el siglo XIX, una forma primitiva de pruebas de destreza existió en China 2200 a.c. en donde el
emperador chino conducía un programa de pruebas que implicaban alguna forma de examen para los
funcionarios públicos de cada tercer año. El significado histórico del programa de pruebas en la antigua
china es que, hace miles de años existió una civilización que mostró evidencias de una preocupación por
algunos de los mismos principios básicos de la psicometría que interesan y se manejan en la actualidad.
En un período de la historia en que el nepotismo sin duda era cosa común, es admirable ver a una
sociedad donde el empleo se basaba en exámenes competitivos y abiertos.

En el siglo XIX, la historia registra que fue Darwin quien incitó el interés científico en las diferencias
individuales, (Darwin 1859). De hecho los escritos de Darwin sobre las diferencias individuales
despertaron el interés en la investigación de la herencia en su primo, Francis Galton. En el curso de sus
esfuerzos por explorar y cuantificar las diferencias individuales entre personas. Galton contribuyó
ampliamente en el campo de la medición., Galton recibiría el crédito de diseñar o contribuir al desarrollo
de muchas herramientas contemporáneas de evaluación psicológica incluyendo cuestionarios escalas de
estimación e inventarios de rasgos personales.

En el siglo XX, atestiguaron el nacimiento de las primeras pruebas formales de inteligencia, Como se verá
en el resto de esta sección, al inicio hubo una gran receptividad para los instrumentos que supuestamente
podían medir características mentales; al principio, inteligencia y más adelante otras características como
aquellas relacionadas con la personalidad, intereses, actitudes y valores.

Una persona que tuvo la visión de ampliar las pruebas para incluir la medición de capacidades cognitivas
fue Alfred Binet (1987-1911), quien publicó junto a su colega Victor Henri 81985), varios artículos sobre
la medición de capacidades como la memoria y el manejo de habilidades sociales. Diez años después Binet
y Simón (1905), publicaron un libro sobre “escala de medición de la inteligencia”, que consistía en 30
reactivos que identificaban a niños con deficiencia mental en edades escolares. Luego de pasar por
muchas revisiones y traducciones, se crea el movimiento de pruebas psicológicas de inteligencia y
posteriormente fueron utilizadas en escenarios diversos, como, tribunales, reformatorios, prisiones,
orfanatos y escuelas.

David Wechsler (1939), un psicólogo clínico introdujo una prueba diseñada para medir inteligencia en
adultos, fue revisada y se le cambio el nombre a Escala Wechsler de Inteligencia para adultos y desde ese
entonces fue revisada de manera periódica. Luego fueron diseñadas las pruebas de tipo grupal por Binet,
y aparecieron en EE.UU, en respuesta a la necesidad del ejército por obtener un método eficiente para
explorar la capacidad intelectual de los reclutas en la primera guerra mundial. Debido a las capacidades
necesitadas en los soldados, los psicólogos fueron reclutados para el servicio del gobierno, con la misión
de elaborar, administrar e interpretar datos de pruebas psicológicas grupales. Después de la guerrea, los
psicólogos que regresaron del servicio militar trajeron consigo una riqueza de habilidades en la aplicación
de pruebas que serían útiles no sólo para el servicio del gobierno sino también en escenarios tal diversos
como la industria privada, hospitales y escuela.

Las pruebas entonces, serían desarrolladas para medir no sólo distintas habilidades e intereses, sino
también la personalidad entre otras variables.

1.1.2. DEFINICIÓN Y CAMPO DE ACCIÓN.

La medición de las capacidades psíquicas recibe el nombre de psicometría. Se trata de la disciplina que
atribuye valores (cifras) a condiciones y fenómenos psicológicos para que, de este modo, resulte posible
la comparación de las características psíquicas de distintas personas y se pueda trabajar con información
objetiva.

Las pruebas psicométricas son las encargadas de medir que cualidades psíquicas de un individuo, hay de
varios tipos: de medición de la inteligencia (que tanto cotejan edad mental y edad cronológica) rasgos de
personalidad (como tiendes a reaccionar), factores de personalidad (cotidianamente cono te comportas)
proyectivas (que es lo que el subconsciente deseas) y varios tipos más son una herramienta tanto para
conocer su vida, estado emocional, intelectual e inclusive si existe una anomalía en su funcionamiento
cerebral o simplemente para ubicarnos en la forma de pensar.

Una prueba psicométrica, por lo tanto, apunta a evaluar la psiquis de un individuo y a plasmar esos
resultados mediante valores numéricos. Los tests psicométricos deben ser elaborados e interpretados
bajo ciertos parámetros para que sus conclusiones sean acertadas.
Suele decirse, en este sentido, que las pruebas psicométricas deben ser confiables (tienen que permitir
realizar las mediciones siempre de la misma manera) y válidas (es decir, que consigan medir la facultad
que efectivamente planean medir).

Es frecuente que las empresas apelen a las pruebas psicométricas a la hora de decidir la contratación de
un empleado. Lo habitual es que, tras una primera preselección entre los postulantes, se desarrollen
pruebas psicométricas a los candidatos para medir sus capacidades intelectuales y los rasgos de su
personalidad. Todas estas personas, de esta manera, serán sometidas a pruebas idénticas y los resultados
de las mismas podrán compararse.

Se supone que, al realizar evaluaciones psicométricas a los candidatos, el empleador cuenta con datos
objetivos para tomar la decisión de contratación, dejando de lado eventuales simpatías o prejuicios que
pudieran surgir en una entrevista.

Por lo general, existen diferentes pruebas psicométricas de acuerdo al cargo que se pretende cubrir. Esto
obedece a que no se necesitan las mismas habilidades para trabajar en el departamento de Ventas que
para desempeñarse como administrativo o en el área de Logística.

1.1.3. PRUEBAS Y EVALUACIÒN PSICOLÓGICA

Ronal Jay y Mark S. (2007). La apertura que el mundo tuvo con respecto a las pruebas desarrolladas por
Binet a principios del siglo XX no sólo produjo más herramientas de este tipo, también surgieron más
autores, publicadores y usuarios de prueba también emergiendo por lógica, lo cual a la fecha se conoce
como “la industria de las pruebas”.

La prueba, puede definirse tan sólo como un instrumento o procedimiento de medición. Cuando la
palabra prueba está acompañada por un modificador, se refiere a un instrumento o procedimiento
diseñado para medir una variable relacionada con ese modificador. Por ejemplo el término prueba
médica, refiere a un instrumento diseñado para medir alguna variable relacionada a la medicina, de igual
manera el término prueba psicológica se refiere a un instrumento para medir variables relacionadas a la
psicología. Una prueba psicológica generalmente implica el análisis de una forma de comportamiento. La
forma de comportamiento puede variar desde las respuestas de un cuestionario por escrito, respuestas
orales o preguntas, hasta el desempeño de alguna tarea. La muestra del comportamiento puede ser
originada por el estímulo de la prueba misma puede ser un comportamiento que ocurre de manera
natural.

El contenido de la prueba, por supuesto variarán de acuerdo al enfoque teórico que la prueba maneje.
Pero cuando dos pruebas psicológicas tienen el propósito de medir lo mismo pueden diferir de una
manera amplia en los contenidos debido a factores como la definición de personalidad que el autor de la
prueba maneje, así como el marco teórico de referencia, por ejemplo los reactivos de la pruebas de
personalidad orientadas desde un enfoque y otro, pero ambas son pruebas de personalidad.

Las pruebas psicológicas y otras herramientas de evaluación pueden diferir en un gran número de
variables como contenido, formato, procedimiento de aplicación, puntuación, contextos de
interpretación y calidad técnica.

1.1.3.1. Pruebas

Pruebas fue el término utilizado para referirse a todo lo relacionado con la aplicación de una prueba y la
interpretación de la puntuación y resultados obtenidos de la misma. Durante la primera guerra mundial,
el proceso de las pruebas determinó de manera óptima un grupo experimental obtenido mediante la
evaluación de miles de reclutas militares. Se sospecha que esto sucedió al mismo tiempo en que las
pruebas lograron el reconocimiento e inserción en el vocabulario de los profesionales y de la gente en
general. El uso del término pruebas para denotar todo, desde la aplicación hasta la interpretación de una
prueba. Sin embargo, en la segunda guerra mundial, inicia el surgimiento de una distinción semántica
entre pruebas y un término más inclusivo llamada, evaluación.

Durante la segunda guerra mundial, la Oficina de Servicios Estratégicos de Estados Unidos (OSS) utilizó
diversos procedimientos y herramientas de medición, entre ellos pruebas psicológicas, en la selección de
personal militar para puestos especializados que involucran actividades tales como espionaje, manejos de
inteligencia militar y otros procesos similares.

Escenarios militares, clínicos, educativos y de negocios son algunos de los muchos contextos que implican
observaciones conductuales y la integración activa de pruebas y otros datos por parte de evaluadores.

1.1.3.2. Evaluación psicológica:

Evaluación psicológica, Maloney y Wars, concibieron la evaluación como un proceso de resolución de


problemas que podía tomar diferentes formas. La conducción de una evaluación depende de muchos
factores, no sólo de aquel que constituye la razón para la evaluación. Diferentes herramientas de
evaluación, entre ellas distintas pruebas psicológicas, deben estar presentes en el proceso de la
evaluación, determinadas por los objetivos particulares, las personas y circunstancias específicas en el
momento de la misma, así como variables únicas, generadas por el contexto y ambiente. Por el contrario,
se consideró que las pruebas psicológicas tenían un alcance mucho más reducido, ya que sólo se refería
al proceso de aplicar, calificar e interpretar las pruebas psicológicas

1.1.3.3. Examinador:

El examinador es un punto clave en el proceso de evaluación, en el que las decisiones, predicciones por
ambas, se realizan a partir del mayor número de fuentes de información (pruebas psicológicas)

La distinción semántica entre pruebas psicológicas y evaluación psicológica es confusa, sin embargo
señalamos algunas definiciones.

Evaluación psicológica, se define como la recolección e integración de datos relacionados con la psique
individual con el propósito de hacer una evaluación psicológica, concretada mediante el uso de
herramientas como pruebas, entrevistas, estudio de caso, observación conductual, así como equipos y
procedimientos diseñados específicamente para la medición de ésta.

Pruebas psicológicas, se define como el proceso para medir variables relacionadas con la psique mediante
instrumentos o procedimientos diseñados para obtener rasgos de comportamientos definidos como
conductas.

1.1.3.4. Medición psicológica:

La medición psicológica es un proceso que le permite al psicólogo cuantificar características humanas y


objetivizar procesos de evaluación. Las pruebas hacen parte de un proceso general organizado para llegar
a una impresión diagnóstica, pero no se pueden convertir en el único medio de información. Los
resultados obtenidos en las pruebas deben estar acompañados de otras técnicas o herramientas que le
permitan al psicólogo establecer relaciones y obtener una valoración general. Los instrumentos de
medición psicológica han jugado un papel muy importante en la historia de la Psicología. No obstante, a
pesar de los avances teóricos, las técnicas de evaluación psicológica aún tienen que resolver muchos
aspectos relacionados básicamente con su utilización.
El manejo de estos instrumentos de medición requiere de una fundamentación teórica, de un conocimiento
técnico de los instrumentos y de un manejo ético de los mismos. Mientras no se cumplan estos
requerimientos, algunos conceptos como medición en psicología, evaluación y psicometría, siempre serán
motivo de cuestionamientos.

Vale recordar como escenario existencial que circunda las evaluaciones psicológicas, que todo proceso de
medición deja huellas transcendentales en la vida de las personas. Puede resultar en consecuencias
nefastas, la utilización incorrecta de los test en el destino de las personas evaluadas. Por ejemplo: un
Psicodiagnóstico que no refleje su problemática, el no ingreso a un colegio, la mala escogencia de una
carrera, la imposibilidad de conseguir un empleo, desarrollo dentro de una organización, etc.

Tal vez este sea el momento adecuado para recordar que fuera del contexto clínico, el social y algunos
contextos educativos, las evaluaciones obedecen básicamente a escenarios capitalistas donde hay mayor
oferta que demanda y surge la necesidad de seleccionar y filtrar las oportunidades. La medición
psicológica entonces, favorecerá que tales procesos sean realizados de manera transparente, con
ausencia de favoritismos, fundamentados en cualidades y conocimientos, proporcionando una
recopilación objetiva de información, una comunicación más eficiente y detallada de resultados,
promoviendo mayor agilidad y equidad en la toma de decisiones. Finalmente, la medición psicológica
organizacional, ofrece una excelente relación costo/beneficio. La economía en tiempo y dinero es
significativa para la cantidad y profundidad del material recopilado.

La medición psicológica, en nuestro contexto más práctico, más laboral, que investigativo, tiene el
propósito básico de, a través de un corte transversal en la vida de alguien, recopilar una serie de
información que permita comprender este ser evaluado en algunas de sus características y realizar una
serie de predicciones de comportamientos que tengan que ver con el objeto de la evaluación.

1.1.4. PARTES INVOLUCRADAS

1.1.4.1. Evaluador:

Los desarrolladores de las pruebas y los editores crean pruebas y otros métodos de evaluación. Algunas
pruebas fueron creadas para un caso de investigación, algunas para ser publicadas y otras de pruebas ya
existentes para ser revisadas. De acuerdo con esto, un gran número de organizaciones profesionales han
publicado estándares de comportamiento ético que refieren, de manera específica aspectos del
desarrollo y so de pruebas en forma ética y responsable. Los estándares para las pruebas psicológicas y
educativas cubren aspectos relacionados con la construcción y estandarización de pruebas,
administración y usos y aplicaciones especiales de las pruebas, tales como adecuaciones especiales en la
aplicación de pruebas a minorías lingüísticas.

1.1.4.2. Evaluado:

Los evaluados tienen diferentes aproximaciones a la situación de evaluación, y los usuarios o aplicadores,
deben ser sensibles ante la diversidad de respuestas posibles ante dicha evaluación. El día de la aplicación
de la prueba, los evaluadores pueden variar de forma continua y de acuerdo con numerosas variables,
incluidas:

 El estado de ansiedad que están experimentando y el grado en que la ansiedad puede afectar de
manera significativa los resultados de la prueba.

 Su capacidad y disposición para cooperar con el examinador o para comprender las instrucciones
de la prueba escrita.

 El grado de dolor físico o angustia emocional que están sintiendo.


 El grado de incomodidad física por no haber comido lo suficiente, haber comido en exceso u otras
condiciones físicas.

 El estado en que están alertas y despiertos en contraposición al estado de somnolencia.

 La predisposición que tienen a estar de acuerdo o en desacuerdo cuando se les presentan


estímulos parta provocar una reacción.

 El grado de preparación e información que han recibido antes de la evaluación.

 La importancia que le haya atribuido al verse situados en un buen o mal lugar.

1.2. CONSIDERACIONES ESTADÍSTICAS:

1.2.1. CONFIABILIDAD

Ronal Jay y Mark S. (2007). Es una prueba que se refiere a la consistencia de las puntaciones obtenidas
por las mismas personas en distintas ocasiones con las mismas pruebas.

Es la capacidad del mismo instrumento para producir resultados congruentes cuando se aplica por
segunda vez, en condiciones tan parecidas como sea posible. La confiabilidad se refiere al nivel de
exactitud y consistencia de los resultados obtenidos al aplicar el instrumento por segunda vez en
condiciones tan parecida como sea posible.

Bernal (2000:218) afirma que la pregunta clave para determinar la confiabilidad de un instrumento de
medición es:

Si se miden fenómenos o eventos una y otra vez con el mismo instrumento de medición, ¿Se obtienen los
mismos resultados u otros muy similares? Si la respuesta es afirmativa, se puede decir que el instrumento
es confiable.

Es importante lograr la elaboración de un instrumento que sea confiable. Para ello, existen muchas vías
para lograrlo. Si se tratara de un cuestionario, se puede aplicar dos veces a la misma persona en un corto
período de tiempo, y seguidamente se utiliza el índice de Bellack:

Se considera que el instrumento es confiable si el índice de Bellack resultante es superior al umbral


arbitrario de 80. Pourtois, J., Desmet, H. (1992:187)
Esta prueba se aplica a cualquier tipo de variable o dimensión objeto de estudio.

Otra manera para poder determinar si un instrumento es confiable es a través del cálculo de la medida
de estabilidad por la vía del test-retest. En este procedimiento un mismo instrumento es aplicado en dos
oportunidades o más a un mismo grupo de personas, después de cierto período de tiempo. Si la
correlación entre los resultados de las diferentes aplicaciones es altamente positiva, el instrumento se
considera confiable.

El cálculo de este coeficiente se utiliza para mediciones de variables o dimensiones que responden a una
escala de medición de intervalo o razón.

Es importante que para la aplicación de esta prueba, se tome un lapso de tiempo lo suficientemente largo
para que los sujetos se olviden de lo que contestaron y, por el otro, no tanto que se produzcan cambios
importantes. (Pérez 1998:72). Este tipo de medición se utiliza en investigaciones cuantitativas.

También el Coeficiente alfa de Cronbach permite determinar la confiabilidad; utilizando la fórmula si el


resultado es 0.80 o más se considera aceptable el instrumento.

a = N p*

1+p* (N-1)

En donde N es el número de ítems y p* el promedio de las correlaciones entre ítems.

Para el cálculo de p*, deberá aplicar:

P*= SP

NP

En donde, SP es la sumatoria de las correlaciones y NP el número de correlaciones no repetidas o no


excluidas.

El cálculo del coeficiente de confiabilidad Alfa de Cronbach se utiliza para mediciones de variables o
dimensiones que responden a una escala de medición de intervalo o razón.

La confiabilidad también se puede calcular mediante la aplicación de las ecuaciones de Rulon, Guttman,
Sperman-Brown, Kuder-Richardson (KD20) para elementos dicotómicos y (KD21) en el caso de elementos
con dificultad similar.

Adicionalmente a la confiabilidad de un instrumento, se debe buscar la validez del mismo. En este sentido,
el investigador realizará un esfuerzo dirigido a la elaboración de un instrumento que mida lo que se desea
medir.

Salkind (1998:126); Hernández (1998:242) clasifican la validez en: validez de contenido, validez de criterio
y la validez de constructo.

La validez de contenido está representada por el grado en que una prueba representa el universo de
estudio. Por tal motivo, deberán seleccionarse los indicadores e ítems de tal manera que estos respondan
a las características peculiares del objeto de estudio.

La validez de criterio, llamada también validez concurrente es más fácil de estimar, lo único que se debe
hacer es correlacionar su medición con el criterio, y este coeficiente se toma como coeficiente de validez.
La validez de criterio es una medida del grado en que una prueba está relacionada con algún criterio. Es
de suponer que el criterio con el que se está comparando la prueba tiene un valor intrínseco como medida
de algún rasgo o característica.
Una prueba se considera válida para un propósito específico si en realidad mide lo que pretende medir.
De ese modo, una prueba de inteligencia es válida si en realidad si mide de inteligencia.

1.2.2. TIPOS DE CONFIABILIDAD

1.2.1.1. Test –retest:

Es un instrumento de medición muy confiable porque se puede decir que la confiablidad es estable en el
tiempo, es decir hoy, mañana o el próximo año. En el lenguaje psicométrico, este enfoque de la
valoración de la confiabilidad se llama método test-retes y el resultado de dicha evaluación es una
estimación de la confiabilidad test-retest.

La confiabilidad test retest es una estimación de la confiabilidad obtenida al correlacionar pares de


puntuaciones de las mismas persona en dos aplicaciones diferentes de la misma prueba. La medida test
retes es apropiada cuando se valora la confiablidad de una prueba que pretende medir algo relativamente
estable a lo largo del tiempo, como un rasgo de personalidad.

Conforme pasa el tiempo, las personas cambian, pueden, por ejemplo, aprender cosas nuevas, olvidar
otras y adquirir nuevas habilidades. Por lo general. Aunque hay excepciones, conforme se incrementan el
intervalo de tiempo entre las aplicaciones de las mismas pruebas, disminuye la correlación entre las
puntuaciones obtenidas en cada una. El paso del tiempo puede ser una causa de la varianza de error.
Entre más tiempo pase, es más probable que el coeficiente de confiabilidad sea menor. Cuando el
intervalo entre las pruebas es mayor a seis meses, a menudo se hace referencia a la estimación de la
confiabilidad test retest como coeficiente de estabilidad.

Una estimación de la confiabilidad test retest puede ser más apropiadas para calibrar la confiabilidad de
exámenes que emplean como medidas de resultados el tiempo de reacción o juicios perceptivos. Sin
embargo, incluso al medir variables como éstas y aun cuando el periodo entre las dos aplicaciones de la
prueba sea relativamente pequeño, nótese que pueden intervenir diversos factores y alterar una medida
de confiabilidad obtenida.

1.2.1.2. Formas paralelas y formas alternas:

Si alguna vez usted ha presentado un segundo examen en el que las preguntas no eran iguales a las de la
prueba inicial, ha experimentado con formas diferentes de una prueba. Y si alguna vez se ha preguntado
si en realidad las dos formas de la prueba eran equivalentes, habrá cuestionado la confiabilidad de
las formas alternas o formas paralelas de la prueba. Aunque con frecuencia se usan de manera indistinta
los términos formas alternas o formas paralelas, existe una diferencia entre ellos, Existen formas
paralelas de una prueba cuando, para cada forma del examen, las medias y las varianzas de las
puntuaciones de la prueba observada son iguales. En teoría las medias de las puntuaciones obtenidas en
formas paralelas se correlacionan igual con la puntuación verdadera. De manera más práctica, las
puntuaciones obtenidas en pruebas paralelas se correlacionan de modo igual con otras medidas.

Las formas alternas, de modo simple, son versiones diferentes de una prueba que se han construido para
que sean paralelas. Aunque no cumplen con los requisitos para la designación legítima de “paralelas”, las
formas alternas de una prueba generalmente estás diseñadas para ser equivalentes con respecto a
variables como contenido y nivel de dificultad.

Se puede obtener un estimado de la confiabilidad de una prueba sin elaborar una forma alterna de la
misma y sin tener que administrarla dos veces a las mismas personas. La derivación de este tipo de
estimado implica una evaluación de la consistencia interna de las preguntas de la prueba. De manera
lógica, se le conoce como una estimación de la confiabilidad de la consistencia interna como una
estimación de la consistencia entre reactivos. Existen diferentes métodos para obtener estimaciones de
confiabilidad de la consistencia interna. Uno de dichos métodos es la estimación de dividir en mitades.

1.2.1.3. División por mitades:

Una estimación de la confiabilidad de dividir en mitades se obtiene correlacionando dos pares de


puntuaciones obtenidas cuando es poco práctico o indeseable evaluar la confiabilidad con dos pruebas o
hacer dos aplicaciones de una misma prueba. El cálculo de un coeficiente de confiabilidad de dividir en
mitades por lo general implica tres pasos:

 1º Dividir la prueba en mitades equivalentes.

 2º Calcular una r de Pearson entre las puntuaciones en las dos mitades de la prueba.

 3º Ajustar la confiabilidad de una mitad de la prueba usando la fórmula de Spearman-Brown.

Una forma aceptable de dividir una prueba es asignar al azar las preguntas a una u otra mitad de la prueba.
Una segunda forma aceptable de dividir una prueba es asignar las preguntas con números a una mitad de
la prueba y las identificadas con números pares a la otra mitad. Este modo produce una estimación de la
confiabilidad de dividir en mitades, a la que también se le llama confiabilidad non-par. Aún otra manera
es dividir la prueba por contenido y la dificultad.

En general, un objetivo primario al dividir una prueba en mitades con el propósito de obtener una
estimación de la confiabilidad de dividir en mitades es crear lo que podría denominarse “mini formas
paralelas”, con cada mitad siendo igual a la otra o lo más cercano posible a esto, en aspectos de formato,
estilísticos y otros relacionados.

El paso 2 del procedimiento implica el cálculo de una r de Pearson, lo cual requiere poca explicación en
este punto. Sin embargo, el tercer paso requiere el uso de la fórmula de Spearman Brown. La fórmula de
Spearman, permite a quien elabora la prueba, estimar la confiabilidad de su consistencia interna a partir
de la correlación de las dos mitades.

Medidas de confiabilidad entre evaluadores:

Denominada también como confiabilidad del evaluador, confiabilidad del juez, confiabilidad del
observador y confiabilidad entre evaluadores. La confiabilidad entre evaluadores es el grado de acuerdo
o consistencia que existe entre dos o más evaluadores (jueces o calificadores) las referencias a los niveles
de confiabilidad entre evaluadores para una prueba particular pueden publicarse en el manual de la
prueba o en alguna otra parte.

Si el coeficiente de confiabilidad es muy alto, el futuro usuario de la prueba sabe que las puntuaciones
pueden ser derivadas en forma consistente y sistemática por varios evaluadores con capacitación
suficiente.

Se puede estimular la consistencia entre evaluadores suministrando jueces que promuevan la


participación en discusiones de grupo junto con ejercicios prácticos e información sobre la precisión del
evaluador.

Quizá la forma más simple de determinar el grado de consistencia que existe entre evaluadores en cuanto
a la calificación de una prueba sea mediante el cálculo de un coeficiente de correlación. A este coeficiente
se le denomina coeficiente de confiabilidad entre evaluadores.
1.2.3. VALIDEZ

Ronal Jay y Mark S. (2007).En el lenguaje cotidiano, decimos que algo es válido cuando es firme,
significativo o tienen un fundamento sólido en principios o evidencia.

La validez, aplicada a una prueba, es un juicio o una estimación acerca de que tan bien una prueba mide
lo que pretende medir en un determinado contexto. De manera más específica, es la elaboración de un
juicio en base a la evidencia sobre lo apropiado de las inferencias realizadas a partir de las puntuaciones
de una prueba.

Validación es el proceso de recopilar y evaluar la validez de la evidencia. Tanto el creador de la prueba


como el usuario de la misma pueden desempeñar una función en la validación de una prueba para un
propósito específico. Es responsabilidad del diseñador de la prueba suministrar evidencias de la validez
en el manual de la misma.

Cabe indicar y esperar que la puntuación de una persona en una prueba válida que mida introversión esté
inversamente relacionada con la puntuación de esa misma persona en una prueba válida que mida
extroversión.; es decir mientras más alta sea la puntuación de la prueba de introversión, más baja será la
puntuación de la prueba de extroversión y viceversa.

Para proceder a la validación por juicio de expertos, es importante tener a la mano un instrumento /
formato diseñado exclusivamente para servir de guía operativa a los especialistas, quienes lo emplearán
para evaluar y valorar la primera versión del instrumento de recolección de datos.

La confiabilidad y la validez son cualidades esenciales que deben estar presentes en todos los
instrumentos de carácter científico para la recogida de datos. En palabras de Pérez (1998:71), si el
instrumento o instrumentos reúnen estos requisitos habrá cierta garantía de los resultados obtenidos en
un determinado estudio y, por lo tanto, las conclusiones pueden ser creíbles y merecedoras de una mayor
confianza.

Una manera en que los especialistas de la medición tradicionalmente han conceptualizado la validez es
de acuerdo con tres categorías: validez de contenido, validez relacionada con el criterio y validez de
constructo.

Existen tres enfoques para evaluar la validez asociada a los tres tipos de valides: Examinar el contenido de
la prueba, Relacionar las calificaciones obtenidas en la prueba con otras puntuaciones u otras medidas y
realizar un análisis general (la forma en que las puntuaciones de la prueba se relacionan con otras medidas
y calificaciones) y (la forma en que las puntuaciones de la prueba puedan ser entendidas dentro de un
contexto teórico para comprender el constructo a medir y por el cual la prueba fue diseñada.

Los tres enfoques sobre la validez de la evaluación no son mutuamente excluyentes; cada uno debe ser
considerado como un tipo de evidencia que, junto con otras, contribuye a elaborar un juicio sobre la
validez de la prueba. Si bien los tres tipos de evidencia ayudan a tener una imagen unificada de la validez
de la prueba, el usuario podría no necesitar conocer los 3 tipos. Dependiendo del uso que se le vaya a dar
a la prueba, los tres tipos de evidencias con respecto a la validez pueden no ser relevantes de la misma
manera.
1.2.3.1 TIPOS DE VALIDEZ

1.2.3.1. Validez de contenido:

Describe un juicio de cuán adecuadamente una prueba es una muestra de la conducta representativa
dentro del universo de conductas que la prueba fue diseñada. Por ejemplo respecto a las pruebas de
rendimiento educativo, es usual considerar una prueba como una medida de contenido válido cuando la
proporción del material cubierto por la prueba se aproxima a la proporción del material que se cubrió en
el curso. Un examen final acumulativo sobre psicometría se considera valido en cuanto a su contenido, si
la proporción y el tipo de casos sobre ese tema abarcados en la prueba, se aproximan a la proporcionan
y el tipo de problemas que se abordaron durante dicho curso.

Validez de contenido, está representada por el grado en que una prueba representa el universo de
estudio. Por tal motivo, deberán seleccionarse los indicadores e ítems de tal manera que estos respondan
a las características peculiares del objeto de estudio. En el análisis de factores se generan “variables
artificiales”, denominadas factores que representan constructos, los factores se obtienen de las variables
originales y deben ser interpretadas de acuerdo con éstas. Se trata, de una técnica para explicar un
fenómeno completo complejo en atención de unas cuantas variables.

Todos los instrumentos de recolección de datos (cuestionarios, test, escalas, guías de observación,
pruebas de conocimiento, etc.) debe precisar de la validez de contenido, y ésta consiste en hacer una
revisión profunda de cada ítem que estructuran el instrumento.

Denominada también “lógica” o de “muestreo”. Se refiere básicamente al contenido del instrumento, al


hecho de que el instrumento contenga en sus elementos o ítem todos y sólo los aspectos que, de acuerdo
a los objetivos de la investigación, sea necesario (sic) averiguar para el logro de los mismos.

De esta manera, la validez de contenido es un procedimiento al que no puede obviarse cuando se tiene
el objetivo certero de realizar una investigación de gran envergadura, y en el caso muy particular de la
Gerencia de Recursos Humanos, los instrumentos de recolección de datos han de condensar suficientes
ítem como para poder apreciar de una manera totalizadora los aspectos, factores y variables que se
conjugan para estructurar el fenómeno objeto de estudio.

Debe tenerse siempre presente que el investigador del área de Recursos Humanos tiene ante su mirada
de inquisidor científico un universo de sujetos cuyas actuaciones se corresponden con representaciones
subjetivas y las mismas son objetivadas en actos y redes de actos los cuales se constituyen en los posibles
escenarios susceptibles de ser captados a través de medios instrumentales diseñados para fines bien
definidos.
Así, de lo que se trata es de advertir que los fenómenos sociales son de una complejidad tal que todo
investigador que se aventure a su aprehensión debe disponer de instrumentos de recolección de datos
bien construidos, y es por ello que la validez de contenido está destinada a darle coherencia y
sistematicidad a los ítems que conforman el instrumento diseñado.

Al decir de Aroca, A. (1999: 269), El método que más se utiliza para estimar la validez de contenido es el
denominado Juicio de Expertos, el cual consiste en seleccionar un número impar (3 o 5) de jueces
(personas expertas o muy conocedoras del problema o asunto que se investiga). Quienes tienen la labor
de leer, evaluar y corregir cada uno de los ítems del instrumento so pretexto de que los mismos se
adecuen directamente con cada uno de los objetivos de la investigación propuestos.

Se consideran expertos o jueces aquellos sujetos que reúnan las siguientes consideraciones:

a. Formación académica en el área y rama del quehacer científico al que diera lugar;

b. Comprobada trayectoria experiencial de investigaciones realizadas en institutos y centros


destinados para fines bien definidos;

c. Desarrollo de una línea (o líneas) de investigación relacionada a intereses académicos;

d. Poseer una amplia concepción epistemológica de la ciencia y de la investigación; y,

e. Demostrar pleno dominio de la lengua castellana, pues la sintaxis, la semántica y la sindéresis son
aspectos determinantes para dar forma interna y externa al instrumento.

Tomando como base estas características que se consideran las más deseables que debe tener un experto
encargado de validar los instrumentos de recolección de datos, se hace saber que la validez de contenido
permite al sujeto investigador lograr la aprehensión lo más objetiva posible de la esencia de los hechos y
fenómenos que estudia, es decir, se establece un perfecto relacionamiento entre los propósitos de la
investigación y el alcance en el campo real donde se experimentan los acontecimientos.

Una vez que se diseña el instrumento de recolección de datos a partir del desglosamiento de los objetivos
específicos en su factor, definición, dimensiones e indicadores, el producto materializado en dicha
herramienta se corresponde con lo que muy bien puede llamarse una primera versión, pues como se ha
especificado antes debe procederse con la “calibración” donde el juicio de experto se corresponde con
una de ellas.

En manos del experto, la primera versión del instrumento sufrirá cambios superficiales o profundos, los
cuales son importantes que sean considerados por el investigador so pretexto de que el instrumento de
recolección de datos alcance la configuración y calidad deseada. Dichos cambios pueden ser de índole de
contenido, de redacción-semántica, sindéresis, correspondencia con los objetivos planteados, pertinencia
con el tipo de investigación, relación estrecha con una realidad concreta.

1.2.3.2. Validez de criterio:

Es un juicio de cuán adecuadamente puede ser utilizada la puntuación de una prueba para inferir la
posición más probable de un individuo con respecto a cierta medida del interés, siendo el criterio esa
medida de interés.

Validez de criterio, llamada también validez concurrente es más fácil de estimar, lo único que se debe
hacer es correlacionar su medición con el criterio, y este coeficiente se toma como coeficiente de validez.
La validez de criterio es una medida del grado en que una prueba está relacionada con algún criterio. Es
de suponer que el criterio con el que se está comparando la prueba tiene un valor intrínseco como medida
de algún rasgo o característica.
Un criterio puede ser definido en forma amplia como el modelo contra el cual se compara y evalúa una
prueba o la puntuación de una prueba. Un criterio puede ser la calificación de una prueba, una
conducta específica o un grupo de comportamientos, una cantidad de tiempo, una estimación, un
diagnóstico psiquiátrico, etc. Cualquiera que sea el criterio, de manera ideal es relevante, valido y sin
contaminación. Una medida de criterio adecuada debe también ser válida para el propósito para el que
está siendo usada.

a) Validez concurrente:

Si las calificaciones de la prueba se obtienen más o menos al mismo tiempo que las medidas de criterio,
entonces las medidas de la relación entre las calificaciones de la prueba y el criterio proporcionan
evidencian de la validez concurrente. Las declaraciones de validez concurrente indiquen el grado en que
las puntuaciones de una prueba pueden servir para estimar la posición actual de un individuo frente a un
criterio.

b) Validez predictiva:

Las calificaciones de la prueba pueden obtenerse en un cierto momento y las medidas de criterio en uno
posterior, usualmente después de que algún evento mediador ha ocurrido, dicho evento podría ser la
capacitación, la experiencia, alguna terapia, etc.

Las medidas de la relación que existe entre las puntuaciones de la prueba y una medida criterio obtenida
en un momento futuro nos dan un inicio de la validez predictiva de la prueba; es decir, con cuánta
precisión las puntuaciones predicen alguna medida de criterio.

Lo valioso del resultado de una prueba para tomar una decisión dependerá de cómo dicho resultado
mejore las decisiones de selección en comparación con las que se hubieran tomado sin conocerlo.

1.2.3.3. Validez de constructo:

Es un juicio acerca de lo apropiado de las inferencias realizadas a partir de las puntuaciones o


calificaciones obtenidas en la prueba, respecto a posiciones individuales en una variable
llamada constructo, un constructo es una idea informada, científica, desarrollada como una hipótesis para
describiré o explicar el comportamiento.

Un ejemplo de constructo pueden ser, Inteligencia, Ansiedad, satisfacción laboral, inteligencia emocional,
creatividad, comprensión lectora, entre otros. Los constructos son rasgos inobservables, supuestos a los
que un desarrollador de pruebas puede recurrir para describir el comportamiento de la prueba o el
desempeño del criterio evaluado.

Las diversas técnicas de validación del constructo pueden proporcionar evidencia; por ejemplo:

 La prueba es homogénea, midiendo un solo constructo.

 Las calificaciones de la prueba aumentan o disminuyen como una función de la edad o del paso
del tiempo o de una manipulación experimental como se predijo de manera teórica.

 Las calificaciones obtenidas en la prueba luego de algún evento o por el simple paso del tiempo
difieren de las calificaciones de pre prueba como se predijo de manera teórica.

 Las calificaciones obtenidas en la prueba por personas de grupos distintos varían como fue
pronosticado por la teoría.

 Las calificaciones de la prueba se correlacionan con las de otras pruebas de acuerdo con lo que se
predecirá a partir de una teoría que cubra la manifestación del constructo en cuestión.
La validez de constructo determina a través del procedimiento de análisis de factores en qué medida los
resultados de una prueba se relacionan con constructos. Un constructo es un atributo para explicar un
fenómeno.

Preguntas de análisis

Las siguientes preguntas te ayudarán a reflexionar sobre tus propios saberes, es un ejercicio recomendado
para razonar e identificar nuestro esfuerzo intelectual, la finalidad es regular nuestras acciones y procesos
mentales:

1. ¿Cuándo una validez es concurrente?

2. ¿Un test es más confiable cuando se aproxima más al 1?

3. ¿El test retest es cuando describe un juicio de cuán adecuadamente una prueba es una muestra
de la conducta representativa dentro del universo de conductas que la prueba fue diseñada?

Una validez es concurrente si las calificaciones de la prueba se obtienen más o menos al mismo tiempo
que las medidas de criterio, entonces las medidas de la relación entre las calificaciones de la prueba y el
criterio proporcionan evidencian de la validez concurrente. Las declaraciones de validez concurrente
indiquen el grado en que las puntuaciones de una prueba pueden servir para estimar la posición actual
de un individuo frente a un criterio. Es un instrumento de medición muy confiable porque se puede decir
que la confiablidad es estable en el tiempo, es decir hoy, mañana o el próximo año. En el lenguaje
psicométrico, este enfoque de la valoración de la confiabilidad se llama método test-retes y el resultado
de dicha evaluación es una estimación de la confiabilidad test-retest. La confiabilidad test retest es una
estimación de la confiabilidad obtenida al correlacionar pares de puntuaciones de las mismas persona en
dos aplicaciones diferentes de la misma prueba. La medida test retes es apropiada cuando se valora la
confiablidad de una prueba que pretende medir algo relativamente estable a lo largo del tiempo, como
un rasgo de personalidad.

Fuente: Ronald Jay Cohen y Mark E. Swerdlik (2007). Pruebas y evaluaciones psicológicas: introducción a
las pruebas y a la medición. Editorial Mc Graw Hill. Sexta edición.

Actividad de análisis y comprensión

Video: CONFIABILIDAD Y VALIDEZ

https://www.youtube.com/watch?v=64Xwf__LtJ0&ab_channel=videoconferencias

Después de haber observado detenidamente el video responde a las siguientes preguntas:


Pregunta Verdadero-Falso

1. ¿Cuánto mayor sea el error, más confiables serán los resultados obtenidos en el proceso de
medición? Confiabilidad

Verdadero Falso

¡Correcto!

Es falso, porque cuanto mayor sea el error, menos confiable serán los resultados obtenidos en el
proceso de medición.

Pregunta de Elección Múltiple

2. Es el resultado de la medición es un valor observado que no coincide con el valor verdadero y


siempre se mide con un margen de error.

Validez: No. Es cuando un test mide lo que pretende medir

Confiabilidad: Exacto. El concepto citado pertenece a la Confiabilidad

Test-retest: No. Este método el coeficiente de fiabilidad se calcula


pasando mismo test dos veces a los mismos sujetos. Se pueden pasar inmediatamente, o dejando un
intervalo de tiempo entre el test y el retest.

Medición Psicológica: No. es un proceso que le permite al psicólogo cuantificar


características humanas y objetividad procesos de evaluación. Las pruebas hacen parte de un proceso
general organizado para llegar a una impresión diagnóstica, pero no se pueden convertir en el único medio
de información

Campo de acción de la Psicometría: No. Es el campo de la psicología, la educación y la


investigación social, la fiabilidad, es una propiedad psicométrica que hace referencia a la ausencia de
errores de medida, o lo que es lo mismo, al grado de consistencia y estabilidad de las puntuaciones
obtenidas a lo largo de sucesivos procesos de medición con un mismo instrumento

3. Definición del Test - retest

Consiste en administrar un test en dos oportunidades a la misma muestra de sujetos con un


determinado intervalo entre las dos administraciones y calcular la correlación en la primera y segunda
vez. Excelente. Esta es la definición del Test – retest

Consiste en administrar dos formas equivalentes de un test a un mismo grupo de individuos.


No. Es una definición de Formas equivalentes

Es un juicio de cuán adecuadamente puede ser utilizada la puntuación de una prueba para inferir la
posición más probable de un individuo con respecto a cierta medida del interés, siendo el criterio esa
medida de interés. No. Es una definición de Validez de criterio
Los rasgos de la personalidad (como tiendes a reaccionar), y los factores de la personalidad
(cotidianamente como te comportas), es un tipo de medición.

No. Es una definición de rasgos de la personalidad

El cálculo del coeficiente de confiabilidad Alfa se utiliza para mediciones de variables o dimensiones
que responden a una escala de medición de intervalo o razón.

No. Es una definición de Coeficiente alfa de Cronbach

4. Es una medida de la correlación (la asociación o interdependencia) entre dos variables


aleatorias continuas. Para calcular ρ, los datos son ordenados y reemplazados por su respectivo
orden.

Coeficiente de Kuder Richardson.

No. Se trata de dos fórmulas aplicables a sendos casos particulares de alfa. KR20 se aplica
en el caso en que los ítems del test sean dicotómicos, y KR21, en el caso de que además de ser
dicotómicos, tengan la misma dificultad

Coeficiente alfa de Cronbach.

No. El coeficiente alfa (α) es un indicador de la fiabilidad de un test basado en su grado de


consistencia interna. Indica el grado en que los ítems de un test cavarían

Correlación de Spearman – Brown.

Muy bien. Es una medida de la correlación (la asociación o interdependencia) entre dos
variables aleatorias continuas. Para calcular ρ, los datos son ordenados y reemplazados por su
respectivo orden

Coeficiente beta.

No. Propuesto por Raju (1977) para calcular la fiabilidad de una batería compuesta por
diversos subtests. En los casos en los que se desea calcular la fiabilidad de una batería, se trata a
los distintos subtests como si fueran los ítems de un único test y se calcula el coeficiente alfa
global. El problema surge en los casos en los que los distintos subtests no tienen el mismo número
de ítems, lo que suele ser lo más frecuente, y que repercute en una infraestimación del alfa global.
El coeficiente beta permite sortear esta infraestimación

Validez de constructo.

No. Es un juicio acerca de lo apropiado de las inferencias realizadas a partir de las


puntuaciones o calificaciones obtenidas en la prueba, respecto a posiciones individuales en una
variable llamada constructo, un constructo es una idea informada, científica, desarrollada como
una hipótesis para describiré o explicar el comportamiento
5. ¿No es un tipo de validez?

Validez de contenido.

Describe un juicio de cuán adecuadamente una prueba es una muestra de la conducta


representativa dentro del universo de conductas que la prueba fue diseñada

Validez de criterio.

Es un juicio de cuán adecuadamente puede ser utilizada la puntuación de una prueba


para inferir la posición más probable de un individuo con respecto a cierta medida del interés,
siendo el criterio esa medida de interés

Validez concurrente.

Si las calificaciones de la prueba se obtienen más o menos al mismo tiempo que las
medidas de criterio, entonces las medidas de la relación entre las calificaciones de la prueba y el
criterio proporcionan evidencian de la validez concurrente

Validez constructo.

Es un juicio acerca de lo apropiado de las inferencias realizadas a partir de las


puntuaciones o calificaciones obtenidas en la prueba, respecto a posiciones individuales en una
variable llamada constructo, un constructo es una idea informada, científica, desarrollada como
una hipótesis para describiré o explicar el comportamiento

Formas paralelas y formas alternas.

Bien. Las formas paralelas y formas alternas, es un tipo de confiabilidad y en teoría las
medias de las puntuaciones obtenidas en formas paralelas se correlacionan igual con la
puntuación verdadera. De manera más práctica, las puntuaciones obtenidas en pruebas paralelas
se correlacionan de modo igual con otras medidas

Referencias bibliográficas

Anastasi, A., (1980), Test Psicológicos, 3 ° edición, Madrid, ed. Aguilar.

Freud, S., (1930), El malestar en la cultura, Tomo XXI, Buenos Aires, Amorrortu. Editores.

Muñiz, J., & Hambleton, R. K., (1996). Directrices para la traducción y adaptación de los test. Papeles del
Psicólogo, Madrid, Universitas.

Ronald Jay Cohen y Mark E. Swerdlik (2007). Pruebas y evaluaciones psicológicas: introducción a las
pruebas y a la medición. Editorial Mc Graw Hill. Sexta edición.
Lecturas recomendadas

Para saber más

Ponemos a tu disposición y te invitamos a revisar dos interesantes documentos que te ayudaran a reforzar
y ampliar los temas que hemos estudiado, estos los encontrarás en la base de datos e-libros que utiliza
nuestra universidad:

Documento 1: La utilización de pruebas psicométricas, es absurdo en una EST.

URL: http://site.ebrary.com/lib/bibsipansp/docDetail.action?docID=10357601&p00=entrevista+psicol%
C3%B3gica

Breve descripción:

Este artículo presente un análisis del uso de las pruebas psicométricas en una empresa de servicios
temporales (EST) de Bogotá, Colombia, basado en la teoría socioconstruccionista. La investigación
evidencia la existencia de una brecha entre la Psicología como disciplina y como profesión, así como un
desplazamiento del conocimiento de la Psicología científica hacia el de la psicología del sentido común,
como respuesta de los psicólogos organizacionales a las lógicas del mercado.

Documento 1: La psicología y el shock del futuro.

URL:http://site.ebrary.com/lib/bibsipansp/docDetail.action?docID=10357281&p00=test+psicol%C3%B3
gicos

Breve descripción:

El “shock del futuro” es la desorientación producida por la llegada prematura del futuro. Es un fenómeno
de tiempo, un producto del ritmo enormemente acelerado del cambio en la sociedad. Nace de la
superposición de una nueva cultura sobre la cultura antigua. Es un “shock cultural” dentro de uno mismo.

Conclusiones de la primera semana

A continuación planteamos las conclusiones del tema tratado en la primera semana:

 Es la capacidad del mismo instrumento para producir resultados congruentes cuando se aplica
por segunda vez, en condiciones tan parecidas como sea posible.

 La validez, aplicada a una prueba, es un juicio o una estimación acerca de que tan bien una prueba
mide lo que pretende medir en un determinado contexto.

 Una buena prueba es aquella que los examinadores capacitados pueden administrar, calificar e
interpretar con un mínimo de dificultad. Una buena prueba es aquella que es útil., una que
produzca resultados procesables que al final beneficie a quienes la responde, de manera
individual y a la sociedad en general.

 Una buena prueba sería aquella que contenga normas adecuadas. También conocidos
como datos normativos, las normas proporcionan un estándar con el cual se pueden comparar
los resultados de medición.

Das könnte Ihnen auch gefallen